DE69932044T2

DE69932044T2 - Auf sprachmodellen basierte informationsgewinnung und spracherkennung

Info

Publication number: DE69932044T2
Application number: DE69932044T
Authority: DE
Inventors: V. Milind Redmond MAHAJAN; D. Xuedong Woodinville HUANG
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 1998-03-30
Filing date: 1999-02-09
Publication date: 2006-11-23
Anticipated expiration: 2019-02-10
Also published as: WO1999050830A1; JP4494632B2; CA2321112A1; KR100609253B1; JP4664423B2; DE69932044D1; JP2002510076A; US6418431B1; CA2321112C; CN1295705A; CN1171199C; KR20010042377A; CN1253821C; EP1066625B1; EP1066625A1; JP2009238235A; CN1474378A

Description

Hintergrund der Erfindung
Die vorliegende Erfindung befasst sich mit Spracherkennung und dem Abrufen von Information. Genauer gesagt, befasst sich die vorliegende Erfindung mit einem Spracherkennungssystem, welches Informationsabruftechniken einsetzt, um ein Sprachmodell anzupassen, und eine Informationsabruftechnik, welche Spracherkennungs-Sprachmodelle zum Abrufen relevanter Dokumente einsetzt.
Im Allgemeinen ist das Abrufen von Information ein Prozess, durch den ein Benutzer Information, die für den Benutzer relevant ist, aus einem großen Informationsspeicher findet und abruft. Beim Durchführen eines Informationsabrufs ist es wichtig, alle Informationen abzurufen, die ein Benutzer benötigt (d.h., es ist wichtig vollständig zu sein), und es ist gleichzeitig wichtig, die irrelevante Information, die für den Benutzer abgerufen wird, zu begrenzen (d.h., es ist wichtig auswählend zu sein). Diese Dimensionen werden oft mit den Begriffen Abruf (Vollständigkeit) und Genauigkeit (Selektivität) bezeichnet (recall completness bzw. precision selectivity). In vielen Informationsabrufsystemen ist es notwendig eine gute Leistung sowohl in der Abruf- und Genauigkeitsdimension zu erzielen.
In manchen aktuellen Abrufsystemen ist die Menge an Information, die abgefragt und gesucht werden kann, sehr groß. Z.B. sind manche Informationsabrufsysteme aufgebaut, um Information im Internet, auf Digital Video Discs und anderen Computerdatenbanken im Allgemeinen zu suchen. Diese Informationsabrufsysteme sind üblicherweise als, z.B., Internetsuchmaschinen und Bibliothekskatalogsuchmaschinen verkörpert.
Viele Informationsabruftechniken sind bekannt. In solchen Techniken ist eine benutzereingegebene Abfrage üblicherweise entweder als eine explizite benutzererzeugte Abfrage oder als eine implizite Abfrage dargestellt, wie z.B., wenn ein Benutzer Dokumente oder Information abfragt, welche einer bestimmten Reihe von bestehenden Dokumenten ähnlich ist. Typische Informationsabfragesysteme suchen dann Dokumente in dem großen Datenspeicher entweder auf einem Einzelwortlevel oder auf einem Begriffslevel. Jedem der Dokumente ist eine Relevanz- (oder Ähnlichkeits-) Punktzahl zugewiesen, und das Informationsabrufsystem präsentiert dem Benutzer eine bestimmte Teilmenge der gesuchten Dokumente, üblicherweise die Teilmenge, die eine Relevanzpunktzahl hat, die einen gegebenen Schwellenwert übersteigt.
Manche zurzeit bekannte Informationsabfragetechniken oder -verfahren schließen ein Volltextscannen, die Verwendung von Signaturdateien, Inversion, Vektormodellierung und – clusterung und tf*idf (term frequency * inverse document frequency) ein. Beim Volltextscannen werden Boolean Funktionen in einer Abfrage verwendet, um zu ermitteln, ob ein zu durchsuchendes Dokument bestimmte Zeichenfolgen enthält. Es ist in solchen Scantechniken üblich, jedes Zeichen eines Dokuments zu durchsuchen, um zu sehen, ob es der Suchzeichenfolge (d.h. der Abfrage) genügt, und dann die Suche eine Position nach rechts zu bewegen, wenn ein Unterschied gefunden wurde. Dieses System ist angepasst worden, um andere Wege der Vorverarbeitung der Abfrage zu verwenden, wie z.B. das Bewegen um mehr als eine Position nach rechts, wenn ein Unterschied gefunden wurde.
Die Verwendung von Signaturdateien bezieht das Streichen von gebräuchlichen Wörtern aus dem zu durchsuchenden Dokument und das Reduzieren der nicht-gebräuchlichen Wörter zu Stämmen (Stems) ein. Jedes zu durchsuchende Dokument liefert eine Bitzeichenfolge (d.h., eine Signatur). Die Signaturen für verschiedene Dokumente werden der Reihe nach in einer Datei getrennt von den Dokumenten selbst gespeichert.
Inversionstechniken beziehen das Aufbauen einer Liste mit Schlüsselwörtern ein, um jedes Dokument zu repräsentieren. Die Schlüsselwörter werden in einer Indexdatei gespeichert. Für jedes Schlüsselwort wird eine Liste mit Pointern geführt, welche qualifizierende Dokumente aufdeckt. Die Abfrage wird dann gegenüber dem Index beschleunigt, und die Pointer werden verwendet, um die relevanten und qualifizierenden Dokumente zu identifizieren.
Vektormodellierung und -clusterung bezieht das Gruppieren von ähnlichen Dokumenten in Gruppen ein, die als Cluster bezeichnet werden (diese Technik kann ebenso auf Begriffe anstatt auf Dokumente angewandt werden). Um ein Cluster zu erzeugen, wird ein Index durch das Entfernen von gebräuchlichen Wörtern und das Reduzieren des Restes der Wör ter zu Stämmen (Stems) gebildet (was Präfix- und Suffixentfernung einschließt). Synonyme werden auch üblich in einer Konzeptklasse platziert, die ihre Begriffe durch Häufigkeit, Spezifität, Relevanz, etc. gewichtet hat. Der Index wird verwendet, um die Dokumente als einen Punkt in einem t-dimensionalen Raum darzustellen. Die Punkte werden dann in Gruppen mit einer Ähnlichkeitsmatrix eingeteilt, welche üblicherweise durch einen iterativen Prozess entwickelt wird. Um das Cluster zu durchsuchen, wird eine Abfrage als ein t-dimensionaler Vektor dargestellt und wird mit den Clusterschwerpunkten verglichen. Eine Cluster-zu-Abfrage-Ähnlichkeitsfunktion wird erzeugt und wird verwendet, um relevante Dokumente herauszuziehen. Die Dokumente, die herausgezogen (oder abgerufen) wurden, sind üblicherweise jene mit einem Ähnlichkeitswert, der einen vorbestimmten Schwellenwert überschreitet.
Semantische Informationen werden in manchen Informationsabruftechniken verwendet, um mehr Information über jedes Dokument in dem Informationsspeicher einzufangen, um eine bessere Leistung zu erzielen. In einem solchen System wird die Verarbeitung natürlicher Sprache verwendet, um den semantischen Inhalt der Abfragen mit dem der zu durchsuchenden Dokumente anzupassen. Sätze oder Ausdrücke werden als Begriffe zum Indizieren der zu durchsuchenden Dokumente verwendet. Latent semantisches Indizieren bezieht das Bilden einer Begriff/Dokumentmatrix ein, in der die Anzahl der Vorkommnisse des Begriffs in einem bestimmten Dokument auf der Matrix eingetragen ist. Kleine einmalige Werte werden üblicherweise eliminiert und die restlichen Begriff-Häufigkeits-Vektoren werden aufgezeichnet. Abfragen werden ebenso aus Begriffs-Häufigkeits-Vektoren gebildet und werden gegenüber der Matrix, welche die Begriffs-Häufigkeits-Vektoren für die Dokumente enthält, abgebildet (mapped). Die Dokumente werden durch die Verwendung der normalisierten Linearprodukte klassifiziert, um ein Kosinus-Ähnlichkeits-Maß zu erhalten.
Ein anderer Typ von Informationsabruftechnik, welcher semantische Informationen verwendet, ist ein neurales Netzwerk. Im Wesentlichen wird ein Thesaurus aufgebaut und ein Knoten in einem versteckten Layer wird erzeugt, um jedem Konzept in dem Thesaurus zu entsprechen. Spreading Activation Methods werden dann verwendet, um Suchen auszuführen.
Term frequency * inverse document frequency (tf*idf) ist eine andere Technik, die verwendet wird, um die Relevanz von Dokumenten zu ermitteln. Zuerst wird ein Begriff, der in einer Abfrage verwendet wird, gegenüber dem Dokument abgewogen, um die Häufigkeit dieses Begriffs in dem Dokument zu ermitteln. Es wird geglaubt, dass der Grad, zu dem das Dokument und der Begriff in Beziehung stehen, ansteigt, wenn die Häufigkeit des Begriffs in dem Dokument ansteigt. Es wird ebenso geglaubt, dass der Nutzen eines Begriffs zum Unterscheiden zwischen den Dokumenten abnimmt, wenn die Anzahl der Dokumente, in denen dieser Begriff auftaucht, zunimmt. Die Häufigkeit des bestimmten Begriffs wird deshalb auch gegen den gesamten Datenspeicher bemessen, um das Häufigkeitslevel dieses Begriffs in allen Dokumenten zu ermitteln. Diese zwei Maße werden zur Ermittlung der Relevanz irgendeines gegebenen zu durchsuchenden Dokuments in dem Datenspeicher verwendet.
Weil die Datenbanken, welche zum Suchen zugreifbar sind, immer zahlreicher werden, und weil jene Datenbanken größer werden, werden die Probleme zugehörig zum Abrufen von Information ebenso größer. Mit anderen Worten ist es oft schwieriger eine akzeptable Leistung über die Abruf- und Genauigkeitsdimensionen mit größeren und zahlreicheren zu durchsuchenden Datenbanken zu erhalten.
Spracherkennungssysteme verwenden eine Kombination aus der akustischen und linguistischen (oder Sprach-) Information, die in einer Äußerung enthalten ist, um eine Abschrift der Bedeutung der Äußerung zu erzeugen. Die Sprachinformation, die durch einen Erkenner in einem Spracherkennungssystem verwendet wird, wird insgesamt als Sprachmodell bezeichnet.
Viele aktuelle Spracherkennungssysteme verwenden Sprachmodelle, welche statistischer Natur sind. Solche Sprachmodelle werden üblicherweise unter Verwendung bekannter Techniken, die auf einer großen Menge von Texttrainingsdaten basieren, die einem Sprachmodellgenerator präsentiert werden, erzeugt. Ein N-Gram-Sprachmodell kann z.B. bekannte statistische Techniken verwenden, wie z.B. Katz's Technik oder die Binomial-Posterior-Distribution-Backoff-Technik. Beim Verwenden dieser Techniken schätzen die Sprachmodelle die Wahrscheinlichkeit, dass ein Wort w(n) einer Sequenz von Worten w1, w2, ... w(n – 1) folgen wird. Diese Wahrscheinlichkeitswerte bilden zusammen das N-Gram-Sprachmodell.
Es gibt viele bekannte Verfahren, die verwendet werden können, um diese Wahrscheinlichkeitswerte von einem großen Textkörper zu schätzen, welcher dem Sprachmodellgenerator präsentiert wird, und das genaue Verfahren, durch welches dies getan wurde, ist für die vorliegende Erfindung nicht wichtig. Es reicht aus zu erwähnen, dass das Sprachmodell eine wichtige Rolle bei der Verbesserung der Genauigkeit und der Geschwindigkeit des Erkennungsprozess dadurch spielt, dass es dem Erkenner erlaubt ist, Information über die Wahrscheinlichkeit, Zuverlässigkeit oder Wichtigkeit von Wortsequenzen in der Sprache zu verwenden. Zusätzlich führen Sprachmodelle, die mehr Information über die Sprache einfangen, zu schnelleren und genaueren Spracherkennungssystemen.
Üblicherweise wird der große Trainingstextkorpus, der zum Trainieren des Sprachmodells verwendet wird, speziell erarbeitet und dem Sprachmodellgenerator für diesen bestimmten Zweck präsentiert. Deshalb werden Sprachmodelle üblicherweise für bestimmte breite Nutzungsklassen erzeugt. Manche Nutzungsklassen können die allgemeine englische Sprache, Bürokorrespondenz, Sport, etc. sein. Die Interessen eines bestimmten Benutzers, und deshalb auch die Sprache, die von dem bestimmten Benutzer verwendet wird, können jedoch typischerweise weit spezifischer sein, als diese breiten Sprachmodellkategorien. Deshalb können die Wahrscheinlichkeitsschätzungen, die durch ein Sprachmodell erzeugt wurden, die tatsächliche vom Benutzer verwendete Sprache nicht genau modellieren. Weil die Vielfalt an Interessen zwischen Benutzern nahezu unbegrenzt ist, ist es des Weiteren sehr schwierig, hoch spezialisierte Sprachmodelle für jeden Benutzer zu erzeugen.
Manche frühere Systeme haben versucht dieses Problem durch das Anpassen des Sprachmodells während der Verwendung zu behandeln. Während der Anpassung werden die Wahrscheinlichkeitsschätzungen, die der Wortsequenz durch das Sprachmodell zugewiesen wurden, angepasst, um die tatsächliche Sprache des Benutzers genauer zu reflektieren. Die textlichen Daten, die für die Anpassung verwendet werden, sind benutzerspezifisch. Diese Textdaten können z.B. aus Text, der von dem Benutzer diktiert worden ist, oder aus Text in Dokumenten, die von dem Benutzer erzeugt, gelesen oder gespeichert wurden, bestehen. Damit ein Sprachmodell genau angepasst wird, muss es jedoch mit einer großen Menge von Daten gefüttert werden. Die verfügbaren benutzerspezifischen Daten sind typischerweise zu spärlich, um das Sprachmodell schnell anzupassen oder ein bedeutungsvolles benutzerspezifisches Sprachmodell zu erzeugen.
WO 98/34180, veröffentlicht am 06. August 1998, bezieht sich auf das Abrufen von Informationen, und im Speziellen auf einen Internetinformationsagenten, der Kandidatendokumente auf Unterschiedlichkeit mit einem Referenzkorpus, der durch einen Benutzer des Agenten identifiziert wird, analysiert. Der Agent führt eine Informationsabrufaktivierung durch einen Benutzer einer Suchanfrage durch, die bekannt ist als „Abfrage nach Beispiel" oder „Finde mir ein anderes wie dieses". Der Benutzer des Agenten gibt die URL eines Referenzdokumentes ein und startet den Agenten, der mit dem Abrufen des Referenzdokuments beginnt. Des Weiteren startet der Agent mit dem Kandidatdokument, das durch die URL identifiziert wird, die in der Suchanweisung enthalten ist, die solche Details abdeckt, wie: die Start-URL für die Suche, die Anzahl der zu durchsuchenden Levels, die Suchgrenzen und die auszuschließenden Verzeichnisse. Zusätzlich erstellt der Agent ein Back-Off-Trigram-Sprachmodell (language model – LM) des Referenzdokuments aus der Unterliste der Wort-Level-N-Grams (die Häufigkeitsbegriffe) und speichert das LM.
Kurzfassung der Erfindung
Es ist die Aufgabe der Erfindung, eine Verbesserung an einem System zum Informationsabruf bereitzustellen.
Diese Aufgabe wird durch die Erfindung, wie in den unabhängigen Ansprüchen beansprucht gelöst.
Bevorzugte Ausführungsformen sind in den abhängigen Ansprüchen definiert.
Ein Sprachmodell wird in einem Spracherkennungssystem verwendet, das Zugriff auf einen ersten, kleineren Datenspeicher und einen zweiten, größeren Datenspeicher hat. Das Sprachmodell wird angepasst durch das Formulieren einer Informationsabrufabfrage basierend auf Informationen, die in dem ersten Datenspeicher enthalten sind, und durch das Abfragen des zweiten Datenspeichers. Information, die von dem zweiten Datenspeicher abgerufen wurde, wird beim Anpassen oder Erstellen des Sprachmodells verwendet.
In einer bevorzugten Ausführungsform wird geglaubt, dass der erste Speicher, der üblicherweise kleiner ist, repräsentativer ist für die Sprache, die tatsächlich von dem Benutzer des Spracherkennungssystems verwendet wird. Es ist sehr wahrscheinlich, dass der zweite Speicher, der üblicherweise größer ist, in Form eines Prozentsatzes weniger repräsentativ ist für die Sprache des Benutzers.
Sprachmodelle werden auch zum Abrufen von Information von dem zweiten Datenspeicher verwendet. Sprachmodelle werden basierend auf Informationen in dem ersten Datenspeicher und basierend auf Informationen in dem zweiten Datenspeicher gebildet. Die Perplexität eines Dokuments in dem zweiten Datenspeicher wird angesichts des ersten Sprachmodells und angesichts des zweiten Sprachmodells ermittelt. Die Relevanz des Dokumentes wird basierend auf den ersten und zweiten Perplexitäten ermittelt. Es werden Dokumente abgerufen, die ein Relevanzmaß haben, das ein Schwellenwertlevel übersteigt.
In einer Ausführungsform stellt der erste Datenspeicher die Abfrage oder Anfrage durch den Benutzer dar und der zweite Datenspeicher stellt die zu durchsuchende Bibliothek dar.
Kurze Beschreibung der Zeichnungen
1 ist ein Blockdiagramm einer beispielhaften Umgebung zum Implementieren eines Systems gemäß der vorliegenden Erfindung.
2 ist ein detaillierteres Blockdiagramm eines Systems gemäß der vorliegenden Erfindung.
3 ist ein Flussdiagramm, das eine Dokumentabruftechnik gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung darstellt.
4 ist ein Flussdiagramm, das eine Technik zum Anpassen eines Sprachmodells gemäß einer anderen bevorzugten Ausführungsform der vorliegenden Erfindung darstellt.
Detaillierte Beschreibung der bevorzugten Ausführungsformen
Überblick
1 und die zugehörige Diskussion sind gedacht, um eine kurze allgemeine Beschreibung einer geeigneten Computerumgebung, in der die Erfindung implementiert werden kann, bereitzustellen. Obwohl es nicht erforderlich ist, wird die Erfindung zumindest teilweise im allgemeinen Kontext von computerausführbaren Instruktionen beschrieben, wie z.B. Programmmodulen, die durch einen Personalcomputer ausgeführt werden. Im Allgemeinen schließen Programmmodule Routinenprogramme, Objekte, Komponenten, Datenstrukturen, etc. ein, die bestimmte Aufgaben ausführen oder bestimmte abstrakte Datentypen implementieren. Außerdem werden Fachleute es begrüßen, dass die Erfindung mit anderen Computersystemkonfigurationen betrieben werden kann, einschließlich Handheld-Geräten, Multiprozessorsystemen, Mikroprozessor basierter oder programmierbarer Unterhaltungselektronik, Netzwerk PCs, Minicomputern, Mainframe-Computern und ähnlichem. Die Erfindung kann ebenso in verteilten Computerumgebungen betrieben werden, wo Aufgaben durch Remote-Verarbeitende-Geräte, die durch ein Kommunikationsnetzwerk verbunden sind, ausgeführt werden. In einer verteilten Computerumgebung können Programmmodule sowohl in lokalen als auch Remote-Speichergeräten liegen.
Mit Bezug auf 1, enthält ein exemplarisches System zum Implementieren der Erfindung ein Allzweckcomputergerät in der Form eines konventionellen Personalcomputers 20, einschließlich Prozessoreinheit 21 (welche einen oder mehr Prozessoren einschließen kann), einem Systemspeicher 22 und einem Systembus 23, der verschiedene Systemkomponenten einschließlich dem Systemspeicher und der Prozessoreinheit 21 koppelt. Der Systembus 23 kann irgendeiner von verschiedenen Busstrukturtypen sein, einschließlich einem Speicherbus oder Speichercontroller, einem Peripheriebus und einem lokalen Bus, der irgendeine Vielfalt von Busarchitekturen verwendet. Der Systemspeicher schließt Read Only Memory (ROM) 24 und Random Access Memory (RAM) 25 ein. Ein Basic Input/Output 26 (BIOS), das die Basisroutinen enthält, die helfen, Informationen zwischen Elementen innerhalb des Personalcomputers 20 zu übertragen, wie z.B. während des Hochfahrens, ist im ROM 24 gespeichert. Der Personalcomputer 20 enthält des Weiteren ein Festplattenlaufwerk 27 zum Lesen von und schreiben zu einer Festplatte (nicht gezeigt), ein magnetisches Disklaufwert 28 zum Lesen von oder Schreiben zu einer entfernbaren magnetischen Disk 29 und einem optischen Disklaufwerk 30 zum Lesen von oder Schreiben zu einer entfernbaren optischen Disk 31, wie z.B. einer CD-ROM oder anderem optischen Medium. Das Festplattenlaufwerk 27, magnetische Disklaufwerk 28 und optische Disklaufwerk 30 sind mit dem Systembus 23 über eine Festplattenlaufwerksschnittstelle 32, Schnittstelle für magnetische Disklaufwerke 33 bzw. einer Schnittstelle für optische Laufwerke 34 verbunden. Die Laufwerke und die zugehörigen computerlesbaren Medien stellen nicht-flüchtigen Speicher für computerlesbare Instruktionen, Datenstrukturen, Programmmodule und anderen Daten für den Personalcomputer 20 bereit.
Obwohl die hier beschriebene exemplarische Umgebung eine Festplatte, eine entfernbare magnetische Disk 29 und eine entfernbare optische Disk 31 einsetzt, sollte es durch Fachleute begrüßt werden, dass andere Typen von computerlesbaren Medien, welche Daten speichern können, auf die durch einen Computer zugegriffen werden kann, wie z.B. magnetischen Kassetten, Flash Memory Karten, Digital Video Discs, Bernoulli Kartuschen, Random Access Memories (RAMs), Read Only Memory (ROM), und ähnliches ebenso in der exemplarischen Arbeitsumgebung verwendet werden können.
Eine Anzahl von Programmmodulen kann auf der Festplatte, magnetischen Disk 29, optischen Disk 31, ROM 24 oder RAM 25 gespeichert werden, einschließlich einem Betriebssystem 35, einem oder mehreren Anwendungsprogrammen 36, anderen Programmmodulen 37 und Programmdaten 38. Ein Benutzer kann Befehle und Informationen in den Personalcomputer 20 durch Eingabegeräte, wie z.B. ein Keyboard 40 und Zeigergerät 42 eingeben. Andere Eingabegeräte (nicht gezeigt) können ein Mikrofon, einen Joystick, Gamepad, Satellitenschüssel, Scanner oder ähnliches einschließen. Diese und andere Eingabegeräte werden oft mit der Prozessoreinheit 21 durch eine serielle Anschlussschnittstelle 46 verbunden, die mit dem Systembus gekoppelt ist, können aber durch andere Schnittstellen verbunden sein, wie z.B. einem Parallelanschluss, Gameport oder einem Universal Serial Bus (USB). Ein Monitor 47 oder anderer Typ von Anzeigegerät ist ebenso mit dem Systembus 23 über eine Schnittstelle verbunden, wie z.B. einem Videoadapter 48. Zusätzlich zu dem Monitor 47 können Personalcomputer üblicherweise andere periphere Ausgabegeräte (nicht gezeigt) einschließen, wie z.B. Lautsprecher und Drucker.
Der Personalcomputer 20 kann in einer Netzwerkumgebung unter Verwendung logischer Verbindungen zu einem oder mehreren Remote-Computern arbeiten, wie z.B. einem Remote-Computer 49. Der Remote-Computer 49 kann ein anderer Personalcomputer, ein Server, Router, ein Netzwerk-PC, ein Peergerät oder anderer Netzwerkknoten sein, und enthält üblicherweise viele oder alle der Elemente, die oben mit Bezug auf den Personalcomputer 20 beschrieben wurden, obwohl nur ein Speichergerät 50 in 1 dargestellt worden ist. Die logischen Verbindungen, die in 1 gezeigt sind, schließen ein Local Area Network (LAN) 51 und ein Wide Area Network (WAN) 52 ein. Solche Netzwerkumgebungen sind alltäglich in Büros, unternehmensweiten Computernetzwerk, Intranets und dem Internet.
Wenn er in einer LAN-Netzwerkumgebung verwendet wird, ist der Personalcomputer 20 mit dem Local Area Network 51 durch eine Netzwerkschnittstelle oder Adapter 53 verbunden. Wenn er in einer WAN-Netzwerkumgebung verwendet wird, schließt der Personalcomputer 20 üblicherweise ein Modem 54 oder andere Mittel zum Herstellen von Kommunikationen über das Wide Area Network 52, wie z.B. dem Internet, ein. Das Modem 54, welches intern oder extern sein kann, ist mit dem Systembus 23 über eine serielle Anschlussschnittstelle 46 verbunden. In einer Netzwerkumgebung können Programmmodule, die mit Bezug auf Personalcomputer 20 gezeigt sind oder Teile davon, in den Remote-Speichergeräten gespeichert sein. Es wird begrüßt, dass die gezeigten Netzwerkverbindungen exemplarisch sind und andere Mittel zum Herstellen eines Kommunikationslinks zwischen den Computern verwendet werden kann.
2 stellt ein Blockdiagramm eines Spracherkennungs-/Informationsabruf-System 60 (Speech Recognition/Information Retrieval – SR/IR-System) gemäß einem Aspekt der vorliegenden Erfindung dar. SR/IR-System 60 schließt ein Mikrofon 62, einen analog-zu-digital-(A/D)-Konverter 64, ein Benutzereingabegerät 66, SR/IR-Prozessormodul 68, Sprachmodell-(Language Model – LM)-Speichermodul 70, einen Themendatenspeicher 72, allgemeinen Datenspeicher 74 und ein Benutzerausgabegerät 76 ein.
Es sollte beachtet werden, dass das gesamte System 60 oder Teile von System 60 in der in 1 dargestellten Umgebung implementiert werden können. Z.B. kann das Mikrofon 62 vorzugsweise als ein Eingabegerät zu Personalcomputer 20, durch eine passende Schnittstelle, und durch den A/D-Konverter 64 bereitgestellt werden. Benutzereingabegerät 66 kann vorzugsweise als Keyboard 40, Mouse 42 oder irgendein anderes passendes Eingabegerät implementiert werden. Sprachmodellspeichermodul 70 wird vorzugsweise in irgendeinem in 1 gezeigten passenden Speichergerät gespeichert oder wird dem SR/IR-Modul 68 durch irgendeinen mit Bezug auf 1 beschriebenen Dateneingabemechanismus bereitgestellt. SR/IR-Modul 68 ist vorzugsweise entweder ein Hardwaremodul in Computer 20 (wie z.B. einem zugeordneten Spracherkennungs- oder Informationsabruf-Prozessor, getrennt von der CPU 21 oder implementiert in die CPU 21) oder ein Softwaremodul, das in irgendeinem Informationsspeichergerät, das in 1 offenbart wurde, gespeichert ist und auf das durch die CPU 21 oder irgendeinen anderen geeigneten Prozessor zugegriffen werden kann.
Themendatenspeicher 72 wird ebenso vorzugsweise in irgendeinem geeigneten Speichergerät, das in 1 gezeigt ist, gespeichert oder auf ihn kann durch das in 1 dargestellte System zugegriffen werden. Der Themendatenspeicher 72 braucht auch nicht lokal zu dem Computer 20 sein, muss aber lediglich durch den Computer 20 zugreifbar sein. Z.B. kann der Themendatenspeicher 72 teilweise oder ganz in Speicher 50 gespeichert sein. Ein bestimmtes Dokument, das erzeugt wurde, ebenso wie andere Dokumente, die durch den Benutzer erzeugt worden sind, werden in dem Themendatenspeicher 72 gespeichert. Natürlich wird es erkannt werden, dass die Daten, die in den Themendatenspeicher 72 enthalten sind, gemäß irgendeiner Anzahl von Kriterien angeordnet sein können, wie z.B. Betreff, Dokumenttypen (z.B. Briefe, Memos, elektronische Mailübertragungen, Faxe, etc.) oder irgendein anderes geeignetes Kriterium.
Der allgemeine Datenspeicher 74 ist vorzugsweise eine größere Datenbank, größer als der Themendatenspeicher 72, und ist für das in 2 gezeigte System zugreifbar. Der allgemeine Datenspeicher kann z.B. irgendeine Datenbank sein oder eine Sammlung von Datenbanken, die durch das Wide Area Network 52 oder durch das Local Area Network 51 erreichbar ist.
Zusätzlich kann das Ausgabegerät 72 in einer bevorzugten Ausführungsform als Monitor 47 oder als Drucker oder als irgendein anderes geeignetes Ausgabegerät implementiert sein. In jedem Fall stellt das System 60 im Sinne der vorliegenden Beschreibung ein System dar, dass geeignet ist zum Ausführen sowohl von Spracherkennung als auch dem Abrufen von Information. Jedoch sollte beachtet werden, dass das System 60 konfiguriert sein kann, um nur Spracherkennung oder Abruf von Information auszuführen, soweit es für die verschiedenen Merkmale und Aspekte der unten beschriebenen vorliegenden Erfindung erforderlich ist.
Anpassen eines Sprachmoduls
Das System 60 wird nun in Bezug auf Spracherkennung beschrieben. Beim Erkennen von Sprache wird das System 60 unter Verwendung von akustischen Informationen in einer bekannten Weise trainiert. Das System 60 verwendet diese Informationen zum späteren Erkennen von Äußerungen, die in das System 60 durch das Mikrofon 62 eingegeben werden. Kurz gesagt, wird Sprache in das System 60 in der Form von hörbaren Sprachsignalen eingegeben, die durch den Benutzer an das Mikrofon 62 geliefert wurden. Das Mikrofon 62 wandelt die hörbaren Sprachsignale in ein analoges elektronisches Signal, welches dem A/D-Konverter 64 bereitgestellt wird. Der A/D-Konverter 64 wandelt das analoge Sprachsignal in eine Sequenz von digitalen Signalen, die dem SR/IR-Modul 68 bereitgestellt werden.
In einer bevorzugten Ausführungsform schließt das SR/IR-Modul 68 ein Feature-Extraction-Modul ein, das ein gewöhnlicher Vektorrechner ist, der eine Spektralanalyse des digitalen Signals ausführt und einen Stärkewert (Magnitude Value) für jedes Frequenzband eines Frequenzspektrums berechnet. Das Feature-Extraction-Modul teilt die digitalen Signale in Frames, die eine Vielzahl von digitalen Samples einschließen, welche zu einer Kette von Ausgangswahrscheinlichkeitsverteilungen umgewandelt werden, die Wahrscheinlichkeitswerte für eine Vielzahl von Frequenzbändern einschließt. Die Ausgangswahrscheinlichkeitsverteilungen werden in einer bekannten Weise verarbeitet, um wahrscheinliche Spracheinheiten (wie z.B. Phoneme, Wörter oder Wortsequenzen) zu erhalten, welche kennzeichnend für die durch das Mikrofon 62 empfangene Sprache sind.
In einer bevorzugten Ausführungsform identifiziert das SR/IR-Modul 68 N wahrscheinliche Worthypothesen, welche Indikativ für die N höchstwahrscheinlichen vertretenen Worte oder Wortsequenzen sind. Das SR/IR-Modul 68 greift dann auf das LM-Speichermodul 70 zu. Das Sprachmodul, das in dem LM-Speichermodul 70 gespeichert ist, wird verwendet, um die Wahrscheinlichkeit zu schätzen, dass ein Wort w(n) einer Sequenz der Worte w1, w2, ... w(n – 1) folgt. Diese Wahrscheinlichkeiten werden dann verwendet, um zwischen den N-besten Hypothesen zu wählen, um das wahrscheinlichste Wort oder Wortsequenz zu erhalten, dass durch die Äußerung repräsentiert wird. Diese wahrscheinlichste Hypothese wird bei dem Benutzerausgabegerät 76 ausgegeben.
Das Sprachmodell, das in dem LM-Speichermodul 70 gespeichert ist, kann ursprünglich durch das SR/IR-Modul 68 erstellt worden sein, oder kann in das LM-Speichermodul 70 unter Verwendung eines Dateneingabemechanismus geladen worden sein, wie z.B. jene, die in 1 diskutiert wurden (z.B., unter Verwendung einer Floppy-Disk). In den Ausführungsformen, in denen das SR/IR-Modul 68 das Sprachmodul erstellt, wird dem SR/IR-Modul 68 ein großer Trainingstextkorpus bereitgestellt. Unter Verwendung des Trainingstextkorpus erstellt das SR/IR-Modul 68 das Sprachmodell in bekannter Weise und speichert es in dem LM-Speichermodul 70.
Zusätzlich sollte es beachtet werden, dass mehrere Sprachmodelle in dem LM-Speichermodul 70 gespeichert werden können. Z.B. kann eine Anzahl von themenabhängigen Sprachmodellen in dem LM-Speichermodul 70 gespeichert werden und durch das SR/IR-Modul 68 basierend auf einer Eingabe durch den Benutzer bezüglich des Fachgebiets eines bestimmten Dokumentes, das mit dem Spracherkennungssystem erzeugt worden ist, erhalten werden.
In jedem Fall ist es wünschenswert, dass das bestimmte Sprachmodell oder -modelle, das/die in dem LM-Speichermodul gespeichert sind, (wie auch immer es zuerst erhalten wurde) basierend auf der eigentlichen Wortverwendung des Benutzers des Systems 60 angepasst ist/sind, um ein schnelleres und besseres Modell zu erhalten, welches die tatsächlich von dem Benutzer verwendete Sprache genau modelliert.
3 stellt eine Technik gemäß einem Aspekt der vorliegenden Erfindung zum Durchführen der Anpassung des Sprachmodells, das in dem LM-Speichermodul 70 gespeichert ist, dar. Ein Sprachmodell wird zuerst durch System 60 empfangen. Das Sprachmodell kann entweder fachgebietsspezifisch, benutzerspezifisch, anwendungsspezifisch oder einfach ein allgemeines Sprachmodell sein. Wie vorher schon diskutiert kann das Sprachmodell entweder durch System 60 erstellt und in dem LM-Speichermodul 70 gespeichert sein oder einfach in das LM-Speichermodul 70 durch einen geeigneten Eingabemechanismus geladen sein. Der Schritt des Empfangens des Sprachmodells ist in 3 durch Block 78 angezeigt.
Um das Sprachmodell anzupassen, verwendet das System 60 vorzugsweise die Informationen, die in dem Themendatenspeicher 72 gespeichert sind, als einen Teil des Textkorpus, der verwendet wird, um das in Modul 70 gespeicherte Sprachmodell anzupassen. Der Themendatenspeicher 72 enthält vorzugsweise ein aktuelles vorbereitetes Dokument, andere durch den aktuellen Benutzer vorbereitete Dokumente oder andere Dokumente, die von dem derzeitigen Benutzer gelesen wurden, durch den derzeitigen Benutzer gespeichert wurden oder durch den derzeitigen Benutzer als relevant für die aktuelle Aufgabe identifiziert wurden.
Üblicherweise ist diese Menge an benutzerspezifischen oder aktuellen Themen- oder aufgabenspezifischen Daten zum schnellen Anpassen des in Modul 70 gespeicherten Sprachmodells oder zum Erzeugen eines Mehrbenutzer-/aufgabenspezifischen Sprachmodells unzureichend. Deshalb verwendet das System 60 die Benutzer-/aufgabenspezifischen Informationen, die in dem Themendatenspeicher 72 gespeichert sind, um eine Abfrage gegenüber dem allgemeinen Datenspeicher 74 zu erzeugen. Es wird erinnert, dass der allgemeine Datenspeicher 74 eine oder mehrere Datenbanken, die über das Internet (z.B. über WAN 52) zugreifbar sind, eine Bibliotheksdatenbank oder irgendeine andere geeignete große Datenbank, die für das System 60 (wie z.B. durch das LAN 51) zugreifbar ist, einschließen kann. Die Abfrage gegenüber dem allgemeinen Datenspeicher 74 ist in 3 durch Block 80 angezeigt.
Die bestimmte Informationsbeschaffungstechnik, die verwendet wird, um die Abfrage gegenüber dem allgemeinen Datenspeicher 74 zu erzeugen und auszuführen, ist für dieses Merkmal der vorliegenden Erfindung nicht entscheidend. Es kann eher irgendeine geeignete Abfrageaufbau- und Informationsbeschaffungstechnik verwendet werden. Es sollte einfach beachtet werden, dass die Anpassung gemäß der vorliegenden Technik besser mit Informationsbeschaffungstechniken arbeitet, die mehr relevante Dokumente zurückgeben.
Als nächstes werden die Dokumente, die durch die Informationsbeschaffungsabfrage identifiziert wurden, abgerufen. Dies ist durch Block 82 angezeigt. In einer bevorzugten Ausfüh rungsform, wie durch die gestrichelte Linie 84 in 3 angezeigt, fährt die Bearbeitung einfach bei Block 86 fort. In dieser bevorzugten Ausführungsform wird das Themensprachmodell, das in Modul 70 gespeichert ist, basierend auf den in Themendatenspeicher 72 gespeicherten Informationen und basierend auf den vom allgemeinen Datenspeicher 74 als ein Ergebnis auf die Abfrage, die gegenüber dem allgemeinen Datenspeicher 74 ausgeführt wurde, erhaltenen Informationen eingestellt oder angepasst. Die Wahrscheinlichkeitsschätzungen, die durch das Sprachmodell erzeugt wurden, werden deshalb basierend auf dem Textkorpus angepasst, der die Information sowohl in dem Themendatenspeicher 72 als auch die vom allgemeinen Datenspeicher 74 erhaltenen Informationen einschließt. Dies stellt einen viel größeren Textkorpus bereit, mit welchem das in Modul 70 gespeicherte Sprachmodell angepasst wird, als durch das einfache Verwenden der Information, die in dem Themendatenspeicher 72 gespeichert ist. Weil der Anpassungstextkorpus viel größer ist, können die Wahrscheinlichkeiten, die durch das Sprachmodell generiert wurden, besser geschätzt werden, und das resultierende Sprachmodell führt zu einem besseren (d.h., schnelleren und genaueren) Mechanismus zum Modellieren der eigentlichen Verwendung durch den Benutzer. Die Anpassung ist durch Block 86 angezeigt.
Die Art und Weise, in der das Sprachmodell angepasst wird, kann irgendeine von einer Anzahl von Formen annehmen. In einer bevorzugten Ausführungsform wird nur eine Untergruppe der Dokumente, die durch die Abfrage gegenüber dem allgemeinen Datenspeicher 74 abgerufen wurden, beim Anpassen des in Modul 70 gespeicherten Sprachmodells verwendet. Die Dokumente, die basierend auf der Abfrage gegenüber dem allgemeinen Datenspeicher 74 abgerufen wurden, können auch relativ zu jenen bereits in dem Themendatenspeicher 72 enthaltenen gewichtet werden. Die abgerufenen Dokumente werden vorzugsweise weniger gewichtet, als jene, die bereits in dem Datenspeicher 72 gespeichert sind. Deshalb ist der Effekt auf das in Modul 70 gespeicherte Sprachmodell basierend auf den abgerufenen Dokumenten kleiner als der basierend auf den bereits gespeicherten Dokumenten (und vermutlich bekannt dafür, dass sie für den Benutzer von Relevanz sind).
Des Weiteren kann das Sprachmodell in einer anderen Art und Weise angepasst werden. Die Ergebnisse der Abfrage können verwendet werden, um ein Sprachmodell zu erstellen, welches mit dem bereits in Modul 70 gespeicherten Sprachmodell kombiniert wird. Diese Kombinierung kann unter Verwendung irgendeiner bekannten Glättungstechnik (smoothing technique) ausgeführt werden, wie z.B. Interpolation, gelöschte Interpolation (Deleted Interpolation), oder irgendeine andere geeignete Technik. In der Ausführungsform, in der die gelöschte Interpolation (Deleted Interpolation) zum Anpassen des in Modul 70 gespeicherten Themensprachmodells verwendet wird, werden die vom allgemeinen Datenspeicher 74 abgerufenen Dokumente und die bereits in dem Themendatenspeicher 72 gespeicherten Dokumente wie folgt gewichtet: λPr + (1 – λ)Pt wobei P_r der Wahrscheinlichkeitswert ist, der durch das Sprachmodell basierend auf den abgerufenen Dokumenten erzeugt wurde;
P_t ist ein Wahrscheinlichkeitswert, der durch das Sprachmodell basierend auf Dokumenten, die bereits in dem Themendatenspeicher 72 sind, erzeugt wurde; und
λ der gelöschte Interpolationsparameter (Deleted Interpolation Parameter) ist, der einen Wert hat, der vorzugsweise experimentell ermittelt wurde. Wenn geglaubt wird, dass die Informationsabruftechnik sehr genau ist, wird λ einen höheren Wert haben (wie z.B. 0,8 oder 0,9). Wo jedoch nicht geglaubt wird, dass die Informationsabruftechnik genau ist, kann A einen geringeren Wert haben (wie z.B. 0,4 oder 0,5). Jedoch sind alle Werte von λ, wie z.B. 0,1 bis 0,9 oder so ähnlich, geeignet.
In einer weiteren anderen Ausführungsform wird der Wert von λ schrittweise erhöht, wie sich die Anzahl der Abfragen erhöht. Mit anderen Worten, während sich die Anzahl der Abfragen erhöht, die ausgeführt worden sind, wird der Textkorpus, der zum Anpassen des Sprachmodells verwendet wird, wahrscheinlich eher größer werden, oder genauer werden, weil die Menge an Informationen, die in dem Themendatenspeicher 72 gespeichert sind, wahrscheinlich größer ist. Deshalb werden die unter Verwendung der Informationsabruftechnik abgerufenen Dokumente wahrscheinlich relevanter sein, als jene ursprünglich abgerufenen. Deshalb kann der Wert von λ schrittweise zunehmen, wie auch die Anzahl der Abfragen zunimmt. Des Weiteren sollte beachtet werden, dass etliche Sprachmodelle von den abgerufenen Daten erstellt werden können. Z.B. kann ein Sprachmodell unter Verwendung der 100 relevantesten Dokumente konstruiert werden, und ein zweites Sprachmodell unter Verwendung der 200 relevantesten Dokumente erstellt werden, usw. Mehrere Sprachmodelle, die unter Verwendung der abgerufenen Dokumente erstellt wurden, können dann mit dem Sprachmodell, das von den bekannten relevanten Daten aus dem Themendatenspeicher 72 und auch aus dem allgemeinen Sprachmodell erzeugt wurde, kombiniert werden. Eine Sprachmodellkombination unter Verwendung von gelöschter Interpolation (Deleted Interpolation) kann wie folgt ausgedrückt werden: Σλi Pi wobei P_i die Wahrscheinlichkeit ist, die durch das i-te Sprachmodell generiert wurde, und 0 < λ_i < 1 das Interpolationsgewicht für das i-te Sprachmodell ist und Σλ_i = 1 gilt.
Sobald das Sprachmodell angepasst wurde, wird das angepasste oder eingestellte Sprachmodell dann in der Spracherkennung verwendet. Dies wird durch Block 88 angezeigt.
Gemäß einem bevorzugten Aspekt der vorliegenden Erfindung ist System 60 konfiguriert, um automatisch und intermittierend eine themenspezifische Abfrage zu regenerieren und um es gegen die Informationen, die in dem allgemeinen Datenspeicher 74 gespeichert sind, zu richten. Z.B. wird in der bevorzugten Ausführungsform das in Modul 70 gespeicherte Sprachmodul on-the-fly angepasst (z.B. während der Benutzer das System 60 verwendet). Deshalb kann System 60 konfiguriert sein, die Abfrage anfangs auszuführen und das Sprachmodul anzupassen, sobald das System 60 hochgefahren ist und dann jedes Mal, wenn ein neues Dokument erzeugt wird. Noch wünschenswerter jedoch ist es, wenn das System 60 konfiguriert ist, eine neue Abfrage zu erzeugen und das Sprachmodell intermittierend anzupassen, selbst während ein Dokument erzeugt wird. Deshalb kann System 60 konfiguriert sein, die Abfrage entweder nach jeder vorbestimmten Anzahl von Worten, nach jedem vorbestimmten Zeitintervall oder basierend auf irgendeinem anderen geeigneten Kriterium zu wiederholen.
Egal was das Kriterium ist, es wird zum Setzen eines Abfrageschwellenwertes verwendet. System 60 ermittelt deshalb, ob der Abfrageschwellenwert erreicht worden ist. Wenn dem so ist, erzeugt das System 60 eine andere Abfrage und führt sie gegen den allgemeinen Datenspeicher aus, wie es durch Block 80 angezeigt ist. Wenn der Abfrageschwellenwert nicht erreicht worden ist, fährt das System 60 einfach mit der Spracherkennung wie gewohnt fort. Dies ist durch die Blöcke 90 und 92 in 3 angezeigt.
Gemäß anderen bevorzugten Merkmalen der vorliegenden Erfindung können andere Informationen zum Anpassen des in Modul 70 gespeicherten Sprachmodells verwendet werden. Diese Merkmale werden durch die Blöcke 94, 96 und 98 in 3 dargestellt. Z.B., nachdem die Abfrage gegen die Informationen in dem allgemeinen Datenspeicher 74 ausgeführt worden ist, wird in einer bevorzugten Ausführungsform ein Relevanzmaß für jedes der Dokumente, die von der Abfrage zurückgegeben wurden, ermittelt. Die Dokumente werden dann gemäß dem Relevanzmaß geordnet (ranked). Dies wird durch Block 94 angezeigt. Dann wird eine Teilmenge der zurückgegebenen Dokumente (jene, die ein Relevanzmaß über einem Relevanzschwellenwert haben) zum Anpassen eines Sprachmodells verwendet. Des Weiteren können die zurückgegebenen Dokumente gemäß dem Relevanzmaß gewichtet werden, wie durch Block 96 angezeigt. Die Dokumente können dann verwendet werden, wie sie gewichtet sind, um das in Modul 70 gespeicherte Sprachmodell anzupassen.
In noch einer anderen bevorzugten Ausführungsform der vorliegenden Erfindung werden andere Informationen ebenso zum Abstimmen des Sprachmodells verwendet. Z.B. kann das System 60 konfiguriert sein, um die bestimmte Anwendung zu identifizieren, die dann durch den Benutzer verwendet wird, um ein Dokument vorzubereiten. Z.B. wenn der Benutqzer in einer Textverarbeitungsanwendung ist, kann der Benutzer ein formaleres Dokument erzeugen, als wenn der Benutzer in einer E-Mail-Anwendung ist. Das System 60 kann konfiguriert sein, um die Anwendung zu erkennen, und entweder diese Information zum Erzeugen der Abfrage gegenüber den Informationen, die in dem allgemeinen Datenspeicher 72 enthalten sind, verwenden, um nach formaleren Dokumenten zu suchen (d.h. Dokumente, die formalere Wortverwendungen und Wortsequenzen haben) oder einfach die durch die Abfrage abgerufenen formaleren Dokumente höher gewichten, als die weniger formalen abgerufenen Dokumente. Wenn der Benutzer eine Memovorlage heranzieht, und deshalb ein internes Memo erzeugt, kann das System 60 des Weiteren konfiguriert sein, um nur ähnliche Memoranden aus dem Themendatenspeicher 72 zum Erzeugen der Abfrage gegenüber den im allgemeinen Datenspeicher 74 gespeicherten Informationen abzurufen.
Viele andere Parameter könnten ebenso gemäß der vorliegenden Erfindung verwendet werden. Z.B. kann ein Benutzer dazu tendieren, formalere Dokumente während der Geschäftszeiten zu diktieren, wie z.B. Geschäftsbriefe und Memoranden, aber erzeugt später am Tag oder am Abend weniger formale Dokumente, wie z.B. persönliche Briefe. Deshalb kann das System 60 basierend auf der Tageszeit, zu der das Dokument durch den Benutzer erzeugt wird, konfiguriert sein, die Abfrage durch das Abrufen von Dokumenten aus dem Themendatenspeicher 72, welche ungefähr zur selben Tageszeit erzeugt wurden, zu generieren. Das System 60 kann ebenso konfiguriert sein, ähnliche abgerufene Dokumente, basierend auf der Abfrage einfach stärker zu gewichten, als andere Dokumente.
Es sollte auch beachtet werden, dass die Anpassung des Sprachmodells, das in Modul 70 gespeichert ist, intermittierend ausgeführt werden kann, egal, ob der Benutzer die Spracherkennungsmerkmale des Systems 60 verwendet. Solange das System 60 hochgefahren ist, kann es konfiguriert sein, die Abfragen gegenüber dem im allgemeinen Datenspeicher 74 gespeicherten Informationen zu wiederholen und das in Modul 70 gespeicherte Sprachmodell gemäß irgendeinem gegebenen Kriterium anzupassen.
Deshalb kann gesehen werden, dass das Merkmal der Sprachmodellanpassung der vorliegenden Erfindung verwendet werden kann, um schnell und effizient die Menge an benutzerspezifischen Daten, die zum Erzeugen oder Verbessern des in Modul 70 gespeicherten Sprachmodells verfügbar sind, auszuweiten. Die benutzerspezifischen Daten, die verfügbar sind, werden zuerst als eine Abfrage gegenüber dem großen Informationsspeicher verwendet, um Text oder Dokumente zu identifizieren, die ähnlich den benutzerspezifischen Dokumenten sind. Der Textkorpus, der verwendet wird, um das in Modul 70 gespeicherte benutzerspezifische Sprachmodell zu erzeugen oder anzupassen, ist dann eine viel größere Sammlung, als es andernfalls der Fall wäre und die Wahrscheinlichkeiten, die von dem Sprachmodell bereitgestellt werden, können besser geschätzt werden. Es sollte ebenso nochmal beachtet werden, dass die bestimmte Art und Weise, in der das Sprachmodell erstellt und angepasst wird, und das die bestimmte Technik zum Ausführen des Informationsabrufs für diesen Aspekt der vorliegenden Erfindung nicht entscheidend sind, und jede geeignete Technik verwendet werden kann.
Verwendung eines Sprachmodells zum Verbessern eines Informationsabrufs
4 ist ein Flussdiagramm, das eine Technik darstellt, durch die das System 60 einen Informationsabruf verbessern kann. Wie oberhalb erwähnt, produziert ein statistisches N-Gram-Sprachmodell eine Wahrscheinlichkeitsschätzung für ein Wort angesichts der Wortsequenz bis hin zu diesem Wort (d.h. angesichts der Worthistorie H). Ein N-Gram-Sprachmodell betrachtet nur (n – 1) vorherige Wörter in der Historie H als jene, die irgendeinen Einfluss auf die Wahrscheinlichkeit des nächsten Wortes haben. Z.B. betrachtet ein Bi-Gram- (oder 2-Gram-) Sprachmodell das vorherige Wort als das, das einen Einfluss auf das nächste Wort hat. Deshalb wird in einem N-Gram Sprachmodell die Wahrscheinlichkeit für das Vorkommen eines Wortes wie folgt dargestellt:
Gleichung 1: P(w/H) = P(w/w1, w2, ... w(n – 1))
Wobei w das Wort von Interesse ist;
w1 ist das erste Wort vor Wort w in der Sequenz;
w2 ist das zweite Wort vor Wort w; und
w(n – 1) ist das Wort, das n – 1 Positionen vor dem Wort w liegt.
Die Wahrscheinlichkeit einer Wortsequenz wird ebenso basierend auf der Multiplikation der Wahrscheinlichkeit für jedes Wort angesichts seiner Historie ermittelt. Deshalb wird die Wahrscheinlichkeit einer Wortsequenz w ... wm wie folgt dargestellt:
Gleichung 2:
Wenn Sprachmodelle diskutiert werden, ist das Konzept der Perplexität einer Wortsequenz ebenso bekannt. Perplexität ist ein statistisches Maß des Durchschnittsverzweigungsfaktors des Sprachmodells. Mit anderen Worten ist die Perplexität ein statistisches Maß der Durchschnittsanzahl von möglichen Wörtern, die durch das Sprachmodell angesichts des Wortes oder der Wortsequenz von Interesse vorhergesagt würde. Deshalb wird die Perplexität einer Wortsequenz w1 ... wm angesichts ihrer Historie wie folgt dargestellt:
Gleichung 3:
Des Weiteren wird die Perplexität einer Wortsequenz bezüglich eines gegebenen Sprachmodells LM wie folgt dargestellt:
Gleichung 4:
Deshalb ist die Perplexität einer Wortsequenz bei gegebenem Sprachmodell ungefähr gleich der Durchschnittsanzahl an Worten, welche durch dieses Sprachmodell angesichts der Wortsequenz und ihrer Historie vorausgesagt würde. Dieser Wert ändert sich mit der Vorhersagekraft des bestimmten Sprachmodells, das verwendet wird. Die bestimmte Art und Weise, in der das Sprachmodell gebaut ist, und das bestimmte Sprachmodell, das verwendet wird, ist für die vorliegende Erfindung nicht von Bedeutung.
Ein Aspekt der vorliegenden Erfindung wendet das Konzept der Perplexität an, weil es sich auf Sprachmodelle bezieht, um die Genauigkeit des Informationsabrufs, der durch das System 60 ausgeführt wird, zu verbessern. Um dies zu tun, empfängt das System 60 entweder zuerst ein allgemeines Sprachmodell oder erzeugt es, wie es durch Block 100 in 4 angezeigt ist. Das System 60 kann deshalb mit einem Sprachmodellgenerator konfiguriert sein. In diesem Beispiel wird ein großer Textkorpus mit Trainingsdaten vorzugsweise dem Sprachmodellgenerator bereitgestellt, welcher ein allgemeines Sprachmodell basierend auf dem großen Textkorpus in irgendeiner bekannten und geeigneten Weise erzeugt. Die Trainingsdaten sind vorzugsweise die Information oder eine Teilmenge der Information, die in dem allgemeinen Datenspeicher 74 gespeichert ist. Dieses Sprachmodell wird dann in Modul 70 gespeichert. Alternativ kann System 60 jedoch mit einem konventionellen, marktüblichen allgemeinen Sprachmodell, welches einfach in das Modul 70 geladen wird, versehen werden. In einer anderen Alternative erzeugt das System 60 das allgemeine Sprachmodell von einer anderen großen Reihe von Textdaten verschieden von den Daten im allgemeinen Datenspeicher 74. In der bevorzugten Ausführungsform erzeugt das System 60 entweder ein Tri-Gram-Sprachmodell oder wird damit versehen.
Als nächstes empfängt das System 60 entweder ein Themensprachmodell oder erzeugt es, welches relevant ist zu dem Thema, das für den Benutzer von Interesse ist. Das System 60 kann wieder entweder mit einem marktüblichen Themensprachmodell versehen werden oder kann ein Themensprachmodell selbst erzeugen und trainieren.
Um ein Themensprachmodell zu erzeugen stellt der Benutzer vorzugsweise dem System 60 Trainingsdaten bereit, welche zu dem spezifischen Thema, das von Interesse ist, relevant sind. Z.B. kann der Benutzer verschiedene Artikel haben und könnte wünschen, andere ähnliche Artikel aus den Informationen, die in dem allgemeinen Datenspeicher 74 gespeichert sind, abzurufen. Oder der Benutzer kann einfach eine Suchabfrage oder Anfrage an das System stellen. Ein Themensprachmodell wird entweder durch System 60 unter Verwendung der relevanten Artikel erzeugt, oder ein Teil des Textes jener relevanten Artikel wird verwendet, um eine Abfrage gegenüber den im allgemeinen Datenspeicher 74 gespeicherten Informationen zu formulieren, und die Informationen, die basierend auf der Abfrage abgerufen werden, werden verwendet, um das Themensprachmodell in Kombination mit den vom Benutzer gestellten Informationen zu erzeugen. In einer anderen bevorzugten Ausführungsform, wenn die Trainingsdaten, die verwendet werden, um das Themensprachmodell zu erzeugen, spärlich sind, wird das Themensprachmodell unter Verwendung der spärlichen Daten erzeugt und dann mit einem allgemeinen Sprachmodell kombiniert, um das neue Themensprachmodell zu erhalten. Die Kombinationstechnik ist für die vorliegende Erfindung nicht von Bedeutung und kann unter Verwendung einer Glättungstechnik (smoothing technique) bewerkstelligt werden, wie z.B. Interpolation, gelöschte Interpolation (deleted interpolation) oder irgendeine andere geeignete Technik. Der Vorgang des Empfangens oder Erzeugens eines Themensprachmodells wird durch Block 102 in 4 angezeigt.
Nachdem das allgemeine Sprachmodell und das Themensprachmodell durch System 60 erzeugt oder empfangen wurden, übernimmt das System 60 die Aufgabe, ein Gleichheitsmaß zu jedem Dokument (oder Teil eines Dokumentes) in dem allgemeinen Datenspeicher 74 zuzuweisen, welches in dem Informationsabrufvorgang in Betracht gezogen wird. Um dies zu tun, wählt das System 60 zuerst ein Dokument aus dem allgemeinen Datenspeicher 74. Dies ist durch Block 104 angezeigt.
Als nächstes ermittelt das System 60 die Perplexität diese Dokumentes mit Bezug auf das allgemeine Sprachmodell, wie durch Block 106 angezeigt. Dies wird wie folgt dargestellt:
Gleichung 5: Perp(daci/GLM)
Wobei GLM das allgemeine Sprachmodell darstellt; und
doc_i das ausgewählte Dokument darstellt.
Das System 60 ermittelt dann die Perplexität des Dokuments bezüglich des Themensprachmodells, wie durch Block 108 angezeigt. Dies wird wie folgt angzeigt:
Gleichung 6: Perp(daci/TLM)
Wobei TLM das Themensprachmodell darstellt.
System 60 ermittelt dann ein Relevanzmaß für das ausgewählte Dokument basierend auf den Perplexitäten, die in den Blöcken 106 und 108 ermittelt wurden. Das Relevanzmaß wird vorzugsweise in Form eines Verhältnisses der zwei Perplexitäten wie folgt ausgedrückt:
Gleichung 7:
Es wird daran erinnert, dass die Perplexität eines Dokumentes (ebenso einer Sequenz an Worten) angesichts eines bestimmten Sprachmodells repräsentativ ist für ungefähr die Durchschnittsanzahl an Worten, die durch das Sprachmodell angesichts dieses Dokuments vorhergesagt werden könnten. Wenn die Perplexitätszahl relativ hoch ist, haben deshalb die Trainingsdaten, die zum Entwickeln des Sprachmodells verwendet wurden, das Sprachmodell nicht gut genug bezüglich der Begriffe, die in dem Dokument verwendet wurden, trainiert. Deshalb wird das zur Diskussion stehende Dokument dazu neigen, nicht ähnlich zu den Trainingsdaten zu sein, die zum Entwickeln des Sprachmodells verwendet wurden. Wenn jedoch die Perplexität dieses Dokuments gering ist, haben die Trainingsdaten, die zum Entwickeln dieses Sprachmodells verwendet wurden, das Sprachmodell wahrscheinlich gut bezüglich der Begriffe, die in dem Dokument vorkommen, trainiert, und das Dokument wird wahrscheinlich ähnlich zu den Trainingsdaten, die zum Trainieren des Sprachmodells verwendet wurden, sein.
Deshalb kann ein Ähnlichkeitsmaß unter Verwendung von nur dem Themensprachmodell zurückgegeben werden. In einer bevorzugten Ausführungsform werden jedoch sowohl das Themensprachmodell als auch das allgemeine Sprachmodell verwendet. Der Grund dafür ist, dass manche Sprachkonstrukte in einem Dokument mehr oder weniger wahrscheinlich auftreten können, egal, ob das zur Diskussion stehende Dokument relevant ist. Es ist wünschenswert, dass das Informationsabrufsystem nicht jene ähnlichen Dokumente diskriminiert, obwohl das unbearbeitete Relevanzergebnis, das durch das Anwenden der Perplexität des Themensprachmodells erhalten wurde, ziemlich hoch ist. Wenn dies der Fall ist, und die Sprachkonstrukte, die in dem Dokument verwendet werden, das von Interesse ist, ziemlich unwahrscheinlich sind, dann wird der Perplexitätswert, der bezüglich dem allgemeinen Sprachmodell zurückgegeben wird, ebenso hoch sein. Durch Verwendung des Verhältnisses der Perplexitäten, die für das allgemeine Sprachmodell und das Themensprachmodell ermittelt wurden, gibt das System notwendigerweise eine Zahl zurück, die gegenüber einer Grundlinie (dem allgemeinen Sprachmodell) ermittelt wurde und ist deshalb aussagekräftiger als die unbearbeitete Zahl, die einfach durch das Bereitstellen der Perplexität des Dokuments bezüglich dem Themensprachmodell zurückgegeben werden würde. Deshalb wird geglaubt, dass das Bereitstellen des Relevanzmaßes als ein Verhältnis der zwei Perplexitäten zu einem genaueren Relevanzmaß führt.
Gleichermaßen, wenn die Sprachkonstrukte, die in dem Dokument verwendet werden, das von Interesse ist, recht gebräuchlich sind, ungeachtet des Themas, das von Interesse ist, wird dann der Perplexitätswert, der durch das Themensprachmodell zurückgegeben wird, relativ gering sein, obwohl das Dokument nicht besonders relevant sein kann. Jedoch wird der Perplexitätswert, der durch das allgemeine Sprachmodell zurückgegeben wird, wahrscheinlich auch recht gering sein. Deshalb wird geglaubt, dass durch das Bereitstellen des Relevanzmaßes als ein Verhältnis der zwei Perplexitäten die Informationsabruftechnik mehr relevante Dokumente abrufen wird.
Der Schritt des Ermittelns einer Relevanz des ausgewählten Dokuments basierend auf den Perplexitäten ist durch Block 110 angezeigt. Ein Ausdruck des Relevanzfaktors kann als ein Verhältnis der zwei Perplexitäten wie folgt erweitert werden kann:
Gleichung 8:
Wobei P_T = die Wahrscheinlichkeit einer Wortsequenz angesichts ihrer Historie bezüglich des Themensprachmodells; und
P_G = die Wahrscheinlichkeit einer Wortsequenz angesichts ihrer Historie bezüglich dem allgemeinen Sprachmodell.
Sobald das Relevanzmaß ermittelt worden ist, ermittelt das System 60, ob das Relevanzmaß einen Relevanzschwellenwert trifft. Der Relevanzschwellenwert kann vorbestimmt sein, durch den Benutzer eingegeben sein oder basierend auf der Anzahl der Dokumente, die durch das System 60 abgerufen wurden oder basierend auf einem anderen Kriterium angepasst sein. Das System 60 ermittelt lediglich, ob das Dokument ein groß genuges Relevanzmaß hat, so dass es dem Benutzer bereitgestellt werden kann. Dies ist durch Block 112 angezeigt.
Wenn das Dokument den Relevanzschwellenwert nicht trifft, wird es dem Benutzer nicht bereitgestellt und das Verfahren fährt mit Bezug auf Block 116 fort. Wenn das Dokument jedoch den Relevanzschwellenwert trifft, wird es abgerufen und entweder in dem Themendatenspeicher 72 gespeichert oder dem Benutzer beim Ausgabegerät 76 bereitgestellt. Dies wird durch Block 114 angezeigt.
System 60 ermittelt dann, ob es zusätzliche Dokumente in dem allgemeinen Datenspeicher 74 untersuchen muss. Wenn dem so ist, kehrt der Vorgang zu Block 104 zurück, wo ein anderes Dokument ausgewählt und die Relevanz des Dokuments ermittelt wird. Wenn keine weiteren Dokumente mehr untersucht werden müssen, fährt der Vorgang mit Bezug auf den optionalen Block 118 fort. Dies ist durch Block 116 angezeigt.
Sobald alle Dokumente (oder eine Teilmenge der Dokumente) untersucht worden sind, kann das System 60 entweder die Dokumente dem Benutzer einfach bereitstellen, die Dokumente speichern oder die Dokumente gemäß der Relevanz ordnen. In der Ausführungsform, in der die Dokumente gemäß der Relevanz geordnet werden, ordnet das System 60 die Dokumente einfach gemäß dem Relevanzmaß, das für jedes Dokument ermittelt wurde. Das System 60 kann dann entweder die Dokumente gemäß der Relevanz geordnet dem Benutzer bereitstellen oder kann einfach eine Teilmenge der Dokumente, die basierend auf der Ordnung (ranking) abgerufen wurden, bereitstellen. Dies ist durch Block 118 angezeigt.
Beim Verwenden dieser Technik kann gesehen werden, dass das allgemeine Sprachmodell nur einmal basierend auf den Informationen, die in dem allgemeinen Datenspeicher 74 gespeichert sind, oder einige repräsentative Proben dieser Informationen, erzeugt werden muss. Alternativ kann das allgemeine Sprachmodell intermittierend aktualisiert werden, während sich die Inhalte der Information im allgemeinen Datenspeicher 74 ändern. Das Themensprachmodell wird vorzugsweise einmalig für jede vom Benutzer bereitgestellte Abfrage erzeugt.
Ergebnis
Ein Aspekt der vorliegenden Erfindung stellt eine Technik bereit, welche Informationsabruf verwendet, um ein Sprachmodell oder -modelle, das/die während Spracherkennung verwendet werden, zu verbessern und anzupassen. Das System verwendet die bekannte Historie von Text, der bereits durch den Benutzer generiert wurde, um das Sprachmodell direkt zu entwickeln und anzupassen, aber richtet ebenso eine themenspezifische Abfrage gegenüber dem allgemeinen Datenspeicher, um ähnliche Dokumente zu finden, um die Trainingsdaten, die zum Erzeugen oder Anpassen des Sprachmodells verwendet werden, zu erweitern. Dies stellt ein viel genaueres Sprachmodell bereit, als breite, vorgefasste, themenabhängige Sprachmodelle, die in der Vergangenheit verwendet wurden. Die Abfrage gegenüber dem großen Datenspeicher wird vorzugsweise auch periodisch oder intermittierend wiederholt, um ein dynamisch angepasstes Sprachmodell mit zunehmender Genauigkeit zu erhalten.
Ein anderer Aspekt der vorliegenden Erfindung verwendet Sprachmodelle, um Informationsabruftechniken zu verbessern. Das System erhält vorzugsweise ein allgemeines Sprachmodell und ein Themensprachmodell (entweder unter Verwendung der oben beschriebenen Technik oder einer anderen bekannten Technik). Das System berechnet dann ein Relevanzmaß der durchsuchten Dokumente basierend auf Perplexitätswerten, die durch die erhaltenen Sprachmodelle zurückgegeben werden. Weil Sprachmodelle kontextabhängige Modelle sind, erlaubt dies dem System nicht nur die Wörter selbst zu berücksichtigen, sondern auch den Kontext, in dem die Wörter auftreten, um die Relevanz der Dokumente zu ermitteln. Dies verbessert sowohl den Abruf als auch die Genauigkeit der Informationsabruftechnik, resultiert in einer besseren Schätzung der Wahrscheinlichkeit (likelihood or probability), das relevante Informationen in dem zu durchsuchenden Dokument auftreten und resultiert deshalb in einer besseren Leistung des Informationsabrufsystems.
Obwohl die vorliegende Erfindung mit Bezug auf bevorzugte Ausführungsformen beschrieben worden ist, werden Fachleute erkennen, dass Änderungen an Form und Detail gemacht werden können, ohne von dem Umfang der Erfindung abzuweichen, der durch die anhängigen Ansprüche definiert ist.

Claims

Verfahren zum Abrufen von Informationen aus einem zweiten Datenspeicher, welche relevant sind zu Informationen, die in einem ersten Datenspeicher gespeichert sind, wobei der zweite Datenspeicher grösser ist als der erste Datenspeicher, wobei das Verfahren folgendes umfasst: Bereitstellen eines ersten Sprachmodells basierend auf Informationen, die in dem ersten Datenspeicher gespeichert sind; Bereitstellen eines zweiten Sprachmodells; Ermitteln einer ersten Perplexität eines Dokuments in dem zweiten Datenspeicher angesichts des ersten Sprachmodells; Ermitteln einer zweiten Perplexität des Dokuments angesichts des zweiten Sprachmodells; Ermitteln eines Relevanzmaßes des Dokuments basierend auf der ersten und zweiten Perplexität; und Wahlweise Abrufen des Dokuments basierend auf dem Relevanzmaß.
Verfahren nach Anspruch 1 und des Weiteren umfassend: Wiederholen der Schritte des Ermittelns einer ersten Perplexität, des Ermittelns einer zweiten Perplexität und des Ermittelns eines Relevanzmaßes für eine Vielzahl von Dokumenten in dem zweiten Datenspeicher; und Abrufen relevanter Dokumente aus der Vielzahl von Dokumenten, die ein Relevanzmaß haben, das einen Schwellenwert erreicht.
Verfahren nach Anspruch 1, wobei das Bereitstellen eines zweiten Sprachmodells umfasst: Bereitstellen des zweiten Sprachmodells basierend auf Informationen, die in dem zweiten Datenspeicher gespeichert sind.
Verfahren nach Anspruch 1, wobei das Ermitteln eines Relevanzmaßes umfasst: Ermitteln eines Verhältnisses der ersten und zweiten Perplexität relativ zu einander; und Ermitteln des Relevanzmaßes basierend auf dem Verhältnis.
Verfahren nach Anspruch 2, wobei das Abrufen relevanter Dokumente umfasst: Einordnen der Dokumente in eine Reihenfolge gemäß dem Relevanzmaß, das für jedes Dokument ermittelt wurde.
Verfahren nach Anspruch 1, wobei das erste Sprachmodell ein erstes Kontextabhängiges Sprachmodell basierend auf Informationen in dem ersten Datenspeicher ist, und wobei das zweite Sprachmodell ein zweites Kontext-abhängiges Sprachmodell basierend auf Informationen in dem zweiten Datenspeicher ist; wobei das Verfahren umfasst: Ermitteln einer Relevanz eines Dokuments in dem zweiten Datenspeicher basierend auf einer Voraussagefähigkeit des ersten Sprachmodells angesichts des Dokuments und basierend auf einer Voraussagefähigkeit des zweiten Sprachmodells angesichts des Dokuments; und Abrufen des Dokuments, wenn die Relevanz einen Relevanz-Schwellenwerk erreicht.
Verfahren nach Anspruch 6, wobei das Ermitteln einer Relevanz des Dokuments basierend auf einer Voraussagefähigkeit des ersten und zweiten Sprachmodells umfasst: Ermitteln der Relevanz basierend auf einem Verzweigungsfaktor des ersten Sprachmodells angesichts des Dokuments und basierend auf einem Verzweigungsfaktor des zweiten Sprachmodells angesichts des Dokuments.
Verfahren nach Anspruch 6 und des Weiteren umfassend: Wiederholen der Schritte des Ermittelns einer Relevanz für eine Vielzahl von Dokumenten in dem zweiten Datenspeicher; Vergleichen der ermittelten Relevanz mit dem Relevanz-Schwellenwert; und Abrufen der Dokumente, die eine Relevanz haben, die den Relevanz-Schwellenwert erreicht.
Verfahren nach Anspruch 8 und des Weiteren umfassend: Anpassen des Relevanz-Schwellenwerts basierend auf einer Anzahl von Dokumenten, die den Relevanz-Schwellenwert erreichen.
Verfahren nach Anspruch 6, wobei das Bereitstellen des ersten Sprachmodells umfasst: Abfragen des zweiten Datenspeichers basierend auf Informationen in dem ersten Datenspeicher; und Erstellen des ersten Sprachmodells basierend auf Informationen in dem ersten Datenspeicher und basierend auf Informationen aus dem zweiten Datenspeicher, die basierend auf der Abfrage erhalten wurden.
Verfahren nach Anspruch 6, wobei das Bereitstellen des ersten Sprachmodells umfasst: Erstellen eines vorläufigen Sprachmodells basierend auf Informationen aus dem ersten Datenspeicher; und Verbinden des vorläufigen Sprachmodells mit dem zweiten Sprachmodell, um das erste Sprachmodell zu erhalten.
Verfahren nach Anspruch 6, wobei das Bereitstellen des zweiten Sprachmodells umfasst: Erstellen des zweiten Sprachmodells basierend auf einer Teilmenge aller Informationen, die in dem zweiten Datenspeicher gespeichert sind.
Verfahren nach Anspruch 1, wobei das Ermitteln des Relevanzmaßes das Ermitteln des Relevanzmaßes des Dokuments basierend auf der ersten Perplexität umfasst; wobei das Verfahren umfasst: Wiederholen der Schritte des Ermittelns einer ersten Perplexität und des Ermittelns eines Relevanzmaßes für eine Vielzahl von Dokumenten in dem zweiten Datenspeicher; und Abrufen relevanter Dokumente aus der Vielzahl von Dokumenten, die ein Relevanzmaß haben, das einen Schwellenwert erreicht.
Verfahren nach Anspruch 13, wobei das Bereitstellen des zweiten Sprachmodells das Bereitstellen des zweiten Sprachmodells basierend auf Informationen, die in dem zweiten Datenspeicher gespeichert sind, umfasst; und wobei das Wiederholen das Wiederholen der Schritte des Ermittelns einer ersten Perplexität, des Ermittelns einer zweiten Perplexität und des Ermittelns eines Relevanzmaßes für eine Vielzahl von Dokumenten in dem zweiten Datenspeicher umfasst.
Verfahren nach Anspruch 1 zum Anpassen des ersten Sprachmodells, das in einem Spracherkennungssystem verwendet wird, das Zugriff auf den ersten Datenspeicher und den zweiten Datenspeicher hat, wobei das Verfahren umfasst: Formulieren einer Informationssuchabfrage basierend auf Informationen, die in dem ersten Datenspeicher enthalten sind; Abfragen des zweiten Datenspeichers basierend auf der formulierten Abfrage; Abrufen von Informationen aus dem zweiten Datenspeicher basierend auf der Abfrage; und Anpassen des ersten Sprachmodells basierend auf den abgefragten Informationen und den Informationen in dem ersten Datenspeicher.
Verfahren nach Anspruch 15 und des Weiteren umfassend: Wiederholen der Schritte des Formulierens, Abfragens, Abrufens und Anpassens, während ein Benutzer das Spracherkennungssystem verwendet.
Verfahren nach Anspruch 16, wobei die Schritte des Formulierens, Abfragens, Abrufens und Anpassens periodisch ausgeführt werden, während ein Benutzer das Spracherkennungssystem verwendet.
Verfahren nach Anspruch 15, wobei das Formulieren einer Informationssuchabfrage umfasst: Formulieren einer Informationssuchabfrage basierend auf Dokumenten, die vorher von dem Benutzer erzeugt wurden und in dem ersten Datenspeicher gespeichert wurden.
Verfahren nach Anspruch 15, wobei das Formulieren einer Informationssuchabfrage umfasst: Formulieren einer Informationssuchabfrage basierend auf Informationen, die in einem Dokument enthalten sind, das dann von dem Benutzer vorbereitet wird.
Verfahren nach Anspruch 15, wobei das Formulieren einer Informationssuchabfrage umfasst: Formulieren einer Informationssuchabfrage basierend auf Informationen, die in Bezug auf einen Typ von Dokument stehen, das dann von dem Benutzer vorbereitet wird.
Verfahren nach Anspruch 20, wobei das Formulieren einer Informationssuchabfrage umfasst: Formulieren einer Informationssuchabfrage basierend auf einer Vorlage, die dann von dem Benutzer verwendet wird, um das Dokument vorzubereiten.
Verfahren nach Anspruch 20, wobei das Formulieren einer Informationssuchabfrage umfasst: Formulieren einer Informationssuchabfrage basierend auf einem Anwendungsprogramm, das dann von dem Benutzer verwendet wird, um das Dokument vorzubereiten.
Verfahren nach Anspruch 20, wobei das Formulieren einer Informationssuchabfrage umfasst: Formulieren einer Informationssuchabfrage basierend auf einer Tageszeit, während der der Benutzer das Dokument vorbereitet.
Verfahren nach Anspruch 15, wobei das Abrufen von Informationen umfasst: Abrufen einer Vielzahl von Dokumenten von dem zweiten Datenspeicher; und Ermitteln eines Relevanzmaßes zugehörig zu jedem abgefragten Dokument.
Verfahren nach Anspruch 24, wobei das Anpassen des ersten Sprachmodells umfasst: Anpassen des ersten Sprachmodells basierend auf relevanten abgerufenen Dokumenten, die ein Relevanzmaß haben, das einen Schwellenwert erreicht.
Verfahren nach Anspruch 25, wobei das Anpassen des ersten Sprachmodells umfasst: Zuweisen einer Gewichtung zu jedem relevanten Dokument; und Anpassen des ersten Sprachmodells basierend auf den relevanten Dokumenten gemäß der Gewichtung, die jedem relevanten Dokument zugewiesen wurde.
Verfahren nach Anspruch 15, wobei das Abrufen von Informationen aus dem zweiten Datenspeicher das Abrufen einer Vielzahl von Dokumenten von dem zweiten Datenspeicher umfasst, und des Weiteren umfasst: geringer Gewichten der vom zweiten Datenspeicher abgerufenen Dokumente als die Informationen in dem ersten Datenspeicher; und wobei das Anpassen des ersten Sprachmodells das Anpassen des ersten Sprachmodells basierend auf Informationen in dem ersten Datenspeicher und den abgerufenen Dokumenten umfasst, wie sie gegen die Informationen in dem ersten Datenspeicher gewichtet wurden.
Verfahren nach Anspruch 15, wobei das erste Sprachmodell Wahrscheinlichkeitsschätzwerte von Wortsequenzen enthält, und wobei das Anpassen des ersten Sprachmodells umfasst: Abstimmen der Wahrscheinlichkeitsschätzwerte basierend auf Informationen in dem ersten Datenspeicher und den abgerufenen Informationen aus dem zweiten Datenspeicher.
Verfahren nach Anspruch 26, wobei das Zuweisen einer Gewichtung zu den abgerufenen Dokumenten von dem zweiten Datenspeicher umfasst: Zuweisen einer erhöhten Gewichtung zu den von dem zweiten Datenspeicher abgerufenen Dokumenten, solange die Anzahl der Male zunimmt, wo der zweite Datenspeicher abgefragt wird, zumindest bis die erhöhte Gewichtung einen Schwellenwert erreicht.
Verfahren nach Anspruch 15, wobei das Abfragen des zweiten Datenspeichers umfasst: Abfragen von Informationen durch ein globales Computer-Netzwerk.
Verfahren nach Anspruch 15, wobei das Anpassen umfasst: Erstellen des ersten Sprachmodells basierend auf den Informationen, die durch eine erste Abfrage abgerufen wurden, und auf Informationen aus dem ersten Datenspeicher.
Verfahren nach Anspruch 31, wobei das Anpassen des Weiteren umfasst: Erstellen des zweiten Sprachmodells basierend auf den Informationen, die durch eine nachfolgende Abfrage abgerufen wurden, und Kombinieren des ersten und des zweiten Sprachmodells.
Verfahren nach Anspruch 15 zur Spracherkennung, wobei das Verfahren umfasst: Bereitstellen des ersten Datenspeichers; Bereitstellen des zweiten Datenspeichers; Bereitstellen des ersten Sprachmodells.
Verfahren nach Anspruch 33 und des Weiteren umfassend: Periodisch wiederholen der Schritte des Formulierens, Abfragens, Abrufens und Anpassens, während ein Benutzer das Spracherkennungssystem verwendet.
Verfahren nach Anspruch 34, wobei das Wiederholen umfasst: Periodisch wiederholen der Schritte basierend auf der Zeit.
Verfahren nach Anspruch 34, wobei das Wiederholen umfasst: Wiederholen der Schritte, während der Benutzer ein Dokument unter Verwendung des Spracherkennungssystems vorbereitet, nachdem eine vorher festgelegte Anzahl von Wörtern während der Vorbereitung des Dokuments erkannt worden sind.