DE69932044T2 - Auf sprachmodellen basierte informationsgewinnung und spracherkennung - Google Patents

Auf sprachmodellen basierte informationsgewinnung und spracherkennung Download PDF

Info

Publication number
DE69932044T2
DE69932044T2 DE69932044T DE69932044T DE69932044T2 DE 69932044 T2 DE69932044 T2 DE 69932044T2 DE 69932044 T DE69932044 T DE 69932044T DE 69932044 T DE69932044 T DE 69932044T DE 69932044 T2 DE69932044 T2 DE 69932044T2
Authority
DE
Germany
Prior art keywords
language model
data store
information
documents
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69932044T
Other languages
English (en)
Other versions
DE69932044D1 (de
Inventor
V. Milind Redmond MAHAJAN
D. Xuedong Woodinville HUANG
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of DE69932044D1 publication Critical patent/DE69932044D1/de
Application granted granted Critical
Publication of DE69932044T2 publication Critical patent/DE69932044T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

  • Hintergrund der Erfindung
  • Die vorliegende Erfindung befasst sich mit Spracherkennung und dem Abrufen von Information. Genauer gesagt, befasst sich die vorliegende Erfindung mit einem Spracherkennungssystem, welches Informationsabruftechniken einsetzt, um ein Sprachmodell anzupassen, und eine Informationsabruftechnik, welche Spracherkennungs-Sprachmodelle zum Abrufen relevanter Dokumente einsetzt.
  • Im Allgemeinen ist das Abrufen von Information ein Prozess, durch den ein Benutzer Information, die für den Benutzer relevant ist, aus einem großen Informationsspeicher findet und abruft. Beim Durchführen eines Informationsabrufs ist es wichtig, alle Informationen abzurufen, die ein Benutzer benötigt (d.h., es ist wichtig vollständig zu sein), und es ist gleichzeitig wichtig, die irrelevante Information, die für den Benutzer abgerufen wird, zu begrenzen (d.h., es ist wichtig auswählend zu sein). Diese Dimensionen werden oft mit den Begriffen Abruf (Vollständigkeit) und Genauigkeit (Selektivität) bezeichnet (recall completness bzw. precision selectivity). In vielen Informationsabrufsystemen ist es notwendig eine gute Leistung sowohl in der Abruf- und Genauigkeitsdimension zu erzielen.
  • In manchen aktuellen Abrufsystemen ist die Menge an Information, die abgefragt und gesucht werden kann, sehr groß. Z.B. sind manche Informationsabrufsysteme aufgebaut, um Information im Internet, auf Digital Video Discs und anderen Computerdatenbanken im Allgemeinen zu suchen. Diese Informationsabrufsysteme sind üblicherweise als, z.B., Internetsuchmaschinen und Bibliothekskatalogsuchmaschinen verkörpert.
  • Viele Informationsabruftechniken sind bekannt. In solchen Techniken ist eine benutzereingegebene Abfrage üblicherweise entweder als eine explizite benutzererzeugte Abfrage oder als eine implizite Abfrage dargestellt, wie z.B., wenn ein Benutzer Dokumente oder Information abfragt, welche einer bestimmten Reihe von bestehenden Dokumenten ähnlich ist. Typische Informationsabfragesysteme suchen dann Dokumente in dem großen Datenspeicher entweder auf einem Einzelwortlevel oder auf einem Begriffslevel. Jedem der Dokumente ist eine Relevanz- (oder Ähnlichkeits-) Punktzahl zugewiesen, und das Informationsabrufsystem präsentiert dem Benutzer eine bestimmte Teilmenge der gesuchten Dokumente, üblicherweise die Teilmenge, die eine Relevanzpunktzahl hat, die einen gegebenen Schwellenwert übersteigt.
  • Manche zurzeit bekannte Informationsabfragetechniken oder -verfahren schließen ein Volltextscannen, die Verwendung von Signaturdateien, Inversion, Vektormodellierung und – clusterung und tf*idf (term frequency * inverse document frequency) ein. Beim Volltextscannen werden Boolean Funktionen in einer Abfrage verwendet, um zu ermitteln, ob ein zu durchsuchendes Dokument bestimmte Zeichenfolgen enthält. Es ist in solchen Scantechniken üblich, jedes Zeichen eines Dokuments zu durchsuchen, um zu sehen, ob es der Suchzeichenfolge (d.h. der Abfrage) genügt, und dann die Suche eine Position nach rechts zu bewegen, wenn ein Unterschied gefunden wurde. Dieses System ist angepasst worden, um andere Wege der Vorverarbeitung der Abfrage zu verwenden, wie z.B. das Bewegen um mehr als eine Position nach rechts, wenn ein Unterschied gefunden wurde.
  • Die Verwendung von Signaturdateien bezieht das Streichen von gebräuchlichen Wörtern aus dem zu durchsuchenden Dokument und das Reduzieren der nicht-gebräuchlichen Wörter zu Stämmen (Stems) ein. Jedes zu durchsuchende Dokument liefert eine Bitzeichenfolge (d.h., eine Signatur). Die Signaturen für verschiedene Dokumente werden der Reihe nach in einer Datei getrennt von den Dokumenten selbst gespeichert.
  • Inversionstechniken beziehen das Aufbauen einer Liste mit Schlüsselwörtern ein, um jedes Dokument zu repräsentieren. Die Schlüsselwörter werden in einer Indexdatei gespeichert. Für jedes Schlüsselwort wird eine Liste mit Pointern geführt, welche qualifizierende Dokumente aufdeckt. Die Abfrage wird dann gegenüber dem Index beschleunigt, und die Pointer werden verwendet, um die relevanten und qualifizierenden Dokumente zu identifizieren.
  • Vektormodellierung und -clusterung bezieht das Gruppieren von ähnlichen Dokumenten in Gruppen ein, die als Cluster bezeichnet werden (diese Technik kann ebenso auf Begriffe anstatt auf Dokumente angewandt werden). Um ein Cluster zu erzeugen, wird ein Index durch das Entfernen von gebräuchlichen Wörtern und das Reduzieren des Restes der Wör ter zu Stämmen (Stems) gebildet (was Präfix- und Suffixentfernung einschließt). Synonyme werden auch üblich in einer Konzeptklasse platziert, die ihre Begriffe durch Häufigkeit, Spezifität, Relevanz, etc. gewichtet hat. Der Index wird verwendet, um die Dokumente als einen Punkt in einem t-dimensionalen Raum darzustellen. Die Punkte werden dann in Gruppen mit einer Ähnlichkeitsmatrix eingeteilt, welche üblicherweise durch einen iterativen Prozess entwickelt wird. Um das Cluster zu durchsuchen, wird eine Abfrage als ein t-dimensionaler Vektor dargestellt und wird mit den Clusterschwerpunkten verglichen. Eine Cluster-zu-Abfrage-Ähnlichkeitsfunktion wird erzeugt und wird verwendet, um relevante Dokumente herauszuziehen. Die Dokumente, die herausgezogen (oder abgerufen) wurden, sind üblicherweise jene mit einem Ähnlichkeitswert, der einen vorbestimmten Schwellenwert überschreitet.
  • Semantische Informationen werden in manchen Informationsabruftechniken verwendet, um mehr Information über jedes Dokument in dem Informationsspeicher einzufangen, um eine bessere Leistung zu erzielen. In einem solchen System wird die Verarbeitung natürlicher Sprache verwendet, um den semantischen Inhalt der Abfragen mit dem der zu durchsuchenden Dokumente anzupassen. Sätze oder Ausdrücke werden als Begriffe zum Indizieren der zu durchsuchenden Dokumente verwendet. Latent semantisches Indizieren bezieht das Bilden einer Begriff/Dokumentmatrix ein, in der die Anzahl der Vorkommnisse des Begriffs in einem bestimmten Dokument auf der Matrix eingetragen ist. Kleine einmalige Werte werden üblicherweise eliminiert und die restlichen Begriff-Häufigkeits-Vektoren werden aufgezeichnet. Abfragen werden ebenso aus Begriffs-Häufigkeits-Vektoren gebildet und werden gegenüber der Matrix, welche die Begriffs-Häufigkeits-Vektoren für die Dokumente enthält, abgebildet (mapped). Die Dokumente werden durch die Verwendung der normalisierten Linearprodukte klassifiziert, um ein Kosinus-Ähnlichkeits-Maß zu erhalten.
  • Ein anderer Typ von Informationsabruftechnik, welcher semantische Informationen verwendet, ist ein neurales Netzwerk. Im Wesentlichen wird ein Thesaurus aufgebaut und ein Knoten in einem versteckten Layer wird erzeugt, um jedem Konzept in dem Thesaurus zu entsprechen. Spreading Activation Methods werden dann verwendet, um Suchen auszuführen.
  • Term frequency * inverse document frequency (tf*idf) ist eine andere Technik, die verwendet wird, um die Relevanz von Dokumenten zu ermitteln. Zuerst wird ein Begriff, der in einer Abfrage verwendet wird, gegenüber dem Dokument abgewogen, um die Häufigkeit dieses Begriffs in dem Dokument zu ermitteln. Es wird geglaubt, dass der Grad, zu dem das Dokument und der Begriff in Beziehung stehen, ansteigt, wenn die Häufigkeit des Begriffs in dem Dokument ansteigt. Es wird ebenso geglaubt, dass der Nutzen eines Begriffs zum Unterscheiden zwischen den Dokumenten abnimmt, wenn die Anzahl der Dokumente, in denen dieser Begriff auftaucht, zunimmt. Die Häufigkeit des bestimmten Begriffs wird deshalb auch gegen den gesamten Datenspeicher bemessen, um das Häufigkeitslevel dieses Begriffs in allen Dokumenten zu ermitteln. Diese zwei Maße werden zur Ermittlung der Relevanz irgendeines gegebenen zu durchsuchenden Dokuments in dem Datenspeicher verwendet.
  • Weil die Datenbanken, welche zum Suchen zugreifbar sind, immer zahlreicher werden, und weil jene Datenbanken größer werden, werden die Probleme zugehörig zum Abrufen von Information ebenso größer. Mit anderen Worten ist es oft schwieriger eine akzeptable Leistung über die Abruf- und Genauigkeitsdimensionen mit größeren und zahlreicheren zu durchsuchenden Datenbanken zu erhalten.
  • Spracherkennungssysteme verwenden eine Kombination aus der akustischen und linguistischen (oder Sprach-) Information, die in einer Äußerung enthalten ist, um eine Abschrift der Bedeutung der Äußerung zu erzeugen. Die Sprachinformation, die durch einen Erkenner in einem Spracherkennungssystem verwendet wird, wird insgesamt als Sprachmodell bezeichnet.
  • Viele aktuelle Spracherkennungssysteme verwenden Sprachmodelle, welche statistischer Natur sind. Solche Sprachmodelle werden üblicherweise unter Verwendung bekannter Techniken, die auf einer großen Menge von Texttrainingsdaten basieren, die einem Sprachmodellgenerator präsentiert werden, erzeugt. Ein N-Gram-Sprachmodell kann z.B. bekannte statistische Techniken verwenden, wie z.B. Katz's Technik oder die Binomial-Posterior-Distribution-Backoff-Technik. Beim Verwenden dieser Techniken schätzen die Sprachmodelle die Wahrscheinlichkeit, dass ein Wort w(n) einer Sequenz von Worten w1, w2, ... w(n – 1) folgen wird. Diese Wahrscheinlichkeitswerte bilden zusammen das N-Gram-Sprachmodell.
  • Es gibt viele bekannte Verfahren, die verwendet werden können, um diese Wahrscheinlichkeitswerte von einem großen Textkörper zu schätzen, welcher dem Sprachmodellgenerator präsentiert wird, und das genaue Verfahren, durch welches dies getan wurde, ist für die vorliegende Erfindung nicht wichtig. Es reicht aus zu erwähnen, dass das Sprachmodell eine wichtige Rolle bei der Verbesserung der Genauigkeit und der Geschwindigkeit des Erkennungsprozess dadurch spielt, dass es dem Erkenner erlaubt ist, Information über die Wahrscheinlichkeit, Zuverlässigkeit oder Wichtigkeit von Wortsequenzen in der Sprache zu verwenden. Zusätzlich führen Sprachmodelle, die mehr Information über die Sprache einfangen, zu schnelleren und genaueren Spracherkennungssystemen.
  • Üblicherweise wird der große Trainingstextkorpus, der zum Trainieren des Sprachmodells verwendet wird, speziell erarbeitet und dem Sprachmodellgenerator für diesen bestimmten Zweck präsentiert. Deshalb werden Sprachmodelle üblicherweise für bestimmte breite Nutzungsklassen erzeugt. Manche Nutzungsklassen können die allgemeine englische Sprache, Bürokorrespondenz, Sport, etc. sein. Die Interessen eines bestimmten Benutzers, und deshalb auch die Sprache, die von dem bestimmten Benutzer verwendet wird, können jedoch typischerweise weit spezifischer sein, als diese breiten Sprachmodellkategorien. Deshalb können die Wahrscheinlichkeitsschätzungen, die durch ein Sprachmodell erzeugt wurden, die tatsächliche vom Benutzer verwendete Sprache nicht genau modellieren. Weil die Vielfalt an Interessen zwischen Benutzern nahezu unbegrenzt ist, ist es des Weiteren sehr schwierig, hoch spezialisierte Sprachmodelle für jeden Benutzer zu erzeugen.
  • Manche frühere Systeme haben versucht dieses Problem durch das Anpassen des Sprachmodells während der Verwendung zu behandeln. Während der Anpassung werden die Wahrscheinlichkeitsschätzungen, die der Wortsequenz durch das Sprachmodell zugewiesen wurden, angepasst, um die tatsächliche Sprache des Benutzers genauer zu reflektieren. Die textlichen Daten, die für die Anpassung verwendet werden, sind benutzerspezifisch. Diese Textdaten können z.B. aus Text, der von dem Benutzer diktiert worden ist, oder aus Text in Dokumenten, die von dem Benutzer erzeugt, gelesen oder gespeichert wurden, bestehen. Damit ein Sprachmodell genau angepasst wird, muss es jedoch mit einer großen Menge von Daten gefüttert werden. Die verfügbaren benutzerspezifischen Daten sind typischerweise zu spärlich, um das Sprachmodell schnell anzupassen oder ein bedeutungsvolles benutzerspezifisches Sprachmodell zu erzeugen.
  • WO 98/34180, veröffentlicht am 06. August 1998, bezieht sich auf das Abrufen von Informationen, und im Speziellen auf einen Internetinformationsagenten, der Kandidatendokumente auf Unterschiedlichkeit mit einem Referenzkorpus, der durch einen Benutzer des Agenten identifiziert wird, analysiert. Der Agent führt eine Informationsabrufaktivierung durch einen Benutzer einer Suchanfrage durch, die bekannt ist als „Abfrage nach Beispiel" oder „Finde mir ein anderes wie dieses". Der Benutzer des Agenten gibt die URL eines Referenzdokumentes ein und startet den Agenten, der mit dem Abrufen des Referenzdokuments beginnt. Des Weiteren startet der Agent mit dem Kandidatdokument, das durch die URL identifiziert wird, die in der Suchanweisung enthalten ist, die solche Details abdeckt, wie: die Start-URL für die Suche, die Anzahl der zu durchsuchenden Levels, die Suchgrenzen und die auszuschließenden Verzeichnisse. Zusätzlich erstellt der Agent ein Back-Off-Trigram-Sprachmodell (language model – LM) des Referenzdokuments aus der Unterliste der Wort-Level-N-Grams (die Häufigkeitsbegriffe) und speichert das LM.
  • Kurzfassung der Erfindung
  • Es ist die Aufgabe der Erfindung, eine Verbesserung an einem System zum Informationsabruf bereitzustellen.
  • Diese Aufgabe wird durch die Erfindung, wie in den unabhängigen Ansprüchen beansprucht gelöst.
  • Bevorzugte Ausführungsformen sind in den abhängigen Ansprüchen definiert.
  • Ein Sprachmodell wird in einem Spracherkennungssystem verwendet, das Zugriff auf einen ersten, kleineren Datenspeicher und einen zweiten, größeren Datenspeicher hat. Das Sprachmodell wird angepasst durch das Formulieren einer Informationsabrufabfrage basierend auf Informationen, die in dem ersten Datenspeicher enthalten sind, und durch das Abfragen des zweiten Datenspeichers. Information, die von dem zweiten Datenspeicher abgerufen wurde, wird beim Anpassen oder Erstellen des Sprachmodells verwendet.
  • In einer bevorzugten Ausführungsform wird geglaubt, dass der erste Speicher, der üblicherweise kleiner ist, repräsentativer ist für die Sprache, die tatsächlich von dem Benutzer des Spracherkennungssystems verwendet wird. Es ist sehr wahrscheinlich, dass der zweite Speicher, der üblicherweise größer ist, in Form eines Prozentsatzes weniger repräsentativ ist für die Sprache des Benutzers.
  • Sprachmodelle werden auch zum Abrufen von Information von dem zweiten Datenspeicher verwendet. Sprachmodelle werden basierend auf Informationen in dem ersten Datenspeicher und basierend auf Informationen in dem zweiten Datenspeicher gebildet. Die Perplexität eines Dokuments in dem zweiten Datenspeicher wird angesichts des ersten Sprachmodells und angesichts des zweiten Sprachmodells ermittelt. Die Relevanz des Dokumentes wird basierend auf den ersten und zweiten Perplexitäten ermittelt. Es werden Dokumente abgerufen, die ein Relevanzmaß haben, das ein Schwellenwertlevel übersteigt.
  • In einer Ausführungsform stellt der erste Datenspeicher die Abfrage oder Anfrage durch den Benutzer dar und der zweite Datenspeicher stellt die zu durchsuchende Bibliothek dar.
  • Kurze Beschreibung der Zeichnungen
  • 1 ist ein Blockdiagramm einer beispielhaften Umgebung zum Implementieren eines Systems gemäß der vorliegenden Erfindung.
  • 2 ist ein detaillierteres Blockdiagramm eines Systems gemäß der vorliegenden Erfindung.
  • 3 ist ein Flussdiagramm, das eine Dokumentabruftechnik gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung darstellt.
  • 4 ist ein Flussdiagramm, das eine Technik zum Anpassen eines Sprachmodells gemäß einer anderen bevorzugten Ausführungsform der vorliegenden Erfindung darstellt.
  • Detaillierte Beschreibung der bevorzugten Ausführungsformen
  • Überblick
  • 1 und die zugehörige Diskussion sind gedacht, um eine kurze allgemeine Beschreibung einer geeigneten Computerumgebung, in der die Erfindung implementiert werden kann, bereitzustellen. Obwohl es nicht erforderlich ist, wird die Erfindung zumindest teilweise im allgemeinen Kontext von computerausführbaren Instruktionen beschrieben, wie z.B. Programmmodulen, die durch einen Personalcomputer ausgeführt werden. Im Allgemeinen schließen Programmmodule Routinenprogramme, Objekte, Komponenten, Datenstrukturen, etc. ein, die bestimmte Aufgaben ausführen oder bestimmte abstrakte Datentypen implementieren. Außerdem werden Fachleute es begrüßen, dass die Erfindung mit anderen Computersystemkonfigurationen betrieben werden kann, einschließlich Handheld-Geräten, Multiprozessorsystemen, Mikroprozessor basierter oder programmierbarer Unterhaltungselektronik, Netzwerk PCs, Minicomputern, Mainframe-Computern und ähnlichem. Die Erfindung kann ebenso in verteilten Computerumgebungen betrieben werden, wo Aufgaben durch Remote-Verarbeitende-Geräte, die durch ein Kommunikationsnetzwerk verbunden sind, ausgeführt werden. In einer verteilten Computerumgebung können Programmmodule sowohl in lokalen als auch Remote-Speichergeräten liegen.
  • Mit Bezug auf 1, enthält ein exemplarisches System zum Implementieren der Erfindung ein Allzweckcomputergerät in der Form eines konventionellen Personalcomputers 20, einschließlich Prozessoreinheit 21 (welche einen oder mehr Prozessoren einschließen kann), einem Systemspeicher 22 und einem Systembus 23, der verschiedene Systemkomponenten einschließlich dem Systemspeicher und der Prozessoreinheit 21 koppelt. Der Systembus 23 kann irgendeiner von verschiedenen Busstrukturtypen sein, einschließlich einem Speicherbus oder Speichercontroller, einem Peripheriebus und einem lokalen Bus, der irgendeine Vielfalt von Busarchitekturen verwendet. Der Systemspeicher schließt Read Only Memory (ROM) 24 und Random Access Memory (RAM) 25 ein. Ein Basic Input/Output 26 (BIOS), das die Basisroutinen enthält, die helfen, Informationen zwischen Elementen innerhalb des Personalcomputers 20 zu übertragen, wie z.B. während des Hochfahrens, ist im ROM 24 gespeichert. Der Personalcomputer 20 enthält des Weiteren ein Festplattenlaufwerk 27 zum Lesen von und schreiben zu einer Festplatte (nicht gezeigt), ein magnetisches Disklaufwert 28 zum Lesen von oder Schreiben zu einer entfernbaren magnetischen Disk 29 und einem optischen Disklaufwerk 30 zum Lesen von oder Schreiben zu einer entfernbaren optischen Disk 31, wie z.B. einer CD-ROM oder anderem optischen Medium. Das Festplattenlaufwerk 27, magnetische Disklaufwerk 28 und optische Disklaufwerk 30 sind mit dem Systembus 23 über eine Festplattenlaufwerksschnittstelle 32, Schnittstelle für magnetische Disklaufwerke 33 bzw. einer Schnittstelle für optische Laufwerke 34 verbunden. Die Laufwerke und die zugehörigen computerlesbaren Medien stellen nicht-flüchtigen Speicher für computerlesbare Instruktionen, Datenstrukturen, Programmmodule und anderen Daten für den Personalcomputer 20 bereit.
  • Obwohl die hier beschriebene exemplarische Umgebung eine Festplatte, eine entfernbare magnetische Disk 29 und eine entfernbare optische Disk 31 einsetzt, sollte es durch Fachleute begrüßt werden, dass andere Typen von computerlesbaren Medien, welche Daten speichern können, auf die durch einen Computer zugegriffen werden kann, wie z.B. magnetischen Kassetten, Flash Memory Karten, Digital Video Discs, Bernoulli Kartuschen, Random Access Memories (RAMs), Read Only Memory (ROM), und ähnliches ebenso in der exemplarischen Arbeitsumgebung verwendet werden können.
  • Eine Anzahl von Programmmodulen kann auf der Festplatte, magnetischen Disk 29, optischen Disk 31, ROM 24 oder RAM 25 gespeichert werden, einschließlich einem Betriebssystem 35, einem oder mehreren Anwendungsprogrammen 36, anderen Programmmodulen 37 und Programmdaten 38. Ein Benutzer kann Befehle und Informationen in den Personalcomputer 20 durch Eingabegeräte, wie z.B. ein Keyboard 40 und Zeigergerät 42 eingeben. Andere Eingabegeräte (nicht gezeigt) können ein Mikrofon, einen Joystick, Gamepad, Satellitenschüssel, Scanner oder ähnliches einschließen. Diese und andere Eingabegeräte werden oft mit der Prozessoreinheit 21 durch eine serielle Anschlussschnittstelle 46 verbunden, die mit dem Systembus gekoppelt ist, können aber durch andere Schnittstellen verbunden sein, wie z.B. einem Parallelanschluss, Gameport oder einem Universal Serial Bus (USB). Ein Monitor 47 oder anderer Typ von Anzeigegerät ist ebenso mit dem Systembus 23 über eine Schnittstelle verbunden, wie z.B. einem Videoadapter 48. Zusätzlich zu dem Monitor 47 können Personalcomputer üblicherweise andere periphere Ausgabegeräte (nicht gezeigt) einschließen, wie z.B. Lautsprecher und Drucker.
  • Der Personalcomputer 20 kann in einer Netzwerkumgebung unter Verwendung logischer Verbindungen zu einem oder mehreren Remote-Computern arbeiten, wie z.B. einem Remote-Computer 49. Der Remote-Computer 49 kann ein anderer Personalcomputer, ein Server, Router, ein Netzwerk-PC, ein Peergerät oder anderer Netzwerkknoten sein, und enthält üblicherweise viele oder alle der Elemente, die oben mit Bezug auf den Personalcomputer 20 beschrieben wurden, obwohl nur ein Speichergerät 50 in 1 dargestellt worden ist. Die logischen Verbindungen, die in 1 gezeigt sind, schließen ein Local Area Network (LAN) 51 und ein Wide Area Network (WAN) 52 ein. Solche Netzwerkumgebungen sind alltäglich in Büros, unternehmensweiten Computernetzwerk, Intranets und dem Internet.
  • Wenn er in einer LAN-Netzwerkumgebung verwendet wird, ist der Personalcomputer 20 mit dem Local Area Network 51 durch eine Netzwerkschnittstelle oder Adapter 53 verbunden. Wenn er in einer WAN-Netzwerkumgebung verwendet wird, schließt der Personalcomputer 20 üblicherweise ein Modem 54 oder andere Mittel zum Herstellen von Kommunikationen über das Wide Area Network 52, wie z.B. dem Internet, ein. Das Modem 54, welches intern oder extern sein kann, ist mit dem Systembus 23 über eine serielle Anschlussschnittstelle 46 verbunden. In einer Netzwerkumgebung können Programmmodule, die mit Bezug auf Personalcomputer 20 gezeigt sind oder Teile davon, in den Remote-Speichergeräten gespeichert sein. Es wird begrüßt, dass die gezeigten Netzwerkverbindungen exemplarisch sind und andere Mittel zum Herstellen eines Kommunikationslinks zwischen den Computern verwendet werden kann.
  • 2 stellt ein Blockdiagramm eines Spracherkennungs-/Informationsabruf-System 60 (Speech Recognition/Information Retrieval – SR/IR-System) gemäß einem Aspekt der vorliegenden Erfindung dar. SR/IR-System 60 schließt ein Mikrofon 62, einen analog-zu-digital-(A/D)-Konverter 64, ein Benutzereingabegerät 66, SR/IR-Prozessormodul 68, Sprachmodell-(Language Model – LM)-Speichermodul 70, einen Themendatenspeicher 72, allgemeinen Datenspeicher 74 und ein Benutzerausgabegerät 76 ein.
  • Es sollte beachtet werden, dass das gesamte System 60 oder Teile von System 60 in der in 1 dargestellten Umgebung implementiert werden können. Z.B. kann das Mikrofon 62 vorzugsweise als ein Eingabegerät zu Personalcomputer 20, durch eine passende Schnittstelle, und durch den A/D-Konverter 64 bereitgestellt werden. Benutzereingabegerät 66 kann vorzugsweise als Keyboard 40, Mouse 42 oder irgendein anderes passendes Eingabegerät implementiert werden. Sprachmodellspeichermodul 70 wird vorzugsweise in irgendeinem in 1 gezeigten passenden Speichergerät gespeichert oder wird dem SR/IR-Modul 68 durch irgendeinen mit Bezug auf 1 beschriebenen Dateneingabemechanismus bereitgestellt. SR/IR-Modul 68 ist vorzugsweise entweder ein Hardwaremodul in Computer 20 (wie z.B. einem zugeordneten Spracherkennungs- oder Informationsabruf-Prozessor, getrennt von der CPU 21 oder implementiert in die CPU 21) oder ein Softwaremodul, das in irgendeinem Informationsspeichergerät, das in 1 offenbart wurde, gespeichert ist und auf das durch die CPU 21 oder irgendeinen anderen geeigneten Prozessor zugegriffen werden kann.
  • Themendatenspeicher 72 wird ebenso vorzugsweise in irgendeinem geeigneten Speichergerät, das in 1 gezeigt ist, gespeichert oder auf ihn kann durch das in 1 dargestellte System zugegriffen werden. Der Themendatenspeicher 72 braucht auch nicht lokal zu dem Computer 20 sein, muss aber lediglich durch den Computer 20 zugreifbar sein. Z.B. kann der Themendatenspeicher 72 teilweise oder ganz in Speicher 50 gespeichert sein. Ein bestimmtes Dokument, das erzeugt wurde, ebenso wie andere Dokumente, die durch den Benutzer erzeugt worden sind, werden in dem Themendatenspeicher 72 gespeichert. Natürlich wird es erkannt werden, dass die Daten, die in den Themendatenspeicher 72 enthalten sind, gemäß irgendeiner Anzahl von Kriterien angeordnet sein können, wie z.B. Betreff, Dokumenttypen (z.B. Briefe, Memos, elektronische Mailübertragungen, Faxe, etc.) oder irgendein anderes geeignetes Kriterium.
  • Der allgemeine Datenspeicher 74 ist vorzugsweise eine größere Datenbank, größer als der Themendatenspeicher 72, und ist für das in 2 gezeigte System zugreifbar. Der allgemeine Datenspeicher kann z.B. irgendeine Datenbank sein oder eine Sammlung von Datenbanken, die durch das Wide Area Network 52 oder durch das Local Area Network 51 erreichbar ist.
  • Zusätzlich kann das Ausgabegerät 72 in einer bevorzugten Ausführungsform als Monitor 47 oder als Drucker oder als irgendein anderes geeignetes Ausgabegerät implementiert sein. In jedem Fall stellt das System 60 im Sinne der vorliegenden Beschreibung ein System dar, dass geeignet ist zum Ausführen sowohl von Spracherkennung als auch dem Abrufen von Information. Jedoch sollte beachtet werden, dass das System 60 konfiguriert sein kann, um nur Spracherkennung oder Abruf von Information auszuführen, soweit es für die verschiedenen Merkmale und Aspekte der unten beschriebenen vorliegenden Erfindung erforderlich ist.
  • Anpassen eines Sprachmoduls
  • Das System 60 wird nun in Bezug auf Spracherkennung beschrieben. Beim Erkennen von Sprache wird das System 60 unter Verwendung von akustischen Informationen in einer bekannten Weise trainiert. Das System 60 verwendet diese Informationen zum späteren Erkennen von Äußerungen, die in das System 60 durch das Mikrofon 62 eingegeben werden. Kurz gesagt, wird Sprache in das System 60 in der Form von hörbaren Sprachsignalen eingegeben, die durch den Benutzer an das Mikrofon 62 geliefert wurden. Das Mikrofon 62 wandelt die hörbaren Sprachsignale in ein analoges elektronisches Signal, welches dem A/D-Konverter 64 bereitgestellt wird. Der A/D-Konverter 64 wandelt das analoge Sprachsignal in eine Sequenz von digitalen Signalen, die dem SR/IR-Modul 68 bereitgestellt werden.
  • In einer bevorzugten Ausführungsform schließt das SR/IR-Modul 68 ein Feature-Extraction-Modul ein, das ein gewöhnlicher Vektorrechner ist, der eine Spektralanalyse des digitalen Signals ausführt und einen Stärkewert (Magnitude Value) für jedes Frequenzband eines Frequenzspektrums berechnet. Das Feature-Extraction-Modul teilt die digitalen Signale in Frames, die eine Vielzahl von digitalen Samples einschließen, welche zu einer Kette von Ausgangswahrscheinlichkeitsverteilungen umgewandelt werden, die Wahrscheinlichkeitswerte für eine Vielzahl von Frequenzbändern einschließt. Die Ausgangswahrscheinlichkeitsverteilungen werden in einer bekannten Weise verarbeitet, um wahrscheinliche Spracheinheiten (wie z.B. Phoneme, Wörter oder Wortsequenzen) zu erhalten, welche kennzeichnend für die durch das Mikrofon 62 empfangene Sprache sind.
  • In einer bevorzugten Ausführungsform identifiziert das SR/IR-Modul 68 N wahrscheinliche Worthypothesen, welche Indikativ für die N höchstwahrscheinlichen vertretenen Worte oder Wortsequenzen sind. Das SR/IR-Modul 68 greift dann auf das LM-Speichermodul 70 zu. Das Sprachmodul, das in dem LM-Speichermodul 70 gespeichert ist, wird verwendet, um die Wahrscheinlichkeit zu schätzen, dass ein Wort w(n) einer Sequenz der Worte w1, w2, ... w(n – 1) folgt. Diese Wahrscheinlichkeiten werden dann verwendet, um zwischen den N-besten Hypothesen zu wählen, um das wahrscheinlichste Wort oder Wortsequenz zu erhalten, dass durch die Äußerung repräsentiert wird. Diese wahrscheinlichste Hypothese wird bei dem Benutzerausgabegerät 76 ausgegeben.
  • Das Sprachmodell, das in dem LM-Speichermodul 70 gespeichert ist, kann ursprünglich durch das SR/IR-Modul 68 erstellt worden sein, oder kann in das LM-Speichermodul 70 unter Verwendung eines Dateneingabemechanismus geladen worden sein, wie z.B. jene, die in 1 diskutiert wurden (z.B., unter Verwendung einer Floppy-Disk). In den Ausführungsformen, in denen das SR/IR-Modul 68 das Sprachmodul erstellt, wird dem SR/IR-Modul 68 ein großer Trainingstextkorpus bereitgestellt. Unter Verwendung des Trainingstextkorpus erstellt das SR/IR-Modul 68 das Sprachmodell in bekannter Weise und speichert es in dem LM-Speichermodul 70.
  • Zusätzlich sollte es beachtet werden, dass mehrere Sprachmodelle in dem LM-Speichermodul 70 gespeichert werden können. Z.B. kann eine Anzahl von themenabhängigen Sprachmodellen in dem LM-Speichermodul 70 gespeichert werden und durch das SR/IR-Modul 68 basierend auf einer Eingabe durch den Benutzer bezüglich des Fachgebiets eines bestimmten Dokumentes, das mit dem Spracherkennungssystem erzeugt worden ist, erhalten werden.
  • In jedem Fall ist es wünschenswert, dass das bestimmte Sprachmodell oder -modelle, das/die in dem LM-Speichermodul gespeichert sind, (wie auch immer es zuerst erhalten wurde) basierend auf der eigentlichen Wortverwendung des Benutzers des Systems 60 angepasst ist/sind, um ein schnelleres und besseres Modell zu erhalten, welches die tatsächlich von dem Benutzer verwendete Sprache genau modelliert.
  • 3 stellt eine Technik gemäß einem Aspekt der vorliegenden Erfindung zum Durchführen der Anpassung des Sprachmodells, das in dem LM-Speichermodul 70 gespeichert ist, dar. Ein Sprachmodell wird zuerst durch System 60 empfangen. Das Sprachmodell kann entweder fachgebietsspezifisch, benutzerspezifisch, anwendungsspezifisch oder einfach ein allgemeines Sprachmodell sein. Wie vorher schon diskutiert kann das Sprachmodell entweder durch System 60 erstellt und in dem LM-Speichermodul 70 gespeichert sein oder einfach in das LM-Speichermodul 70 durch einen geeigneten Eingabemechanismus geladen sein. Der Schritt des Empfangens des Sprachmodells ist in 3 durch Block 78 angezeigt.
  • Um das Sprachmodell anzupassen, verwendet das System 60 vorzugsweise die Informationen, die in dem Themendatenspeicher 72 gespeichert sind, als einen Teil des Textkorpus, der verwendet wird, um das in Modul 70 gespeicherte Sprachmodell anzupassen. Der Themendatenspeicher 72 enthält vorzugsweise ein aktuelles vorbereitetes Dokument, andere durch den aktuellen Benutzer vorbereitete Dokumente oder andere Dokumente, die von dem derzeitigen Benutzer gelesen wurden, durch den derzeitigen Benutzer gespeichert wurden oder durch den derzeitigen Benutzer als relevant für die aktuelle Aufgabe identifiziert wurden.
  • Üblicherweise ist diese Menge an benutzerspezifischen oder aktuellen Themen- oder aufgabenspezifischen Daten zum schnellen Anpassen des in Modul 70 gespeicherten Sprachmodells oder zum Erzeugen eines Mehrbenutzer-/aufgabenspezifischen Sprachmodells unzureichend. Deshalb verwendet das System 60 die Benutzer-/aufgabenspezifischen Informationen, die in dem Themendatenspeicher 72 gespeichert sind, um eine Abfrage gegenüber dem allgemeinen Datenspeicher 74 zu erzeugen. Es wird erinnert, dass der allgemeine Datenspeicher 74 eine oder mehrere Datenbanken, die über das Internet (z.B. über WAN 52) zugreifbar sind, eine Bibliotheksdatenbank oder irgendeine andere geeignete große Datenbank, die für das System 60 (wie z.B. durch das LAN 51) zugreifbar ist, einschließen kann. Die Abfrage gegenüber dem allgemeinen Datenspeicher 74 ist in 3 durch Block 80 angezeigt.
  • Die bestimmte Informationsbeschaffungstechnik, die verwendet wird, um die Abfrage gegenüber dem allgemeinen Datenspeicher 74 zu erzeugen und auszuführen, ist für dieses Merkmal der vorliegenden Erfindung nicht entscheidend. Es kann eher irgendeine geeignete Abfrageaufbau- und Informationsbeschaffungstechnik verwendet werden. Es sollte einfach beachtet werden, dass die Anpassung gemäß der vorliegenden Technik besser mit Informationsbeschaffungstechniken arbeitet, die mehr relevante Dokumente zurückgeben.
  • Als nächstes werden die Dokumente, die durch die Informationsbeschaffungsabfrage identifiziert wurden, abgerufen. Dies ist durch Block 82 angezeigt. In einer bevorzugten Ausfüh rungsform, wie durch die gestrichelte Linie 84 in 3 angezeigt, fährt die Bearbeitung einfach bei Block 86 fort. In dieser bevorzugten Ausführungsform wird das Themensprachmodell, das in Modul 70 gespeichert ist, basierend auf den in Themendatenspeicher 72 gespeicherten Informationen und basierend auf den vom allgemeinen Datenspeicher 74 als ein Ergebnis auf die Abfrage, die gegenüber dem allgemeinen Datenspeicher 74 ausgeführt wurde, erhaltenen Informationen eingestellt oder angepasst. Die Wahrscheinlichkeitsschätzungen, die durch das Sprachmodell erzeugt wurden, werden deshalb basierend auf dem Textkorpus angepasst, der die Information sowohl in dem Themendatenspeicher 72 als auch die vom allgemeinen Datenspeicher 74 erhaltenen Informationen einschließt. Dies stellt einen viel größeren Textkorpus bereit, mit welchem das in Modul 70 gespeicherte Sprachmodell angepasst wird, als durch das einfache Verwenden der Information, die in dem Themendatenspeicher 72 gespeichert ist. Weil der Anpassungstextkorpus viel größer ist, können die Wahrscheinlichkeiten, die durch das Sprachmodell generiert wurden, besser geschätzt werden, und das resultierende Sprachmodell führt zu einem besseren (d.h., schnelleren und genaueren) Mechanismus zum Modellieren der eigentlichen Verwendung durch den Benutzer. Die Anpassung ist durch Block 86 angezeigt.
  • Die Art und Weise, in der das Sprachmodell angepasst wird, kann irgendeine von einer Anzahl von Formen annehmen. In einer bevorzugten Ausführungsform wird nur eine Untergruppe der Dokumente, die durch die Abfrage gegenüber dem allgemeinen Datenspeicher 74 abgerufen wurden, beim Anpassen des in Modul 70 gespeicherten Sprachmodells verwendet. Die Dokumente, die basierend auf der Abfrage gegenüber dem allgemeinen Datenspeicher 74 abgerufen wurden, können auch relativ zu jenen bereits in dem Themendatenspeicher 72 enthaltenen gewichtet werden. Die abgerufenen Dokumente werden vorzugsweise weniger gewichtet, als jene, die bereits in dem Datenspeicher 72 gespeichert sind. Deshalb ist der Effekt auf das in Modul 70 gespeicherte Sprachmodell basierend auf den abgerufenen Dokumenten kleiner als der basierend auf den bereits gespeicherten Dokumenten (und vermutlich bekannt dafür, dass sie für den Benutzer von Relevanz sind).
  • Des Weiteren kann das Sprachmodell in einer anderen Art und Weise angepasst werden. Die Ergebnisse der Abfrage können verwendet werden, um ein Sprachmodell zu erstellen, welches mit dem bereits in Modul 70 gespeicherten Sprachmodell kombiniert wird. Diese Kombinierung kann unter Verwendung irgendeiner bekannten Glättungstechnik (smoothing technique) ausgeführt werden, wie z.B. Interpolation, gelöschte Interpolation (Deleted Interpolation), oder irgendeine andere geeignete Technik. In der Ausführungsform, in der die gelöschte Interpolation (Deleted Interpolation) zum Anpassen des in Modul 70 gespeicherten Themensprachmodells verwendet wird, werden die vom allgemeinen Datenspeicher 74 abgerufenen Dokumente und die bereits in dem Themendatenspeicher 72 gespeicherten Dokumente wie folgt gewichtet: λPr + (1 – λ)Pt wobei Pr der Wahrscheinlichkeitswert ist, der durch das Sprachmodell basierend auf den abgerufenen Dokumenten erzeugt wurde;
    Pt ist ein Wahrscheinlichkeitswert, der durch das Sprachmodell basierend auf Dokumenten, die bereits in dem Themendatenspeicher 72 sind, erzeugt wurde; und
    λ der gelöschte Interpolationsparameter (Deleted Interpolation Parameter) ist, der einen Wert hat, der vorzugsweise experimentell ermittelt wurde. Wenn geglaubt wird, dass die Informationsabruftechnik sehr genau ist, wird λ einen höheren Wert haben (wie z.B. 0,8 oder 0,9). Wo jedoch nicht geglaubt wird, dass die Informationsabruftechnik genau ist, kann A einen geringeren Wert haben (wie z.B. 0,4 oder 0,5). Jedoch sind alle Werte von λ, wie z.B. 0,1 bis 0,9 oder so ähnlich, geeignet.
  • In einer weiteren anderen Ausführungsform wird der Wert von λ schrittweise erhöht, wie sich die Anzahl der Abfragen erhöht. Mit anderen Worten, während sich die Anzahl der Abfragen erhöht, die ausgeführt worden sind, wird der Textkorpus, der zum Anpassen des Sprachmodells verwendet wird, wahrscheinlich eher größer werden, oder genauer werden, weil die Menge an Informationen, die in dem Themendatenspeicher 72 gespeichert sind, wahrscheinlich größer ist. Deshalb werden die unter Verwendung der Informationsabruftechnik abgerufenen Dokumente wahrscheinlich relevanter sein, als jene ursprünglich abgerufenen. Deshalb kann der Wert von λ schrittweise zunehmen, wie auch die Anzahl der Abfragen zunimmt. Des Weiteren sollte beachtet werden, dass etliche Sprachmodelle von den abgerufenen Daten erstellt werden können. Z.B. kann ein Sprachmodell unter Verwendung der 100 relevantesten Dokumente konstruiert werden, und ein zweites Sprachmodell unter Verwendung der 200 relevantesten Dokumente erstellt werden, usw. Mehrere Sprachmodelle, die unter Verwendung der abgerufenen Dokumente erstellt wurden, können dann mit dem Sprachmodell, das von den bekannten relevanten Daten aus dem Themendatenspeicher 72 und auch aus dem allgemeinen Sprachmodell erzeugt wurde, kombiniert werden. Eine Sprachmodellkombination unter Verwendung von gelöschter Interpolation (Deleted Interpolation) kann wie folgt ausgedrückt werden: Σλi Pi wobei Pi die Wahrscheinlichkeit ist, die durch das i-te Sprachmodell generiert wurde, und 0 < λi < 1 das Interpolationsgewicht für das i-te Sprachmodell ist und Σλi = 1 gilt.
  • Sobald das Sprachmodell angepasst wurde, wird das angepasste oder eingestellte Sprachmodell dann in der Spracherkennung verwendet. Dies wird durch Block 88 angezeigt.
  • Gemäß einem bevorzugten Aspekt der vorliegenden Erfindung ist System 60 konfiguriert, um automatisch und intermittierend eine themenspezifische Abfrage zu regenerieren und um es gegen die Informationen, die in dem allgemeinen Datenspeicher 74 gespeichert sind, zu richten. Z.B. wird in der bevorzugten Ausführungsform das in Modul 70 gespeicherte Sprachmodul on-the-fly angepasst (z.B. während der Benutzer das System 60 verwendet). Deshalb kann System 60 konfiguriert sein, die Abfrage anfangs auszuführen und das Sprachmodul anzupassen, sobald das System 60 hochgefahren ist und dann jedes Mal, wenn ein neues Dokument erzeugt wird. Noch wünschenswerter jedoch ist es, wenn das System 60 konfiguriert ist, eine neue Abfrage zu erzeugen und das Sprachmodell intermittierend anzupassen, selbst während ein Dokument erzeugt wird. Deshalb kann System 60 konfiguriert sein, die Abfrage entweder nach jeder vorbestimmten Anzahl von Worten, nach jedem vorbestimmten Zeitintervall oder basierend auf irgendeinem anderen geeigneten Kriterium zu wiederholen.
  • Egal was das Kriterium ist, es wird zum Setzen eines Abfrageschwellenwertes verwendet. System 60 ermittelt deshalb, ob der Abfrageschwellenwert erreicht worden ist. Wenn dem so ist, erzeugt das System 60 eine andere Abfrage und führt sie gegen den allgemeinen Datenspeicher aus, wie es durch Block 80 angezeigt ist. Wenn der Abfrageschwellenwert nicht erreicht worden ist, fährt das System 60 einfach mit der Spracherkennung wie gewohnt fort. Dies ist durch die Blöcke 90 und 92 in 3 angezeigt.
  • Gemäß anderen bevorzugten Merkmalen der vorliegenden Erfindung können andere Informationen zum Anpassen des in Modul 70 gespeicherten Sprachmodells verwendet werden. Diese Merkmale werden durch die Blöcke 94, 96 und 98 in 3 dargestellt. Z.B., nachdem die Abfrage gegen die Informationen in dem allgemeinen Datenspeicher 74 ausgeführt worden ist, wird in einer bevorzugten Ausführungsform ein Relevanzmaß für jedes der Dokumente, die von der Abfrage zurückgegeben wurden, ermittelt. Die Dokumente werden dann gemäß dem Relevanzmaß geordnet (ranked). Dies wird durch Block 94 angezeigt. Dann wird eine Teilmenge der zurückgegebenen Dokumente (jene, die ein Relevanzmaß über einem Relevanzschwellenwert haben) zum Anpassen eines Sprachmodells verwendet. Des Weiteren können die zurückgegebenen Dokumente gemäß dem Relevanzmaß gewichtet werden, wie durch Block 96 angezeigt. Die Dokumente können dann verwendet werden, wie sie gewichtet sind, um das in Modul 70 gespeicherte Sprachmodell anzupassen.
  • In noch einer anderen bevorzugten Ausführungsform der vorliegenden Erfindung werden andere Informationen ebenso zum Abstimmen des Sprachmodells verwendet. Z.B. kann das System 60 konfiguriert sein, um die bestimmte Anwendung zu identifizieren, die dann durch den Benutzer verwendet wird, um ein Dokument vorzubereiten. Z.B. wenn der Benutqzer in einer Textverarbeitungsanwendung ist, kann der Benutzer ein formaleres Dokument erzeugen, als wenn der Benutzer in einer E-Mail-Anwendung ist. Das System 60 kann konfiguriert sein, um die Anwendung zu erkennen, und entweder diese Information zum Erzeugen der Abfrage gegenüber den Informationen, die in dem allgemeinen Datenspeicher 72 enthalten sind, verwenden, um nach formaleren Dokumenten zu suchen (d.h. Dokumente, die formalere Wortverwendungen und Wortsequenzen haben) oder einfach die durch die Abfrage abgerufenen formaleren Dokumente höher gewichten, als die weniger formalen abgerufenen Dokumente. Wenn der Benutzer eine Memovorlage heranzieht, und deshalb ein internes Memo erzeugt, kann das System 60 des Weiteren konfiguriert sein, um nur ähnliche Memoranden aus dem Themendatenspeicher 72 zum Erzeugen der Abfrage gegenüber den im allgemeinen Datenspeicher 74 gespeicherten Informationen abzurufen.
  • Viele andere Parameter könnten ebenso gemäß der vorliegenden Erfindung verwendet werden. Z.B. kann ein Benutzer dazu tendieren, formalere Dokumente während der Geschäftszeiten zu diktieren, wie z.B. Geschäftsbriefe und Memoranden, aber erzeugt später am Tag oder am Abend weniger formale Dokumente, wie z.B. persönliche Briefe. Deshalb kann das System 60 basierend auf der Tageszeit, zu der das Dokument durch den Benutzer erzeugt wird, konfiguriert sein, die Abfrage durch das Abrufen von Dokumenten aus dem Themendatenspeicher 72, welche ungefähr zur selben Tageszeit erzeugt wurden, zu generieren. Das System 60 kann ebenso konfiguriert sein, ähnliche abgerufene Dokumente, basierend auf der Abfrage einfach stärker zu gewichten, als andere Dokumente.
  • Es sollte auch beachtet werden, dass die Anpassung des Sprachmodells, das in Modul 70 gespeichert ist, intermittierend ausgeführt werden kann, egal, ob der Benutzer die Spracherkennungsmerkmale des Systems 60 verwendet. Solange das System 60 hochgefahren ist, kann es konfiguriert sein, die Abfragen gegenüber dem im allgemeinen Datenspeicher 74 gespeicherten Informationen zu wiederholen und das in Modul 70 gespeicherte Sprachmodell gemäß irgendeinem gegebenen Kriterium anzupassen.
  • Deshalb kann gesehen werden, dass das Merkmal der Sprachmodellanpassung der vorliegenden Erfindung verwendet werden kann, um schnell und effizient die Menge an benutzerspezifischen Daten, die zum Erzeugen oder Verbessern des in Modul 70 gespeicherten Sprachmodells verfügbar sind, auszuweiten. Die benutzerspezifischen Daten, die verfügbar sind, werden zuerst als eine Abfrage gegenüber dem großen Informationsspeicher verwendet, um Text oder Dokumente zu identifizieren, die ähnlich den benutzerspezifischen Dokumenten sind. Der Textkorpus, der verwendet wird, um das in Modul 70 gespeicherte benutzerspezifische Sprachmodell zu erzeugen oder anzupassen, ist dann eine viel größere Sammlung, als es andernfalls der Fall wäre und die Wahrscheinlichkeiten, die von dem Sprachmodell bereitgestellt werden, können besser geschätzt werden. Es sollte ebenso nochmal beachtet werden, dass die bestimmte Art und Weise, in der das Sprachmodell erstellt und angepasst wird, und das die bestimmte Technik zum Ausführen des Informationsabrufs für diesen Aspekt der vorliegenden Erfindung nicht entscheidend sind, und jede geeignete Technik verwendet werden kann.
  • Verwendung eines Sprachmodells zum Verbessern eines Informationsabrufs
  • 4 ist ein Flussdiagramm, das eine Technik darstellt, durch die das System 60 einen Informationsabruf verbessern kann. Wie oberhalb erwähnt, produziert ein statistisches N-Gram-Sprachmodell eine Wahrscheinlichkeitsschätzung für ein Wort angesichts der Wortsequenz bis hin zu diesem Wort (d.h. angesichts der Worthistorie H). Ein N-Gram-Sprachmodell betrachtet nur (n – 1) vorherige Wörter in der Historie H als jene, die irgendeinen Einfluss auf die Wahrscheinlichkeit des nächsten Wortes haben. Z.B. betrachtet ein Bi-Gram- (oder 2-Gram-) Sprachmodell das vorherige Wort als das, das einen Einfluss auf das nächste Wort hat. Deshalb wird in einem N-Gram Sprachmodell die Wahrscheinlichkeit für das Vorkommen eines Wortes wie folgt dargestellt:
    Gleichung 1: P(w/H) = P(w/w1, w2, ... w(n – 1))
  • Wobei w das Wort von Interesse ist;
    w1 ist das erste Wort vor Wort w in der Sequenz;
    w2 ist das zweite Wort vor Wort w; und
    w(n – 1) ist das Wort, das n – 1 Positionen vor dem Wort w liegt.
  • Die Wahrscheinlichkeit einer Wortsequenz wird ebenso basierend auf der Multiplikation der Wahrscheinlichkeit für jedes Wort angesichts seiner Historie ermittelt. Deshalb wird die Wahrscheinlichkeit einer Wortsequenz w ... wm wie folgt dargestellt:
    Gleichung 2:
    Figure 00200001
  • Wenn Sprachmodelle diskutiert werden, ist das Konzept der Perplexität einer Wortsequenz ebenso bekannt. Perplexität ist ein statistisches Maß des Durchschnittsverzweigungsfaktors des Sprachmodells. Mit anderen Worten ist die Perplexität ein statistisches Maß der Durchschnittsanzahl von möglichen Wörtern, die durch das Sprachmodell angesichts des Wortes oder der Wortsequenz von Interesse vorhergesagt würde. Deshalb wird die Perplexität einer Wortsequenz w1 ... wm angesichts ihrer Historie wie folgt dargestellt:
    Gleichung 3:
    Figure 00210001
  • Des Weiteren wird die Perplexität einer Wortsequenz bezüglich eines gegebenen Sprachmodells LM wie folgt dargestellt:
    Gleichung 4:
    Figure 00210002
  • Deshalb ist die Perplexität einer Wortsequenz bei gegebenem Sprachmodell ungefähr gleich der Durchschnittsanzahl an Worten, welche durch dieses Sprachmodell angesichts der Wortsequenz und ihrer Historie vorausgesagt würde. Dieser Wert ändert sich mit der Vorhersagekraft des bestimmten Sprachmodells, das verwendet wird. Die bestimmte Art und Weise, in der das Sprachmodell gebaut ist, und das bestimmte Sprachmodell, das verwendet wird, ist für die vorliegende Erfindung nicht von Bedeutung.
  • Ein Aspekt der vorliegenden Erfindung wendet das Konzept der Perplexität an, weil es sich auf Sprachmodelle bezieht, um die Genauigkeit des Informationsabrufs, der durch das System 60 ausgeführt wird, zu verbessern. Um dies zu tun, empfängt das System 60 entweder zuerst ein allgemeines Sprachmodell oder erzeugt es, wie es durch Block 100 in 4 angezeigt ist. Das System 60 kann deshalb mit einem Sprachmodellgenerator konfiguriert sein. In diesem Beispiel wird ein großer Textkorpus mit Trainingsdaten vorzugsweise dem Sprachmodellgenerator bereitgestellt, welcher ein allgemeines Sprachmodell basierend auf dem großen Textkorpus in irgendeiner bekannten und geeigneten Weise erzeugt. Die Trainingsdaten sind vorzugsweise die Information oder eine Teilmenge der Information, die in dem allgemeinen Datenspeicher 74 gespeichert ist. Dieses Sprachmodell wird dann in Modul 70 gespeichert. Alternativ kann System 60 jedoch mit einem konventionellen, marktüblichen allgemeinen Sprachmodell, welches einfach in das Modul 70 geladen wird, versehen werden. In einer anderen Alternative erzeugt das System 60 das allgemeine Sprachmodell von einer anderen großen Reihe von Textdaten verschieden von den Daten im allgemeinen Datenspeicher 74. In der bevorzugten Ausführungsform erzeugt das System 60 entweder ein Tri-Gram-Sprachmodell oder wird damit versehen.
  • Als nächstes empfängt das System 60 entweder ein Themensprachmodell oder erzeugt es, welches relevant ist zu dem Thema, das für den Benutzer von Interesse ist. Das System 60 kann wieder entweder mit einem marktüblichen Themensprachmodell versehen werden oder kann ein Themensprachmodell selbst erzeugen und trainieren.
  • Um ein Themensprachmodell zu erzeugen stellt der Benutzer vorzugsweise dem System 60 Trainingsdaten bereit, welche zu dem spezifischen Thema, das von Interesse ist, relevant sind. Z.B. kann der Benutzer verschiedene Artikel haben und könnte wünschen, andere ähnliche Artikel aus den Informationen, die in dem allgemeinen Datenspeicher 74 gespeichert sind, abzurufen. Oder der Benutzer kann einfach eine Suchabfrage oder Anfrage an das System stellen. Ein Themensprachmodell wird entweder durch System 60 unter Verwendung der relevanten Artikel erzeugt, oder ein Teil des Textes jener relevanten Artikel wird verwendet, um eine Abfrage gegenüber den im allgemeinen Datenspeicher 74 gespeicherten Informationen zu formulieren, und die Informationen, die basierend auf der Abfrage abgerufen werden, werden verwendet, um das Themensprachmodell in Kombination mit den vom Benutzer gestellten Informationen zu erzeugen. In einer anderen bevorzugten Ausführungsform, wenn die Trainingsdaten, die verwendet werden, um das Themensprachmodell zu erzeugen, spärlich sind, wird das Themensprachmodell unter Verwendung der spärlichen Daten erzeugt und dann mit einem allgemeinen Sprachmodell kombiniert, um das neue Themensprachmodell zu erhalten. Die Kombinationstechnik ist für die vorliegende Erfindung nicht von Bedeutung und kann unter Verwendung einer Glättungstechnik (smoothing technique) bewerkstelligt werden, wie z.B. Interpolation, gelöschte Interpolation (deleted interpolation) oder irgendeine andere geeignete Technik. Der Vorgang des Empfangens oder Erzeugens eines Themensprachmodells wird durch Block 102 in 4 angezeigt.
  • Nachdem das allgemeine Sprachmodell und das Themensprachmodell durch System 60 erzeugt oder empfangen wurden, übernimmt das System 60 die Aufgabe, ein Gleichheitsmaß zu jedem Dokument (oder Teil eines Dokumentes) in dem allgemeinen Datenspeicher 74 zuzuweisen, welches in dem Informationsabrufvorgang in Betracht gezogen wird. Um dies zu tun, wählt das System 60 zuerst ein Dokument aus dem allgemeinen Datenspeicher 74. Dies ist durch Block 104 angezeigt.
  • Als nächstes ermittelt das System 60 die Perplexität diese Dokumentes mit Bezug auf das allgemeine Sprachmodell, wie durch Block 106 angezeigt. Dies wird wie folgt dargestellt:
    Gleichung 5: Perp(daci/GLM)
  • Wobei GLM das allgemeine Sprachmodell darstellt; und
    doci das ausgewählte Dokument darstellt.
  • Das System 60 ermittelt dann die Perplexität des Dokuments bezüglich des Themensprachmodells, wie durch Block 108 angezeigt. Dies wird wie folgt angzeigt:
    Gleichung 6: Perp(daci/TLM)
  • Wobei TLM das Themensprachmodell darstellt.
  • System 60 ermittelt dann ein Relevanzmaß für das ausgewählte Dokument basierend auf den Perplexitäten, die in den Blöcken 106 und 108 ermittelt wurden. Das Relevanzmaß wird vorzugsweise in Form eines Verhältnisses der zwei Perplexitäten wie folgt ausgedrückt:
    Gleichung 7:
    Figure 00240001
  • Es wird daran erinnert, dass die Perplexität eines Dokumentes (ebenso einer Sequenz an Worten) angesichts eines bestimmten Sprachmodells repräsentativ ist für ungefähr die Durchschnittsanzahl an Worten, die durch das Sprachmodell angesichts dieses Dokuments vorhergesagt werden könnten. Wenn die Perplexitätszahl relativ hoch ist, haben deshalb die Trainingsdaten, die zum Entwickeln des Sprachmodells verwendet wurden, das Sprachmodell nicht gut genug bezüglich der Begriffe, die in dem Dokument verwendet wurden, trainiert. Deshalb wird das zur Diskussion stehende Dokument dazu neigen, nicht ähnlich zu den Trainingsdaten zu sein, die zum Entwickeln des Sprachmodells verwendet wurden. Wenn jedoch die Perplexität dieses Dokuments gering ist, haben die Trainingsdaten, die zum Entwickeln dieses Sprachmodells verwendet wurden, das Sprachmodell wahrscheinlich gut bezüglich der Begriffe, die in dem Dokument vorkommen, trainiert, und das Dokument wird wahrscheinlich ähnlich zu den Trainingsdaten, die zum Trainieren des Sprachmodells verwendet wurden, sein.
  • Deshalb kann ein Ähnlichkeitsmaß unter Verwendung von nur dem Themensprachmodell zurückgegeben werden. In einer bevorzugten Ausführungsform werden jedoch sowohl das Themensprachmodell als auch das allgemeine Sprachmodell verwendet. Der Grund dafür ist, dass manche Sprachkonstrukte in einem Dokument mehr oder weniger wahrscheinlich auftreten können, egal, ob das zur Diskussion stehende Dokument relevant ist. Es ist wünschenswert, dass das Informationsabrufsystem nicht jene ähnlichen Dokumente diskriminiert, obwohl das unbearbeitete Relevanzergebnis, das durch das Anwenden der Perplexität des Themensprachmodells erhalten wurde, ziemlich hoch ist. Wenn dies der Fall ist, und die Sprachkonstrukte, die in dem Dokument verwendet werden, das von Interesse ist, ziemlich unwahrscheinlich sind, dann wird der Perplexitätswert, der bezüglich dem allgemeinen Sprachmodell zurückgegeben wird, ebenso hoch sein. Durch Verwendung des Verhältnisses der Perplexitäten, die für das allgemeine Sprachmodell und das Themensprachmodell ermittelt wurden, gibt das System notwendigerweise eine Zahl zurück, die gegenüber einer Grundlinie (dem allgemeinen Sprachmodell) ermittelt wurde und ist deshalb aussagekräftiger als die unbearbeitete Zahl, die einfach durch das Bereitstellen der Perplexität des Dokuments bezüglich dem Themensprachmodell zurückgegeben werden würde. Deshalb wird geglaubt, dass das Bereitstellen des Relevanzmaßes als ein Verhältnis der zwei Perplexitäten zu einem genaueren Relevanzmaß führt.
  • Gleichermaßen, wenn die Sprachkonstrukte, die in dem Dokument verwendet werden, das von Interesse ist, recht gebräuchlich sind, ungeachtet des Themas, das von Interesse ist, wird dann der Perplexitätswert, der durch das Themensprachmodell zurückgegeben wird, relativ gering sein, obwohl das Dokument nicht besonders relevant sein kann. Jedoch wird der Perplexitätswert, der durch das allgemeine Sprachmodell zurückgegeben wird, wahrscheinlich auch recht gering sein. Deshalb wird geglaubt, dass durch das Bereitstellen des Relevanzmaßes als ein Verhältnis der zwei Perplexitäten die Informationsabruftechnik mehr relevante Dokumente abrufen wird.
  • Der Schritt des Ermittelns einer Relevanz des ausgewählten Dokuments basierend auf den Perplexitäten ist durch Block 110 angezeigt. Ein Ausdruck des Relevanzfaktors kann als ein Verhältnis der zwei Perplexitäten wie folgt erweitert werden kann:
    Gleichung 8:
    Figure 00250001
  • Wobei PT = die Wahrscheinlichkeit einer Wortsequenz angesichts ihrer Historie bezüglich des Themensprachmodells; und
    PG = die Wahrscheinlichkeit einer Wortsequenz angesichts ihrer Historie bezüglich dem allgemeinen Sprachmodell.
  • Sobald das Relevanzmaß ermittelt worden ist, ermittelt das System 60, ob das Relevanzmaß einen Relevanzschwellenwert trifft. Der Relevanzschwellenwert kann vorbestimmt sein, durch den Benutzer eingegeben sein oder basierend auf der Anzahl der Dokumente, die durch das System 60 abgerufen wurden oder basierend auf einem anderen Kriterium angepasst sein. Das System 60 ermittelt lediglich, ob das Dokument ein groß genuges Relevanzmaß hat, so dass es dem Benutzer bereitgestellt werden kann. Dies ist durch Block 112 angezeigt.
  • Wenn das Dokument den Relevanzschwellenwert nicht trifft, wird es dem Benutzer nicht bereitgestellt und das Verfahren fährt mit Bezug auf Block 116 fort. Wenn das Dokument jedoch den Relevanzschwellenwert trifft, wird es abgerufen und entweder in dem Themendatenspeicher 72 gespeichert oder dem Benutzer beim Ausgabegerät 76 bereitgestellt. Dies wird durch Block 114 angezeigt.
  • System 60 ermittelt dann, ob es zusätzliche Dokumente in dem allgemeinen Datenspeicher 74 untersuchen muss. Wenn dem so ist, kehrt der Vorgang zu Block 104 zurück, wo ein anderes Dokument ausgewählt und die Relevanz des Dokuments ermittelt wird. Wenn keine weiteren Dokumente mehr untersucht werden müssen, fährt der Vorgang mit Bezug auf den optionalen Block 118 fort. Dies ist durch Block 116 angezeigt.
  • Sobald alle Dokumente (oder eine Teilmenge der Dokumente) untersucht worden sind, kann das System 60 entweder die Dokumente dem Benutzer einfach bereitstellen, die Dokumente speichern oder die Dokumente gemäß der Relevanz ordnen. In der Ausführungsform, in der die Dokumente gemäß der Relevanz geordnet werden, ordnet das System 60 die Dokumente einfach gemäß dem Relevanzmaß, das für jedes Dokument ermittelt wurde. Das System 60 kann dann entweder die Dokumente gemäß der Relevanz geordnet dem Benutzer bereitstellen oder kann einfach eine Teilmenge der Dokumente, die basierend auf der Ordnung (ranking) abgerufen wurden, bereitstellen. Dies ist durch Block 118 angezeigt.
  • Beim Verwenden dieser Technik kann gesehen werden, dass das allgemeine Sprachmodell nur einmal basierend auf den Informationen, die in dem allgemeinen Datenspeicher 74 gespeichert sind, oder einige repräsentative Proben dieser Informationen, erzeugt werden muss. Alternativ kann das allgemeine Sprachmodell intermittierend aktualisiert werden, während sich die Inhalte der Information im allgemeinen Datenspeicher 74 ändern. Das Themensprachmodell wird vorzugsweise einmalig für jede vom Benutzer bereitgestellte Abfrage erzeugt.
  • Ergebnis
  • Ein Aspekt der vorliegenden Erfindung stellt eine Technik bereit, welche Informationsabruf verwendet, um ein Sprachmodell oder -modelle, das/die während Spracherkennung verwendet werden, zu verbessern und anzupassen. Das System verwendet die bekannte Historie von Text, der bereits durch den Benutzer generiert wurde, um das Sprachmodell direkt zu entwickeln und anzupassen, aber richtet ebenso eine themenspezifische Abfrage gegenüber dem allgemeinen Datenspeicher, um ähnliche Dokumente zu finden, um die Trainingsdaten, die zum Erzeugen oder Anpassen des Sprachmodells verwendet werden, zu erweitern. Dies stellt ein viel genaueres Sprachmodell bereit, als breite, vorgefasste, themenabhängige Sprachmodelle, die in der Vergangenheit verwendet wurden. Die Abfrage gegenüber dem großen Datenspeicher wird vorzugsweise auch periodisch oder intermittierend wiederholt, um ein dynamisch angepasstes Sprachmodell mit zunehmender Genauigkeit zu erhalten.
  • Ein anderer Aspekt der vorliegenden Erfindung verwendet Sprachmodelle, um Informationsabruftechniken zu verbessern. Das System erhält vorzugsweise ein allgemeines Sprachmodell und ein Themensprachmodell (entweder unter Verwendung der oben beschriebenen Technik oder einer anderen bekannten Technik). Das System berechnet dann ein Relevanzmaß der durchsuchten Dokumente basierend auf Perplexitätswerten, die durch die erhaltenen Sprachmodelle zurückgegeben werden. Weil Sprachmodelle kontextabhängige Modelle sind, erlaubt dies dem System nicht nur die Wörter selbst zu berücksichtigen, sondern auch den Kontext, in dem die Wörter auftreten, um die Relevanz der Dokumente zu ermitteln. Dies verbessert sowohl den Abruf als auch die Genauigkeit der Informationsabruftechnik, resultiert in einer besseren Schätzung der Wahrscheinlichkeit (likelihood or probability), das relevante Informationen in dem zu durchsuchenden Dokument auftreten und resultiert deshalb in einer besseren Leistung des Informationsabrufsystems.
  • Obwohl die vorliegende Erfindung mit Bezug auf bevorzugte Ausführungsformen beschrieben worden ist, werden Fachleute erkennen, dass Änderungen an Form und Detail gemacht werden können, ohne von dem Umfang der Erfindung abzuweichen, der durch die anhängigen Ansprüche definiert ist.

Claims (36)

  1. Verfahren zum Abrufen von Informationen aus einem zweiten Datenspeicher, welche relevant sind zu Informationen, die in einem ersten Datenspeicher gespeichert sind, wobei der zweite Datenspeicher grösser ist als der erste Datenspeicher, wobei das Verfahren folgendes umfasst: Bereitstellen eines ersten Sprachmodells basierend auf Informationen, die in dem ersten Datenspeicher gespeichert sind; Bereitstellen eines zweiten Sprachmodells; Ermitteln einer ersten Perplexität eines Dokuments in dem zweiten Datenspeicher angesichts des ersten Sprachmodells; Ermitteln einer zweiten Perplexität des Dokuments angesichts des zweiten Sprachmodells; Ermitteln eines Relevanzmaßes des Dokuments basierend auf der ersten und zweiten Perplexität; und Wahlweise Abrufen des Dokuments basierend auf dem Relevanzmaß.
  2. Verfahren nach Anspruch 1 und des Weiteren umfassend: Wiederholen der Schritte des Ermittelns einer ersten Perplexität, des Ermittelns einer zweiten Perplexität und des Ermittelns eines Relevanzmaßes für eine Vielzahl von Dokumenten in dem zweiten Datenspeicher; und Abrufen relevanter Dokumente aus der Vielzahl von Dokumenten, die ein Relevanzmaß haben, das einen Schwellenwert erreicht.
  3. Verfahren nach Anspruch 1, wobei das Bereitstellen eines zweiten Sprachmodells umfasst: Bereitstellen des zweiten Sprachmodells basierend auf Informationen, die in dem zweiten Datenspeicher gespeichert sind.
  4. Verfahren nach Anspruch 1, wobei das Ermitteln eines Relevanzmaßes umfasst: Ermitteln eines Verhältnisses der ersten und zweiten Perplexität relativ zu einander; und Ermitteln des Relevanzmaßes basierend auf dem Verhältnis.
  5. Verfahren nach Anspruch 2, wobei das Abrufen relevanter Dokumente umfasst: Einordnen der Dokumente in eine Reihenfolge gemäß dem Relevanzmaß, das für jedes Dokument ermittelt wurde.
  6. Verfahren nach Anspruch 1, wobei das erste Sprachmodell ein erstes Kontextabhängiges Sprachmodell basierend auf Informationen in dem ersten Datenspeicher ist, und wobei das zweite Sprachmodell ein zweites Kontext-abhängiges Sprachmodell basierend auf Informationen in dem zweiten Datenspeicher ist; wobei das Verfahren umfasst: Ermitteln einer Relevanz eines Dokuments in dem zweiten Datenspeicher basierend auf einer Voraussagefähigkeit des ersten Sprachmodells angesichts des Dokuments und basierend auf einer Voraussagefähigkeit des zweiten Sprachmodells angesichts des Dokuments; und Abrufen des Dokuments, wenn die Relevanz einen Relevanz-Schwellenwerk erreicht.
  7. Verfahren nach Anspruch 6, wobei das Ermitteln einer Relevanz des Dokuments basierend auf einer Voraussagefähigkeit des ersten und zweiten Sprachmodells umfasst: Ermitteln der Relevanz basierend auf einem Verzweigungsfaktor des ersten Sprachmodells angesichts des Dokuments und basierend auf einem Verzweigungsfaktor des zweiten Sprachmodells angesichts des Dokuments.
  8. Verfahren nach Anspruch 6 und des Weiteren umfassend: Wiederholen der Schritte des Ermittelns einer Relevanz für eine Vielzahl von Dokumenten in dem zweiten Datenspeicher; Vergleichen der ermittelten Relevanz mit dem Relevanz-Schwellenwert; und Abrufen der Dokumente, die eine Relevanz haben, die den Relevanz-Schwellenwert erreicht.
  9. Verfahren nach Anspruch 8 und des Weiteren umfassend: Anpassen des Relevanz-Schwellenwerts basierend auf einer Anzahl von Dokumenten, die den Relevanz-Schwellenwert erreichen.
  10. Verfahren nach Anspruch 6, wobei das Bereitstellen des ersten Sprachmodells umfasst: Abfragen des zweiten Datenspeichers basierend auf Informationen in dem ersten Datenspeicher; und Erstellen des ersten Sprachmodells basierend auf Informationen in dem ersten Datenspeicher und basierend auf Informationen aus dem zweiten Datenspeicher, die basierend auf der Abfrage erhalten wurden.
  11. Verfahren nach Anspruch 6, wobei das Bereitstellen des ersten Sprachmodells umfasst: Erstellen eines vorläufigen Sprachmodells basierend auf Informationen aus dem ersten Datenspeicher; und Verbinden des vorläufigen Sprachmodells mit dem zweiten Sprachmodell, um das erste Sprachmodell zu erhalten.
  12. Verfahren nach Anspruch 6, wobei das Bereitstellen des zweiten Sprachmodells umfasst: Erstellen des zweiten Sprachmodells basierend auf einer Teilmenge aller Informationen, die in dem zweiten Datenspeicher gespeichert sind.
  13. Verfahren nach Anspruch 1, wobei das Ermitteln des Relevanzmaßes das Ermitteln des Relevanzmaßes des Dokuments basierend auf der ersten Perplexität umfasst; wobei das Verfahren umfasst: Wiederholen der Schritte des Ermittelns einer ersten Perplexität und des Ermittelns eines Relevanzmaßes für eine Vielzahl von Dokumenten in dem zweiten Datenspeicher; und Abrufen relevanter Dokumente aus der Vielzahl von Dokumenten, die ein Relevanzmaß haben, das einen Schwellenwert erreicht.
  14. Verfahren nach Anspruch 13, wobei das Bereitstellen des zweiten Sprachmodells das Bereitstellen des zweiten Sprachmodells basierend auf Informationen, die in dem zweiten Datenspeicher gespeichert sind, umfasst; und wobei das Wiederholen das Wiederholen der Schritte des Ermittelns einer ersten Perplexität, des Ermittelns einer zweiten Perplexität und des Ermittelns eines Relevanzmaßes für eine Vielzahl von Dokumenten in dem zweiten Datenspeicher umfasst.
  15. Verfahren nach Anspruch 1 zum Anpassen des ersten Sprachmodells, das in einem Spracherkennungssystem verwendet wird, das Zugriff auf den ersten Datenspeicher und den zweiten Datenspeicher hat, wobei das Verfahren umfasst: Formulieren einer Informationssuchabfrage basierend auf Informationen, die in dem ersten Datenspeicher enthalten sind; Abfragen des zweiten Datenspeichers basierend auf der formulierten Abfrage; Abrufen von Informationen aus dem zweiten Datenspeicher basierend auf der Abfrage; und Anpassen des ersten Sprachmodells basierend auf den abgefragten Informationen und den Informationen in dem ersten Datenspeicher.
  16. Verfahren nach Anspruch 15 und des Weiteren umfassend: Wiederholen der Schritte des Formulierens, Abfragens, Abrufens und Anpassens, während ein Benutzer das Spracherkennungssystem verwendet.
  17. Verfahren nach Anspruch 16, wobei die Schritte des Formulierens, Abfragens, Abrufens und Anpassens periodisch ausgeführt werden, während ein Benutzer das Spracherkennungssystem verwendet.
  18. Verfahren nach Anspruch 15, wobei das Formulieren einer Informationssuchabfrage umfasst: Formulieren einer Informationssuchabfrage basierend auf Dokumenten, die vorher von dem Benutzer erzeugt wurden und in dem ersten Datenspeicher gespeichert wurden.
  19. Verfahren nach Anspruch 15, wobei das Formulieren einer Informationssuchabfrage umfasst: Formulieren einer Informationssuchabfrage basierend auf Informationen, die in einem Dokument enthalten sind, das dann von dem Benutzer vorbereitet wird.
  20. Verfahren nach Anspruch 15, wobei das Formulieren einer Informationssuchabfrage umfasst: Formulieren einer Informationssuchabfrage basierend auf Informationen, die in Bezug auf einen Typ von Dokument stehen, das dann von dem Benutzer vorbereitet wird.
  21. Verfahren nach Anspruch 20, wobei das Formulieren einer Informationssuchabfrage umfasst: Formulieren einer Informationssuchabfrage basierend auf einer Vorlage, die dann von dem Benutzer verwendet wird, um das Dokument vorzubereiten.
  22. Verfahren nach Anspruch 20, wobei das Formulieren einer Informationssuchabfrage umfasst: Formulieren einer Informationssuchabfrage basierend auf einem Anwendungsprogramm, das dann von dem Benutzer verwendet wird, um das Dokument vorzubereiten.
  23. Verfahren nach Anspruch 20, wobei das Formulieren einer Informationssuchabfrage umfasst: Formulieren einer Informationssuchabfrage basierend auf einer Tageszeit, während der der Benutzer das Dokument vorbereitet.
  24. Verfahren nach Anspruch 15, wobei das Abrufen von Informationen umfasst: Abrufen einer Vielzahl von Dokumenten von dem zweiten Datenspeicher; und Ermitteln eines Relevanzmaßes zugehörig zu jedem abgefragten Dokument.
  25. Verfahren nach Anspruch 24, wobei das Anpassen des ersten Sprachmodells umfasst: Anpassen des ersten Sprachmodells basierend auf relevanten abgerufenen Dokumenten, die ein Relevanzmaß haben, das einen Schwellenwert erreicht.
  26. Verfahren nach Anspruch 25, wobei das Anpassen des ersten Sprachmodells umfasst: Zuweisen einer Gewichtung zu jedem relevanten Dokument; und Anpassen des ersten Sprachmodells basierend auf den relevanten Dokumenten gemäß der Gewichtung, die jedem relevanten Dokument zugewiesen wurde.
  27. Verfahren nach Anspruch 15, wobei das Abrufen von Informationen aus dem zweiten Datenspeicher das Abrufen einer Vielzahl von Dokumenten von dem zweiten Datenspeicher umfasst, und des Weiteren umfasst: geringer Gewichten der vom zweiten Datenspeicher abgerufenen Dokumente als die Informationen in dem ersten Datenspeicher; und wobei das Anpassen des ersten Sprachmodells das Anpassen des ersten Sprachmodells basierend auf Informationen in dem ersten Datenspeicher und den abgerufenen Dokumenten umfasst, wie sie gegen die Informationen in dem ersten Datenspeicher gewichtet wurden.
  28. Verfahren nach Anspruch 15, wobei das erste Sprachmodell Wahrscheinlichkeitsschätzwerte von Wortsequenzen enthält, und wobei das Anpassen des ersten Sprachmodells umfasst: Abstimmen der Wahrscheinlichkeitsschätzwerte basierend auf Informationen in dem ersten Datenspeicher und den abgerufenen Informationen aus dem zweiten Datenspeicher.
  29. Verfahren nach Anspruch 26, wobei das Zuweisen einer Gewichtung zu den abgerufenen Dokumenten von dem zweiten Datenspeicher umfasst: Zuweisen einer erhöhten Gewichtung zu den von dem zweiten Datenspeicher abgerufenen Dokumenten, solange die Anzahl der Male zunimmt, wo der zweite Datenspeicher abgefragt wird, zumindest bis die erhöhte Gewichtung einen Schwellenwert erreicht.
  30. Verfahren nach Anspruch 15, wobei das Abfragen des zweiten Datenspeichers umfasst: Abfragen von Informationen durch ein globales Computer-Netzwerk.
  31. Verfahren nach Anspruch 15, wobei das Anpassen umfasst: Erstellen des ersten Sprachmodells basierend auf den Informationen, die durch eine erste Abfrage abgerufen wurden, und auf Informationen aus dem ersten Datenspeicher.
  32. Verfahren nach Anspruch 31, wobei das Anpassen des Weiteren umfasst: Erstellen des zweiten Sprachmodells basierend auf den Informationen, die durch eine nachfolgende Abfrage abgerufen wurden, und Kombinieren des ersten und des zweiten Sprachmodells.
  33. Verfahren nach Anspruch 15 zur Spracherkennung, wobei das Verfahren umfasst: Bereitstellen des ersten Datenspeichers; Bereitstellen des zweiten Datenspeichers; Bereitstellen des ersten Sprachmodells.
  34. Verfahren nach Anspruch 33 und des Weiteren umfassend: Periodisch wiederholen der Schritte des Formulierens, Abfragens, Abrufens und Anpassens, während ein Benutzer das Spracherkennungssystem verwendet.
  35. Verfahren nach Anspruch 34, wobei das Wiederholen umfasst: Periodisch wiederholen der Schritte basierend auf der Zeit.
  36. Verfahren nach Anspruch 34, wobei das Wiederholen umfasst: Wiederholen der Schritte, während der Benutzer ein Dokument unter Verwendung des Spracherkennungssystems vorbereitet, nachdem eine vorher festgelegte Anzahl von Wörtern während der Vorbereitung des Dokuments erkannt worden sind.
DE69932044T 1998-03-30 1999-02-09 Auf sprachmodellen basierte informationsgewinnung und spracherkennung Expired - Lifetime DE69932044T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/050,286 US6418431B1 (en) 1998-03-30 1998-03-30 Information retrieval and speech recognition based on language models
US50286 1998-03-30
PCT/US1999/002806 WO1999050830A1 (en) 1998-03-30 1999-02-09 Information retrieval and speech recognition based on language models

Publications (2)

Publication Number Publication Date
DE69932044D1 DE69932044D1 (de) 2006-08-03
DE69932044T2 true DE69932044T2 (de) 2006-11-23

Family

ID=21964405

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69932044T Expired - Lifetime DE69932044T2 (de) 1998-03-30 1999-02-09 Auf sprachmodellen basierte informationsgewinnung und spracherkennung

Country Status (8)

Country Link
US (1) US6418431B1 (de)
EP (1) EP1066625B1 (de)
JP (2) JP4494632B2 (de)
KR (1) KR100609253B1 (de)
CN (2) CN1171199C (de)
CA (1) CA2321112C (de)
DE (1) DE69932044T2 (de)
WO (1) WO1999050830A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11410644B2 (en) * 2019-10-18 2022-08-09 Invoca, Inc. Generating training datasets for a supervised learning topic model from outputs of a discovery topic model

Families Citing this family (174)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3628528B2 (ja) * 1998-10-26 2005-03-16 富士通株式会社 検索支援装置及び方法並びにその装置での処理をコンピュータにて行なわせるためのプログラムを格納した記録媒体
US6990628B1 (en) * 1999-06-14 2006-01-24 Yahoo! Inc. Method and apparatus for measuring similarity among electronic documents
CA2387079C (en) 1999-10-19 2011-10-18 Sony Electronics Inc. Natural language interface control system
US7275029B1 (en) * 1999-11-05 2007-09-25 Microsoft Corporation System and method for joint optimization of language model performance and size
US6904402B1 (en) * 1999-11-05 2005-06-07 Microsoft Corporation System and iterative method for lexicon, segmentation and language model joint optimization
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US6633846B1 (en) 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US6615172B1 (en) 1999-11-12 2003-09-02 Phoenix Solutions, Inc. Intelligent query engine for processing voice based queries
EP1157373A1 (de) * 1999-11-25 2001-11-28 Koninklijke Philips Electronics N.V. Referenzierung auf web-seiten in kategorien für sprach-navigation
US7113910B1 (en) * 2000-02-18 2006-09-26 At&T Corp. Document expansion in speech retrieval
US6957172B2 (en) 2000-03-09 2005-10-18 Smartsignal Corporation Complex signal decomposition and modeling
EP1279104B1 (de) * 2000-03-09 2008-12-24 Smartsignal Corporation Winkelähnlichkeitsoperator mit verallgemeinertem lensing
DE10014337A1 (de) * 2000-03-24 2001-09-27 Philips Corp Intellectual Pty Verfahren zum Erzeugen eines Sprachmodells und eines akustischen Modells für ein Spracherkennungssystem
US7031908B1 (en) 2000-06-01 2006-04-18 Microsoft Corporation Creating a language model for a language processing system
US7411108B2 (en) * 2000-06-30 2008-08-12 Chevron Phillips Chemical Company Lp Process for the removal of conjugated olefins from a monoolefin stream
US7490092B2 (en) * 2000-07-06 2009-02-10 Streamsage, Inc. Method and system for indexing and searching timed media information based upon relevance intervals
JP4105841B2 (ja) * 2000-07-11 2008-06-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体
US6618722B1 (en) * 2000-07-24 2003-09-09 International Business Machines Corporation Session-history-based recency-biased natural language document search
US6735587B2 (en) * 2000-07-28 2004-05-11 International Business Machines Corporation Maintaining pre-computed aggregate views incrementally in the presence of non-minimal changes
US6606597B1 (en) 2000-09-08 2003-08-12 Microsoft Corporation Augmented-word language model
US20020087315A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented multi-scanning language method and system
US20020087309A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented speech expectation-based probability method and system
US20020087311A1 (en) * 2000-12-29 2002-07-04 Leung Lee Victor Wai Computer-implemented dynamic language model generation method and system
DE10100725C1 (de) * 2001-01-10 2002-01-24 Philips Corp Intellectual Pty Automatisches Dialogsystem mit Datenbanksprachmodell
US7027987B1 (en) 2001-02-07 2006-04-11 Google Inc. Voice interface for a search engine
US6856957B1 (en) * 2001-02-07 2005-02-15 Nuance Communications Query expansion and weighting based on results of automatic speech recognition
US7072838B1 (en) * 2001-03-20 2006-07-04 Nuance Communications, Inc. Method and apparatus for improving human-machine dialogs using language models learned automatically from personalized data
US20030004996A1 (en) * 2001-06-29 2003-01-02 International Business Machines Corporation Method and system for spatial information retrieval for hyperlinked documents
US7146358B1 (en) 2001-08-28 2006-12-05 Google Inc. Systems and methods for using anchor text as parallel corpora for cross-language information retrieval
US6888548B1 (en) * 2001-08-31 2005-05-03 Attenex Corporation System and method for generating a visualized data representation preserving independent variable geometric relationships
US6778995B1 (en) * 2001-08-31 2004-08-17 Attenex Corporation System and method for efficiently generating cluster groupings in a multi-dimensional concept space
US6978274B1 (en) * 2001-08-31 2005-12-20 Attenex Corporation System and method for dynamically evaluating latent concepts in unstructured documents
US20030110023A1 (en) * 2001-12-07 2003-06-12 Srinivas Bangalore Systems and methods for translating languages
JP2003177786A (ja) * 2001-12-11 2003-06-27 Matsushita Electric Ind Co Ltd 言語モデル作成装置及びそれを利用した音声認識装置
DE10204924A1 (de) * 2002-02-07 2003-08-21 Philips Intellectual Property Verfahren und Vorrichtung zur schnellen mustererkennungsunterstützten Transkription gesprochener und schriftlicher Äußerungen
US20030158725A1 (en) * 2002-02-15 2003-08-21 Sun Microsystems, Inc. Method and apparatus for identifying words with common stems
US7769592B2 (en) * 2002-02-22 2010-08-03 Nuance Communications, Inc. Automatic selection of a disambiguation data field for a speech interface
US7271804B2 (en) * 2002-02-25 2007-09-18 Attenex Corporation System and method for arranging concept clusters in thematic relationships in a two-dimensional visual display area
US7584102B2 (en) * 2002-11-15 2009-09-01 Scansoft, Inc. Language model for use in speech recognition
US6947933B2 (en) * 2003-01-23 2005-09-20 Verdasys, Inc. Identifying similarities within large collections of unstructured data
US7720680B2 (en) * 2004-06-17 2010-05-18 Robert Bosch Gmbh Interactive manual, system and method for vehicles and other complex equipment
US7610313B2 (en) 2003-07-25 2009-10-27 Attenex Corporation System and method for performing efficient document scoring and clustering
US7191175B2 (en) 2004-02-13 2007-03-13 Attenex Corporation System and method for arranging concept clusters in thematic neighborhood relationships in a two-dimensional visual display space
KR100612839B1 (ko) * 2004-02-18 2006-08-18 삼성전자주식회사 도메인 기반 대화 음성인식방법 및 장치
US7293019B2 (en) * 2004-03-02 2007-11-06 Microsoft Corporation Principles and methods for personalizing newsfeeds via an analysis of information novelty and dynamics
US7392186B2 (en) * 2004-03-30 2008-06-24 Sony Corporation System and method for effectively implementing an optimized language model for speech recognition
JP3923513B2 (ja) * 2004-06-08 2007-06-06 松下電器産業株式会社 音声認識装置および音声認識方法
US8036893B2 (en) * 2004-07-22 2011-10-11 Nuance Communications, Inc. Method and system for identifying and correcting accent-induced speech recognition difficulties
KR100651940B1 (ko) * 2004-08-31 2006-12-06 엘지전자 주식회사 음성 인식 장치 및 방법
KR100695127B1 (ko) 2004-10-08 2007-03-14 삼성전자주식회사 다 단계 음성 인식 장치 및 방법
CN100421153C (zh) * 2004-10-22 2008-09-24 顾稚敏 一种预存式语言识别系统及其方法
US7356777B2 (en) 2005-01-26 2008-04-08 Attenex Corporation System and method for providing a dynamic user interface for a dense three-dimensional scene
US7404151B2 (en) * 2005-01-26 2008-07-22 Attenex Corporation System and method for providing a dynamic user interface for a dense three-dimensional scene
US7606708B2 (en) * 2005-02-01 2009-10-20 Samsung Electronics Co., Ltd. Apparatus, method, and medium for generating grammar network for use in speech recognition and dialogue speech recognition
WO2006099621A2 (en) * 2005-03-17 2006-09-21 University Of Southern California Topic specific language models built from large numbers of documents
US7630976B2 (en) * 2005-05-10 2009-12-08 Microsoft Corporation Method and system for adapting search results to personal information needs
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US20070118873A1 (en) * 2005-11-09 2007-05-24 Bbnt Solutions Llc Methods and apparatus for merging media content
US20070106685A1 (en) * 2005-11-09 2007-05-10 Podzinger Corp. Method and apparatus for updating speech recognition databases and reindexing audio and video content using the same
US9697231B2 (en) * 2005-11-09 2017-07-04 Cxense Asa Methods and apparatus for providing virtual media channels based on media search
US7801910B2 (en) * 2005-11-09 2010-09-21 Ramp Holdings, Inc. Method and apparatus for timed tagging of media content
US9697230B2 (en) 2005-11-09 2017-07-04 Cxense Asa Methods and apparatus for dynamic presentation of advertising, factual, and informational content using enhanced metadata in search-driven media applications
US20070106646A1 (en) * 2005-11-09 2007-05-10 Bbnt Solutions Llc User-directed navigation of multimedia search results
ES2330758T3 (es) * 2005-11-25 2009-12-15 Swisscom Ag Procedimiento para personalizar un servicio.
US7835911B2 (en) * 2005-12-30 2010-11-16 Nuance Communications, Inc. Method and system for automatically building natural language understanding models
US7756708B2 (en) 2006-04-03 2010-07-13 Google Inc. Automatic language model update
US9299345B1 (en) * 2006-06-20 2016-03-29 At&T Intellectual Property Ii, L.P. Bootstrapping language models for spoken dialog systems using the world wide web
US8069032B2 (en) * 2006-07-27 2011-11-29 Microsoft Corporation Lightweight windowing method for screening harvested data for novelty
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8275577B2 (en) * 2006-09-19 2012-09-25 Smartsignal Corporation Kernel-based method for detecting boiler tube leaks
US7272558B1 (en) 2006-12-01 2007-09-18 Coveo Solutions Inc. Speech recognition training method for audio and video file indexing on a search engine
US8311774B2 (en) 2006-12-15 2012-11-13 Smartsignal Corporation Robust distance measures for on-line monitoring
JP5072415B2 (ja) * 2007-04-10 2012-11-14 三菱電機株式会社 音声検索装置
US20080319733A1 (en) * 2007-06-20 2008-12-25 At&T Corp. System and method to dynamically manipulate and disambiguate confusable speech input using a table
JP5327054B2 (ja) * 2007-12-18 2013-10-30 日本電気株式会社 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
WO2009102885A1 (en) * 2008-02-12 2009-08-20 Phone Through, Inc. Systems and methods for enabling interactivity among a plurality of devices
US8312022B2 (en) 2008-03-21 2012-11-13 Ramp Holdings, Inc. Search engine optimization
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8166049B2 (en) * 2008-05-29 2012-04-24 Accenture Global Services Limited Techniques for computing similarity measurements between segments representative of documents
US8219397B2 (en) * 2008-06-10 2012-07-10 Nuance Communications, Inc. Data processing system for autonomously building speech identification and tagging data
KR101537078B1 (ko) * 2008-11-05 2015-07-15 구글 인코포레이티드 사용자 정의 언어 모델들
US8255412B2 (en) * 2008-12-17 2012-08-28 Microsoft Corporation Boosting algorithm for ranking model adaptation
US9442933B2 (en) * 2008-12-24 2016-09-13 Comcast Interactive Media, Llc Identification of segments within audio, video, and multimedia items
US8713016B2 (en) * 2008-12-24 2014-04-29 Comcast Interactive Media, Llc Method and apparatus for organizing segments of media assets and determining relevance of segments to a query
US11531668B2 (en) * 2008-12-29 2022-12-20 Comcast Interactive Media, Llc Merging of multiple data sets
US8176043B2 (en) 2009-03-12 2012-05-08 Comcast Interactive Media, Llc Ranking search results
US20100250614A1 (en) * 2009-03-31 2010-09-30 Comcast Cable Holdings, Llc Storing and searching encoded data
WO2010119233A1 (en) * 2009-04-16 2010-10-21 Kabushiki Kaisha Toshiba A data retrieval and indexing method and apparatus
US8533223B2 (en) * 2009-05-12 2013-09-10 Comcast Interactive Media, LLC. Disambiguation and tagging of entities
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9892730B2 (en) * 2009-07-01 2018-02-13 Comcast Interactive Media, Llc Generating topic-specific language models
US8635223B2 (en) 2009-07-28 2014-01-21 Fti Consulting, Inc. System and method for providing a classification suggestion for electronically stored information
CA2772082C (en) * 2009-08-24 2019-01-15 William C. Knight Generating a reference set for use during document review
US8589163B2 (en) * 2009-12-04 2013-11-19 At&T Intellectual Property I, L.P. Adapting language models with a bit mask for a subset of related words
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
EP2339576B1 (de) 2009-12-23 2019-08-07 Google LLC Mehrmodulare Eingabe in eine elektronische Vorrichtung
US8577670B2 (en) * 2010-01-08 2013-11-05 Microsoft Corporation Adaptive construction of a statistical language model
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US20110224982A1 (en) * 2010-03-12 2011-09-15 c/o Microsoft Corporation Automatic speech recognition based upon information retrieval methods
US8527534B2 (en) * 2010-03-18 2013-09-03 Microsoft Corporation Bootstrap and adapt a document search engine
JP5790646B2 (ja) * 2010-05-20 2015-10-07 日本電気株式会社 パープレキシティ算出装置
KR101196935B1 (ko) * 2010-07-05 2012-11-05 엔에이치엔(주) 실시간 인기 키워드에 대한 대표 문구를 제공하는 방법 및 시스템
US8527270B2 (en) * 2010-07-30 2013-09-03 Sri International Method and apparatus for conducting an interactive dialogue
US9576570B2 (en) 2010-07-30 2017-02-21 Sri International Method and apparatus for adding new vocabulary to interactive translation and dialogue systems
US8532994B2 (en) * 2010-08-27 2013-09-10 Cisco Technology, Inc. Speech recognition using a personal vocabulary and language model
US9805022B2 (en) * 2010-12-09 2017-10-31 Apple Inc. Generation of topic-based language models for an app search engine
US8352245B1 (en) 2010-12-30 2013-01-08 Google Inc. Adjusting language models
US8296142B2 (en) * 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
US9081760B2 (en) 2011-03-08 2015-07-14 At&T Intellectual Property I, L.P. System and method for building diverse language models
US8983995B2 (en) * 2011-04-15 2015-03-17 Microsoft Corporation Interactive semantic query suggestion for content search
US8533195B2 (en) * 2011-06-27 2013-09-10 Microsoft Corporation Regularized latent semantic indexing for topic modeling
US9176941B2 (en) * 2011-07-14 2015-11-03 Tencent Technology (Shenzhen) Company Limited Text inputting method, apparatus and system based on a cache-based language model and a universal language model
US8620853B2 (en) 2011-07-19 2013-12-31 Smartsignal Corporation Monitoring method using kernel regression modeling with pattern sequences
US9256224B2 (en) 2011-07-19 2016-02-09 GE Intelligent Platforms, Inc Method of sequential kernel regression modeling for forecasting and prognostics
US8660980B2 (en) 2011-07-19 2014-02-25 Smartsignal Corporation Monitoring system using kernel regression modeling with pattern sequences
US9250625B2 (en) 2011-07-19 2016-02-02 Ge Intelligent Platforms, Inc. System of sequential kernel regression modeling for forecasting and prognostics
JP5700566B2 (ja) * 2012-02-07 2015-04-15 日本電信電話株式会社 スコアリングモデル生成装置、学習データ生成装置、検索システム、スコアリングモデル生成方法、学習データ生成方法、検索方法及びそのプログラム
US9224383B2 (en) * 2012-03-29 2015-12-29 Educational Testing Service Unsupervised language model adaptation for automated speech scoring
US8719025B2 (en) * 2012-05-14 2014-05-06 International Business Machines Corporation Contextual voice query dilation to improve spoken web searching
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9043205B2 (en) * 2012-06-21 2015-05-26 Google Inc. Dynamic language model
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8494853B1 (en) * 2013-01-04 2013-07-23 Google Inc. Methods and systems for providing speech recognition systems based on speech recordings logs
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9251135B2 (en) * 2013-08-13 2016-02-02 International Business Machines Corporation Correcting N-gram probabilities by page view information
US10109273B1 (en) * 2013-08-29 2018-10-23 Amazon Technologies, Inc. Efficient generation of personalized spoken language understanding models
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US9412365B2 (en) 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
US9564122B2 (en) 2014-03-25 2017-02-07 Nice Ltd. Language model adaptation based on filtered data
US9251139B2 (en) * 2014-04-08 2016-02-02 TitleFlow LLC Natural language processing for extracting conveyance graphs
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9886432B2 (en) * 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10042845B2 (en) * 2014-10-31 2018-08-07 Microsoft Technology Licensing, Llc Transfer learning for bilingual content classification
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) * 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US10134394B2 (en) 2015-03-20 2018-11-20 Google Llc Speech recognition using log-linear model
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10140983B2 (en) * 2015-08-28 2018-11-27 International Business Machines Corporation Building of n-gram language model for automatic speech recognition (ASR)
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049666B2 (en) 2016-01-06 2018-08-14 Google Llc Voice recognition system
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
WO2017210618A1 (en) 2016-06-02 2017-12-07 Fti Consulting, Inc. Analyzing clusters of coded documents
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10832664B2 (en) 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10311860B2 (en) 2017-02-14 2019-06-04 Google Llc Language model biasing system
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN108694939B (zh) * 2018-05-23 2020-11-03 广州视源电子科技股份有限公司 语音搜索优化方法、装置和系统
JP7247497B2 (ja) * 2018-09-19 2023-03-29 日本電信電話株式会社 選定装置および選定方法
US11151324B2 (en) * 2019-02-03 2021-10-19 International Business Machines Corporation Generating completed responses via primal networks trained with dual networks
US11281867B2 (en) * 2019-02-03 2022-03-22 International Business Machines Corporation Performing multi-objective tasks via primal networks trained with dual networks
DE102020200499A1 (de) * 2019-12-23 2021-06-24 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren zum Generieren von gelabelten Daten, insbesondere für das Training eines neuronalen Netzes, unter Verwendung ungelabelter, partitionierter Stichproben
US20230046851A1 (en) * 2021-08-13 2023-02-16 Avanade Holdings Llc Multi-model approach to natural language processing and recommendation generation
CN113722447B (zh) * 2021-11-03 2022-02-08 南京云问网络技术有限公司 一种基于多策略匹配的语音搜索方法

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4831550A (en) * 1986-03-27 1989-05-16 International Business Machines Corporation Apparatus and method for estimating, from sparse data, the probability that a particular one of a set of events is the next event in a string of events
DE3723078A1 (de) * 1987-07-11 1989-01-19 Philips Patentverwaltung Verfahren zur erkennung von zusammenhaengend gesprochenen woertern
DE3739681A1 (de) * 1987-11-24 1989-06-08 Philips Patentverwaltung Verfahren zum bestimmen von anfangs- und endpunkt isoliert gesprochener woerter in einem sprachsignal und anordnung zur durchfuehrung des verfahrens
US5263117A (en) * 1989-10-26 1993-11-16 International Business Machines Corporation Method and apparatus for finding the best splits in a decision tree for a language model for a speech recognizer
JPH04291399A (ja) * 1991-03-20 1992-10-15 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
US5502774A (en) * 1992-06-09 1996-03-26 International Business Machines Corporation Automatic recognition of a consistent message using multiple complimentary sources of information
US5384892A (en) * 1992-12-31 1995-01-24 Apple Computer, Inc. Dynamic language model for speech recognition
JPH0713598A (ja) * 1993-06-24 1995-01-17 Osaka Gas Co Ltd 特定タスク音声データベース生成装置
EP0645757B1 (de) 1993-09-23 2000-04-05 Xerox Corporation Semantische Gleichereignisfilterung für Spracherkennung und Signalübersetzungsanwendungen
US5615296A (en) * 1993-11-12 1997-03-25 International Business Machines Corporation Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors
US5675819A (en) 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
US5668928A (en) * 1995-01-31 1997-09-16 Kor Team International, Inc. Speech recognition system and method with automatic syntax generation
US5689617A (en) * 1995-03-14 1997-11-18 Apple Computer, Inc. Speech recognition system which returns recognition results as a reconstructed language model with attached data values
IT1279171B1 (it) * 1995-03-17 1997-12-04 Ist Trentino Di Cultura Sistema di riconoscimento di parlato continuo
US5710866A (en) * 1995-05-26 1998-01-20 Microsoft Corporation System and method for speech recognition using dynamically adjusted confidence measure
US5680511A (en) 1995-06-07 1997-10-21 Dragon Systems, Inc. Systems and methods for word recognition
US5899973A (en) * 1995-11-04 1999-05-04 International Business Machines Corporation Method and apparatus for adapting the language model's size in a speech recognition system
US5913193A (en) * 1996-04-30 1999-06-15 Microsoft Corporation Method and system of runtime acoustic unit selection for speech synthesis
US5937384A (en) * 1996-05-01 1999-08-10 Microsoft Corporation Method and system for speech recognition using continuous density hidden Markov models
US5835888A (en) * 1996-06-10 1998-11-10 International Business Machines Corporation Statistical language model for inflected languages
US5963903A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Method and system for dynamically adjusted training for speech recognition
US5905972A (en) * 1996-09-30 1999-05-18 Microsoft Corporation Prosodic databases holding fundamental frequency templates for use in speech synthesis
US5819220A (en) * 1996-09-30 1998-10-06 Hewlett-Packard Company Web triggered word set boosting for speech interfaces to the world wide web
US5829000A (en) * 1996-10-31 1998-10-27 Microsoft Corporation Method and system for correcting misrecognized spoken words or phrases
GB9701866D0 (en) 1997-01-30 1997-03-19 British Telecomm Information retrieval
DE19708183A1 (de) * 1997-02-28 1998-09-03 Philips Patentverwaltung Verfahren zur Spracherkennung mit Sprachmodellanpassung
DE19708184A1 (de) * 1997-02-28 1998-09-03 Philips Patentverwaltung Verfahren zur Spracherkennung mit Sprachmodellanpassung
US6073091A (en) * 1997-08-06 2000-06-06 International Business Machines Corporation Apparatus and method for forming a filtered inflected language model for automatic speech recognition
US6154722A (en) * 1997-12-18 2000-11-28 Apple Computer, Inc. Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability
US6182039B1 (en) * 1998-03-24 2001-01-30 Matsushita Electric Industrial Co., Ltd. Method and apparatus using probabilistic language model based on confusable sets for speech recognition
US6141641A (en) * 1998-04-15 2000-10-31 Microsoft Corporation Dynamically configurable acoustic model for speech recognition system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11410644B2 (en) * 2019-10-18 2022-08-09 Invoca, Inc. Generating training datasets for a supervised learning topic model from outputs of a discovery topic model
US11804216B2 (en) 2019-10-18 2023-10-31 Invoca, Inc. Generating training datasets for a supervised learning topic model from outputs of a discovery topic model

Also Published As

Publication number Publication date
WO1999050830A1 (en) 1999-10-07
JP4494632B2 (ja) 2010-06-30
CA2321112A1 (en) 1999-10-07
KR100609253B1 (ko) 2006-08-04
JP4664423B2 (ja) 2011-04-06
DE69932044D1 (de) 2006-08-03
JP2002510076A (ja) 2002-04-02
US6418431B1 (en) 2002-07-09
CA2321112C (en) 2005-01-11
CN1295705A (zh) 2001-05-16
CN1171199C (zh) 2004-10-13
KR20010042377A (ko) 2001-05-25
CN1253821C (zh) 2006-04-26
EP1066625B1 (de) 2006-06-21
EP1066625A1 (de) 2001-01-10
JP2009238235A (ja) 2009-10-15
CN1474378A (zh) 2004-02-11

Similar Documents

Publication Publication Date Title
DE69932044T2 (de) Auf sprachmodellen basierte informationsgewinnung und spracherkennung
KR101201037B1 (ko) 키워드와 웹 사이트 콘텐츠 사이의 관련성 검증
RU2393533C2 (ru) Предложение родственных терминов для многосмыслового запроса
DE60123952T2 (de) Erzeugung von einem einheitlichen aufgabeabhängigen sprachmodell mittels informationsauffindungverfahren
WO2017107566A1 (zh) 基于词向量相似度的检索方法和系统
CN110377725B (zh) 数据生成方法、装置、计算机设备及存储介质
CN108027814B (zh) 停用词识别方法与装置
CN108846138B (zh) 一种融合答案信息的问题分类模型构建方法、装置和介质
CN1629837A (zh) 电子文档的处理、浏览及分类查询的方法、装置及其系统
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
CN110347833B (zh) 一种多轮对话的分类方法
Kurimo Indexing audio documents by using latent semantic analysis and som
WO2011037753A1 (en) Method and apparatus for ordering results of a query
Bai et al. Intelligent retrieval of dynamic networked information from mobile terminals using spoken natural language queries
CN1629843A (zh) 电子文档的处理、浏览及搜索的方法、装置及其系统
CN116756347A (zh) 一种基于大数据的语义信息检索方法
KR100751295B1 (ko) 질의 기반의 문서요약 장치 및 그 방법
CA2473172C (en) Information retrieval and speech recognition based on language models
CN115688771B (zh) 一种文书内容比对性能提升方法及系统
CN116992874B (zh) 一种文本引用审核溯源方法、系统、装置和存储介质
KR100817432B1 (ko) 문서 확장에 의한 음성 자료의 고속 검색 방법 및 시스템
Ye et al. Generalized learning of neural network based semantic similarity models and its application in movie search
Jeon et al. A key word analysis of English intensifying adverbs in male and female speech in ICE-GB
RU2348072C1 (ru) Способ оценки степени раскрытия понятия в тексте, основанный на контекстах, для поисковых систем
Benghabrit et al. Feature selection methods for document clustering: a comparative study and a hybrid solution

Legal Events

Date Code Title Description
8364 No opposition during term of opposition