DE60125397T2 - Sprachunabhängige stimmbasierte benutzeroberfläche - Google Patents
Sprachunabhängige stimmbasierte benutzeroberfläche Download PDFInfo
- Publication number
- DE60125397T2 DE60125397T2 DE60125397T DE60125397T DE60125397T2 DE 60125397 T2 DE60125397 T2 DE 60125397T2 DE 60125397 T DE60125397 T DE 60125397T DE 60125397 T DE60125397 T DE 60125397T DE 60125397 T2 DE60125397 T2 DE 60125397T2
- Authority
- DE
- Germany
- Prior art keywords
- language
- user
- text
- results
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 claims abstract description 20
- 230000008447 perception Effects 0.000 claims abstract 2
- 238000012545 processing Methods 0.000 claims description 29
- 238000013519 translation Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 2
- 238000009877 rendering Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000013500 data storage Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000002269 spontaneous effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3337—Translation of the query language, e.g. Chinese to English
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Navigation (AREA)
- User Interface Of Digital Computer (AREA)
Description
- STAND DER TECHNIK
- 1. GEBIET DER TECHNIK
- Die vorliegende Erfindung betrifft allgemein Web-Browser und Suchmaschinen und im Besonderen Benutzerschnittstellen für Web-Browser unter Verwendung von gesprochener Sprache in verschiedenen Sprachen.
- 2. BESCHREIBUNG DES STANDS DER TECHNIK
- Zurzeit stellt das Internet mehr Informationen an Benutzer zur Verfügung als jede andere Quelle. Häufig ist es jedoch schwer, die Informationen zu finden, die man sucht. Zu diesem Zweck wurden Suchmaschinen entwickelt, um die Lokalisierung der gewünschten Informationen zu unterstützen. Zur Verwendung einer Suchmaschine gibt ein Benutzer für gewöhnlich einen Suchbegriff über eine Tastatur ein oder wählt eine Suchkategorie unter Verwendung einer Maus aus. Die Suchmaschine sucht danach im Internet oder einem Intranet auf der Basis des Suchbegriffs nach relevanten Informationen. Diese Einschränkung der Benutzerschnittstelle begrenzt stark die Anzahl der möglichen Benutzer, die einen Web-Browser für die Lokalisierung von Informationen im Internet oder einem Intranet einsetzen, da Benutzer, denen es schwer fällt, den Suchbegriff in englischer Sprache einzugeben (zum Beispiel Personen, die nur Chinesisch oder Japanisch sprechen), derartige Suchmaschinen wahrscheinlich nicht verwenden.
- Wenn eine Suchmaschine oder ein Internetportal das Anzeigen der Ergebnisse in mehreren Sprachen unterstützt, so zeigt die Suchmaschine oder das Portal für gewöhnlich Webseiten, die vorher in einer bestimmten Sprache erstellt worden sind, erst nachdem der Benutzer die Auswahl trifft, und zwar unter Einsatz einer Maus, die gewünschte Sprache zu Ausgabezwecken an.
- In letzter Zeit haben einige Internetportale Spracheingabedienste implementiert, wobei ein Benutzer unter Verwendung einer Spracherkennungsanwendung und eines Mikrofons, das mit dem Computersystem des Benutzers gekoppelt ist, Informationen zu bestimmten Themen nachfragen kann, wie zum Beispiel zum Wetter, Sport, Aktienkursen, etc. In diesen Fällen werden die Sprachdaten in einen vorbestimmten Befehl umgesetzt, den das Portal erkennt, um auszuwählen, welche Webseite angezeigt werden soll. Die englische Sprache ist für gewöhnlich jedoch die einzige unterstützte Sprache, und die gesprochene Sprache ermöglicht keine Dialoge. Keine der bekannten Suchmaschinen unterstützt direkt Sprachsuchanfragen.
- Das europäische Patent
EP 1 033 702 A2 beschreibt ein System zum Verstehen von Sprache, für den Empfang einer gesprochenen Anforderung von einem Benutzer und zur Verarbeitung der Anforderung in Verbindung mit einer Informationsbank bzw. Wissensbasis von Programminformationen zum automatischen Auswählen eines Fernsehprogramms. Das Spracherkennungssystem weist eine Extrahierungseinrichtung für Informationen für den Empfang von Informationen eines elektronischen Programmführers (EPG als englische Abkürzung von Electronic Programming Guide) und zur Verarbeitung der EPG-Informationen zur Erzeugung einer Programmdatenbank auf. Das System weist ferner eine Spracherkennungseinrichtung auf, die dazu dient, die gesprochene Anforderung zu empfangen und die gesprochene Anforderung in einen Textstrom mit einer Mehrzahl von Wärtern umzusetzen. Ein Prozessor für natürliche Sprache ist bereitgestellt für den Empfang des Textstroms und die Verarbeitung der Wörter zum Auflösen eines semantischen Inhalts der gesprochenen Anforderung. Der Prozessor für natürliche Sprache platziert die Bedeutung der Wörter in einem Aufgabenrahmen mit einer Mehrzahl von Schlüsselbegriffschlitzen. Ein Dialogmanager analysiert den Aufgabenrahmen, um zu bestimmen, ob eine ausreichende Anzahl von Schlüsselwörterschlitzen bzw. Schlüsselbegriffschlitzen gefüllt worden ist, und er fordert den Benutzer zur Eingabe zusätzlicher Informationen zum Füllen leerer Schlitze auf. Der Dialogmanager. sucht in der Programmdatenbank unter Verwendung von Schlüsselwörtern, die in dem Aufgabenrahmen zur Auswahl eines Programms platziert werden, und wobei er ein Signal erzeugt, um einen dem Programm zugeordneten Fernsehkanal bzw. Fernsehsender auszuwählen. - Das europäische Patent
EP 1 014 277 A1 beschreibt ein Verfahren und Systeme zum Identifizieren der Sprache(n) eines Textes oder einer Kommunikation auf der Basis gesprochener Sprache, indem ein willkürliches Segment in der Kommunikation mit einem oder mehreren Sprachsegmenten aus mindestens einer Sprachdatenbank verglichen wird. Nachdem die Sprachidentifikation der Kommunikation erreicht worden ist, werden einem Benutzer Optionen für die folgende Verarbeitung und/oder den Abruf der Kommunikation bereitgestellt. Zu den Benutzeroptionen zählen die Umsetzung in eine oder mehrere spezifizierte sekundäre Sprachen und/oder die Medienumsetzung (z.B. Text-zu-Sprache oder Sprache-zu-Text). Die umgesetzte Kommunikation kann über verfügbare Medienabrufvorrichtungen beurteilt werden (z.B. ein Telefon, ein Faxgerät, einen Personalcomputer). - ZUSAMMENFASSUNG DER ERFINDUNG
- Vorgesehen ist gemäß einem ersten Aspekt der vorliegenden Erfindung ein Verfahren gemäß dem gegenständlichen Anspruch 1.
- Vorgesehen ist gemäß einem zweiten Aspekt der vorliegenden Erfindung ein System gemäß dem gegenständlichen Anspruch 6.
- Weitere Merkmale der Erfindung sind in den entsprechenden Unteransprüchen der Ansprüche 1 und 6 beschrieben.
- KURZE BESCHREIBUNG DER ZEICHNUNGEN
- Die Merkmale und Vorteile der vorliegenden Erfindung werden aus der folgenden genauen Beschreibung der vorliegenden Erfindung deutlich. In den Zeichnungen zeigen:
-
1 ein Diagramm eines sprachunabhängigen, auf gesprochener Sprache basierenden Suchsystems gemäß einem Ausführungsbeispiel der vorliegenden Erfindung; -
2 ein Flussdiagramm des sprachunabhängigen, auf gesprochener Sprache basierenden Suchens gemäß einem Ausführungsbeispiel der vorliegenden Erfindung; und -
3 ein Diagramm eines beispielhaften Verarbeitungssystems, das als ein sprachunabhängiges, auf gesprochener Sprache basierendes Suchsystems gemäß einem Ausführungsbeispiel der vorliegenden Erfindung betrieben werden kann. - GENAUE BESCHREIBUNG
- Bei einem Ausführungsbeispiel der vorliegenden Erfindung handelt es sich um ein Verfahren und eine Vorrichtung für ein sprachunabhängiges, auf gesprochener Sprache basierendes Internet- oder Intranet-Suchsystem. Die vorliegende Erfindung kann eingesetzt werden, um die aktuellen Suchmöglichkeiten im Internet oder einem Intranet dadurch zu erweitern, dass es Benutzern gestattet wird, in ihren eigenen gesprochenen Muttersprachen nach gewünschten Informationen zu suchen. In einem Ausführungsbeispiel kann das Suchsystem Spracheingaben von einem Benutzer akzeptieren, die in Dialogform gesprochen werden, wobei automatisch die von dem Benutzer gesprochene Sprache identifiziert wird, wobei die Sprache in den Spracheingabedaten erkannt wird, und wobei die gewünschte Suche unter Verwendung der Sprache als Eingabedaten für eine Suchanfrage an eine Suchmaschine ausgeführt wird. Um das sprachunabhängige, auf gesprochener Sprache basierende Suchsystem noch leistungsfähiger zu machen, können verschiedene Merkmale in das System integriert werden. Die Verarbeitung natürlicher Sprache (NLP als englische Abkürzung von Natural Language Processing) kann angewandt werden, um die Suchbegriffe aus der natürlich gesprochenen Anfrage bzw. Anforderung zu extrahieren, so dass Benutzer die Suchbegriffe nicht exakt sprechen müssen (wodurch die Dialogsprache unterstützt wird). Die maschinelle Übersetzung kann eingesetzt werden, um Suchbegriffe sowie Suchergebnisse in verschiedene Sprachen zu übersetzen, so dass der Suchraum deutlich erweitert werden kann. Techniken zur automatischen Zusammenfassung können für die Zusammenfassung der Suchergebnisse eingesetzt werden, wenn die Ergebnisse nicht gut organisiert sind oder nicht so präsentiert werden, wie dies seitens des Benutzer bevorzugt wird. Die Erzeugung natürlicher Sprache und Text-zu-Sprache-Techniken (TTS) können eingesetzt werden, um die Suchergebnisse dem Benutzer in dessen gesprochenen Muttersprache mündlich zu übermitteln. Sobald das universelle Sprachsuchkonzept der vorliegenden Erfindung in eine Internet- oder Intranet-Suchmaschine integriert ist, wird es zu einem leistungsfähigen Hilfsmittel für Menschen, die verschiedene Sprachen sprechen, Informationen, die im Internet oder einem Intranet zur Verfügung stehen, so bequem wie möglich zu nutzen. Dieses System kann eine stärkere Nutzung des Internet seitens Personen bewirken, die der englischen Sprache nicht mächtig sind, indem Suchmaschinen oder andere Webseiten einfacher eingesetzt werden können.
- Verweise in der vorliegenden Patentschrift auf „ein Ausführungsbeispiel" der vorliegenden Erfindung bedeuten, dass ein in Verbindung mit dem Ausführungsbeispiel beschriebenes Merkmal, eine entsprechende Struktur oder Eigenschaft in mindestens einem Ausführungsbeispiel der vorliegenden Erfindung enthalten ist. Somit beziehen sich die Nennungen des Ausdrucks „in einem Ausführungsbeispiel", die an verschiedenen Stellen in der Patentschrift auftauchen, nicht unbedingt alle auf das gleiche Ausführungsbeispiel.
- Die Ausführungsbeispiele der vorliegenden Erfindung stellen zumindest einige Merkmale bereit. Die Spracherkennung ermöglicht Benutzern die Interaktion mit Internet-Suchmaschinen mittels des natürlichsten und effektivsten Mediums, der eigenen gesprochenen Sprache der Benutzer. Dies kann in verschiedenen asiatischen Ländern besonders nützlich sein, in denen Benutzer eventuell nicht in der Lage sind, ihre Muttersprachen schnell zu tippen, bedingt durch die Beschaffenheit dieser geschriebenen Sprachen. Die automatische Sprachidentifikation ermöglicht es, dass Benutzer, die verschiedene Sprachen sprechen, im Internet oder in einem Intranet unter Verwendung eines einzelnen Systems mit ihrer eigenen gesprochenen Sprache suchen, ohne dem System spezifisch mitzuteilen, welche Sprache sie sprechen. Dieses Merkmal kann zu einem erheblichen Zuwachs der Benutzer im Internet führen, die Suchmaschinen benutzen, aber auch im World Wide Web (WWW) im Allgemeinen. Die Verarbeitung der natürlichen Sprache kann eingesetzt werden, um es Benutzern zu ermöglichen, eigene Suchbegriffe in einer Suchanfrage auf natürliche Weise in Dialogform zu sprechen. Wenn der Benutzer zum Beispiel „Könnten Sie bitte nach Artikeln über den Sezessionskrieg suchen?" sagt, kann die Funktion der natürlichen Sprachverarbeitung den ganzen Satz in den Suchbegriff „Sezessionskrieg" umwandeln, ohne dass es erforderlich ist, dass der Benutzer genau „Sezessionskrieg" sagt.
- Der kann die maschinelle Übersetzung von Sprachen eingesetzt werden, um der Suchmaschine die sprachübergreifende Suche zu ermöglichen. Wenn ein Benutzer zum Beispiel den Suchbegriff auf Chinesisch spricht, kann die maschinelle Übersetzung den Suchbegriff in andere Sprachen (z.B. Englisch, Spanisch, Französisch, Deutsch, etc.) übersetzen und eine deutlich umfassendere Suche im Internet vornehmen. Wenn ein für die Suchanfrage relevantes Ergebnis gefunden wird, die Webseiten aber in anderen Sprachen als Chinesisch verfasst sind, so übersetzt die vorliegende Erfindung die Suchergebnisse zurück ins Chinesische (die Sprache der ursprünglichen gesprochenen Suchanfrage). Eine Technik der automatischen Zusammenfassung kann eingesetzt werden, um die Zusammenfassung der Suchergebnisse zu unterstützen, wenn die Ergebnisse zum Beispiel in einem langen Dokument verstreut sind, oder wenn es anderweitig schwierig ist, die Informationen zu bestimmen, die durch die Suchmaschine als relevant für den Suchbegriff bestimmt worden sind. Wenn die Suchergebnisse in einem Format präsentiert werden, das von dem Benutzer nicht bevorzugt wird, so kann die vorliegende Erfindung die Ergebnisse zusammenfassen und diese dem Benutzer in anderer Form präsentieren. Wenn die Ergebnisse zum Beispiel in einer farbigen Abbildung präsentiert werden und der Benutzer Schwierigkeiten dabei hat, bestimmte Farben zu unterscheiden, so kann die vorliegende Erfindung den Inhalt der Abbildung zusammenfassen und die Informationen dem Benutzer in Textform anzeigen.
- Die Erzeugung natürlicher Sprache unterstützt die Organisation der Sucherergebnisse und die Erzeugung einer Antwort, die zu der natürlichen gesprochenen Sprache passt, welche die gewünschte Ausgabesprache darstellt. Das heißt, die Ergebnisse können sprachspezifisch modifiziert werden. Die Text-zu-Sprache-Funktionalität (TTS) kann eingesetzt werden, um die Suchergebnisse akustisch wiederzugeben, wenn der Benutzer diesen Ausgabemodus auswählt. Zum Beispiel können die Augen des Benutzers beschäftigt sein oder der Benutzer kann eine mündliche Antwort auf die gesprochene Suchanfrage bevorzugen.
- Die Abbildung aus
1 zeigt die Architektur des sprachunabhängigen, auf gesprochener Sprache basierenden Suchsystems. Ein Benutzer (nicht abgebildet) interagiert mit den Funktionen der Eingabe10 und der Ausgabe12 . In Bezug auf die Eingabefunktionen unterstützt das System zumindest die Funktionalität der traditionellen Tastatur und Maus14 sowie die Funktion der Spracheingabe16 . Die Spracheingabe kann auf allgemein bekannte Art und Weise unterstützt werden, indem Sprache oder andere akustische Töne von einem mit dem System gekoppelten Mikrofon akzeptiert werden. Die empfangenen Audiodaten können digitalisiert und in ein Format umgewandelt werden, das ein Spracherkennungsmodul oder ein Sprachidentifikationsmodul akzeptiert. In Bezug auf die Ausgabefunktionalität kann das System die Suchergebnisse als Text oder Bilder auf einer Anzeige18 auf herkömmliche Art und Weise wiedergeben. Alternativ kann das System die Suchergebnisse akustisch unter Verwendung einer allgemein bekannten Text-zu-Sprache-Funktion20 wiedergeben. Die Verarbeitung jeder der identifizierten Eingabe- und Ausgabefunktionalitäten ist dem Fachmann auf dem Gebiet bekannt und wird hierin nicht näher beschrieben. In anderen Ausführungsbeispielen kann auch eine andere Eingabe- und/oder Ausgabeverarbeitung eingesetzt werden, ohne den Umfang der vorliegenden Erfindung dabei einzuschränken. - Wenn sich ein Benutzer dafür entscheidet, seine oder ihre Sprache für die Ausführung einer Suche einzusetzen, so spricht der Benutzer in das mit dem System gekoppelte Mikrofon und fordert das System auf, zu suchen, was den Benutzer interessiert. Der Benutzer kann zum Beispiel „Hhhmm, suche mir Informationen darüber, wer, eh, den NFL Super Bowl im Jahr 2000 gewonnen hat" sagen. Ferner kann der Benutzer dies in jeder von dem System unterstützten Sprache sagen. Zum Beispiel kann das System so implementiert sein, dass es als Eingabesprachen Chinesisch, Japanisch, Englisch, Französisch, Spanisch und Russisch unterstützt. In verschiedenen Ausführungsbeispielen können anderen Sprachgruppierungen unterstützt werden.
- Nachdem die Spracheingabedaten erfasst und digitalisiert worden sind, können die Spracheingabedaten zu dem Sprachidentifikationsmodu
22 in der sprachunabhängigen Benutzerschnittstelle24 weitergeleitet werden, um zu bestimmen, welche Sprache der Benutzer spricht. Das Sprachidentifikationsmodul22 extrahiert Merkmale aus den Spracheingabedaten, um zu unterscheiden, welche Sprache gesprochen wird, und das Modul gibt einen Bezeichner der verwendeten Sprache aus. Im Fach sind verschiedene Algorithmen zum automatischen Identifizieren von Sprachen aus Sprachdaten bekannt. Allgemein können ein Hidden-Markov-Modell oder neuronale Netze in dem Identifikationsalgorithmus eingesetzt werden. In einem Ausführungsbeispiel der vorliegenden Erfindung kann ein gesprochenes Sprachidentifikationssystem eingesetzt werden, wie dieses etwa offenbart wird in „Robust Spoken Language Identification Using Large Vocabulary Speech Recognition" von J.L. Hieronymus und S. Kadambe, 1997 IEEE Internal Conference on Acoustics, Speech, and Signal Processing. In einem anderen Ausführungsbeispiel kann ein gesprochenes Sprachidentifikationssignal verwendet werden, wie es etwa offenbart wird in „An Unsupervised Approach to Language Identification" von F. Pellegrino und R. Andre-Obrecht, 1999 IEEE International Conference on Acoustics, Speech and Signal Processing. In anderen Ausführungsbeispielen können auch andere automatische Sprachidentifikationssysteme eingesetzt werden, die heute bereits bekannt sind oder die sich noch in bzw. vor der Entwicklung befinden. Unabhängig von dem verwendeten Sprachidentifikationssystem können Entwickler des Systems die Modelle in dem Sprachidentifikationssystem trainieren, so dass sie eine ausgesuchte Gruppe von Sprachen erkennen, die von dem Suchsystem unterstützt werden. - Zumindest teilweise auf der Basis der detektierten Sprache können die Spracheingabedaten zu dem Spracherkennungsmodul
23 übermittelt werden, für eine Umsetzung in ein Textformat. Teile dieser Verarbeitung können in bestimmten Ausführungsbeispielen parallel zu dem Sprachidentifikationsmodul22 ausgeführt werden. Das Spracherkennungsmodul23 akzeptiert die umzusetzenden Sprachdaten und den Sprachbezeichner, erkennt, welche Worte gesprochen worden sind und übersetzt die Informationen in Text. Somit stellt das Spracherkennungsmodul23 eine allgemein bekannte Sprache-zu-Text-Funktionalität bereit. Zu diesem Zweck kann in dem vorliegenden System jede der verschiedenen im Handel erhältlichen Sprache-zu-Text-Softwareanwendungen eingesetzt werden. Zum Beispiel ermöglicht es ViaVoiceTM, erhältlich von der International Business Machines (IBM) Corporation, Benutzern, direkt in verschiedene Anwendungsprogramme zu diktieren. Verschiedene Versionen von ViaVoiceTM unterstützen mehrere Sprachen (wie zum Beispiel Englisch, Chinesisch, Französisch und Italienisch). - In vielen Fällen kann es vorkommen, dass der durch das Spracherkennungsmodul bestimmte Text grammatikalisch fehlerhaft ist. Da es sich bei der Sprache um eine spontane Sprache des Benutzers handeln kann, kann der resultierende Text Füllwörter, Sprachidiome, Wiederholungen, etc. aufweisen. Das Verarbeitungsmodul
26 für natürliche Sprache kann eingesetzt werden, um Schlüsselwörter bzw. Schlüsselbegriffe aus dem Text zu extrahieren. In dem vorstehenden Beispiel können die Wörter und Töne „Hhhmm, suche mir Informationen darüber, wer, eh, den im Jahr gewonnen hat" verworfen werden, und wobei die Wörter „NFL Super Bowl 2000" als Schlüsselwörter identifiziert werden können. Im Fach sind verschiedene Algorithmen und Systeme zur Implementierung von Parsern bzw. Analysealgorithmen zum Extrahieren ausgewählter Sprachbegriffe aus der gesprochenen Sprache bekannt. In einem Ausführungsbeispiel der vorliegenden Erfindung kann ein Parser eingesetzt werden, wie dieser offenbart wird in „Extracting Information in Spontaneous Speech" von Wayne Ward, 1994 Proceedings of the International Conference on Spoken Language Processing (ICSLP). In einem anderen Ausführungsbeispiel kann ein Analysealgorithmus eingesetzt werden, wie er offenbart wird in „TINA: A Natural Language System for Spoken Language Applications" von S. Seneff, Computational Linguistics, März 1992. In anderen Ausführungsbeispielen können auch andere Verarbeitungssysteme für natürliche Sprache eingesetzt werden, die bereits bekannt sind oder sich noch in bzw. vor der Entwicklung befinden. - Nachdem die Schlüsselwörter aus dem Text extrahiert worden sind, können die Schlüsselwörter durch ein Maschinenübersetzungsmodul
28 in eine Mehrzahl unterstützter Sprachen übersetzt werden. Durch die Übersetzung der Schlüsselwörter in mehrere Sprachen und den Einsatz der Schlüsselwörter als Suchbegriffe, kann die Suche in Dokumenten in verschiedenen Sprachen durchgeführt werden, wodurch der verwendete Suchraum erheblich vergrößert bzw. erweitert wird. Verschiedene Algorithmen und Systeme zur Implementierung der maschinellen Übersetzung von Sprachen sind im Fach bekannt. In einem Ausführungsbeispiel der vorliegenden Erfindung kann eine maschinelle Übersetzung gemäß der Offenbarung in „The KANT Machine Translation System: From R&D to Initial Deployment" von E. Nyberg, T. Mitamura und J. Carbonell, Präsentation im Rahmen des 1997 LISA Workshop on Integrating Advanced Translation Technology, eingesetzt werden. In anderen Ausführungsbeispielen können maschinelle Übersetzungssysteme eingesetzt werden, die bereits heute bekannt sind oder die noch entwickelt werden. - Die Schlüsselwörter können automatisch als Suchbegriffe in verschiedenen Sprachen
30 in eine Suchmaschine32 eingegeben werden. Es kann jede einzelne oder es können mehrere der verschiedenen bekannten Suchmaschinen eingesetzt werden (z.B. Yahoo, Excite, AltaVista, Google, Northern Lights und dergleichen). Die Suchmaschine sucht im Internet oder in einem speziellen Intranet und gibt die Suchergebnisse in verschiedenen Sprachen34 an die sprachunabhängige Benutzerschnittstelle24 zurück. Abhängig von den Suchergebnissen können die Ergebnisse in einer einzelnen Sprache oder in mehreren Sprachen gegeben sein. Wenn die Suchergebnisse in mehreren Sprachen vorliegen, kann das Maschinenübersetzungsmodul28 eingesetzt werden, um die Suchergebnisse in dem von dem Benutzer verwendete Sprache zu übersetzen. Wenn die Suchergebnisse in einer einzigen Sprache vorliegen, bei der es sich nicht um die Sprache des Benutzers handelt, so können die Ergebnisse in die Sprache des Benutzers übersetzt werden. - Das automatische Zusammenfassungsmodul
36 kann eingesetzt werden, um die Suchergebnisse bei Bedarf zusammenzufassen. In einem Ausführungsbeispiel können für die Implementierung der automatischen Zusammenfassung die Lehren aus „A Unified Structure- Based Framework for Indexing and Gisting of Meetings" von T. Kristjansson, T. Huang, P. Ramesh und B. Juang, 1999 IEEE International Conference on Multimedia Computing and Systems, eingesetzt werden. In anderen Ausführungsbeispielen können andere Techniken für die Zusammenfassung von Informationen eingesetzt werden, die bereits heute bekannt sind oder sich noch in der Entwicklung befinden bzw. noch entwickelt werden. - Das Modul
36 zur Erzeugung natürlicher Sprache kann eingesetzt werden, um die zusammengefassten Suchergebnisse in der Sprache des Benutzers zu verwenden und natürlich gesprochene Formen der Ergebnisse zu erzeugen. Die Ergebnisse können modifiziert werden, um lesbaren Sätzen unter Verwendung eines ausgesuchten prosodischen Musters zu entsprechen, so dass die Ergebnisse, wenn sie an den Benutzer wiedergegeben werden, natürlich klingen und grammatikalisch korrekt sind. In einem Ausführungsbeispiel der vorliegenden Erfindung kann ein System zur Erzeugung natürlicher Sprache eingesetzt werden, wie es offenbart wird in „Multilingual Language Generation Across Multiple Domains" von J. Glass, J. Polifroni und S. Seneff, 1994 Proceeding of International Conference on Spoken Language Processing (ICSLP), wobei aber auch andere Verarbeitungstechniken zur Erzeugung natürlicher Sprache eingesetzt werden können, die bereits heute bekannt sind oder noch entwickelt werden. - Die Ausgabe des Moduls zur Erzeugung natürlicher Sprache kann zu dem Text-zu-Sprache-Modul
20 geleitet werden, um den Text in ein Audioformat umzuwandeln und um die Audiodaten für den Benutzer wiederzugeben. Alternativ kann der Text auf einer Anzeige18 auf herkömmliche Weise angezeigt werden. Verschiedene Text-zu-Sprache-Implementierungen sind im Fach bekannt. In einem Ausführungsbeispiel kann die ViaVoiceTM Text-zu-Sprache-Technologie (TTS) eingesetzt werden, die von der IBM Corporation erhältlich ist. Andere Implementierungen können ebenfalls eingesetzt werden, wie zum Beispiel die mehrsprachigen Text-zu-Sprache-Systeme, die von Lucent Technologies Bell Laboratories erhältlich sind. In einem anderen Ausführungsbeispiel, bei dem die Suchergebnisse für den Benutzer akustisch wiedergegeben werden, kann die visuelle TTS auch eingesetzt werden, um ein Bild eines Gesichts (z.B. einen sprechenden Kopf) anzuzeigen, animiert in Synchronisierung mit der synthetisierten Sprache. Realistische Mundbewegungen des sprechenden Kopfes, die mit den Sprachgeräuschen übereinstimmen, vermitteln nicht nur das Gefühl, dass das Bild spricht, sie können auch die Verständlichkeit der wiedergegebenen Sprache erhöhen. Animierte Agenten, wie etwa der sprechende Kopf, können die Bereitschaft des Benutzers erhöhen, zu warten, während die Suche durchgeführt wird. - Die vorstehende Beschreibung konzentrierte sich zwar auf Suchmaschinen als eine Anwendung für die sprachunabhängige Eingabe auf der Basis gesprochener Sprache, wobei jedoch auch andere bekannte Anwendungen, welche die automatische Sprachidentifikation gesprochener Eingaben unterstützen, von der vorliegenden Erfindung profitieren können. Web-Browser, welche die vorliegende Erfindung enthalten, können für einen Schnittstellenbetrieb mit Websites oder anderen Anwendungen als Suchmaschinen eingesetzt werden. Zum Beispiel kann ein Internetportal die vorliegende Erfindung aufweisen, um die Spracheingabe in verschiedenen Sprachen zu unterstützen. Eine E-Commerce-Website kann sprachbasierte Bestellungen in verschiedenen Sprachen entgegennehmen und Bestätigungsinformationen mündlich in der vom Käufer verwendeten Sprache zurückgeben. Zum Beispiel kann es sich bei dem durch die sprachunabhängige Benutzerschnittstelle an die Website übermittelten Schlüsselwort um eine Bestellung oder um eine Anforderung von Produktinformationen handeln, die ursprünglich in einer beliebigen der von dem System unterstützten Sprachen gesprochen worden ist. Eine neue Website kann mündliche Anforderungen spezieller Nachrichtenartikel von Benutzern akzeptieren bzw. annehmen, die verschiedene Sprachen sprechen, und sie kann die angeforderten Nachrichtenartikel in der von den Benutzern gesprochenen Sprache zurückgeben. Zahlreiche weitere Anwendungen und Websites können von den durch die vorliegende Erfindung bereitgestellten Fähigkeiten bzw. Funktionalitäten profitieren.
- Die Abbildung aus
2 zeigt ein Flussdiagramm, das die sprachunabhängige, auf gesprochener Sprache basierende Suche gemäß einem Ausführungsbeispiel der vorliegenden Erfindung veranschaulicht. In dem Block100 kann Sprache von einem Benutzer empfangen und in eine digitale Darstellung umgesetzt werden. In dem Block102 kann die digitalisierte Sprache analysiert werden, um die von dem Benutzer verwendete Sprache zu identifizieren. In dem Block104 kann die Sprache gemäß der identifizierten Sprache in Text umgesetzt werden. In dem Block106 können Schlüsselwörter durch Parsing des Texts aus dem Text extrahiert werden. In dem Block108 können die Schlüsselwörter in eine Mehrzahl von Sprachen übersetzt werden. In dem Block110 können die Schlüsselwörter in einer Mehrzahl von Sprachen als Suchbegriffe für Anfragen an eine oder mehrere Suchmaschinen verwendet werden. In dem Block112 können die Suchergebnisse in einer Mehrzahl von Sprachen von der einen oder den mehreren Suchmaschinen in die Sprache übersetzt werden, die von dem Benutzer verwendet wird. Als nächstes können in dem Block114 die Suchergebnisse zusammengefasst werden (sofern dies erforderlich ist). In dem Block116 können die Suchergebnisse in einer Textform erzeugt werden, welche die natürlichen Sprachkonstrukte für die Sprache des Benutzers darstellt. In dem Block118 kann der Text unter Verwendung eines Text-zu-Sprache-Moduls in Sprache umgesetzt und in einer für den Benutzer hörbaren Art und Weise wiedergegeben werden. - In der vorstehenden Beschreibung wurden verschiedene Aspekte der vorliegenden Erfindung beschrieben. Zu Zwecken der Erläuterung wurden spezifische Anzahlen, Systeme und Konfigurationen ausgeführt, um ein umfassendes Verständnis der vorliegenden Erfindung zu vermitteln. Für den Fachmann auf dem Gebiet, der von der vorliegenden Offenbarung profitiert, ist es jedoch ersichtlich, dass die vorliegende Erfindung auch ohne die spezifischen Einzelheiten ausgeführt werden kann. In anderen Fällen wurden allgemein bekannte Merkmale weggelassen oder vereinfacht dargestellt, um die vorliegende Erfindung nicht unnötig zu verschleiern.
- Ausführungsbeispiele der vorliegenden Erfindung können in Hardware oder in Software oder in einer Kombination aus beiden implementiert werden. Die Ausführungsbeispiele der vorliegenden Erfindung können aber auch als Computerprogramme implementiert werden, die auf programmierbaren Systemen ausgeführt werden, die mindestens einen Prozessor, ein Datenspeichersystem (einschließlich flüchtigem und nichtflüchtigem Speicher und/oder Speicherelementen), mindestens eine Eingabevorrichtung und mindestens eine Ausgabevorrichtung aufweisen. Programmcode kann auf die Eingabedaten angewandt werden, um die hierin beschriebenen Funktionen auszuführen und um Ausgabeinformationen zu erzeugen. Die Ausgabeinformationen können auf bekannte Art und Weise einer oder mehreren Ausgabevorrichtungen zugeführt werden. Zu Zwecken dieser Anwendung umfasst ein Verarbeitungssystem, das die Wiedergabevorrichtungskomponenten aufweist, jedes System, das einen Prozessor, wie zum Beispiel einen digitalen Signalprozessor (DSP), einen Mikrocontroller, eine anwendungsspezifische integrierte Schaltung (ASIC) oder einen Mikroprozessor aufweist.
- Die Programme können in einer höheren, prozeduralen bzw. verfahrensorientierten oder objektorientierten Programmiersprache implementiert werden, um mit einem Verarbeitungssystem zu kommunizieren. Die Programme können auch in einer Assembler- oder Maschinensprache implementiert werden, sofern dies gewünscht wird. Der Umfang der Erfindung ist somit nicht auf eine bestimmte Programmiersprache beschränkt. In jedem Fall kann es sich bei der Sprache um eine kompilierte oder eine interpretierte Sprache handeln.
- Die Programme können auf einem Speichermedium oder einer Speichervorrichtung gespeichert werden (z.B. einem Festplattenlaufwerk, einem Floppy-Diskettenlaufwerk, einem Nur-Lesespeicher (ROM), einer CD-ROM-Vorrichtung, einem Flash-Speicherbaustein, einer Digital Versatile Disk (DVD) oder einer anderen Speichervorrichtung), das bzw. die durch ein allgemeines bzw. universelles oder ein programmierbares Verarbeitungssystem für einen bestimmten Zweck lesbar ist, um das Verarbeitungssystem zu konfigurieren und zu betreiben, wenn die Speichermedien oder die Speichervorrichtung durch das Verarbeitungssystem gelesen wird, um die hierin beschriebenen Abläufe auszuführen. Es ist auch möglich, dass Ausführungsbeispiele der Erfindung als ein maschinenlesbares Medium implementiert werden, konfiguriert für einen Einsatz in Verbindung mit einem Verarbeitungssystem, wobei das auf diese Weise konfigurierte Speichermedium bewirkt, dass das Verarbeitungssystem auf spezifische und vordefinierte Art und Weise arbeitet, so dass die hierin beschriebenen Funktionen ausgeführt werden.
- Ein Beispiel für ein derartiges Verarbeitungssystem ist in der Abbildung aus
3 dargestellt, wobei aber auch andere Systeme ebenfalls verwendet werden können, und wobei nicht alle abgebildeten Komponenten des Systems für die vorliegende Erfindung erforderlich sind. Das Beispielsystem400 kann zum Beispiel eingesetzt werden, um die Verarbeitung für Ausführungsbeispiele des sprachunabhängigen, auf gesprochener Sprache basierenden Systems gemäß der vorliegenden Erfindung auszuführen, wie etwa des hierin beschriebenen Ausführungsbeispiels. Das Beispielsystem400 ist repräsentativ für Verarbeitungssysteme auf der Basis der PENTIUM® II, PENTIUM® III und CELERONTM Mikroprozessoren, die von der Intel Corporation erhältlich sind, wobei aber auch andere Systeme (einschließlich Personalcomputer (PCs) mit anderen Mikroprozessoren, Entwicklungs-Workstations, sonstige Set-Top-Boxen und dergleichen) und Architekturen ebenfalls verwendet werden können. - Die Abbildung aus
3 zeigt ein Blockdiagramm eines Systems400 eines Ausführungsbeispiels der vorliegenden Erfindung. Das System400 umfasst einen Prozessor402 , der Datensignale verarbeitet. Der Prozessor402 kann mit einem Prozessorbus404 gekoppelt sein, der Datensignale zwischen dem Prozessor402 und anderen Komponenten in dem System400 überträgt. - Das System
400 weist einen Speicher406 auf. Der Speicher406 kann Befehle und/oder Daten speichern, die durch Datensignale dargestellt sind, die durch den Prozessor402 ausgeführt werden können. Die Befehle und/oder Daten können Code umfassen, zur Ausführung jeder und/oder aller Techniken gemäß der vorliegenden Erfindung. Der Speicher406 kann auch zusätzliche Software und/oder Daten (nicht abgebildet) aufweisen. Ein Cache-Speicher408 kann sich in dem Prozessor402 befinden, der in dem Speicher406 gespeicherte Datensignale speichert. - Eine Brücken-/Speichersteuereinheit
410 kann mit dem Prozessorbus404 und dem Speicher406 gekoppelt sein. Die Brücken-/Speichersteuereinheit410 leitet Datensignale zwischen dem Prozessor402 , dem Speicher406 und anderen Komponenten in dem System400 und überbrückt Datensignale zwischen dem Prozessorbus404 , dem Speicher406 und einem ersten Ein-Ausgabebus (E/A)412 . In dem vorliegenden Ausführungsbeispiel sorgt eine Grafiksteuereinheit413 für eine Schnittstellenverbindung mit einer Anzeigevorrichtung (nicht abgebildet) zum Anzeigen von Bildern, die durch die Grafiksteuereinheit413 an einen Benutzer wiedergegeben oder anderweitig verarbeitet werden. - Der erste E/A-Bus
412 kann einen einzelnen Bus oder eine Kombination aus mehreren Bussen umfassen. Der erste E/A-Bus412 stellt Übermittlungsabschnitte zwischen Komponenten in dem System400 bereit. Eine Netzwerksteuereinheit414 kann mit dem ersten E/A-Bus412 gekoppelt sein. In bestimmten Ausführungsbeispielen kann eine Anzeigevorrichtungs-Steuereinheit416 mit dem ersten E/A-Bus412 gekoppelt sein. Die Anzeigevorrichtungs-Steuereinheit416 ermöglicht ferner die Kopplung einer Anzeigevorrichtung mit dem System400 und fungiert als eine Schnittstelle zwischen einer Anzeigevorrichtung (nicht abgebildet) und dem System. Die Anzeigevorrichtung empfängt Datensignale von dem Prozessor402 über die Anzeigevorrichtungs-Steuereinheit416 und zeigt in den Datensignalen enthaltene Informationen einem Benutzer des Systems400 an. - Ein zweiter E/A-Bus
420 kann einen einzelnen Bus oder eine Kombination mehrerer Busse umfassen. Der zweite E/A-Bus420 stellt Übermittlungsabschnitte zwischen Komponenten in dem System400 bereit. Eine Datenspeichervorrichtung422 kann mit dem zweiten E/A-Bus420 gekoppelt sein. Eine Tastaturschnittstelle424 kann mit dem zweiten E/A-Bus420 gekoppelt sein. Eine Benutzereingabeschnittstelle425 kann mit dem zweiten E/A-Bus420 gekoppelt sein. Die Benutzereingabeschnittstelle kann mit einer Benutzereingabevorrichtung gekoppelt werden, wie etwa einer Fernbedienung, einer Maus, einem Joystick oder einem Trackball, um zum Beispiel Eingabedaten an das Computersystem bereitzustellen. Eine Busbrücke428 koppelt die erste E/A-Brücke412 mit der zweiten E/A-Brücke420 . - Ausführungsbeispiele der vorliegenden Erfindung beziehen sich auf den Einsatz des Systems
400 als ein sprachunabhängiges, auf gesprochener Sprache basierendes Suchsystem. Gemäß einem Ausführungsbeispiel kann eine derartige Verarbeitung durch das System400 als Reaktion darauf ausgeführt werden, dass der Prozessor402 Befehlsfolgen in dem Speicher404 ausführt. Derartige Befehle können von einem anderen computerlesbaren Medium in den Speicher404 gelesen werden, wie etwa aus der Datenspeichervorrichtung422 oder von einer anderen Quelle, wie zum Beispiel über die Netzwerksteuereinheit414 . Die Ausführung der Befehlsfolgen bewirkt es, dass der Prozessor402 eine sprachunabhängige Benutzerschnittstellenverarbeitung gemäß Ausführungsbeispielen der vorliegenden Erfindung ausführt. In einem alternativen Ausführungsbeispiel kann eine Hardware-Schaltkreisanordnung an Stelle von oder in Kombination mit Softwarebefehlen eingesetzt werden, um Ausführungsbeispiele der vorliegenden Erfindung zu implementieren. Die vorliegende Erfindung ist somit nicht auf eine bestimmte Kombination von Hardware-Schaltkreisanordnung und Software beschränkt. - Die Elemente des Systems
400 führen ihre herkömmlichen Funktionen auf im Fach allgemein bekannte Art und Weise aus. Im Besonderen kann die Datenspeichervorrichtung422 eingesetzt werden, um eine langfristigen Speicherung für die ausführbaren Befehle und Datenstrukturen für Ausführungsbeispiele des sprachunabhängigen, auf gesprochener Sprache basierenden Suchsystems gemäß der vorliegenden Erfindung bereitzustellen, während der Speicher406 eingesetzt wird, um kurzfristiger die ausführbaren Befehle von Ausführungsbeispielen des sprachunabhängigen, auf gesprochener Sprache basierenden Suchsystems gemäß der vorliegenden Erfindung während der Ausführung durch den Prozessor402 zu speichern. - Die vorliegende Erfindung wurde vorstehend in Bezug auf veranschaulichende Ausführungsbeispiele beschrieben, wobei die Beschreibung jedoch nicht einschränkend auszulegen ist. Verschiedene Modifikationen der veranschaulichenden Ausführungsbeispiele sowie weitere Ausführungsbeispiele der vorliegenden Erfindung, die für den Fachmann auf dem Gebiet, an den sich die vorliegende Erfindung richtet, liegen innerhalb des Umfangs der Erfindung gemäß der Definition durch die anhängigen Hauptansprüche.
Claims (11)
- Verfahren zum Anschluss an ein System, wobei das Verfahren folgendes umfasst: das Empfangen von Spracheingabedaten von einem Benutzer (
100 ); das Identifizieren einer durch den Benutzer gesprochenen Sprache aus den Spracheingabedaten (102 ); das Umwandeln der Spracheingabedaten in einen ersten Text in der identifizierten Sprache durch Erkennen der Sprache des Benutzers in den Spracheingabedaten zumindest teilweise auf der Basis des Sprachbezeichners (104 ); das Analysieren des ersten Textes zum Extrahieren eines Schlüsselwortes (106 ); das automatische Übersetzen des Schlüsselwortes in eine Mehrzahl automatisch ausgewählter Sprachen, die sich von der identifizierten Sprache (108 ) unterscheiden; das Einsetzen des übersetzten Schlüsselwortes als ein Befehl an eine Anwendung (110 ), die Ergebnisse (112 ) zurückgibt; das automatische Zusammenfassen der Ergebnisse (114 ); das Umsetzen der zusammengefassten Ergebnisse in einen zweiten Text mit einem prosodischen Muster gemäß der durch den Benutzer (116 ) gesprochenen Sprache; und das Wiedergeben des zweiten Texts zur Wahrnehmung durch den Benutzer (118 ). - Verfahren nach Anspruch 1, wobei das Wiedergeben das Umsetzen des zweiten Texts in Sprache und die Wiedergabe der Sprache an den Benutzer umfasst.
- Verfahren nach Anspruch 1, wobei das prosodische Muster dafür sorgen kann, dass der zweite Text natürlich und grammatikalisch korrekt klingt.
- Verfahren nach Anspruch 1, wobei dieses ferner den Einsatz des übersetzten Schlüsselbegriffs als eine Suchanfrage an mindestens eine Suchmaschine umfasst, wobei die genannte Suchmaschine so konfiguriert ist, dass sie Ergebnisse auf der Basis der Suchanfrage bereitstellt.
- Verfahren nach Anspruch 4, wobei die Ergebnisse Suchergebnisse in mehreren Sprachen von der mindestens einen Suchmaschine umfassen, welche die Suchanfrage bearbeitet.
- Sprachunabhängiges, auf Sprache basierendes Benutzerschnittstellensystem, das folgendes umfasst: einen Sprachbezeichner (
22 ) zum Empfang von Spracheingabedaten von einem Benutzer und zum Identifizieren der durch den Benutzer gesprochenen Sprache; mindestens eine Spracherkennungseinrichtung (24 ) für den Empfang von Spracheingabedaten und den Sprachbezeichner und zum Umsetzen der Spracheingabedaten in einen ersten Text zumindest teilweise auf der Basis des Sprachbezeichners; mindestens ein Verarbeitungsmodul (26 ) für natürliche Sprache, zum Analysieren des ersten Texts, um ein Schlüsselwort zur Verwendung als ein Befehl an eine Anwendung zu extrahieren, welche Ergebnisse zurückgibt; dadurch gekennzeichnet, dass das System ferner folgendes umfasst: i) ein Zusammenfassungsmodul (36 ) zum automatischen Zusammenfassen der Ergebnisse; und mindestens eine Erzeugungseinrichtung (38 ) für natürliche Sprache zum Umwandeln der zusammengefassten Ergebnisse in einen zweiten Text mit einem prosodischen Muster gemäß der von dem Benutzer gesprochenen Sprache; und ii) mindestens einen Sprachübersetzer (28 ) zum Automatischen Übersetzen des Schlüsselwortes in eine Mehrzahl von automatisch ausgewählten Sprachen, die sich von der identifizierten Sprache unterscheiden, und zum Übersetzen der von der Anwendung zurückgegebenen Ergebnisse in anderem Sprachen als der von dem Benutzer gesprochenen Sprache in die von dem Benutzer gesprochene Sprache. - System nach Anspruch 6, dadurch gekennzeichnet, dass das System ferner mindestens ein Text-zu-Sprache-Modul für die akustische Wiedergabe des Texts für den Benutzer umfasst.
- System nach Anspruch 6, dadurch gekennzeichnet, dass das prosodische Muster dafür sorgt, dass der zweite Text natürlich und grammatikalisch korrekt klingt.
- System nach Anspruch 6, dadurch gekennzeichnet, dass das System mit einem Web-Browser gekoppelt ist, und wobei der Web-Browser eine Schnittstellenverbindung mit mindestens einer Suchmaschine aufweist, wobei das Schlüsselwort eine Suchanfrage umfasst, und wobei der zweite Text Suchergebnisse von der mindestens einen Suchmaschine umfasst.
- Computerprogramm-Codeeinrichtung, welche die Schritte jedes der Ansprüche 1 bis 5 ausführen kann, wenn sie auf einem Computer ausgeführt wird.
- Computerlesbares Medium, das eine Computerprogramm-Codeeinrichtung nach Anspruch 10 umfasst.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/685,419 US6999932B1 (en) | 2000-10-10 | 2000-10-10 | Language independent voice-based search system |
US685419 | 2000-10-10 | ||
PCT/US2001/031162 WO2002031814A1 (en) | 2000-10-10 | 2001-10-03 | Language independent voice-based search system |
Publications (2)
Publication Number | Publication Date |
---|---|
DE60125397D1 DE60125397D1 (de) | 2007-02-01 |
DE60125397T2 true DE60125397T2 (de) | 2007-10-18 |
Family
ID=24752129
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE60125397T Expired - Lifetime DE60125397T2 (de) | 2000-10-10 | 2001-10-03 | Sprachunabhängige stimmbasierte benutzeroberfläche |
Country Status (10)
Country | Link |
---|---|
US (1) | US6999932B1 (de) |
EP (1) | EP1330816B1 (de) |
JP (1) | JP4028375B2 (de) |
KR (1) | KR100653862B1 (de) |
CN (1) | CN1290076C (de) |
AT (1) | ATE349056T1 (de) |
AU (1) | AU2002211438A1 (de) |
DE (1) | DE60125397T2 (de) |
HK (1) | HK1054813A1 (de) |
WO (1) | WO2002031814A1 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7949517B2 (en) | 2006-12-01 | 2011-05-24 | Deutsche Telekom Ag | Dialogue system with logical evaluation for language identification in speech recognition |
Families Citing this family (336)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6343116B1 (en) * | 1998-09-21 | 2002-01-29 | Microsoft Corporation | Computer telephony application programming interface |
US7251315B1 (en) * | 1998-09-21 | 2007-07-31 | Microsoft Corporation | Speech processing for telephony API |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US6604107B1 (en) * | 2000-04-24 | 2003-08-05 | Ebay Inc. | Generic attribute database system for storing items of different categories having shared attributes |
US20030200535A1 (en) * | 2000-06-09 | 2003-10-23 | Mcnamara Benedict Bede | System for program source code conversion |
US7660740B2 (en) * | 2000-10-16 | 2010-02-09 | Ebay Inc. | Method and system for listing items globally and regionally, and customized listing according to currency or shipping area |
US7191116B2 (en) * | 2001-06-19 | 2007-03-13 | Oracle International Corporation | Methods and systems for determining a language of a document |
US20030018468A1 (en) * | 2001-07-20 | 2003-01-23 | Johnson Deanna G. | Universal search engine |
US7752266B2 (en) | 2001-10-11 | 2010-07-06 | Ebay Inc. | System and method to facilitate translation of communications between entities over a network |
US7295982B1 (en) * | 2001-11-19 | 2007-11-13 | At&T Corp. | System and method for automatic verification of the understandability of speech |
DE10209928A1 (de) * | 2002-03-07 | 2003-09-18 | Philips Intellectual Property | Verfahren zum Betrieb eines Sprach-Dialogsystems |
US7941348B2 (en) * | 2002-06-10 | 2011-05-10 | Ebay Inc. | Method and system for scheduling transaction listings at a network-based transaction facility |
US8078505B2 (en) | 2002-06-10 | 2011-12-13 | Ebay Inc. | Method and system for automatically updating a seller application utilized in a network-based transaction facility |
US8719041B2 (en) * | 2002-06-10 | 2014-05-06 | Ebay Inc. | Method and system for customizing a network-based transaction facility seller application |
DE10256935A1 (de) * | 2002-12-05 | 2004-07-01 | Siemens Ag | Auswahl der Benutzersprache an einem rein akustisch gesteuerten Telefon |
US20040138988A1 (en) * | 2002-12-20 | 2004-07-15 | Bart Munro | Method to facilitate a search of a database utilizing multiple search criteria |
US7548858B2 (en) * | 2003-03-05 | 2009-06-16 | Microsoft Corporation | System and method for selective audible rendering of data to a user based on user input |
US8170863B2 (en) * | 2003-04-01 | 2012-05-01 | International Business Machines Corporation | System, method and program product for portlet-based translation of web content |
CN100483404C (zh) * | 2003-05-12 | 2009-04-29 | 皇家飞利浦电子股份有限公司 | 用于搜索媒体对象的方法 |
US7742985B1 (en) | 2003-06-26 | 2010-06-22 | Paypal Inc. | Multicurrency exchanges between participants of a network-based transaction facility |
DE10330263B3 (de) * | 2003-07-04 | 2005-03-03 | Lisa Dräxlmaier GmbH | Vorrichtung zum Herausziehen bzw. Einsetzen einer Sicherung |
US20050192811A1 (en) * | 2004-02-26 | 2005-09-01 | Wendy Parks | Portable translation device |
US9189568B2 (en) | 2004-04-23 | 2015-11-17 | Ebay Inc. | Method and system to display and search in a language independent manner |
US7672845B2 (en) * | 2004-06-22 | 2010-03-02 | International Business Machines Corporation | Method and system for keyword detection using voice-recognition |
US20060206310A1 (en) * | 2004-06-29 | 2006-09-14 | Damaka, Inc. | System and method for natural language processing in a peer-to-peer hybrid communications network |
US8050272B2 (en) | 2004-06-29 | 2011-11-01 | Damaka, Inc. | System and method for concurrent sessions in a peer-to-peer hybrid communications network |
US8009586B2 (en) | 2004-06-29 | 2011-08-30 | Damaka, Inc. | System and method for data transfer in a peer-to peer hybrid communication network |
EP1612660A1 (de) * | 2004-06-29 | 2006-01-04 | GMB Tech (Holland) B.V. | Kommunikationssystem und Verfahren für Tonaufzeichnung |
US7778187B2 (en) * | 2004-06-29 | 2010-08-17 | Damaka, Inc. | System and method for dynamic stability in a peer-to-peer hybrid communications network |
US7623476B2 (en) * | 2004-06-29 | 2009-11-24 | Damaka, Inc. | System and method for conferencing in a peer-to-peer hybrid communications network |
US20070078720A1 (en) * | 2004-06-29 | 2007-04-05 | Damaka, Inc. | System and method for advertising in a peer-to-peer hybrid communications network |
US7623516B2 (en) * | 2004-06-29 | 2009-11-24 | Damaka, Inc. | System and method for deterministic routing in a peer-to-peer hybrid communications network |
US7570636B2 (en) | 2004-06-29 | 2009-08-04 | Damaka, Inc. | System and method for traversing a NAT device for peer-to-peer hybrid communications |
US8437307B2 (en) | 2007-09-03 | 2013-05-07 | Damaka, Inc. | Device and method for maintaining a communication session during a network transition |
US7656870B2 (en) | 2004-06-29 | 2010-02-02 | Damaka, Inc. | System and method for peer-to-peer hybrid communications |
US7933260B2 (en) | 2004-06-29 | 2011-04-26 | Damaka, Inc. | System and method for routing and communicating in a heterogeneous network environment |
US20060015335A1 (en) * | 2004-07-13 | 2006-01-19 | Ravigopal Vennelakanti | Framework to enable multimodal access to applications |
US7640162B2 (en) * | 2004-12-14 | 2009-12-29 | Microsoft Corporation | Semantic canvas |
JP4423327B2 (ja) * | 2005-02-08 | 2010-03-03 | 日本電信電話株式会社 | 情報通信端末、情報通信システム、情報通信方法、情報通信プログラムおよびそれを記録した記録媒体 |
KR100723404B1 (ko) * | 2005-03-29 | 2007-05-30 | 삼성전자주식회사 | 음성 인식 및 반응을 위한 음성 처리 장치와 방법 |
JP2006350705A (ja) * | 2005-06-16 | 2006-12-28 | Fujifilm Holdings Corp | 情報提供装置および方法並びにプログラム |
US7672931B2 (en) * | 2005-06-30 | 2010-03-02 | Microsoft Corporation | Searching for content using voice search queries |
US20070021960A1 (en) * | 2005-07-20 | 2007-01-25 | Mclean Marc | System and method for communicating with a network |
US9152982B2 (en) | 2005-08-19 | 2015-10-06 | Nuance Communications, Inc. | Method of compensating a provider for advertisements displayed on a mobile phone |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US8073700B2 (en) | 2005-09-12 | 2011-12-06 | Nuance Communications, Inc. | Retrieval and presentation of network service results for mobile device using a multimodal browser |
US20070106653A1 (en) * | 2005-10-12 | 2007-05-10 | Yu Sun | Search engine |
US8498999B1 (en) * | 2005-10-14 | 2013-07-30 | Wal-Mart Stores, Inc. | Topic relevant abbreviations |
US8229745B2 (en) * | 2005-10-21 | 2012-07-24 | Nuance Communications, Inc. | Creating a mixed-initiative grammar from directed dialog grammars |
US7477909B2 (en) * | 2005-10-31 | 2009-01-13 | Nuance Communications, Inc. | System and method for conducting a search using a wireless mobile device |
US8694319B2 (en) * | 2005-11-03 | 2014-04-08 | International Business Machines Corporation | Dynamic prosody adjustment for voice-rendering synthesized data |
KR100792208B1 (ko) * | 2005-12-05 | 2008-01-08 | 한국전자통신연구원 | 음성 대화 시스템에서 답변 문장 생성 방법 및 장치 |
JP2007219190A (ja) * | 2006-02-17 | 2007-08-30 | Murata Mach Ltd | 音声認識装置と認識方法及びそのプログラム |
US7689554B2 (en) * | 2006-02-28 | 2010-03-30 | Yahoo! Inc. | System and method for identifying related queries for languages with multiple writing systems |
US7698140B2 (en) * | 2006-03-06 | 2010-04-13 | Foneweb, Inc. | Message transcription, voice query and query delivery system |
US7835903B2 (en) | 2006-04-19 | 2010-11-16 | Google Inc. | Simplifying query terms with transliteration |
US8762358B2 (en) * | 2006-04-19 | 2014-06-24 | Google Inc. | Query language determination using query terms and interface language |
US8442965B2 (en) * | 2006-04-19 | 2013-05-14 | Google Inc. | Query language identification |
US8255376B2 (en) | 2006-04-19 | 2012-08-28 | Google Inc. | Augmenting queries with synonyms from synonyms map |
US8380488B1 (en) | 2006-04-19 | 2013-02-19 | Google Inc. | Identifying a property of a document |
WO2007124385A2 (en) | 2006-04-19 | 2007-11-01 | Google Inc. | Processing of query terms |
KR20080000203A (ko) * | 2006-06-27 | 2008-01-02 | 엘지전자 주식회사 | 음성인식을 이용한 음악 파일 검색 방법 |
CA2601207C (en) * | 2006-07-07 | 2014-04-08 | Jean Girard | Single-leg support |
US8639782B2 (en) | 2006-08-23 | 2014-01-28 | Ebay, Inc. | Method and system for sharing metadata between interfaces |
US20080077393A1 (en) * | 2006-09-01 | 2008-03-27 | Yuqing Gao | Virtual keyboard adaptation for multilingual input |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
EP1902906B1 (de) * | 2006-09-22 | 2017-07-26 | Harman Becker Automotive Systems GmbH | Hinzufügbares Modul zum externen Steuern eines Sprachdialogsystems |
JP4398966B2 (ja) * | 2006-09-26 | 2010-01-13 | 株式会社東芝 | 機械翻訳を行う装置、システム、方法およびプログラム |
US8972268B2 (en) | 2008-04-15 | 2015-03-03 | Facebook, Inc. | Enhanced speech-to-speech translation system and methods for adding a new word |
US9070363B2 (en) | 2007-10-26 | 2015-06-30 | Facebook, Inc. | Speech translation with back-channeling cues |
US11222185B2 (en) | 2006-10-26 | 2022-01-11 | Meta Platforms, Inc. | Lexicon development via shared translation database |
US20080126095A1 (en) * | 2006-10-27 | 2008-05-29 | Gil Sideman | System and method for adding functionality to a user interface playback environment |
US20100027768A1 (en) * | 2006-11-03 | 2010-02-04 | Foskett James J | Aviation text and voice communication system |
US7742922B2 (en) * | 2006-11-09 | 2010-06-22 | Goller Michael D | Speech interface for search engines |
US7873517B2 (en) | 2006-11-09 | 2011-01-18 | Volkswagen Of America, Inc. | Motor vehicle with a speech interface |
US7818176B2 (en) * | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
WO2008109781A2 (en) * | 2007-03-06 | 2008-09-12 | Cognitive Code Corp. | Artificial intelligence system |
US8843376B2 (en) | 2007-03-13 | 2014-09-23 | Nuance Communications, Inc. | Speech-enabled web content searching using a multimodal browser |
JP4213755B2 (ja) * | 2007-03-28 | 2009-01-21 | 株式会社東芝 | 音声翻訳装置、方法およびプログラム |
US7818170B2 (en) * | 2007-04-10 | 2010-10-19 | Motorola, Inc. | Method and apparatus for distributed voice searching |
US8620658B2 (en) * | 2007-04-16 | 2013-12-31 | Sony Corporation | Voice chat system, information processing apparatus, speech recognition method, keyword data electrode detection method, and program for speech recognition |
US8032383B1 (en) * | 2007-05-04 | 2011-10-04 | Foneweb, Inc. | Speech controlled services and devices using internet |
DE102007027363A1 (de) | 2007-06-11 | 2008-12-24 | Avaya Gmbh & Co. Kg | Verfahren zum Betreiben eines Voice-Mail-Systems |
US7890493B2 (en) | 2007-07-20 | 2011-02-15 | Google Inc. | Translating a search query into multiple languages |
US8782171B2 (en) * | 2007-07-20 | 2014-07-15 | Voice Enabling Systems Technology Inc. | Voice-enabled web portal system |
WO2009043016A2 (en) | 2007-09-28 | 2009-04-02 | Damaka, Inc. | System and method for transitioning a communication session between networks that are not commonly controlled |
US9134904B2 (en) | 2007-10-06 | 2015-09-15 | International Business Machines Corporation | Displaying documents to a plurality of users of a surface computer |
US8139036B2 (en) * | 2007-10-07 | 2012-03-20 | International Business Machines Corporation | Non-intrusive capture and display of objects based on contact locality |
US20090091539A1 (en) * | 2007-10-08 | 2009-04-09 | International Business Machines Corporation | Sending A Document For Display To A User Of A Surface Computer |
US20090091529A1 (en) * | 2007-10-09 | 2009-04-09 | International Business Machines Corporation | Rendering Display Content On A Floor Surface Of A Surface Computer |
US8024185B2 (en) * | 2007-10-10 | 2011-09-20 | International Business Machines Corporation | Vocal command directives to compose dynamic display text |
US8131712B1 (en) | 2007-10-15 | 2012-03-06 | Google Inc. | Regional indexes |
US9754022B2 (en) | 2007-10-30 | 2017-09-05 | At&T Intellectual Property I, L.P. | System and method for language sensitive contextual searching |
US8380859B2 (en) | 2007-11-28 | 2013-02-19 | Damaka, Inc. | System and method for endpoint handoff in a hybrid peer-to-peer networking environment |
US9203833B2 (en) * | 2007-12-05 | 2015-12-01 | International Business Machines Corporation | User authorization using an automated Turing Test |
US7984034B1 (en) | 2007-12-21 | 2011-07-19 | Google Inc. | Providing parallel resources in search results |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US10176827B2 (en) * | 2008-01-15 | 2019-01-08 | Verint Americas Inc. | Active lab |
US8615388B2 (en) * | 2008-03-28 | 2013-12-24 | Microsoft Corporation | Intra-language statistical machine translation |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20090276414A1 (en) * | 2008-04-30 | 2009-11-05 | Microsoft Corporation | Ranking model adaptation for searching |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
CN101345051B (zh) * | 2008-08-19 | 2010-11-10 | 南京师范大学 | 带定量参数的地理信息系统语音控制方法 |
CN101383150B (zh) * | 2008-08-19 | 2010-11-10 | 南京师范大学 | 语音软开关的控制方法及其在地理信息系统中的应用 |
US20100082328A1 (en) * | 2008-09-29 | 2010-04-01 | Apple Inc. | Systems and methods for speech preprocessing in text to speech synthesis |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US10489434B2 (en) | 2008-12-12 | 2019-11-26 | Verint Americas Inc. | Leveraging concepts with information retrieval techniques and knowledge bases |
KR101548907B1 (ko) * | 2009-01-06 | 2015-09-02 | 삼성전자 주식회사 | 다중언어의 대화시스템 및 그 제어방법 |
US8650634B2 (en) * | 2009-01-14 | 2014-02-11 | International Business Machines Corporation | Enabling access to a subset of data |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US20130219333A1 (en) * | 2009-06-12 | 2013-08-22 | Adobe Systems Incorporated | Extensible Framework for Facilitating Interaction with Devices |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US20110138286A1 (en) * | 2009-08-07 | 2011-06-09 | Viktor Kaptelinin | Voice assisted visual search |
WO2011039773A2 (en) * | 2009-09-14 | 2011-04-07 | Tata Consultancy Services Ltd. | Tv news analysis system for multilingual broadcast channels |
US8943094B2 (en) | 2009-09-22 | 2015-01-27 | Next It Corporation | Apparatus, system, and method for natural language processing |
US8379801B2 (en) | 2009-11-24 | 2013-02-19 | Sorenson Communications, Inc. | Methods and systems related to text caption error correction |
US8610924B2 (en) * | 2009-11-24 | 2013-12-17 | International Business Machines Corporation | Scanning and capturing digital images using layer detection |
US8441702B2 (en) * | 2009-11-24 | 2013-05-14 | International Business Machines Corporation | Scanning and capturing digital images using residue detection |
US20110122459A1 (en) * | 2009-11-24 | 2011-05-26 | International Business Machines Corporation | Scanning and Capturing digital Images Using Document Characteristics Detection |
US11592723B2 (en) | 2009-12-22 | 2023-02-28 | View, Inc. | Automated commissioning of controllers in a window network |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US20110288859A1 (en) * | 2010-02-05 | 2011-11-24 | Taylor Andrew E | Language context sensitive command system and method |
US8725895B2 (en) * | 2010-02-15 | 2014-05-13 | Damaka, Inc. | NAT traversal by concurrently probing multiple candidates |
US8874785B2 (en) | 2010-02-15 | 2014-10-28 | Damaka, Inc. | System and method for signaling and data tunneling in a peer-to-peer environment |
US8892646B2 (en) | 2010-08-25 | 2014-11-18 | Damaka, Inc. | System and method for shared session appearance in a hybrid peer-to-peer environment |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8214344B2 (en) * | 2010-03-16 | 2012-07-03 | Empire Technology Development Llc | Search engine inference based virtual assistance |
US8689307B2 (en) * | 2010-03-19 | 2014-04-01 | Damaka, Inc. | System and method for providing a virtual peer-to-peer environment |
US9043488B2 (en) | 2010-03-29 | 2015-05-26 | Damaka, Inc. | System and method for session sweeping between devices |
US9191416B2 (en) | 2010-04-16 | 2015-11-17 | Damaka, Inc. | System and method for providing enterprise voice call continuity |
US8352563B2 (en) | 2010-04-29 | 2013-01-08 | Damaka, Inc. | System and method for peer-to-peer media routing using a third party instant messaging system for signaling |
US20110307484A1 (en) * | 2010-06-11 | 2011-12-15 | Nitin Dinesh Anand | System and method of addressing and accessing information using a keyword identifier |
US20110313995A1 (en) * | 2010-06-18 | 2011-12-22 | Abraham Lederman | Browser based multilingual federated search |
US8446900B2 (en) | 2010-06-18 | 2013-05-21 | Damaka, Inc. | System and method for transferring a call between endpoints in a hybrid peer-to-peer network |
US8611540B2 (en) | 2010-06-23 | 2013-12-17 | Damaka, Inc. | System and method for secure messaging in a hybrid peer-to-peer network |
US9633656B2 (en) | 2010-07-27 | 2017-04-25 | Sony Corporation | Device registration process from second display |
US10496714B2 (en) | 2010-08-06 | 2019-12-03 | Google Llc | State-dependent query response |
US8468010B2 (en) | 2010-09-24 | 2013-06-18 | Damaka, Inc. | System and method for language translation in a hybrid peer-to-peer environment |
US8743781B2 (en) | 2010-10-11 | 2014-06-03 | Damaka, Inc. | System and method for a reverse invitation in a hybrid peer-to-peer environment |
US9122744B2 (en) | 2010-10-11 | 2015-09-01 | Next It Corporation | System and method for providing distributed intelligent assistance |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US11054792B2 (en) | 2012-04-13 | 2021-07-06 | View, Inc. | Monitoring sites containing switchable optical devices and controllers |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9760566B2 (en) | 2011-03-31 | 2017-09-12 | Microsoft Technology Licensing, Llc | Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof |
US9842168B2 (en) | 2011-03-31 | 2017-12-12 | Microsoft Technology Licensing, Llc | Task driven user intents |
US9858343B2 (en) | 2011-03-31 | 2018-01-02 | Microsoft Technology Licensing Llc | Personalization of queries, conversations, and searches |
US10642934B2 (en) | 2011-03-31 | 2020-05-05 | Microsoft Technology Licensing, Llc | Augmented conversational understanding architecture |
US9298287B2 (en) | 2011-03-31 | 2016-03-29 | Microsoft Technology Licensing, Llc | Combined activation for natural user interface systems |
US9244984B2 (en) | 2011-03-31 | 2016-01-26 | Microsoft Technology Licensing, Llc | Location based conversational understanding |
US8407314B2 (en) | 2011-04-04 | 2013-03-26 | Damaka, Inc. | System and method for sharing unsupported document types between communication devices |
US9015030B2 (en) * | 2011-04-15 | 2015-04-21 | International Business Machines Corporation | Translating prompt and user input |
US8655645B1 (en) * | 2011-05-10 | 2014-02-18 | Google Inc. | Systems and methods for translation of application metadata |
US9454962B2 (en) | 2011-05-12 | 2016-09-27 | Microsoft Technology Licensing, Llc | Sentence simplification for spoken language understanding |
US9064006B2 (en) | 2012-08-23 | 2015-06-23 | Microsoft Technology Licensing, Llc | Translating natural language utterances to keyword search queries |
US8694587B2 (en) | 2011-05-17 | 2014-04-08 | Damaka, Inc. | System and method for transferring a call bridge between communication devices |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
CN102867512A (zh) * | 2011-07-04 | 2013-01-09 | 余喆 | 自然语音识别方法和装置 |
CN102867511A (zh) * | 2011-07-04 | 2013-01-09 | 余喆 | 自然语音识别方法和装置 |
US8478890B2 (en) | 2011-07-15 | 2013-07-02 | Damaka, Inc. | System and method for reliable virtual bi-directional data stream communications with single socket point-to-multipoint capability |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US9098533B2 (en) | 2011-10-03 | 2015-08-04 | Microsoft Technology Licensing, Llc | Voice directed context sensitive visual search |
CN102523349A (zh) * | 2011-12-22 | 2012-06-27 | 苏州巴米特信息科技有限公司 | 一种特色的手机语音搜索的方法 |
KR101749143B1 (ko) * | 2011-12-26 | 2017-06-20 | 인텔 코포레이션 | 탑승자 오디오 및 시각적 입력의 차량 기반 결정 |
US9836177B2 (en) | 2011-12-30 | 2017-12-05 | Next IT Innovation Labs, LLC | Providing variable responses in a virtual-assistant environment |
CN102629246B (zh) * | 2012-02-10 | 2017-06-27 | 百纳(武汉)信息技术有限公司 | 识别浏览器语音命令的服务器及浏览器语音命令识别方法 |
US8838459B2 (en) | 2012-02-29 | 2014-09-16 | Google Inc. | Virtual participant-based real-time translation and transcription system for audio and video teleconferences |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9275635B1 (en) | 2012-03-08 | 2016-03-01 | Google Inc. | Recognizing different versions of a language |
US9129591B2 (en) | 2012-03-08 | 2015-09-08 | Google Inc. | Recognizing speech in multiple languages |
US10964320B2 (en) | 2012-04-13 | 2021-03-30 | View, Inc. | Controlling optically-switchable devices |
US9223537B2 (en) | 2012-04-18 | 2015-12-29 | Next It Corporation | Conversation user interface |
US9098494B2 (en) * | 2012-05-10 | 2015-08-04 | Microsoft Technology Licensing, Llc | Building multi-language processes from existing single-language processes |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US20150128185A1 (en) * | 2012-05-16 | 2015-05-07 | Tata Consultancy Services Limited | System and method for personalization of an applicance by using context information |
US20130315385A1 (en) * | 2012-05-23 | 2013-11-28 | Huawei Technologies Co., Ltd. | Speech recognition based query method and apparatus |
US10019994B2 (en) | 2012-06-08 | 2018-07-10 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
CN103577444B (zh) * | 2012-07-30 | 2017-04-05 | 腾讯科技(深圳)有限公司 | 一种操控浏览器的方法及系统 |
US9485330B2 (en) | 2012-07-30 | 2016-11-01 | Tencent Technology (Shenzhen) Company Limited | Web browser operation method and system |
US9536049B2 (en) | 2012-09-07 | 2017-01-03 | Next It Corporation | Conversational virtual healthcare assistant |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US20140164422A1 (en) * | 2012-12-07 | 2014-06-12 | Verizon Argentina SRL | Relational approach to systems based on a request and response model |
US9195644B2 (en) * | 2012-12-18 | 2015-11-24 | Lenovo Enterprise Solutions (Singapore) Pte. Ltd. | Short phrase language identification |
KR20240132105A (ko) | 2013-02-07 | 2024-09-02 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
KR20140116642A (ko) * | 2013-03-25 | 2014-10-06 | 삼성전자주식회사 | 음성 인식 기반의 기능 제어 방법 및 장치 |
US10445115B2 (en) | 2013-04-18 | 2019-10-15 | Verint Americas Inc. | Virtual assistant focused user interfaces |
CN104182432A (zh) * | 2013-05-28 | 2014-12-03 | 天津点康科技有限公司 | 基于人体生理参数检测结果的信息检索与发布系统及方法 |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3008964B1 (de) | 2013-06-13 | 2019-09-25 | Apple Inc. | System und verfahren für durch sprachsteuerung ausgelöste notrufe |
US10529013B2 (en) | 2013-07-01 | 2020-01-07 | Intuit Inc. | Identifying business type using public information |
US9027032B2 (en) | 2013-07-16 | 2015-05-05 | Damaka, Inc. | System and method for providing additional functionality to existing software in an integrated manner |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
CN104050965A (zh) * | 2013-09-02 | 2014-09-17 | 广东外语外贸大学 | 具有情感识别功能的英语语音发音质量评价系统及方法 |
US9357016B2 (en) | 2013-10-18 | 2016-05-31 | Damaka, Inc. | System and method for virtual parallel resource management |
TWM484733U (zh) * | 2013-10-29 | 2014-08-21 | Bai Xu Technology Co Ltd | 語意商業智慧系統 |
KR102188090B1 (ko) * | 2013-12-11 | 2020-12-04 | 엘지전자 주식회사 | 스마트 가전제품, 그 작동방법 및 스마트 가전제품을 이용한 음성인식 시스템 |
US9823811B2 (en) | 2013-12-31 | 2017-11-21 | Next It Corporation | Virtual assistant team identification |
US9589564B2 (en) | 2014-02-05 | 2017-03-07 | Google Inc. | Multiple speech locale-specific hotword classifiers for selection of a speech locale |
US10102848B2 (en) * | 2014-02-28 | 2018-10-16 | Google Llc | Hotwords presentation framework |
RU2019109013A (ru) | 2014-03-05 | 2019-05-06 | Вью, Инк. | Мониторинг объектов, содержащих переключаемые оптические устройства и контроллеры |
US9659003B2 (en) * | 2014-03-26 | 2017-05-23 | Lenovo (Singapore) Pte. Ltd. | Hybrid language processing |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
CN110797019B (zh) | 2014-05-30 | 2023-08-29 | 苹果公司 | 多命令单一话语输入方法 |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9536521B2 (en) * | 2014-06-30 | 2017-01-03 | Xerox Corporation | Voice recognition |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
CN104102346A (zh) * | 2014-07-01 | 2014-10-15 | 华中科技大学 | 一种家用信息采集和用户情感识别设备及其工作方法 |
WO2016022574A1 (en) | 2014-08-05 | 2016-02-11 | Damaka, Inc. | System and method for providing unified communications and collaboration (ucc) connectivity between incompatible systems |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US20160071517A1 (en) | 2014-09-09 | 2016-03-10 | Next It Corporation | Evaluating Conversation Data based on Risk Factors |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
CN105632498A (zh) * | 2014-10-31 | 2016-06-01 | 株式会社东芝 | 生成会议记录的方法、装置和系统 |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10134386B2 (en) | 2015-07-21 | 2018-11-20 | Rovi Guides, Inc. | Systems and methods for identifying content corresponding to a language spoken in a household |
CN106372054B (zh) * | 2015-07-24 | 2020-10-09 | 中兴通讯股份有限公司 | 一种多语言语义解析的方法和装置 |
CN105069146B (zh) * | 2015-08-20 | 2019-04-02 | 百度在线网络技术(北京)有限公司 | 声音搜索方法和装置 |
CN105095509B (zh) * | 2015-09-06 | 2019-01-25 | 百度在线网络技术(北京)有限公司 | 语音搜索方法及装置 |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
EP3394801A1 (de) * | 2015-12-23 | 2018-10-31 | Sita Information Networking Computing Ireland Limited | Verfahren und system zur kommunikation zwischen benutzern und computersystemen |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US10091025B2 (en) | 2016-03-31 | 2018-10-02 | Damaka, Inc. | System and method for enabling use of a single user identifier across incompatible networks for UCC functionality |
KR102521231B1 (ko) * | 2016-04-26 | 2023-04-12 | 뷰, 인크. | 광학적으로 스위칭 가능한 장치 제어 |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10418026B2 (en) | 2016-07-15 | 2019-09-17 | Comcast Cable Communications, Llc | Dynamic language and command recognition |
CN106294643A (zh) * | 2016-08-03 | 2017-01-04 | 王晓光 | 不同语言在大数据中实现实时搜索方法及系统 |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10331795B2 (en) * | 2016-09-28 | 2019-06-25 | Panasonic Intellectual Property Corporation Of America | Method for recognizing speech sound, mobile terminal, and recording medium |
JP2018055422A (ja) * | 2016-09-29 | 2018-04-05 | 株式会社東芝 | 情報処理システム、情報処理装置、情報処理方法、及びプログラム |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
WO2019049089A1 (en) * | 2017-09-11 | 2019-03-14 | Indian Institute Of Technology, Delhi | METHOD, SYSTEM AND APPARATUS FOR SEARCHING MULTILINGUAL AND MULTIMODAL KEYWORDS IN A MULTILINGUAL ORAL CORPUS |
US10769210B2 (en) | 2017-09-29 | 2020-09-08 | Rovi Guides, Inc. | Recommending results in multiple languages for search queries based on user profile |
US10747817B2 (en) * | 2017-09-29 | 2020-08-18 | Rovi Guides, Inc. | Recommending language models for search queries based on user profile |
US11451511B1 (en) * | 2017-11-07 | 2022-09-20 | Verisign, Inc. | Audio-based systems, devices, and methods for domain services |
CN109840062B (zh) * | 2017-11-28 | 2022-10-28 | 株式会社东芝 | 输入辅助装置以及记录介质 |
KR20190093794A (ko) * | 2018-01-17 | 2019-08-12 | 주식회사 오리지널메이커스 | 음성 인식을 이용한 주문 처리 시스템 및 그 주문 처리 방법 |
US10896213B2 (en) | 2018-03-07 | 2021-01-19 | Google Llc | Interface for a distributed network system |
CN112055876A (zh) * | 2018-04-27 | 2020-12-08 | 语享路有限责任公司 | 利用语音识别技术的多方对话记录/输出方法及用于其的装置 |
US11568175B2 (en) | 2018-09-07 | 2023-01-31 | Verint Americas Inc. | Dynamic intent classification based on environment variables |
CN110888967B (zh) * | 2018-09-11 | 2023-04-28 | 阿里巴巴集团控股有限公司 | 搜索方法、装置及设备 |
US10878804B2 (en) | 2018-10-10 | 2020-12-29 | International Business Machines Corporation | Voice controlled keyword generation for automated test framework |
US11232264B2 (en) | 2018-10-19 | 2022-01-25 | Verint Americas Inc. | Natural language processing with non-ontological hierarchy models |
CN111161706A (zh) * | 2018-10-22 | 2020-05-15 | 阿里巴巴集团控股有限公司 | 交互方法、装置、设备和系统 |
US11196863B2 (en) | 2018-10-24 | 2021-12-07 | Verint Americas Inc. | Method and system for virtual assistant conversations |
US20200135189A1 (en) * | 2018-10-25 | 2020-04-30 | Toshiba Tec Kabushiki Kaisha | System and method for integrated printing of voice assistant search results |
US11069353B1 (en) * | 2019-05-06 | 2021-07-20 | Amazon Technologies, Inc. | Multilingual wakeword detection |
CN110427455A (zh) * | 2019-06-24 | 2019-11-08 | 卓尔智联(武汉)研究院有限公司 | 一种客服服务方法、装置和存储介质 |
KR20210046334A (ko) * | 2019-10-18 | 2021-04-28 | 삼성전자주식회사 | 전자 장치 및 그의 제어 방법 |
US11308542B2 (en) | 2019-11-05 | 2022-04-19 | Shopify Inc. | Systems and methods for using keywords extracted from reviews |
US11188967B2 (en) | 2019-11-05 | 2021-11-30 | Shopify Inc. | Systems and methods for using keywords extracted from reviews |
US11328029B2 (en) * | 2019-11-05 | 2022-05-10 | Shopify Inc. | Systems and methods for using keywords extracted from reviews |
CN111078937B (zh) * | 2019-12-27 | 2021-08-10 | 北京世纪好未来教育科技有限公司 | 语音信息检索方法、装置、设备和计算机可读存储介质 |
CN111401323A (zh) * | 2020-04-20 | 2020-07-10 | Oppo广东移动通信有限公司 | 文字翻译方法、装置、存储介质及电子设备 |
JP2021179821A (ja) * | 2020-05-14 | 2021-11-18 | コニカミノルタ株式会社 | 情報処理装置及び宛先検索方法 |
US20220067279A1 (en) * | 2020-08-31 | 2022-03-03 | Recruit Co., Ltd., | Systems and methods for multilingual sentence embeddings |
US11902343B1 (en) | 2021-04-19 | 2024-02-13 | Damaka, Inc. | System and method for highly scalable browser-based audio/video conferencing |
US11770584B1 (en) | 2021-05-23 | 2023-09-26 | Damaka, Inc. | System and method for optimizing video communications based on device capabilities |
CN113506565B (zh) * | 2021-07-12 | 2024-06-04 | 北京捷通华声科技股份有限公司 | 语音识别的方法、装置、计算机可读存储介质与处理器 |
US12118981B2 (en) * | 2021-09-15 | 2024-10-15 | Google Llc | Determining multilingual content in responses to a query |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3704345A (en) * | 1971-03-19 | 1972-11-28 | Bell Telephone Labor Inc | Conversion of printed text into synthetic speech |
US5740349A (en) | 1993-02-19 | 1998-04-14 | Intel Corporation | Method and apparatus for reliably storing defect information in flash disk memories |
US5956740A (en) | 1996-10-23 | 1999-09-21 | Iti, Inc. | Document searching system for multilingual documents |
CA2284304A1 (en) | 1998-12-22 | 2000-06-22 | Nortel Networks Corporation | Communication systems and methods employing automatic language indentification |
US6314398B1 (en) | 1999-03-01 | 2001-11-06 | Matsushita Electric Industrial Co., Ltd. | Apparatus and method using speech understanding for automatic channel selection in interactive television |
US6324512B1 (en) * | 1999-08-26 | 2001-11-27 | Matsushita Electric Industrial Co., Ltd. | System and method for allowing family members to access TV contents and program media recorder over telephone or internet |
US7590538B2 (en) | 1999-08-31 | 2009-09-15 | Accenture Llp | Voice recognition system for navigating on the internet |
-
2000
- 2000-10-10 US US09/685,419 patent/US6999932B1/en not_active Expired - Fee Related
-
2001
- 2001-10-03 AU AU2002211438A patent/AU2002211438A1/en not_active Abandoned
- 2001-10-03 DE DE60125397T patent/DE60125397T2/de not_active Expired - Lifetime
- 2001-10-03 JP JP2002535114A patent/JP4028375B2/ja not_active Expired - Fee Related
- 2001-10-03 EP EP01979481A patent/EP1330816B1/de not_active Expired - Lifetime
- 2001-10-03 AT AT01979481T patent/ATE349056T1/de not_active IP Right Cessation
- 2001-10-03 CN CNB018171397A patent/CN1290076C/zh not_active Expired - Fee Related
- 2001-10-03 KR KR1020037005005A patent/KR100653862B1/ko not_active IP Right Cessation
- 2001-10-03 WO PCT/US2001/031162 patent/WO2002031814A1/en active IP Right Grant
-
2003
- 2003-09-30 HK HK03107065A patent/HK1054813A1/xx not_active IP Right Cessation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7949517B2 (en) | 2006-12-01 | 2011-05-24 | Deutsche Telekom Ag | Dialogue system with logical evaluation for language identification in speech recognition |
Also Published As
Publication number | Publication date |
---|---|
CN1526132A (zh) | 2004-09-01 |
ATE349056T1 (de) | 2007-01-15 |
AU2002211438A1 (en) | 2002-04-22 |
WO2002031814A1 (en) | 2002-04-18 |
JP4028375B2 (ja) | 2007-12-26 |
EP1330816B1 (de) | 2006-12-20 |
DE60125397D1 (de) | 2007-02-01 |
HK1054813A1 (en) | 2003-12-12 |
US6999932B1 (en) | 2006-02-14 |
CN1290076C (zh) | 2006-12-13 |
JP2004511867A (ja) | 2004-04-15 |
KR100653862B1 (ko) | 2006-12-04 |
KR20030046494A (ko) | 2003-06-12 |
EP1330816A1 (de) | 2003-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60125397T2 (de) | Sprachunabhängige stimmbasierte benutzeroberfläche | |
DE3788488T2 (de) | Sprachenübersetzungssystem. | |
DE69923191T2 (de) | Interaktive anwenderschnittstelle mit spracherkennung und natursprachenverarbeitungssystem | |
DE60012655T2 (de) | Audiowiedergabe von einem geschriebenen Dokument aus mehreren Quellen | |
DE69834553T2 (de) | Erweiterbares spracherkennungssystem mit einer audio-rückkopplung | |
JP3923513B2 (ja) | 音声認識装置および音声認識方法 | |
DE69822296T2 (de) | Mustererkennungsregistrierung in einem verteilten system | |
US6587822B2 (en) | Web-based platform for interactive voice response (IVR) | |
DE60016722T2 (de) | Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars | |
DE69607601T2 (de) | System und verfahren zur spracherkennung mit automatischer erzeugung einer syntax | |
US6961705B2 (en) | Information processing apparatus, information processing method, and storage medium | |
DE60133529T2 (de) | Sprachnavigation in Webanwendungen | |
DE60005326T2 (de) | Erkennungseinheiten mit komplementären sprachmodellen | |
DE60123952T2 (de) | Erzeugung von einem einheitlichen aufgabeabhängigen sprachmodell mittels informationsauffindungverfahren | |
JP2009042968A (ja) | 情報選別システム、情報選別方法及び情報選別用プログラム | |
US6760408B2 (en) | Systems and methods for providing a user-friendly computing environment for the hearing impaired | |
Greco | Latin Accusativus cum Participio: syntactic description, evidential values, anddiachronic development | |
Meyer | What transcriptions of authentic discourse can reveal about interpreting | |
US20030212560A1 (en) | Speech synthesis apparatus and its method, and program | |
DE60037870T2 (de) | Buchstabiermodus in einem spracherkenner | |
Adell Mercado et al. | Buceador, a multi-language search engine for digital libraries | |
Bigi | An analysis of produced versus predicted French Cued Speech keys | |
Kujath et al. | Copular constructions in Makhuwa‑Enahara | |
Feng et al. | Webtalk: Towards Automatically Building Spoken Dialog Systems Through Miningwebsites | |
Nurahman | IDIOMATIC TRANSLATION IN THE SUBTITLE OF SPIDER-MAN NO WAY HOME MOVIE |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8328 | Change in the person/name/address of the agent |
Representative=s name: HEYER, V., DIPL.-PHYS. DR.RER.NAT., PAT.-ANW., 806 |