DE112018007850T5

DE112018007850T5 - Spracherkennungssystem

Info

Publication number: DE112018007850T5
Application number: DE112018007850.7T
Authority: DE
Inventors: Jaehong Kim; Taeho Lee; Hangil JEONG
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2018-07-25
Filing date: 2018-08-07
Publication date: 2021-04-08
Anticipated expiration: 2038-08-08
Also published as: US20210287665A1; WO2020022545A1; CN112437956A; CN112437956B; DE112018007850B4; KR20200011796A

Abstract

Ein Spracherkennungssystem wird bereitgestellt. Das Spracherkennungssystem gemäß einer Ausführungsform der vorliegenden Offenbarung umfasst einen Spracherkennungsagenten, der dazu eingerichtet ist, Sprachdaten von einem Benutzer zu empfangen und die Sprachdaten an einen Server für künstliche Intelligenz zu übertragen, und der Server für künstliche Intelligenz ist dazu eingerichtet, die Sprachdaten in ein Spracherkennungsmodell einzugeben, ein auf den Sprachdaten basierendes Erkennungsergebnis an den Spracherkennungsagenten zu übertragen und die Sprachdaten zu lernen. Wenn eine Spracherkennungsrate für die Sprachdaten niedriger als eine voreingestellte Referenz ist, ist der Spracherkennungsagent dazu eingerichtet, den Benutzer nach zusätzlichen Daten zum Lernen von Sprachdaten eines Benutzers zu fragen.

Description

TECHNISCHES GEBIET
Die vorliegende Offenbarung bezieht sich auf ein Spracherkennungssystem, das in der Lage ist, Sprachdaten oder Text zu erhalten, indem es einem Benutzer erlaubt, direkt am Lernen eines Spracherkennungsmodells teilzunehmen und Sprachdaten eines Benutzers unter Verwendung der erhaltenen Daten zu lernen.
HINTERGRUNDKUNST
Künstliche Intelligenz ist ein Zweig der Informatik und Informationstechnologie, der sich damit beschäftigt, wie Computer das Denken, Lernen und die Selbstentwicklung der menschlichen Intelligenz übernehmen können, und der es Computern ermöglicht, intelligentes Verhalten des Menschen zu imitieren.
Auch die künstliche Intelligenz existiert nicht für sich allein, sondern ist direkt oder indirekt mit anderen Bereichen der Informatik verbunden. Insbesondere in der heutigen Zeit wird sehr aktiv versucht, Elemente der künstlichen Intelligenz in verschiedene Bereiche der Informationstechnologie einzuführen und zur Lösung von Problemen in den Bereichen zu nutzen.
In der Zwischenzeit wurde im Stand der Technik eine Technologie für Kontextbewusstsein, die die Situation eines Benutzers mit Hilfe von künstlicher Intelligenz erkennt und die gewünschten Informationen eines Benutzers in einer gewünschten Form bereitstellt, aktiv untersucht.
Mit der Entwicklung der oben beschriebenen Technologie für Kontextbewusstsein steigt die Nachfrage nach einem System, das in der Lage ist, eine für die Situation des Benutzers geeignete Funktion auszuführen.
Inzwischen gibt es immer mehr Spracherkennungssysteme, die durch die Kombination von Spracherkennung eines Benutzers und einer Kontexterkennungstechnologie dem Benutzer verschiedene Operationen und Funktionen zur Verfügung stellen.
Unter Spracherkennung versteht man die Umwandlung eines Sprachsignals in eine Zeichenkette oder die Identifizierung sprachlicher Bedeutungsinhalte durch Analyse eines Sprachsignals und die Kombination des analysierten Sprachsignals mit einer gemusterten Datenbank.
Bei der Spracherkennungstechnologie analysiert ein Spracherkennungsmodell die eingegebenen Sprachdaten, extrahiert Merkmale und misst die Ähnlichkeit mit einer zuvor gesammelten Sprachmodelldatenbank, um das ähnlichste in einen Text oder Befehl umzuwandeln.
Die Spracherkennungstechnologie ist eine Art Mustererkennungsprozess. Da jede Person eine andere Stimme, Aussprache und Intonation hat, sammelt eine herkömmliche Spracherkennungstechnologie Sprachdaten von möglichst vielen Personen, extrahiert daraus gemeinsame Merkmale und erzeugt ein Referenzmuster.
Da ein solches Referenzmuster jedoch ein Lernmodell durch Trainingsdaten konfiguriert, die in einer Laborumgebung erstellt wurden, ist es nicht für die Stimme oder den Tonfall eines tatsächlichen Benutzers optimiert.
Daher ist zusätzliches adaptives Lernen erforderlich, damit ein Spracherkennungsmodell auf einen Benutzer personalisiert wird, der direkt ein Spracherkennungsgerät verwendet.
Die vorliegende Offenlegung schlägt ein Verfahren vor, die die Genauigkeit und Effizienz des adaptiven Lernens erhöhen kann.
OFFENBARUNG DER ERFINDUNG
TECHNISCHES PROBLEM
Die vorliegende Offenlegung stellt ein Spracherkennungssystem bereit, das in der Lage ist, Sprachdaten oder Text zu erhalten, indem es einem Benutzer erlaubt, direkt am Lernen eines Spracherkennungsmodells teilzunehmen und Sprachdaten eines Benutzers unter Verwendung der erhaltenen Daten zu lernen.
TECHNISCHE LÖSUNG
Gemäß einer Ausführungsform der vorliegenden Offenbarung umfasst ein Spracherkennungssystem einen Spracherkennungsagenten, der dazu eingerichtet ist, Sprachdaten von einem Benutzer zu empfangen und die Sprachdaten an einen Server für künstliche Intelligenz zu übertragen, und den Server für künstliche Intelligenz, der dazu eingerichtet ist, die Sprachdaten in ein Spracherkennungsmodell einzugeben, ein auf den Sprachdaten basierendes Erkennungsergebnis an den Spracherkennungsagenten zu übertragen und die Sprachdaten zu lernen, wobei der Spracherkennungsagent ferner dazu eingerichtet ist, den Benutzer nach zusätzlichen Daten zum Lernen von Sprachdaten eines Benutzers zu fragen, wenn eine Spracherkennungsrate für die Sprachdaten niedriger als eine voreingestellte Referenz ist.
In diesem Fall kann der Spracherkennungsagent dazu eingerichtet sein, dem Benutzer einen bestimmten Satz vorzugeben und, wenn zweite Sprachdaten, die dem bestimmten Satz entsprechen, empfangen werden, die zweiten Sprachdaten an den Server für künstliche Intelligenz zu übermitteln. Der Server für künstliche Intelligenz kann dazu eingerichtet sein, die zweiten Sprachdaten, die dem bestimmten Satz entsprechen, zu lernen.
In diesem Fall kann der Server für künstliche Intelligenz dazu eingerichtet sein, dem Spracherkennungsagenten den bestimmten Satz, der den Merkmalen der Sprachdaten entspricht, aus einer Vielzahl von Sätzen basierend auf den Merkmalen der Sprachdaten zu übermitteln.
In diesem Fall kann die Vielzahl von Sätzen in eine Kategorie klassifiziert werden, die mindestens eine Produktfunktion, ein Land, eine Region, ein Alter, einen Dialekt, ein Geschlecht oder eine Fremdsprache umfasst, und der Server für künstliche Intelligenz kann dazu eingerichtet sein, dem Spracherkennungsagenten den bestimmten Satz, der in einer Kategorie enthalten ist, die den Benutzer zum zusätzlichen Lernen unter einer Vielzahl von Kategorien auf der Grundlage der Merkmale der Sprachdaten auffordert, zu übermitteln.
Ferner kann der bestimmte Satz einen Befehl enthalten, der einer Funktion des Spracherkennungsagenten entspricht.
Ferner kann das Spracherkennungssystem auch ein mobiles Endgerät umfassen. Der Spracherkennungsagent kann dazu eingerichtet sein, den bestimmten Satz an das mobile Endgerät des Benutzers zu übertragen. Das mobile Endgerät kann dazu eingerichtet sein, Text, der dem bestimmten Satz entspricht, anzuzeigen.
Weiterhin, wenn die Spracherkennungsrate niedriger als die voreingestellte Referenz ist, kann der Spracherkennungsagent dazu eingerichtet sein, den Benutzer aufzufordern, Text einzugeben, der den Sprachdaten entspricht.
In diesem Fall kann der Server für künstliche Intelligenz dazu eingerichtet sein, die Sprachdaten zu speichern. Wenn der Text, der den Sprachdaten entspricht, eingegeben wird, kann der Spracherkennungsagent dazu eingerichtet sein, den Text, der den Sprachdaten entspricht, an den Server für künstliche Intelligenz zu übermitteln. Der Server für künstliche Intelligenz kann dazu eingerichtet sein, die gespeicherten Sprachdaten, die dem Text entsprechen, zu lernen.
In diesem Fall kann der Server für künstliche Intelligenz dazu eingerichtet sein, den Text in Sprachdaten umzuwandeln, die gespeicherten Sprachdaten aufgrund der Ähnlichkeit zwischen den umgewandelten Sprachdaten und den gespeicherten Sprachdaten als gültige Daten zu bestimmen und die als gültige Daten bestimmten Sprachdaten zu lernen.
Weiterhin kann das Spracherkennungssystem ferner ein mobiles Endgerät umfassen, das dazu eingerichtet ist, eine Eingabe des den Sprachdaten entsprechenden Textes zu empfangen und den den Sprachdaten entsprechenden Text an den Spracherkennungsagenten zu übertragen.
Wenn der Benutzer einen bestimmten Text und dritte Sprachdaten, die dem bestimmten Text entsprechen, eingibt, kann der Spracherkennungsagent dazu eingerichtet sein, den bestimmten Text und die dritten Sprachdaten, die dem bestimmten Text entsprechen, an den Server für künstliche Intelligenz zu übermitteln. Der Server für künstliche Intelligenz kann dazu eingerichtet sein, die dritten Sprachdaten, die dem bestimmten Text entsprechen, zu lernen.
Weiterhin kann der Spracherkennungsagent dazu eingerichtet sein, eine erste Option zum Wiederholen einer dargebotenen Stimme, eine zweite Option zum Wiederholen eines dargebotenen Satzes und eine dritte Option zum direkten Schreiben und Wiederholen eines Satzes anzubieten und die zusätzlichen Daten als eine Option mit der höchsten Spracherkennungsrate unter den ersten bis dritten Optionen anzufordern.
Weiterhin kann der Server für künstliche Intelligenz dazu eingerichtet sein, die zusätzlichen Daten zu lernen und an den Spracherkennungsagenten eine Spracherkennungsrate, die entsprechend einem Ergebnis des Lernens der zusätzlichen Daten geändert wurde, zu übertragen.
Gemäß einer Ausführungsform der vorliegenden Offenbarung umfasst eine Spracherkennungsvorrichtung ein Eingabemodul, das dazu eingerichtet ist, Sprachdaten von einem Benutzer zu empfangen, ein Modul für künstliche Intelligenz, das dazu eingerichtet ist, die Sprachdaten in ein Spracherkennungsmodul einzugeben, ein Erkennungsergebnis auf der Grundlage der Sprachdaten zu erhalten und die Sprachdaten zu lernen, wobei das Spracherkennungsmodul dazu eingerichtet ist, von dem Benutzer zusätzliche Daten zum Lernen von Sprachdaten eines Benutzers anzufordern, wenn eine Spracherkennungsrate für die Sprachdaten niedriger als eine voreingestellte Referenz ist.
Gemäß einer Ausführungsform der vorliegenden Offenbarung umfasst ein Betriebsverfahren eines Spracherkennungssystems das Empfangen von Sprachdaten von einem Benutzer durch einen Spracherkennungsagenten und das Übertragen der Sprachdaten an einen Server für künstliche Intelligenz, das Eingeben der Sprachdaten in ein Spracherkennungsmodell durch den Server für künstliche Intelligenz, das Übertragen eines Erkennungsergebnisses auf der Grundlage der Sprachdaten an den Spracherkennungsagenten und das Lernen der Sprachdaten, und wenn eine Spracherkennungsrate für die Sprachdaten niedriger als eine voreingestellte Referenz ist, das Anfordern zusätzlicher Daten vom Benutzer durch den Spracherkennungsagenten zum Lernen von Sprachdaten eines Benutzers.
In diesem Fall kann der Vorgang, den Benutzer nach den zusätzlichen Daten zum Lernen der Sprachdaten des Benutzers zu fragen, ein Bereitstellen eines bestimmten Satzes für den Benutzer durch den Spracherkennungsagent und, wenn zweite Sprachdaten, die dem bestimmten Satz entsprechen, empfangen werden, Übertragen der zweiten Sprachdaten an den Server für künstliche Intelligenz, und Lernen durch den Server für künstliche Intelligenz der zweiten Sprachdaten, die dem bestimmten Satz entsprechen.
VORTEILHAFTE EFFEKTE
Im Gegensatz zu einem herkömmlichen Verfahren des passiven Sammelns und Lernens von Sprachdaten eines Benutzers kann die vorliegende Offenbarung eine Spracheingabe anfordern, indem sie einen Satz präsentiert, der die Sprachgewohnheiten eines Benutzers am besten erfassen kann, oder sie kann direkt einen vom Benutzer als Text geäußerten Satz anfordern. Daher kann gemäß der vorliegenden Offenbarung die Lernleistung deutlich verbessert werden und eine schnelle Personalisierung wird ermöglicht.
Figurenliste

1 ist ein Diagramm zur Beschreibung eines Spracherkennungssystems gemäß einer Ausführungsform der vorliegenden Offenbarung.
2 ist ein Blockdiagramm zur Beschreibung eines Spracherkennungsagenten im Zusammenhang mit der vorliegenden Offenbarung.
3 ist ein Blockdiagramm, das eine Konfiguration eines Servers für künstliche Intelligenz 200 gemäß einer Ausführungsform der vorliegenden Offenbarung zeigt.
4 ist ein Diagramm zur Beschreibung von Problemen, die im Spracherkennungssystem auftreten können.
5 ist ein Diagramm zur Beschreibung eines Verfahrens zur Anforderung zusätzlicher Daten von einem Benutzer für zusätzliches Lernen, gemäß einer Ausführungsform der vorliegenden Offenbarung.
6 ist ein Diagramm zur Beschreibung eines Betriebsverfahrens, wenn Option 1 oder Option 2 gewählt wird, gemäß einer Ausführungsform der vorliegenden Offenbarung.
7 ist ein Diagramm, das die Erkennungsrate einer Worteinheit eines gesprochenen Satzes zeigt.
8 ist ein Diagramm zur Beschreibung eines Vorgangs, wenn Option 1 gewählt ist.
9 ist ein Diagramm zur Beschreibung eines Vorgangs, wenn Option 2 gewählt ist.
10 ist ein Diagramm zur Beschreibung eines Vorgangs, wenn Option 3 gewählt ist.
11 ist ein Diagramm zur Beschreibung eines Verfahrens zum Anfordern zusätzlicher Daten von einem Benutzer für zusätzliches Lernen, gemäß einer anderen Ausführungsform der vorliegenden Offenbarung.
12 ist ein Diagramm zur Beschreibung eines Vorgangs, wenn eine Texteingabe angefordert wird.
13 ist ein Diagramm zur Beschreibung eines Vorgangs eines Spracherkennungssystems gemäß einer Ausführungsform der vorliegenden Offenbarung.

MODUS ZUR AUSFÜHRUNG DER ERFINDUNG
Im Folgenden werden Ausführungsformen unter Bezugnahme auf die beiliegenden Zeichnungen im Detail beschrieben. Bei der Beschreibung von Ausführungsformen unter Bezugnahme auf die beiliegenden Zeichnungen werden gleiche oder entsprechende Elemente mit den gleichen Bezugsziffern bezeichnet. Eine redundante Beschreibung derselben wird weggelassen. Die Suffixe „Modul“ und „Einheit“ für Komponenten, die in der nachfolgenden Beschreibung verwendet werden, wurden mit Rücksicht auf die Einfachheit beim Verfassen der Beschreibung zugewiesen oder gemischt und haben für sich genommen keine unterscheidende Bedeutung oder Rolle. Wenn bei der Beschreibung der Ausführungsformen der vorliegenden Offenbarung festgestellt wird, dass die detaillierte Beschreibung der relevanten bekannten Technologie das Wesentliche der vorliegenden Offenbarung unnötig verdeckt, kann die detaillierte Beschreibung weggelassen werden. Außerdem dienen die beigefügten Zeichnungen nur dem einfachen Verständnis der in der vorliegenden Beschreibung offenbarten Ausführungsformen, und die in der vorliegenden Beschreibung offenbarte technische Idee wird durch die beigefügten Zeichnungen nicht eingeschränkt. Sie ist so zu verstehen, dass sie alle Modifikationen, Äquivalente und Substitute einschließt, die in den Geist und Umfang der vorliegenden Offenbarung fallen.
Die Begriffe wie „erstes“, „zweites“ usw. werden zur Beschreibung verschiedener Elemente verwendet, und diese Elemente werden durch diese Begriffe nicht eingeschränkt. Diese Begriffe werden nur verwendet, um ein Element von einem anderen Element zu unterscheiden.
Wenn ein Element als „verbunden mit“ einem anderen Element bezeichnet wird, kann das Element mit dem anderen Element verbunden sein oder es können auch Zwischenelemente vorhanden sein. Im Gegensatz dazu sind keine Zwischenelemente vorhanden, wenn ein Element als „direkt mit einem anderen Element verbunden“ bezeichnet wird.
Wie hier verwendet, schließen die Singularformen „ein“, „ein“ und „die“ auch die Pluralformen ein, sofern der Kontext nicht eindeutig etwas anderes angibt. Die Begriffe „umfasst“, „enthaltend“, „einschließlich“ und „mit“, wie sie in der vorliegenden Offenbarung verwendet werden, sind umfassend und spezifizieren daher das Vorhandensein von angegebenen Merkmalen, ganzen Zahlen, Schritten, Operationen, Elementen oder Komponenten, schließen aber nicht das Vorhandensein oder Hinzufügen von einem oder mehreren anderen Merkmalen, ganzen Zahlen, Schritten, Operationen, Elementen, Komponenten oder Kombinationen davon aus.
Ein hier beschriebenes mobiles Endgerät kann ein Mobiltelefon, ein Smartphone, ein Laptop, ein digitales Rundfunkgerät, ein persönlicher digitaler Assistent (PDA), ein tragbarer Multimedia-Player (PMP), ein Navigationsgerät, ein Slate-PC, ein Tablet-PC, ein Ultrabook, ein tragbares Gerät (z. B. eine intelligente Uhr, eine intelligente Brille, ein Head Mounted Display (HMD) usw.) sein.
1 ist ein Diagramm zur Beschreibung eines Spracherkennungssystems gemäß einer Ausführungsform der vorliegenden Offenbarung.
Ein Spracherkennungssystem 10 gemäß einer Ausführungsform der vorliegenden Offenbarung kann einen Spracherkennungsagenten 100, einen Server für künstliche Intelligenz 200 und ein mobiles Endgerät 300 umfassen.
Der Spracherkennungsagent 100 kann mit dem Server für künstliche Intelligenz 200 kommunizieren. Im Detail kann der Spracherkennungsagent 100 eine Schnittstelle zum Anschluss des Spracherkennungsagenten 100 an ein drahtgebundenes/drahtloses Netzwerk einschließlich eines Internet-Netzwerks bereitstellen. Der Spracherkennungsagent 100 kann Daten mit einem Server über ein angeschlossenes Netzwerk oder ein anderes mit dem angeschlossenen Netzwerk verbundenes Netzwerk übertragen oder empfangen.
Außerdem kann der Spracherkennungsagent 100 mit dem mobilen Endgerät 300 kommunizieren. Im Detail kann der Spracherkennungsagent 100 eine Schnittstelle zum Anschluss des Spracherkennungsagenten 100 an ein drahtgebundenes/drahtloses Netzwerk einschließlich eines Internet-Netzwerks bereitstellen. Der Spracherkennungsagent 100 kann Daten mit dem mobilen Endgerät 300 über ein angeschlossenes Netzwerk oder ein anderes Netzwerk, das mit dem angeschlossenen Netzwerk verbunden ist, übertragen oder empfangen.
Darüber hinaus kann der Spracherkennungsagent 100 mit dem mobilen Endgerät 300 über eine Nahbereichskommunikation kommunizieren, die mit Bezug auf 2 beschrieben ist.
Weiterhin kann der Spracherkennungsagent 100 Sprachdaten auf verschiedene Weise lernen oder eine den Sprachdaten entsprechende Funktion ausführen.
Wenn beispielsweise das Spracherkennungsmodell auf dem Server für künstliche Intelligenz 200 montiert ist und der Spracherkennungsagent 100 Sprachdaten empfängt und die empfangenen Sprachdaten an den Server für künstliche Intelligenz 200 überträgt, lernt der Server für künstliche Intelligenz 200 die Sprachdaten oder gibt ein Erkennungsergebnis basierend auf den Sprachdaten aus und überträgt das Erkennungsergebnis an den Spracherkennungsagenten 100, und der Spracherkennungsagent 100 kann eine Steuerung durchführen, indem er einen Steuerbefehl entsprechend dem Erkennungsergebnis erzeugt.
Als weiteres Beispiel, wenn das Spracherkennungsmodell auf dem Server für künstliche Intelligenz 200 aufgesetzt ist und der Spracherkennungsagent 100 Sprachdaten empfängt und die empfangenen Sprachdaten an den Server für künstliche Intelligenz 200 überträgt, lernt der Server für künstliche Intelligenz 200 die Sprachdaten oder gibt ein Erkennungsergebnis basierend auf den Sprachdaten aus und überträgt einen Steuerbefehl entsprechend dem Erkennungsergebnis an den Spracherkennungsagenten 100.
Als weiteres Beispiel ist das Erkennungsmodell auf dem Spracherkennungsagenten 100 aufgesetzt, der Spracherkennungsagent 100 empfängt Sprachdaten und lernt die Sprachdaten, oder gibt ein Erkennungsergebnis basierend auf den Sprachdaten aus und überträgt das Erkennungsergebnis an den Server für künstliche Intelligenz 200, und der Server für künstliche Intelligenz 200 überträgt einen Steuerbefehl entsprechend dem Erkennungsergebnis an den Spracherkennungsagenten 100.
Außerdem kann der Spracherkennungsagent 100 unabhängig vom Server für künstliche Intelligenz 200 eine Funktion der künstlichen Intelligenz ausführen.
Zum Beispiel ist das Spracherkennungsmodell auf dem Spracherkennungsagenten 100 aufgesetzt, der Spracherkennungsagent 100 empfängt Sprachdaten und lernt die Sprachdaten, oder gibt ein Erkennungsergebnis basierend auf den Sprachdaten aus und erzeugt einen Steuerbefehl entsprechend dem Erkennungsergebnis.
2 ist ein Blockdiagramm zur Beschreibung des Spracherkennungsagenten im Zusammenhang mit der vorliegenden Offenbarung.
Der Spracherkennungsagent 100 kann ein drahtloses Kommunikationsmodul 110, ein Eingabemodul 120, ein Modul für künstliche Intelligenz 130, einen Sensor 140, ein Ausgabemodul 150, eine Schnittstelle 160, einen Speicher 170, eine Steuerung 180 und eine Stromversorgung 190 umfassen.
Die in 2 dargestellten Elemente sind für die Implementierung des Spracherkennungsagenten nicht unbedingt erforderlich. Der in der vorliegenden Beschreibung beschriebene Spracherkennungsagent kann mehr oder weniger Elemente als die oben aufgeführten aufweisen.
Im Einzelnen kann das drahtlose Kommunikationsmodul 110 unter den Elementen ein oder mehrere Module enthalten, die eine drahtlose Kommunikation zwischen dem Spracherkennungsagenten 100 und einem drahtlosen Kommunikationssystem, zwischen dem Spracherkennungsagenten 100 und einem anderen Spracherkennungsagenten 100 oder zwischen dem Spracherkennungsagenten 100 und einem externen Server ermöglichen. Außerdem kann das drahtlose Kommunikationsmodul 110 ein oder mehrere Module enthalten, die den Spracherkennungsagenten 100 mit einem oder mehreren Netzwerken verbinden.
Das drahtlose Kommunikationsmodul 110 kann mindestens eines der folgenden Module enthalten: ein Rundfunkempfangsmodul 111, ein Mobilkommunikationsmodul 112, ein drahtloses Internetmodul 113, ein Nahbereichskommunikationsmodul 114 und ein Standortinformationsmodul 115.
Das Eingabemodul 120 kann eine Kamera 121 oder ein Bildeingabemodul zum Eingeben eines Videosignals, ein Mikrofon 122 oder ein Audioeingabemodul zum Eingeben eines Audiosignals und ein Benutzereingabemodul 123 zum Empfangen von Informationen von einem Benutzer (z. B. eine Berührungstaste, eine mechanische Taste usw.) enthalten. Die vom Eingabemodul 120 gesammelten Sprachdaten oder Bilddaten können durch einen Steuerbefehl des Benutzers analysiert und verarbeitet werden.
Das Modul für künstliche Intelligenz 130 ist dazu eingerichtet, Informationen auf der Grundlage von Technologien der künstlichen Intelligenz zu verarbeiten, und kann ein oder mehrere Module enthalten, die mindestens eines der folgenden Verfahren durchführen: Lernen von Informationen, Ableiten von Informationen, Wahrnehmen von Informationen oder Verarbeiten von natürlicher Sprache.
Das Modul 130 für künstliche Intelligenz kann die Technologie des maschinellen Lernens verwenden, um mindestens eines der folgenden Verfahren durchzuführen: Lernen, Ableiten und Verarbeiten einer großen Menge an Informationen (Big Data), wie z. B. im Spracherkennungsagenten gespeicherte Informationen, Umgebungsinformationen um den Spracherkennungsagenten herum und in einem kommunizierbaren externen Speicher gespeicherte Informationen. Das Modul 130 für künstliche Intelligenz kann die Funktion von mindestens einem ausführbaren Spracherkennungsagenten vorhersagen (oder ableiten), indem es die mit der Technologie des maschinellen Lernens erlernten Informationen verwendet, und kann den Spracherkennungsagenten so steuern, dass die am besten durchführbare Funktion unter der mindestens einen vorhergesagten Funktion ausgeführt wird.
Die Technologie des maschinellen Lernens ist eine Technologie, die basierend auf mindestens einem Algorithmus umfangreiche Informationen sammelt und lernt und basierend auf den gelernten Informationen Informationen bestimmt und vorhersagt. Das Lernen der Informationen ist ein Vorgang des Erfassens von Merkmalen, Regeln und Bestimmungskriterien von Informationen, des Quantifizierens der Beziehung zwischen Informationen und des Vorhersagens neuer Daten unter Verwendung des quantifizierten Musters.
Die von diesen maschinellen Lerntechnologien verwendeten Algorithmen können Algorithmen sein, die auf Statistik basieren. Beispiele für die Algorithmen können ein Entscheidungsbaum sein, der eine Baumstruktur als Vorhersagemodell verwendet, ein künstliches neuronales Netzwerk, das die Struktur und Funktion des neuronalen Netzwerks eines Organismus nachahmt, genetische Programmierung, die auf einem evolutionären Algorithmus eines Organismus basiert, Clustering, das beobachtete Beispiele in Teilmengen, sogenannte Cluster, verteilt, und eine Monte-Carlo-Methode, die Funktionswerte mit Wahrscheinlichkeit durch zufällig extrahierte Zufallszahlen berechnet.
Als ein Zweig der Technologie des maschinellen Lernens ist die Deep Learning-Technologie eine Technologie, die mindestens eines von Lernen, Bestimmen und Verarbeiten von Informationen mithilfe eines künstlichen neuronalen Netzwerkalgorithmus durchführt. Das künstliche neuronale Netzwerk kann eine Struktur aufweisen, die eine Schicht mit einer Schicht verbindet und Daten zwischen den Schichten überträgt. Eine solche Deep-Learning-Technologie kann eine große Menge an Informationen durch ein künstliches neuronales Netzwerk unter Verwendung einer Grafikverarbeitungseinheit (GPU) lernen, die für parallele Berechnungen optimiert ist.
Weiterhin kann das Modul für künstliche Intelligenz 130 Signale, Daten, Informationen oder Ähnliches sammeln (erfassen, überwachen, extrahieren, erkennen oder empfangen), die von den Elementen des Spracherkennungsagenten eingegeben oder ausgegeben werden, um eine große Menge an Informationen für die Anwendung der maschinellen Lerntechnologie zu sammeln. Außerdem kann das Modul für künstliche Intelligenz 130 Daten und Informationen sammeln (erfassen, überwachen, extrahieren, erkennen oder empfangen), die in einem externen Speicher (z. B. Cloud-Server) gespeichert sind, der durch Kommunikation verbunden ist. Im Detail kann das Sammeln der Informationen als ein Begriff verstanden werden, der einen Vorgang des Erfassens von Informationen durch einen Sensor, des Extrahierens von Informationen, die im Speicher 170 gespeichert sind, oder des Empfangens von Informationen aus einem externen Speicher durch Kommunikation umfasst.
Das Modul für künstliche Intelligenz 130 kann Informationen im Spracherkennungsagenten, Informationen über die Umgebung des Spracherkennungsagenten und Benutzerinformationen über den Sensor 140 erfassen. Außerdem kann das Modul für künstliche Intelligenz 130 Rundfunksignale und/oder rundfunkbezogene Informationen, drahtlose Signale und drahtlose Daten über das drahtlose Kommunikationsmodul 110 empfangen. Außerdem kann das Modul für künstliche Intelligenz 130 von dem Eingabemodul Videoinformationen (oder -signale), Audioinformationen (oder -signale), Daten oder Informationen empfangen, die von einem Benutzer eingegeben wurden.
Das Modul für künstliche Intelligenz 130 kann eine große Menge an Informationen in Echtzeit im Hintergrund sammeln, die gesammelten Informationen lernen und die verarbeiteten Informationen in einer geeigneten Form (z. B. Wissensgraph, Befehlsrichtlinie, Personalisierungsdatenbank, Konversationsmaschine usw.) im Speicher 170 speichern.
Wenn der Betrieb des Spracherkennungsagenten auf der Grundlage der mit der Technologie des maschinellen Lernens erlernten Informationen vorhergesagt wird, kann das Modul für künstliche Intelligenz 130 die Elemente des Spracherkennungsagenten steuern oder einen Steuerbefehl zum Ausführen der vorhergesagten Funktion an die Steuerung 180 übertragen, um die vorhergesagten Funktion auszuführen. Die Steuerung 180 kann die vorhergesagten Funktion ausführen, indem sie den Spracherkennungsagenten basierend auf dem Steuerbefehl steuert.
Weiterhin kann das Modul für künstliche Intelligenz 130, wenn ein bestimmter Vorgang ausgeführt wird, Verlaufsinformationen, die die Ausführung des bestimmten Vorgangs anzeigen, durch die Technologie für maschinelles Lernen analysieren und vorhandene gelernte Informationen basierend auf diesen Analyseinformationen aktualisieren. Dementsprechend kann das Modul für künstliche Intelligenz 130 die Genauigkeit der Informationsvorhersage verbessern.
In der vorliegenden Beschreibung können das Modul für künstliche Intelligenz 130 und die Steuerung 180 als dieselben Elemente verstanden werden. In diesem Fall kann die in der vorliegenden Beschreibung beschriebene Funktion, die von der Steuerung 180 ausgeführt wird, so ausgedrückt werden, dass sie von dem Modul für künstliche Intelligenz 130 ausgeführt wird. Das Steuergerät 180 kann als das Modul für künstliche Intelligenz 130 bezeichnet werden. Umgekehrt kann das Modul für künstliche Intelligenz 130 als Steuerung 180 bezeichnet werden.
Im Gegensatz dazu können in der vorliegenden Beschreibung das Modul für künstliche Intelligenz 130 und die Steuerung 180 auch als separate Elemente verstanden werden. In diesem Fall können das Modul für künstliche Intelligenz 130 und die Steuerung 180 verschiedene Steuerungen des Spracherkennungsagenten durch Datenaustausch miteinander durchführen. Die Steuerung 180 kann mindestens eine Funktion auf dem Spracherkennungsagenten ausführen oder mindestens ein Element des Spracherkennungsagenten basierend auf dem vom künstlichen Intelligenzmodul 130 abgeleiteten Ergebnis steuern. Darüber hinaus kann das Modul für künstliche Intelligenz 130 auch unter der Kontrolle der Steuerung 180 betrieben werden.
Der Sensor 140 kann einen Sensor zum Erfassen von mindestens einer der folgenden Informationen enthalten: Informationen im Spracherkennungsagenten, Informationen über die Umgebung, die den Spracherkennungsagenten umgibt, oder Benutzerinformationen.
Der Sensor 140 kann beispielsweise mindestens einen Näherungssensor 141, einen Beleuchtungssensor 142, einen Berührungssensor, einen Beschleunigungssensor, einen Magnetsensor, einen G-Sensor, einen Gyroskopsensor, einen Bewegungssensor, einen RGB-Sensor, einen Infrarot-(IR)-Sensor, einen Fingerscan-Sensor, einen Ultraschallsensor, einen optischen Sensor (z. B., Kamera (siehe 121)), ein Mikrofon (siehe 122), eine Batterieanzeige, ein Umweltsensor (z. B. Barometer, Hygrometer, Thermometer, Strahlungssensor, Wärmedetektionssensor, Gasdetektionssensor, usw.) oder einen chemischen Sensor (z. B. eine elektronische Nase, ein Gesundheitssensor, ein biometrischer Sensor, usw.) umfassen. Ferner kann der in der vorliegenden Beschreibung offengelegte Spracherkennungsagent Informationen, die von mindestens zwei dieser Sensoren erfasst werden, kombinieren und nutzen.
Das Ausgabemodul 150 erzeugt eine Ausgabe, die dem Seh-, Hör- oder Tastsinn zugeordnet ist, und kann mindestens ein Display 151, ein Audioausgabemodul 152, ein haptisches Modul 153 oder ein optisches Ausgabemodul 154 enthalten. Das Display 151 kann eine gemeinsame Schichtstruktur mit dem Berührungssensor bilden oder integral mit dem Berührungssensor ausgebildet sein, um einen Touchscreen zu realisieren. Der Touchscreen kann als Benutzereingabemodul 123 fungieren, das eine Eingabeschnittstelle zwischen dem Spracherkennungsagent 100 und dem Benutzer bereitstellt und auch eine Ausgabeschnittstelle zwischen dem Spracherkennungsagent 100 und dem Benutzer bereitstellen kann.
Die Schnittstelle 160 dient als Durchgang mit verschiedenen Arten von externen Geräten, die mit dem Spracherkennungsagenten 100 verbunden sind. Die Schnittstelle 160 kann mindestens einen Anschluss für ein kabelgebundenes/drahtloses Headset, einen Anschluss für ein externes Ladegerät, einen kabelgebundenen/drahtlosen Datenanschluss, einen Speicherkartenanschluss, einen Anschluss für ein mit einem Identifizierungsmodul ausgestattetes Gerät, einen Audioeingangs-/-ausgangsanschluss (E/A), einen Video-E/A-Anschluss oder einen Kopfhöreranschluss umfassen. Der Spracherkennungsagent 100 kann als Reaktion auf den Anschluss des externen Geräts an die Schnittstelle 160 eine entsprechende Steuerung durchführen, die einem angeschlossenen externen Gerät zugeordnet ist.
Außerdem kann der Speicher 170 Daten speichern, die verschiedene Funktionen des Spracherkennungsagenten 100 unterstützen. Der Speicher 170 kann eine große Anzahl von Anwendungsprogrammen (oder Anwendungen), die im Spracherkennungsagenten 100 laufen, Daten und Befehle für den Betrieb des Spracherkennungsagenten 100 und Daten für den Betrieb des Moduls für künstliche Intelligenz 130 (z. B. mindestens eine Algorithmusinformation für maschinelles Lernen usw.) speichern. Zumindest einige dieser Anwendungsprogramme können von einem externen Server über drahtlose Kommunikation heruntergeladen werden. Außerdem können zumindest einige dieser Anwendungsprogramme auf dem Spracherkennungsagenten 100 ab dem Zeitpunkt der Auslieferung für die grundlegenden Funktionen des Spracherkennungsagenten 100 vorhanden sein (z. B. Funktionen für eingehende und ausgehende Anrufe, Funktionen zum Empfangen und Senden von Nachrichten usw.). Weiterhin kann das Anwendungsprogramm im Speicher 170 gespeichert, auf dem Spracherkennungsagenten 100 installiert und von der Steuerung 180 gesteuert werden, um den Betrieb (oder die Funktion) des Spracherkennungsagenten durchzuführen.
Zusätzlich zum Betrieb, der sich auf das Anwendungsprogramm bezieht, steuert die Steuerung 180 im Allgemeinen den Gesamtbetrieb des Spracherkennungsagenten 100. Die Steuerung 180 kann entsprechende Informationen oder Funktionen für den Benutzer bereitstellen oder verarbeiten, indem sie Signale, Daten, Informationen oder ähnliches verarbeitet, die über die oben beschriebenen Elemente eingegeben oder ausgegeben werden, oder indem sie das im Speicher 170 gespeicherte Anwendungsprogramm steuert.
Außerdem kann die Steuerung 180 zumindest einen Teil der mit Bezug auf 1A beschriebenen Elemente steuern, um das im Speicher 170 gespeicherte Anwendungsprogramm zu steuern. Darüber hinaus kann die Steuereinheit 180 zur Steuerung des Anwendungsprogramms den Spracherkennungsagenten 100 betreiben, indem sie mindestens zwei Elemente, die im Spracherkennungsagenten 100 enthalten sind, miteinander kombiniert.
Unter der Steuerung der Steuereinheit 180 nimmt die Stromversorgung 190 externe Energie und interne Energie auf und versorgt die im Spracherkennungsagenten 100 enthaltenen Elemente mit der externen Energie und der internen Energie. Die Stromversorgung 190 umfasst eine Batterie, wobei die Batterie eine interne Batterie oder eine austauschbare Batterie sein kann.
Im Folgenden werden vor der Betrachtung verschiedener Ausführungsformen, die durch den oben beschriebenen Spracherkennungsagenten 100 realisiert werden, die oben aufgeführten Elemente unter Bezugnahme auf 2 näher beschrieben.
Zunächst empfängt das Rundfunkempfangsmodul 111 des drahtlosen Kommunikationsmoduls 110 ein Rundfunksignal und/oder rundfunkbezogene Informationen von einem externen Rundfunkverwaltungsserver über einen Rundfunkkanal. Der Rundfunkkanal kann einen Satellitenkanal, einen Bodenwellenkanal oder ähnliches umfassen. Das mobile Endgerät 100 kann mit zwei oder mehr Rundfunkempfangsmodulen ausgestattet sein, um einen gleichzeitigen Rundfunkempfang oder eine Rundfunkkanalumschaltung für mindestens zwei Rundfunkkanäle zu ermöglichen.
Der Rundfunkverwaltungsserver kann sich auf einen Server beziehen, der ein Rundfunksignal und/oder rundfunkbezogene Informationen erzeugt und sendet, oder auf einen Server, der ein zuvor erzeugtes Rundfunksignal und/oder rundfunkbezogene Informationen empfängt und das zuvor erzeugte Rundfunksignal und/oder die rundfunkbezogenen Informationen an das Endgerät sendet. Das Rundfunksignal kann ein TV-Rundfunksignal, ein Radio-Rundfunksignal und ein Daten-Rundfunksignal umfassen und kann auch ein Rundfunksignal umfassen, in dem ein Daten-Rundfunksignal mit einem TV-Rundfunksignal oder einem Radio-Rundfunksignal kombiniert ist.
Das Rundfunksignal kann gemäß mindestens einem der technischen Standards (oder Rundfunkverfahren, z. B. ISO, IEC, DVB, ATSC usw.) zum Senden oder Empfangen von digitalen Rundfunksignalen kodiert sein, und das Rundfunkempfangsmodul 111 kann das digitale Rundfunksignal unter Verwendung eines Verfahrens empfangen, das für die durch die technischen Standards bestimmte technische Spezifikation geeignet ist.
Die rundfunkbezogenen Informationen können sich auf Informationen beziehen, die sich auf einen Rundfunkkanal, ein Rundfunkprogramm oder einen Rundfunkdienstanbieter beziehen. Die rundfunkbezogenen Informationen können auch über ein mobiles Kommunikationsnetzwerk bereitgestellt werden. In diesem Fall können die rundfunkbezogenen Informationen von dem mobilen Kommunikationsmodul 112 empfangen werden.
Die rundfunkbezogenen Informationen können in verschiedenen Formen vorliegen, wie z. B. ein elektronischer Programmführer (EPG) von Digital Multimedia Broadcasting (DMB) oder ein elektronischer Service Guide (ESG) von Digital Video Broadcast-Handheld (DVB-H). Die Rundfunksignale und/oder die rundfunkbezogenen Informationen, die über das Rundfunkempfangsmodul 111 empfangen werden, können im Speicher 160 gespeichert werden.
Das Mobilfunkmodul 112 sendet oder empfängt ein Funksignal zu oder von mindestens einer Basisstation, einem externen Endgerät und einem Server in einem Mobilfunknetz, das nach technischen Standards oder Kommunikationsschemata für die mobile Kommunikation aufgebaut ist (z. B. Global System for Mobile communication (GSM), Code Division Multi Access (CDMA), Code Division Multi Access 2000 (CDMA2000), Enhanced Voice-Data Optimized oder Enhanced Voice-Data Only (EV-DO), Wideband CDMA (WCDMA), High Speed Downlink Packet Access (HSDPA), High Speed Uplink Packet Access (HSUPA), Long Term Evolution (LTE), und Long Term Evolution-Advanced (LTE-A)).
Beispiele für das drahtlose Signal können ein Sprachanrufsignal, ein Videoanrufsignal oder verschiedene Arten von Daten entsprechend dem Senden oder Empfangen von Text-/Multimedianachrichten sein.
Das drahtlose Internetmodul 113 bezieht sich auf ein Modul für den drahtlosen Internetzugang und kann in den Spracherkennungsagenten 100 eingebettet sein oder außerhalb des Spracherkennungsagenten 100 bereitgestellt werden. Das drahtlose Internetmodul 113 kann dazu eingerichtet sein, ein drahtloses Signal in einem auf drahtlosen Internettechnologien basierenden Kommunikationsnetzwerk zu senden oder zu empfangen.
Beispiele für die drahtlose Internettechnologie können Wireless LAN (WLAN), Wireless-Fidelity (Wi-Fi), Wi-Fi Direct, Digital Living Network Alliance (DLNA), Wireless Broadband (WiBro), World Interoperability for Microwave Access (WiMAX), High Speed Downlink Packet Access (HSDPA), High Speed Uplink Packet Access (HSUPA), Long Term Evolution (LTE) und Long Term Evolution-Advanced (LTE-A) umfassen. Das drahtlose Internetmodul 113 sendet oder empfängt Daten gemäß mindestens einer drahtlosen Internettechnologie in einem Bereich, der auch nicht oben aufgeführte Internettechnologien umfasst.
Da die drahtlose Internetverbindung über WiBro, HSDPA, HSUPA, GSM, CDMA, WCDMA, LTE, LTE-A usw. über das Mobilfunknetz erfolgt, kann das drahtlose Internetmodul 113, das den drahtlosen Internetzugang über das Mobilfunknetz durchführt, als eine Art des Mobilfunkmoduls 112 verstanden werden.
Das Kurzstreckenkommunikationsmodul 114 ist für die Kurzstreckenkommunikation vorgesehen und kann die Kurzstreckenkommunikation unter Verwendung von mindestens einer der Technologien Bluetooth™, Radio Frequency Identification (RFID), Infrared Data Association (IrDA), Ultra Wideband (UWB), ZigBee, Near Field Communication (NFC), Wireless-Fidelity (Wi-Fi), Wi-Fi Direct und Wireless Universal Serial Bus (USB) unterstützen. Das Kurzstreckenkommunikationsmodul 114 kann über drahtlose Bereichsnetzwerke die drahtlose Kommunikation zwischen dem Spracherkennungsagenten 100 und dem drahtlosen Kommunikationssystem, zwischen dem Spracherkennungsagenten 100 und einem anderen Spracherkennungsagenten 100 oder zwischen dem Spracherkennungsagenten 100 und einem Netzwerk, in dem ein anderes mobiles Endgerät 100 (oder ein externer Server) angeordnet ist, unterstützen. Die drahtlosen Bereichsnetzwerke können drahtlose persönliche Bereichsnetzwerke sein.
Der Spracherkennungsagent 100 kann ein tragbares Gerät sein (z. B. eine Smartwatch, eine Smart-Brille, ein Head Mounted Display (HMD) usw.), das in der Lage ist, Daten mit dem Spracherkennungsagenten 100 gemäß der vorliegenden Offenbarung auszutauschen (oder zusammenzuarbeiten). Das Kurzstrecken-Kommunikationsmodul 114 kann ein tragbares Gerät, das in der Lage ist, mit dem Spracherkennungsagenten 100 zu kommunizieren, in der Nähe des Spracherkennungsagenten 100 erfassen (oder erkennen). Wenn es sich bei dem erfassten tragbaren Gerät um ein Gerät handelt, das für die Kommunikation mit dem Spracherkennungsagenten 100 gemäß der vorliegenden Offenbarung authentifiziert ist, kann die Steuereinheit 180 außerdem zumindest einen Teil der von dem Spracherkennungsagenten 100 verarbeiteten Daten über das Kurzstreckenkommunikationsmodul 114 an das tragbare Gerät übertragen. Dementsprechend kann ein Benutzer des tragbaren Geräts die von dem Spracherkennungsagenten 100 verarbeiteten Daten über das tragbare Gerät verwenden. Wenn der Spracherkennungsagent 100 einen Anruf erhält, kann der Benutzer beispielsweise einen Anruf über das tragbare Gerät tätigen, oder wenn der Spracherkennungsagent 100 eine Nachricht erhält, kann der Benutzer die empfangene Nachricht über das tragbare Gerät bestätigen.
Das Standortinformationsmodul 115 erhält einen Standort (oder einen aktuellen Standort) des Spracherkennungsagenten, und repräsentative Beispiele für das Standortinformationsmodul 115 umfassen ein GPS-Modul (Global Positioning System) und ein Wi-Fi-Modul. Wenn der Spracherkennungsagent beispielsweise ein GPS-Modul verwendet, kann der Spracherkennungsagent den Standort des Spracherkennungsagenten mithilfe eines von einem GPS-Satelliten übertragenen Signals ermitteln.
Ein weiteres Beispiel: Wenn der Spracherkennungsagent ein Wi-Fi-Modul verwendet, kann der Spracherkennungsagent den Standort des Spracherkennungsagenten basierend auf Informationen über einen drahtlosen Zugangspunkt (AP) erhalten, der ein drahtloses Signal an das Wi-Fi-Modul sendet oder von diesem empfängt. Falls erforderlich, kann das Standortinformationsmodul 115 alternativ oder zusätzlich eine beliebige Funktion unter anderen Modulen des drahtlosen Kommunikationsmoduls 110 ausführen, um Daten über den Standort des Spracherkennungsagenten zu erhalten. Das Standortinformationsmodul 115 wird verwendet, um den Standort (oder den aktuellen Standort) des Spracherkennungsagenten zu erhalten, und das Standortinformationsmodul 115 ist nicht auf ein Modul beschränkt, das den Standort des Spracherkennungsagenten direkt berechnet oder erhält.
Als nächstes gibt das Eingabemodul 120 Videoinformationen (oder Signale), Audioinformationen (oder Signale), Daten oder Informationen ein, die von einem Benutzer eingegeben werden. Für die Eingabe der Videoinformationen kann der Spracherkennungsagent 100 eine oder mehrere Kameras 121 enthalten. Die Kamera 121 verarbeitet Bildrahmen von Standbildern oder Videos, die von Bildsensoren in einem Videoanrufmodus oder einem Bilderfassungsmodus erhalten wurden. Der verarbeitete Bildrahmen kann auf dem Display 151 angezeigt oder im Speicher 170 gespeichert werden. In der Zwischenzeit kann eine Vielzahl von Kameras 121, die im Spracherkennungsagenten 100 vorgesehen sind, so angeordnet sein, dass sie eine Matrixstruktur bilden. Eine Vielzahl von Bildinformationen mit verschiedenen Winkeln oder Brennpunkten kann über die Kameras 121, die die Matrixstruktur wie oben beschrieben bilden, in die Spracherkennungseinrichtung 100 eingegeben werden. Die mehreren Kameras 121 können auch in einer Stereostruktur angeordnet sein, um ein linkes Bild und ein rechtes Bild für die Implementierung eines stereoskopischen Bildes zu erhalten.
Das Mikrofon 122 verarbeitet ein externes Audiosignal in elektrische Audiodaten. Die verarbeiteten Sprachdaten können je nach der Funktion (oder dem laufenden Anwendungsprogramm), die im Spracherkennungsagenten 100 ausgeführt wird, unterschiedlich verwendet werden. In der Zwischenzeit können im Mikrofon 122 verschiedene Algorithmen zur Rauschunterdrückung implementiert werden, um Rauschen zu unterdrücken, das beim Empfang des externen Audiosignals entsteht.
Das Benutzereingabemodul 123 empfängt Informationen vom Benutzer. Wenn Informationen über das Benutzereingabemodul 123 eingegeben werden, kann die Steuerung 180 den Betrieb des Spracherkennungsagenten 100 so steuern, dass er den eingegebenen Informationen entspricht. Das Benutzereingabemodul 123 ist ein mechanisches Eingabemodul (oder eine mechanische Taste, z. B. eine Taste an der Vorderseite, Rückseite oder Seite des Spracherkennungsagenten 100, ein Dome-Schalter, ein Jog-Rad, ein Jog-Schalter usw.) und ein Berührungseingabemodul. Das Berührungseingabemodul kann beispielsweise eine virtuelle Taste, einen Softkey oder eine visuelle Taste enthalten, die durch Softwareverarbeitung auf einem Touchscreen angezeigt wird, oder es kann eine Berührungstaste enthalten, die an einem anderen Teil als dem Touchscreen angeordnet ist. Weiterhin kann die virtuelle Taste oder die visuelle Taste auf dem Touchscreen angezeigt werden, wobei sie verschiedene Formen haben kann. Zum Beispiel kann die virtuelle Taste eine Grafik, ein Text, ein Symbol, ein Video oder eine Kombination davon sein.
Weiterhin kann der Sensor 140 mindestens eine der folgenden Informationen erfassen: Informationen im Spracherkennungsagenten, Informationen über die Umgebung des Spracherkennungsagenten oder Benutzerinformationen und kann ein entsprechendes Erfassungssignal erzeugen. Basierend auf dem Erfassungssignal kann die Steuereinheit 180 den Antrieb oder den Betrieb des Spracherkennungsagenten 100 steuern oder eine Datenverarbeitung, Funktion oder Bedienung durchführen, die mit dem auf dem Spracherkennungsagenten 100 installierten Anwendungsprogramm verbunden ist. Repräsentative Sensoren unter den verschiedenen Sensoren, die im Sensor 140 enthalten sein können, werden im Folgenden näher beschrieben.
Erstens bezieht sich der Näherungssensor 141 auf einen Sensor, der das Vorhandensein oder Nichtvorhandensein eines Objekts, das sich einer vorbestimmten Erfassungsfläche nähert, oder eines Objekts, das sich in der Nähe des Näherungssensors 141 befindet, unter Verwendung einer elektromagnetischen Kraft oder von Infrarotlicht, ohne mechanischen Kontakt, erfasst. Der Näherungssensor 141 kann in der Nähe des Touchscreens oder im inneren Bereich des Spracherkennungsmittels angeordnet sein, der vom Touchscreen umgeben ist, wie oben beschrieben.
Beispiele für den Näherungssensor sind ein fotoelektrischer Sensor vom Transmissionstyp, ein fotoelektrischer Sensor vom Direktreflexionstyp, ein fotoelektrischer Sensor vom Spiegelreflexionstyp, ein Näherungssensor vom Hochfrequenzoszillationstyp, ein Näherungssensor vom Kapazitätstyp, ein magnetischer Näherungssensor und ein Näherungssensor vom Infrarottyp. Wenn der Touchscreen ein elektrostatischer Typ ist, kann der Näherungssensor 141 so konfiguriert sein, dass er die Nähe des Objekts durch eine Änderung des elektrischen Feldes entsprechend der Nähe des leitenden Objekts erkennt. In diesem Fall kann der Touchscreen (oder der Berührungssensor) selbst als Näherungssensor klassifiziert werden.
Zur Vereinfachung der Beschreibung wird der Vorgang, dass das Objekt sich nähert, ohne mit dem Touchscreen in Berührung zu kommen, und somit das Objekt als auf dem Touchscreen befindlich erkannt wird, als „Näherungsberührung“ bezeichnet, und der Vorgang, dass das Objekt tatsächlich mit dem Touchscreen in Berührung kommt, als „Kontaktberührung“. Die Stelle, an der die Annäherungsberührung des Objekts auf dem Touchscreen stattfindet, bezieht sich auf eine Stelle, die senkrecht zum Touchscreen steht, wenn sich das Objekt in der Näherungsberührung befindet. Der Näherungssensor 141 kann die Näherungsberührung und das Näherungsberührungsmuster (z. B. einen Näherungsberührungsabstand, eine Näherungsberührungsrichtung, eine Näherungsberührungsgeschwindigkeit, eine Näherungsberührungszeit, einen Näherungsberührungsort, einen Näherungsberührungsbewegungszustand usw.) erfassen.
Weiterhin kann die Steuereinheit 180 Daten (oder Informationen) verarbeiten, die der Berührungsoperation und dem Berührungsmuster entsprechen, die vom Näherungssensor 141 erfasst werden, und kann visuelle Informationen steuern, die den verarbeiteten Daten entsprechen, die auf dem Touchscreen angezeigt werden sollen. Darüber hinaus kann der Controller 180 den Spracherkennungsagenten 100 so steuern, dass unterschiedliche Operationen oder Daten (oder Informationen) verarbeitet werden, je nachdem, ob die Berührung desselben Punktes auf dem Touchscreen die Näherungsberührung oder die Kontaktberührung ist.
Der Berührungssensor erfasst die Berührung (oder Berührungseingabe), die auf den Touchscreen (oder das Display 151) aufgebracht wird, indem er mindestens eine von verschiedenen Berührungsmethoden verwendet, wie z. B. die Widerstandsfilm-Methode, eine kapazitive Methode, eine Infrarotmethode, eine Ultraschallmethode und eine Magnetfeldmethode.
Beispielsweise kann der Berührungssensor so konfiguriert sein, dass ein Druck, der auf einen bestimmten Bereich des Touchscreens ausgeübt wird, oder eine Änderung einer elektrostatischen Kapazität, die an einem bestimmten Bereich des Touchscreens auftritt, in ein elektrisches Eingangssignal umgewandelt wird. Der Berührungssensor kann so konfiguriert sein, dass er einen Ort, einen Bereich, einen Druck bei Berührung, eine Kapazität bei Berührung und Ähnliches erfasst, wenn ein Objekt, das eine Berührung auf den Touchscreen ausübt, auf dem Berührungssensor berührt wird. Das Berührungsobjekt ist ein Objekt, das eine Berührung auf den Berührungssensor ausübt, und kann z. B. ein Finger, ein Berührungsstift, ein Stylus-Stift oder ein Zeiger sein.
Bei einer Berührungseingabe am Berührungssensor wird/werden das/die entsprechende(n) Signal(e) an einen Touch-Controller übertragen. Der Touch-Controller verarbeitet das/die Signal (e) und überträgt dann entsprechende Daten an den Controller 180. So kann der Controller 180 erkennen, welcher Bereich des Displays 151 berührt wird. Der Touch-Controller kann ein von der Steuerung 180 getrenntes Element sein oder die Steuerung 180 selbst sein.
Weiterhin kann die Steuereinheit 180 je nach Art des Berührungsobjekts, das den Touchscreen (oder eine zusätzlich zum Touchscreen bereitgestellte Berührungstaste) berührt, unterschiedliche Steuerungen oder dieselbe Steuerung durchführen. Ob unterschiedliche Steuerungen oder die gleiche Steuerung je nach Art des Berührungsobjekts durchgeführt werden, kann entsprechend dem Betriebszustand des Spracherkennungsagenten 100 oder des laufenden Anwendungsprogramms bestimmt werden.
Der Berührungssensor und der Näherungssensor können unabhängig oder in Kombination eingesetzt werden, um verschiedene Arten von Berührungen zu erfassen. Zu solchen Berührungen gehören eine kurze (oder tippende) Berührung, eine lange Berührung, eine Mehrfachberührung, eine ziehende Berührung, eine schnippende Berührung, eine einklemmende Berührung, eine ausklemmende Berührung, eine wischende Berührung, eine schwebende Berührung und dergleichen in Bezug auf den Touchscreen.
Der Ultraschallsensor kann Standortinformationen eines Erfassungsziels durch Verwendung von Ultraschallwellen erkennen. Der Controller 180 kann den Standort einer wellenerzeugenden Quelle anhand von Informationen berechnen, die von einem optischen Sensor und einer Vielzahl von Ultraschallsensoren erfasst werden. Die Position der wellenerzeugenden Quelle kann unter Verwendung der Eigenschaft berechnet werden, dass Licht viel schneller ist als Ultraschallwellen, d. h., die Zeit, in der das Licht den optischen Sensor erreicht, ist viel schneller als die Zeit, in der die Ultraschallwellen den Ultraschallsensor erreichen. Genauer gesagt kann die Position der wellenerzeugenden Quelle berechnet werden, indem die Differenz der Zeit, zu der die Ultraschallwellen ankommen, mit Licht als Referenzsignal verwendet wird.
Unterdessen kann die Kamera 121 als Element des Eingabemoduls 120 mindestens einen Kamerasensor (z. B. einen CCD- oder CMOS-Sensor), einen Fotosensor (oder einen Bildsensor) oder einen Lasersensor umfassen.
Die Kamera 121 und der Lasersensor können miteinander kombiniert werden, um eine Berührung eines Erfassungsziels in Bezug auf ein stereoskopisches 3D-Bild zu erfassen. Der Fotosensor kann auf dem Anzeigegerät gestapelt werden, und der Fotosensor ist so konfiguriert, dass er eine Bewegung eines Erfassungsziels in der Nähe des Touchscreens abtastet. Genauer gesagt, tastet der Fotosensor den auf dem Fotosensor platzierten Inhalt ab, indem er eine Fotodiode und einen Transistor (TR) in einer Reihe/Spalte anordnet und ein elektrisches Signal verwendet, das sich entsprechend der auf die Fotodiode einwirkenden Lichtmenge ändert. Das heißt, der Fotosensor kann die Koordinaten des Erfassungsziels entsprechend der sich ändernden Lichtmenge berechnen und kann basierend auf den Koordinaten des Erfassungsziels Ortsinformationen des Erfassungsziels erhalten.
Die Anzeige 151 zeigt Informationen an (gibt sie aus), die vom Spracherkennungsagenten 100 verarbeitet werden. Beispielsweise kann die Anzeige 151 Informationen zum Ausführungsbildschirm des vom Spracherkennungsagenten 100 gesteuerten Anwendungsprogramms oder Informationen zur Benutzeroberfläche (UI) oder zur grafischen Benutzeroberfläche (GUI) entsprechend den Informationen zum Ausführungsbildschirm anzeigen.
Die Anzeige 151 kann auch als dreidimensionale Anzeige konfiguriert sein, die ein dreidimensionales Bild anzeigt. Ein dreidimensionales Anzeigeverfahren, wie z. B. ein stereoskopisches Verfahren (Brillenverfahren), ein autostereoskopisches Verfahren (brillenloses Verfahren) und ein Projektionsverfahren (holografisches Verfahren) kann auf die dreidimensionale Anzeige angewendet werden.
Im Allgemeinen umfasst ein stereoskopisches 3D-Bild ein linkes Bild (ein Bild für das linke Auge) und ein rechtes Bild (ein Bild für das rechte Auge). Je nach Verfahren, mit dem das linke und das rechte Bild zu einem stereoskopischen 3D-Bild kombiniert werden, gibt es ein Top-Down-Verfahren, bei dem das linke und das rechte Bild oben und unten in einem Bild angeordnet werden, ein L-to-R-Verfahren (von links nach rechts, nebeneinander), bei dem das linke und das rechte Bild links und rechts in einem Bild angeordnet werden, ein Schachbrettverfahren, bei dem Teile der linken und rechten Bilder in einer Kachelform angeordnet werden, ein Zeilensprungverfahren, bei dem die linken und rechten Bilder abwechselnd in Spalten oder Reihen angeordnet werden, und ein zeitsequentielles (Bild für Bild) Verfahren, bei dem die linken und rechten Bilder abwechselnd nach Zeit angezeigt werden.
Außerdem kann ein 3D-Thumbnail-Bild ein linkes Bild-Thumbnail und ein rechtes Bild-Thumbnail aus dem linken Bild bzw. dem rechten Bild des Originalbildes erzeugen und das linke Bild-Thumbnail und das rechte Bild-Thumbnail kombinieren, um ein Bild zu erzeugen. Im Allgemeinen bezieht sich das Thumbnail auf ein verkleinertes Bild oder ein verkleinertes Standbild. Die so erzeugte Miniaturansicht des linken Bildes und die Miniaturansicht des rechten Bildes werden mit einem Abstandsunterschied zwischen linkem und rechtem Bild auf dem Bildschirm angezeigt, der einer Tiefe entspricht, die der Parallaxe zwischen dem linken Bild und dem rechten Bild entspricht, wodurch ein dreidimensionales Raumgefühl vermittelt wird.
Das linke Bild und das rechte Bild, die für die Realisierung eines stereoskopischen 3D-Bildes erforderlich sind, können auf einem stereoskopischen Display durch einen stereoskopischen Prozessor angezeigt werden. Der stereoskopische Prozessor empfängt ein 3D-Bild (ein Bild an einem Referenzstandpunkt und ein Bild an einem erweiterten Standpunkt) und setzt daraus ein linkes Bild und ein rechtes Bild, oder er empfängt ein 2D-Bild und wandelt das 2D-Bild in ein linkes Bild und ein rechtes Bild um.
Das Audioausgangsmodul 152 kann Audiodaten ausgeben, die vom drahtlosen Kommunikationsmodul 110 empfangen oder im Speicher 170 in einem Rufsignalempfangsmodus, einem Anrufmodus oder einem Aufzeichnungsmodus, einem Spracherkennungsmodus und einem Rundfunkempfangsmodus gespeichert wurden. Das Audioausgabemodul 152 kann Audiosignale ausgeben, die sich auf die vom Spracherkennungsagenten 100 ausgeführten Funktionen beziehen (z. B. Anrufsignalempfangston, Nachrichtenempfangston usw.). Das Audioausgangsmodul 152 kann einen Empfänger, einen Lautsprecher und einen Summer umfassen.
Das Haptikmodul 153 erzeugt verschiedene haptische Effekte, die ein Benutzer spüren kann. Ein typisches Beispiel für die durch das Haptikmodul 153 erzeugten haptischen Effekte ist die Vibration. Die Intensität, das Muster und dergleichen der vom haptischen Modul 153 erzeugten Vibration kann entsprechend der Auswahl oder den Einstellungen des Controllers durch den Benutzer gesteuert werden. Zum Beispiel kann das Haptikmodul 153 verschiedene Vibrationen synthetisieren und ein Ergebnis der Synthese ausgeben oder die verschiedenen Vibrationen sequentiell ausgeben.
Neben der Vibration kann das Haptikmodul 153 verschiedene andere taktile Effekte erzeugen, einschließlich eines Effekts durch Stimulation, wie z. B. eine Stiftanordnung, die sich vertikal bewegt, um die Haut zu berühren, eine Sprüh- oder Saugkraft von Luft durch eine Düsen- oder Saugöffnung, eine Berührung der Haut, eine Berührung einer Elektrode oder eine elektrostatische Kraft, einen Effekt durch Nachbildung des Gefühls von Kälte und Wärme unter Verwendung eines Elements, das Wärme absorbieren oder erzeugen kann, und ähnliches.
Das haptische Modul 153 kann einen taktilen Effekt durch direkten Kontakt übertragen und kann auch so implementiert sein, dass ein Benutzer einen taktilen Effekt durch einen Muskelsinn eines Fingers, eines Arms oder dergleichen fühlen kann. Je nach Konfiguration des Spracherkennungsagenten 100 können zwei oder mehr haptische Module 153 vorgesehen sein.
Das optische Ausgabemodul 154 gibt ein Signal zur Benachrichtigung über das Eintreten eines Ereignisses aus, indem es Licht verwendet, das von einer Lichtquelle des Spracherkennungsagenten 100 ausgesendet wird. Beispiele für das im Spracherkennungsagenten 100 erzeugte Ereignis können Nachrichtenempfang, Anrufsignalempfang, verpasster Anruf, Alarm, Zeitplanbenachrichtigung, E-Mail-Empfang und Informationsempfang durch Anwendungen sein.
Die Signalausgabe durch das optische Ausgabemodul 154 wird so implementiert, dass das HMD Licht einer einzelnen Farbe oder einer Vielzahl von Farben an die Vorder- oder Rückfläche aussendet. Die Signalausgabe kann beendet werden, wenn der Spracherkennungsagent die Ereignisbestätigung des Benutzers erkennt.
Die Schnittstelle 160 dient als Durchgang zu beliebigen externen Geräten, die mit dem Spracherkennungsagenten 100 verbunden sind. Die Schnittstelle 160 kann Daten vom externen Gerät empfangen, Strom empfangen und den Strom an jedes Element des Spracherkennungsagenten 100 übertragen oder interne Daten des Spracherkennungsagenten 100 an das externe Gerät übertragen. Die Schnittstelle 160 kann beispielsweise einen Anschluss für ein kabelgebundenes/drahtloses Headset, einen Anschluss für ein externes Ladegerät, einen Anschluss für kabelgebundene/drahtlose Daten, einen Anschluss für eine Speicherkarte, einen Anschluss für ein mit einem Identifikationsmodul ausgestattetes Gerät, einen Audio-E/A-Anschluss, einen Video-E/A-Anschluss und einen Kopfhöreranschluss umfassen.
Weiterhin ist das Identifikationsmodul ein Chip, der eine Vielzahl von Informationen zur Authentifizierung der Nutzungsberechtigung des Spracherkennungsagenten 100 speichert und kann ein Benutzeridentitätsmodul (UIM), ein Teilnehmeridentitätsmodul (SIM) und ein universelles Teilnehmeridentitätsmodul (USIM) umfassen. Das mit dem Identifikationsmodul ausgestattete Gerät (im Folgenden als Identifikationsgerät bezeichnet) kann in Form einer Smartcard hergestellt werden. Dementsprechend kann das Identifikationsgerät über die Schnittstelle 160 mit dem Spracherkennungsagenten 100 verbunden werden.
Wenn der Spracherkennungsagent 100 mit einer externen Halterung verbunden ist, kann die Schnittstelleneinheit 160 auch zu einem Durchgang werden, durch den der Spracherkennungsagent 100 mit Strom von der Halterung versorgt wird, oder zu einem Durchgang, durch den verschiedene Befehlssignale, die vom Benutzer von der Halterung eingegeben werden, an der Spracherkennungsagent 100 übertragen werden. Die verschiedenen Befehlssignale oder die Stromzufuhr von der Halterung können als Signale zur Erkennung, dass der Spracherkennungsagent 100 korrekt auf der Halterung montiert ist, verwendet werden.
Der Speicher 170 kann ein Programm für den Betrieb der Steuerung 180 speichern und kann vorübergehend Eingabe-/Ausgabedaten (z. B. ein Telefonbuch, eine Nachricht, ein Standbild, ein Video usw.) speichern. Der Speicher 170 kann Daten über verschiedene Muster von Vibrationen und Tönen speichern, die während der Berührungseingabe auf dem Touchscreen ausgegeben werden.
Der Speicher 170 kann mindestens einen Typ von Speichermedium umfassen, der aus einem Flash-Speichertyp, einem Festplattentyp, einem Solid-State-Disk-Typ (SSD), einem Silizium-Disk-Drive-Typ (SDD), einem Multimedia-Karten-Mikrotyp, einem Kartentyp-Speicher (z. B., ein sicherer digitaler (SD) oder extremer digitaler (XD) Speicher), ein Direktzugriffsspeicher (RAM), ein statischer Direktzugriffsspeicher (SRAM), ein Festwertspeicher (ROM), ein elektrisch löschbarer programmierbarer ROM (EEPROM), ein programmierbarer ROM (PROM), ein Magnetspeicher, eine Magnetplatte und eine optische Platte. Der Spracherkennungsagent 100 kann in Bezug auf einen Webspeicher arbeiten, der eine Speicherfunktion des Speichers 170 im Internet ausführt.
Wie oben beschrieben, steuert die Steuereinheit 180 den Betrieb in Bezug auf das Anwendungsprogramm und den Gesamtbetrieb des Spracherkennungsagenten 100. Wenn der Zustand des Spracherkennungsagenten beispielsweise eine festgelegte Bedingung erfüllt, kann der Controller 180 einen Sperrzustand ausführen oder freigeben, der die Eingabe eines Steuerbefehls des Benutzers für Anwendungen einschränkt.
Außerdem kann die Steuereinheit 180 die Steuerung und Verarbeitung in Bezug auf den Sprachanruf, die Datenkommunikation und den Videoanruf durchführen oder eine Mustererkennungsverarbeitung zur Erkennung von Handschrifteingaben oder Zeicheneingaben auf dem Touchscreen als Text bzw. Bild durchführen. Darüber hinaus kann die Steuerung 180 zur Implementierung verschiedener unten beschriebener Ausführungsformen des Spracherkennungsagenten 100 gemäß der vorliegenden Offenbarung jedes der oben beschriebenen Elemente oder eine Kombination davon steuern.
Unter der Steuerung der Steuereinheit 180 nimmt die Stromversorgung 190 externe oder interne Energie auf und liefert die für den Betrieb der einzelnen Elemente erforderliche Energie. Die Stromversorgung 190 kann eine Batterie enthalten, und die Batterie kann eine wiederaufladbare interne Batterie sein oder abnehmbar mit einem Anschlusskörper zum Zweck des Aufladens oder dergleichen verbunden sein.
Außerdem kann die Stromversorgung 190 einen Anschlussport enthalten. Der Anschlussport kann als ein Beispiel für die Schnittstelle 160 konfiguriert sein, an die ein externes Ladegerät zur Stromversorgung zum Laden der Batterie elektrisch angeschlossen ist.
Als weiteres Beispiel kann die Stromversorgung 190 so konfiguriert sein, dass es die Batterie auf drahtlose Weise auflädt, ohne einen Anschluss zu verwenden. In diesem Fall kann die Stromversorgung 190 Strom von einem externen drahtlosen Stromübertragungsgerät empfangen, indem es mindestens ein induktives Kopplungsverfahren basierend auf einem magnetischen Induktionsphänomen oder ein magnetisches Resonanzkopplungsverfahren basierend auf einem elektromagnetischen Resonanzphänomen verwendet.
weiterhin können verschiedene Ausführungsformen in einem Aufzeichnungsmedium, das von einem Computer oder einem ähnlichen Gerät gelesen werden kann, unter Verwendung von Software, Hardware oder einer Kombination davon implementiert werden.
Die oben mit Bezug auf 2 beschriebene Beschreibung des Spracherkennungsagenten 100 kann indes gleichermaßen auf das mobile Endgerät 300 angewendet werden.
In der vorliegenden Offenlegung kann der Begriff „Speicher 170“ auch als „Storage 170“ bezeichnet werden.
Weiterhin kann die Steuereinheit 180 den Betrieb jedes Elements des mobilen Endgeräts 100 unter der Kontrolle des Moduls für künstliche Intelligenz 130 steuern.
Weiterhin kann das Eingabemodul 120 des mobilen Endgeräts 100 den Sensor 140 enthalten und alle vom Sensor 140 ausgeführten Funktionen ausführen. Zum Beispiel kann das Eingabemodul 120 eine Berührungseingabe des Benutzers erkennen.
3 ist ein Blockdiagramm, das die Konfiguration des Servers für künstliche Intelligenz 200 gemäß einer Ausführungsform der vorliegenden Offenbarung zeigt.
Das Kommunikationsmodul 210 kann mit einem externen Gerät kommunizieren.
Im Detail kann das Kommunikationsmodul 210 mit dem Spracherkennungsagenten 100 verbunden sein, um unter der Steuerung des Moduls für künstliche Intelligenz 220 Daten an den Spracherkennungsagenten 100 zu senden oder von ihm zu empfangen.
Außerdem kann das Kommunikationsmodul 210 mit dem mobilen Endgerät 300 verbunden sein, um unter der Steuerung des Moduls für künstliche Intelligenz 220 Daten an das mobile Endgerät 300 zu senden oder von diesem zu empfangen.
Wenn in der vorliegenden Beschreibung Daten vom Server für künstliche Intelligenz 200 schließlich an das mobile Endgerät 300 übertragen werden, können diese Daten durch den Spracherkennungsagenten 100 übertragen werden oder direkt an das mobile Endgerät 300 übertragen werden, ohne den Spracherkennungsagenten 100 zu durchlaufen.
Außerdem können in der vorliegenden Beschreibung, wenn die vom mobilen Endgerät 300 übertragenen Daten schließlich an den Server für künstliche Intelligenz 200 übertragen werden, diese Daten durch den Spracherkennungsagenten 100 übertragen werden oder direkt an den Server für künstliche Intelligenz 200 übertragen werden, ohne den Spracherkennungsagenten 100 zu durchlaufen.
Das Modul für künstliche Intelligenz 220 kann Sprachdaten vom Spracherkennungsagenten 100 über das Kommunikationsmodul 210 empfangen.
Außerdem kann das im Modul für künstliche Intelligenz 220 enthaltene Spracherkennungsmodul 222 ein Erkennungsergebnis auf der Grundlage von Sprachdaten unter Verwendung des Spracherkennungsmodells ausgeben, das ausgegebene Erkennungsergebnis an den Spracherkennungsagenten übertragen oder einen Steuerbefehl entsprechend dem ausgegebenen Erkennungsergebnis an den Spracherkennungsagenten übertragen.
Außerdem kann das im Modul für künstliche Intelligenz 220 enthaltene Spracherkennungsmodul 222 adaptiv Sprachdaten lernen und das Lernergebnis in der Sprachdaten-Datenbank 232 im Speicher 230 speichern.
Außerdem kann das Spracherkennungsmodul 222, das im Modul für künstliche Intelligenz 220 enthalten ist, Sprachdaten in einem Satz oder Wort beschriften und das Beschriftungsergebnis in der Sprachdaten-Datenbank 232 speichern.
Weiterhin kann das Modul 220 für künstliche Intelligenz das Sprachsignal unter Verwendung des Spracherkennungsmodells analysieren und Merkmale extrahieren, um das Erkennungsergebnis zu extrahieren. Das Erkennungsergebnis kann anzeigen, ob das empfangene Sprachsignal ein Befehl oder ein Nicht-Befehl ist, oder welchen von mehreren Befehlen das empfangene Sprachsignal bedeutet.
Der Befehl kann ein zuvor registrierter Befehl sein, damit der Spracherkennungsagent oder ein anderes mit dem Spracherkennungsagenten verbundenes Gerät eine bestimmte Funktion ausführt, und der Nicht-Befehl kann ein Befehl sein, der sich nicht auf die Ausführung einer bestimmten Funktion bezieht.
Weiterhin kann ein Satzempfehlungsmodul 221, das in dem Modul für künstliche Intelligenz 220 enthalten ist, Merkmale der Sprachdaten unter Verwendung eines Modells zur Analyse von Sprachmerkmalen analysieren.
Inzwischen kann die Satzdatenbank 231 im Speicher 230 eine Vielzahl von kategorisierten Sätzen enthalten.
Das Satzempfehlungsmodul 221, das in dem Modul 220 für künstliche Intelligenz enthalten ist, kann unter der Vielzahl von Sätzen, die in der Satzdatenbank 231 gespeichert sind, nach einem bestimmten Satz suchen, der den Merkmalen der Sprachdaten entspricht, und den gefundenen bestimmten Satz an den Spracherkennungsagenten übertragen.
In dieser Zeichnung wurden das Satzempfehlungsmodul 221, das Spracherkennungsmodul 222, die Satzdatenbank 231 und die Sprachdatenbank 232 als ein Server beschrieben, aber die vorliegende Offenlegung ist darauf nicht beschränkt, und verschiedene Kombinationen sind möglich.
Beispielsweise können das Satzempfehlungsmodul 221 und die Satzdatenbank 231 einen ersten Server bilden, und das Spracherkennungsmodul 222 und die Sprachdatenbank 232 können einen zweiten Server bilden. In diesem Fall können der erste Server und der zweite Server miteinander Daten senden oder empfangen.
4 ist ein Diagramm zur Beschreibung von Problemen, die im Spracherkennungssystem auftreten können.
Bestehende Produkte sammeln Daten von mehreren Benutzern, lernen das Spracherkennungsmodell auf Basis von Big Data, die in der Cloud gesammelt werden, neu und aktualisieren die Spracherkennungssoftware, um die Leistung des Spracherkennungsmodells zu verbessern.
Da menschliche Stimmen/Töne jedoch so unterschiedlich sind, muss ein Spracherkennungsmodell für einen bestimmten Benutzer optimiert und gelernt werden, um die Erkennungsrate zu erhöhen.
Wenn ein solcher Optimierungsprozess nicht existiert, kommt es, wie in 4 dargestellt, immer wieder zu Erkennungsfehlern, die sich negativ auf Produkte und Marken auswirken können.
Daher ist es notwendig, dass der Benutzer, der den Spracherkennungsagenten verwendet, seine eigene Stimme direkt lernt.
5 ist ein Diagramm zur Beschreibung eines Verfahrens zum Anfordern zusätzlicher Daten von einen Benutzer für zusätzliches Lernen, gemäß einer Ausführungsform der vorliegenden Offenbarung.
Der Spracherkennungsagent 100 kann Sprachdaten von einem Benutzer empfangen (S505).
Außerdem kann der Spracherkennungsagent 100 die empfangenen Sprachdaten an den Server für künstliche Intelligenz (S510) übertragen.
muss weiterhin kann der Server für künstliche Intelligenz 200 Sprachdaten empfangen, die empfangenen Sprachdaten in das Spracherkennungsmodell eingeben und mindestens eine Spracherkennungsrate oder ein Erkennungsergebnis basierend auf den Sprachdaten ausgeben (S515) .
Die Spracherkennungsrate kann durch den Vergleich von Konfidenzwerten für Sprache gemessen werden.
Im Detail kann der Server für künstliche Intelligenz 200 einen Konfidenzwert von Sprachdaten eines Benutzers im Vergleich zu einem Durchschnitt von Testdaten, die im Herstellungsprozess gelernt wurden, oder von Konfidenzwerten, die aus den aktuell personalisierten Sprachdaten extrahiert wurden, berechnen.
Wenn z. B. der Durchschnitt der Konfidenzwerte der zuvor gelernten Sprachdaten für einen bestimmten Befehl oder ein Weckwort 70,02 beträgt und der Konfidenzwert der von einem bestimmten Benutzer geäußerten Sprachdaten 52,13 beträgt, kann die Erkennungsrate mit etwa 74 % berechnet werden.
Die Erkennungsrate kann auch durch Vergleich eines Fehlers mit einer Stichprobe und anschließender Ermittlung eines Durchschnittswerts ermittelt werden.
Beispielsweise kann die Erkennungsrate für die Sprachdaten des Benutzers berechnet werden, indem eine bestimmte Anzahl von Proben aus den Sprachdaten extrahiert wird, die zuvor für einen bestimmten Befehl oder ein Weckwort gelernt wurden, und ein mittlerer quadratischer Fehler (MSE) oder ein Wurzel-mittlerer-quadratischer-Fehler (RMSE) zwischen den von einem bestimmten Benutzer geäußerten Sprachdaten und den Proben berechnet wird.
Weiterhin kann der Server für künstliche Intelligenz 200 die erhaltene Spracherkennungsrate an den Spracherkennungsagenten 100 übertragen (S520).
Weiterhin kann der Spracherkennungsagent 100 die Spracherkennungsrate für die Sprachdaten erhalten und den Benutzer nach zusätzlichen Daten zum Lernen der Sprachdaten des Benutzers fragen, wenn die Spracherkennungsrate niedriger als eine voreingestellte Referenz ist.
Im Detail kann der Spracherkennungsagent 100 eine Anfrage zum weiteren Lernen des Spracherkennungsmodells ausgeben, um weitere Daten zu erhalten (S525). In diesem Fall kann der Spracherkennungsagent 100 die Spracherkennungsrate für die Sprachdaten des Benutzers zusammen ausgeben.
Der Spracherkennungsagent 100 kann z. B. eine Sprachmeldung ausgeben: „Als Ergebnis der Erfassung der Spracherkennungsrate liegt meine Erkennungsrate für Ihre Stimme bei etwa 60 %. - Möchten Sie meine Spracherkennungsfunktion für Ihre Stimme optimieren?“.
Weiterhin kann der Spracherkennungsagent 100 eine Vielzahl von Optionen für zusätzliches Lernen bereitstellen, wenn eine Zustimmungseingabe zu zusätzlichem Lernen empfangen wird (S530).
Im Detail kann der Spracherkennungsagent dem Benutzer eine erste Option zum Wiederholen einer dargebotenen Stimme, eine zweite Option zum Wiederholen eines dargebotenen Satzes und eine dritte Option zum direkten Schreiben und Wiederholen eines Satzes anbieten.
Weiterhin, wenn eine Eingabe zur Auswahl einer bestimmten Option vom Benutzer empfangen wird (S535), kann der Spracherkennungsagent den Benutzer nach zusätzlichen Daten fragen, die der ausgewählten Option entsprechen.
6 ist ein Diagramm zur Beschreibung eines Betriebsverfahrens, wenn Option 1 oder Option 2 gewählt wird, gemäß einer Ausführungsform der vorliegenden Offenbarung.
Der Spracherkennungsagent 100 kann an den Server für künstliche Intelligenz 200 eine Anfrage nach einem Satz für zusätzliches Lernen (S605) senden.
Weiterhin kann der Server für künstliche Intelligenz 200, wenn die Anfrage für den Satz empfangen wird (S610), die Merkmale der Sprachdaten analysieren (S615).
Außerdem kann der Server für künstliche Intelligenz 200 basierend auf den Merkmalen der Sprachdaten nach einem bestimmten Satz suchen, der den Merkmalen der Sprachdaten unter der Vielzahl von Sätzen entspricht (S620).
Im Detail kann die Vielzahl von Sätzen in der Satzdatenbank 231 gespeichert werden, und die Vielzahl von Sätzen kann nach Kategorien klassifiziert werden. Die Kategorie kann mindestens eine der Kategorien Produktfunktion, Land, Region, Intonation, Alter, Dialekt, Geschlecht oder Fremdsprache umfassen.
Außerdem kann der Server für künstliche Intelligenz 200 eine Erkennungsrate von Wörtern berechnen, die in den Sprachdaten des Benutzers enthalten sind.
Wenn der Benutzer z. B. den Satz „Kannst du mir sagen, wie viele Wasserflaschen wir haben?“ äußert, kann der Server für künstliche Intelligenz 200 einen Konfidenzwert in Einheiten von Wörtern berechnen, die in einem Satz enthalten sind, und ein bestimmtes Wort (Wasser, Flasche) erhalten, das einen Konfidenzwert hat, der niedriger ist als eine voreingestellte Referenz.
Der Server für künstliche Intelligenz kann die Merkmale der Sprachdaten basierend auf der Erkennungsrate von Wörtern und den Merkmalen von Wörtern, die in den Sprachdaten des Benutzers enthalten sind, ermitteln.
Wenn beispielsweise die Erkennungsrate bestimmter Wörter (Wasser, Flasche) niedrig ist und bestimmte Wörter (Wasser, Flaschen) die Merkmale aufweisen, dass amerikanisches Englisch und britisches Englisch unterschiedlich ausgesprochen werden, kann der Server für künstliche Intelligenz die Merkmale der Sprachdaten erhalten, dass die Erkennungsrate von Wörtern, die unterschiedlich ausgesprochen werden, je nachdem, ob die Herkunft des Benutzers amerikanisch oder britisch ist, niedrig ist.
In diesem Fall kann der Server für künstliche Intelligenz anhand der Merkmale der Sprachdaten feststellen, dass für die Landkategorie aus der Vielzahl der Kategorien zusätzliches Lernen erforderlich ist.
Der Server für künstliche Intelligenz kann auf der Grundlage der Merkmale der Sprachdaten einen bestimmten Satz erhalten, der in der Kategorie enthalten ist, die den Benutzer zum weiteren Lernen aus der Vielzahl der Kategorien auffordert.
Zum Beispiel kann eine Vielzahl von Sätzen, die Wörter enthalten, die das Herkunftsland des Benutzers unterscheiden können, in die Landkategorie eingeordnet werden. Der Server für künstliche Intelligenz kann einen Satz erhalten, der Wörter enthält, die durch Klassifizierung von britischem Englisch und amerikanischem Englisch unter der Vielzahl von Sätzen gelernt werden können.
Zum Beispiel kann „schedule“ die Merkmale haben, die im amerikanischen Englisch und im britischen Englisch unterschiedlich ausgesprochen werden. Daher kann der Server der künstlichen Intelligenz den Satz „Can you tell me my schedule of today?“ in der Landkategorie erhalten.
Ein weiteres Beispiel: „Wasser“ und „Flasche“ können im amerikanischen Englisch und im britischen Englisch unterschiedliche Aussprachemerkmale haben. Daher kann der Server der künstlichen Intelligenz einen Satz „Kannst du mir sagen, wie viele Wasserflaschen wir haben?“ in der Landkategorie erhalten.
Das heißt, das im erhaltenen Satz enthaltene Wort kann die gleiche Bedeutung und Buchstaben haben, aber ein Wort sein, das mit verschiedenen Aussprachen oder verschiedenen Intonationen ausgesprochen werden kann.
Auch können Wörter, die in einem Satz enthalten sind, der einer bestimmten Kategorie entspricht, dieselbe Bedeutung und Buchstaben haben, aber es kann sich um Wörter handeln, die je nach den Merkmalen der Kategorien (Land, Region usw.) mit unterschiedlicher Aussprache oder unterschiedlicher Intonation ausgesprochen werden können.
Ein weiteres Beispiel: Der Benutzer hatte die Absicht „Spielst du leise Musik?“, äußerte aber den Satz „Möchtest du eine leise Musik spielen?“, da der Benutzer aus einer bestimmten Region (Gyeongsang-do) stammt.
In diesem Fall kann der Server für künstliche Intelligenz 200 eine Erkennungsrate von Wörtern berechnen, die in den Sprachdaten des Benutzers enthalten sind, und ein bestimmtes Wort (Musik) erhalten, dessen Erkennungsrate niedriger ist als eine voreingestellte Referenz.
Der Server für künstliche Intelligenz kann die Merkmale der Sprachdaten basierend auf der Erkennungsrate von Wörtern und den Merkmalen von Wörtern, die in den Sprachdaten des Benutzers enthalten sind, ermitteln.
Wenn zum Beispiel die Erkennungsrate eines bestimmten Wortes (Musik) niedrig ist und ein bestimmtes Wort (Musik) die Merkmale hat, dass das bestimmte Wort in einer bestimmten Region (Gyeongsang-do) einzigartig ausgesprochen wird, kann der Server für künstliche Intelligenz die Merkmale der Sprachdaten erhalten, dass die Erkennungsrate von Wörtern, die in Gyeongsang-do anders ausgesprochen werden, niedrig ist.
In diesem Fall kann der Server für künstliche Intelligenz basierend auf den Merkmalen der Sprachdaten bestimmen, dass zusätzliches Lernen für die Regionskategorie unter der Vielzahl von Kategorien erforderlich ist.
Der Server für künstliche Intelligenz kann auf der Grundlage der Merkmale der Sprachdaten einen bestimmten Satz erhalten, der in der Kategorie enthalten ist, die den Benutzer zum weiteren Lernen aus der Vielzahl der Kategorien auffordert.
Zum Beispiel kann eine Vielzahl von Sätzen, die Wörter enthalten, die die Herkunftsregion des Benutzers unterscheiden können, in die Regionenkategorie eingeordnet werden. Der Server für künstliche Intelligenz kann aus der Vielzahl von Sätzen einen Satz erhalten, der Wörter enthält, die in der Lage sind, zu lernen, dass er oder sie aus der Region Gyeongsang-do stammt.
Zum Beispiel kann „Reis“ die Eigenschaft haben, dass „rise“ in Gyeongsang-do als „reise“ ausgesprochen wird. Daher kann der Server der künstlichen Intelligenz einen Satz „Wie viel Reis ist noch im Haus?“ aus der regionalen Kategorie erhalten.
Das heißt, die Wörter, die in dem Satz enthalten sind, der der Regionalkategorie entspricht, können die gleiche Bedeutung und Buchstaben haben, aber es kann sich um Wörter handeln, die je nach Region mit unterschiedlicher Aussprache oder unterschiedlicher Intonation ausgesprochen werden können.
Darüber hinaus können Sätze, die sich auf die Produktfunktion beziehen, in eine Produktfunktionskategorie eingeordnet werden. In diesem Fall kann der Satz, der sich auf die Produktfunktion bezieht, einen Befehl enthalten, der einer Funktion entspricht, die vom Spracherkennungsagenten oder einem anderen mit dem Spracherkennungsagenten verknüpften Gerät ausgeführt wird.
Zum Beispiel können Sätze wie „Sagen Sie mir, wie viele Minuten zum Trocknen noch in der Waschmaschine sind?“ und „Möchten Sie die Temperatur der Klimaanlage auf 24°C erhöhen?“ in die Kategorie Produktfunktion eingeordnet werden.
Wenn die Sprachdaten des Benutzers die Merkmale aufweisen, dass die Erkennungsrate für den Befehl niedrig ist, kann der Server für künstliche Intelligenz die Sätze aus der Produktfunktionskategorie extrahieren.
Außerdem können Wörter, die in dem Satz enthalten sind, der der Alterskategorie entspricht, die gleiche Bedeutung und Buchstaben haben, aber Wörter sein, die je nach Alter mit unterschiedlicher Aussprache oder unterschiedlicher Intonation ausgesprochen werden.
Außerdem können Wörter, die in dem Satz enthalten sind, der Geschlechterkategorie entsprechen, die gleiche Bedeutung und Buchstaben haben, aber Wörter sein, die je nach Geschlecht mit unterschiedlicher Aussprache oder unterschiedlicher Betonung ausgesprochen werden.
Außerdem können Wörter, die in dem Satz enthalten sind, der der Dialektkategorie entspricht, die gleiche Bedeutung und Buchstaben haben, aber Wörter sein, die je nach Dialekt mit unterschiedlicher Aussprache oder unterschiedlicher Intonation ausgesprochen werden können.
Außerdem können die im Satz enthaltenen Wörter, die der Fremdsprachenkategorie entsprechen, dieselbe Bedeutung und Buchstaben haben, aber es kann sich um Wörter handeln, die je nach Fremdsprache mit unterschiedlicher Aussprache oder unterschiedlicher Intonation ausgesprochen werden können.
In der Zwischenzeit kann der Server für künstliche Intelligenz 200 zusätzlich zur Extraktion der Merkmale aus den Sprachdaten die Merkmale der Sprachdaten auf der Grundlage der zuvor vom Benutzer registrierten persönlichen Informationen erhalten.
Zum Beispiel kann der Benutzer persönliche Informationen wie Land, Geschlecht, Alter, Region und Dialekt registrieren. Wenn der Benutzer persönliche Informationen registriert hat, dass das Herkunftsland Großbritannien ist, kann der Server für künstliche Intelligenz feststellen, dass zusätzliches Lernen für die Länderkategorie erforderlich ist, und kann einen Satz erhalten, der Wörter enthält, die durch Unterscheidung von britischem Englisch und amerikanischem Englisch gelernt werden können.
In der Zwischenzeit kann der vom Server für künstliche Intelligenz erhaltene bestimmte Satz einen Befehl enthalten, der der Funktion des Spracherkennungsagenten entspricht.
Die Funktion des Spracherkennungsagenten kann sowohl eine Funktion umfassen, die von einem Gerät bereitgestellt wird, das mit dem Spracherkennungsagenten zusammenarbeitet, als auch eine Funktion, die vom Spracherkennungsagenten selbst bereitgestellt wird.
Da der bestimmte Satz nicht nur ein Wort zum Erlernen des Landes, der Region, des Alters usw. des Benutzers enthält, sondern auch einen Befehl, der direkt vom Benutzer geäußert werden soll, kann der Server für künstliche Intelligenz Sprachdaten sammeln, die dem Befehl entsprechen.
Weiterhin kann der bestimmte Satz, den der Server für künstliche Intelligenz erhalten hat, ein Weckwort für den Aufruf des Spracherkennungsagenten enthalten.
Der Server für künstliche Intelligenz kann die Erkennungsrate für das Weckwort verbessern, indem er separat nur das Weckwort aus den zweiten Sprachdaten extrahiert und lernt, die der Benutzer als Reaktion auf den bestimmten Satz geäußert hat.
Weiterhin kann der Server für künstliche Intelligenz den erhaltenen bestimmten Satz an den Spracherkennungsagenten übertragen (S625).
Weiterhin, wenn zusätzliches Lernen erforderlich ist, kann der Prozess der Übertragung des bestimmten Satzes ohne S520 bis S535 und S605 durchgeführt werden.
Im Detail: Wenn Sprachdaten empfangen werden, kann der Server für künstliche Intelligenz 200 die Merkmale der Sprachdaten analysieren und die Erkennungsrate der Sprachdaten ermitteln. Wenn die Erkennungsrate der Sprachdaten niedriger ist als die voreingestellte Referenz, kann der Server für künstliche Intelligenz 200 nach einem bestimmten Satz suchen, der den Merkmalen der Sprachdaten entspricht, und den gefundenen Satz an den Spracherkennungsagenten 100 übertragen.
Währenddessen kann der Spracherkennungsagent 100 den empfangenen bestimmten Satz ausgeben (S630).
Im Detail, wie in 8 dargestellt, kann der Spracherkennungsagent den empfangenen bestimmten Satz als Sprachsignal ausgeben, wenn der Benutzer die erste Option der Wiederholung der dargebotenen Stimme auswählt.
Wenn der Benutzer die zweite Option der Wiederholung des präsentierten (dargebotenen) Satzes auswählt, wie in 9 dargestellt, kann der Spracherkennungsagent den bestimmten Satz an das mobile Endgerät 300 des Benutzers übertragen.
In diesem Fall kann das mobile Endgerät 300 des Benutzers den Text anzeigen, der dem bestimmten Satz entspricht.
Weiterhin, wenn der Benutzer den bestimmten Satz äußert, kann der Spracherkennungsagent zweite Sprachdaten empfangen, die dem geäußerten bestimmten Satz entsprechen (S635), und kann die empfangenen zweiten Sprachdaten an den Server für künstliche Intelligenz 200 übertragen (S640).
Weiterhin, wenn die zweiten Sprachdaten, die dem bestimmten Satz entsprechen, empfangen werden, kann der Server für künstliche Intelligenz 200 die zweiten Sprachdaten, die dem bestimmten Satz entsprechen, lernen (S645).
Der Server für künstliche Intelligenz kann die Sprachdaten vor dem Lernen der zweiten Sprachdaten halten. Wenn die zweiten Sprachdaten empfangen werden, werden die Audiodaten vor dem Lernen der zweiten Audiodaten als Quelldaten verwendet, und die zweiten Audiodaten werden als Zieldaten verwendet. Die Quelldaten können entsprechend den Zieldaten adaptiv gelernt werden.
Außerdem kann der Server für künstliche Intelligenz den bestimmten Satz auf den zweiten Sprachdaten kennzeichnen und in der Sprachdatenbank 232 speichern. Die Sprachdatenbank 232 ist eine auf einen bestimmten Benutzer personalisierte Datenbank und kann zur Erkennung der Stimme des bestimmten Benutzers verwendet werden.
In diesem Fall kann das Spracherkennungsmodell unter Berücksichtigung des Lernergebnisses aktualisiert werden. Der Server für künstliche Intelligenz kann die Spracherkennungsrate übertragen, die entsprechend dem Ergebnis des Lernens der zusätzlichen Daten geändert wurde (S650).
Im Detail kann der Server für künstliche Intelligenz die in Schritt 510 empfangenen Sprachdaten erneut in das aktualisierte Spracherkennungsmodell eingeben, die Erkennungsrate berechnen und die berechnete Erkennungsrate an den Spracherkennungsagenten übertragen.
Weiterhin, wenn die geänderte Erkennungsrate empfangen wird, kann der Spracherkennungsagent die geänderte Erkennungsrate ausgeben (S655).
Beispielsweise kann der Spracherkennungsagent eine Meldung ausgeben: „Als Ergebnis des Lernens meines Algorithmus basierend auf den vom Kunden bereitgestellten Sprachdaten hat sich die Lernrate von 60 % auf 70 % verbessert.“
Weiterhin wird eine Ausführungsform, bei der ein Benutzer direkt einen Satz schreibt und die dritte Option der Wiederholung auswählt, mit Bezug auf 10 beschrieben.
Wenn der Benutzer einen bestimmten Text und dritte Sprachdaten, die dem bestimmten Text entsprechen, eingibt, kann der Spracherkennungsagent den bestimmten Text und die dritten Sprachdaten, die dem bestimmten Text entsprechen, an den Server für künstliche Intelligenz übertragen.
Im Detail kann mindestens das mobile Endgeräte 300 und/oder der Spracherkennungsagent 100 die Texteingabe eines Benutzers und die dem eingegebenen Text entsprechenden Sprachdaten empfangen.
In diesem Fall kann der Spracherkennungsagent den empfangenen Text und die dem Text entsprechenden empfangenen Sprachdaten an den Server für künstliche Intelligenz übertragen.
In diesem Fall kann der Server für künstliche Intelligenz die dritten Sprachdaten lernen, die dem spezifischen Text entsprechen.
Im Detail kann der Server für künstliche Intelligenz die im Text enthaltenen Wörter und die den Wörtern entsprechenden Sprachdaten ermitteln. Der Server für künstliche Intelligenz kann die Sprachdaten lernen, die den Wörtern entsprechen.
11 ist ein Diagramm zur Beschreibung eines Verfahrens zur Anforderung zusätzlicher Daten durch einen Benutzer für zusätzliches Lernen, gemäß einer anderen Ausführungsform der vorliegenden Offenbarung.
Der Spracherkennungsagent 100 kann Sprachdaten von einem Benutzer empfangen (S1105).
Außerdem kann der Spracherkennungsagent 100 die empfangenen Sprachdaten an den Server für künstliche Intelligenz übertragen (S1110).
Währenddessen kann der Server für künstliche Intelligenz 200 Sprachdaten empfangen und die empfangenen Sprachdaten im Speicher speichern (S1115).
Außerdem kann der Server für künstliche Intelligenz 200 die Sprachdaten in das Spracherkennungsmodell eingeben und mindestens eine Spracherkennungsrate oder ein Erkennungsergebnis basierend auf den Sprachdaten ausgeben (S1120) .
Währenddessen kann der Server für künstliche Intelligenz 200 die erhaltene Spracherkennungsrate an den Spracherkennungsagenten 100 übertragen (S1125).
In der Zwischenzeit kann der Spracherkennungsagent 100 die Spracherkennungsrate für die Sprachdaten empfangen und zusätzliche Daten zum Lernen der Stimme des Benutzers vom Benutzer anfordern, wenn die Spracherkennungsrate niedriger als eine voreingestellte Referenz ist.
Insbesondere, wie in 12 dargestellt, kann der Spracherkennungsagent 100, wenn die Spracherkennungsrate niedriger als die voreingestellte Referenz ist, eine Texteingabeaufforderung entsprechend den zuvor empfangenen Sprachdaten an das mobile Endgerät 300 senden (S1130).
Weiterhin kann das mobile Endgerät 300 vom Benutzer eine Texteingabe empfangen, die den vom Benutzer geäußerten Sprachdaten entspricht (S1135), und den empfangenen Text an den Spracherkennungsagenten übertragen (S1135).
In diesem Fall kann der Spracherkennungsagent 100 den empfangenen Text an den Server für künstliche Intelligenz 200 übertragen (S1140).
Obwohl beschrieben wurde, dass der vom mobilen Endgerät 300 übertragene Text über den Spracherkennungsagenten an den Server für künstliche Intelligenz übertragen wird, ist die vorliegende Offenbarung nicht darauf beschränkt. Zum Beispiel kann das mobile Endgerät 300 den Text direkt an den Server für künstliche Intelligenz übertragen.
In diesem Fall kann der Server für künstliche Intelligenz die dem Text entsprechenden vorgespeicherten Sprachdaten lernen (S1145).
Im Detail kann der Server für künstliche Intelligenz den empfangenen Text mit Hilfe von Text To Speech (TTS) in Sprachdaten umwandeln. Der Server für künstliche Intelligenz kann die Ähnlichkeit berechnen, indem er die Metrik der vorgespeicherten Sprachdaten und die Metrik der umgewandelten Sprachdaten vergleicht, und kann die vorgespeicherten Sprachdaten als gültige Daten basierend auf der Ähnlichkeit zwischen den vorgespeicherten Sprachdaten und den umgewandelten Sprachdaten bestimmen.
Wenn die vorgespeicherten Sprachdaten als gültige Daten ermittelt werden, kann der Server für künstliche Intelligenz die als gültige Daten ermittelten Sprachdaten mit Text beschriften und in der Sprachdaten-Datenbank 232 speichern.
Andererseits kann das Lernen der Sprachdaten durch das Lernen des TTS für die Sprachausgabe und das anschließende Lernen des Spracherkennungsmodells erfolgen, wenn eine Akzeptanzanfrage des Benutzers eingeht.
Im Detail kann der Server mit künstlicher Intelligenz das TTS aus den Sprachdaten des Benutzers lernen. Der Server für künstliche Intelligenz kann unter Verwendung des erlernten TTS Sprachdaten erzeugen und übertragen, die der Stimme des Benutzers ähnlich sind. Der Spracherkennungsagent kann die durch den TTS erzeugten Sprachdaten ausgeben.
In diesem Fall kann der Benutzer feststellen, ob die vom TTS erzeugte Stimme seiner Stimme ähnlich ist, und kann die Akzeptanzanfrage erhalten, wenn die Stimme seiner Stimme ähnlich ist.
In diesem Fall kann der Spracherkennungsagent die Akzeptanzanfrage an den Server für künstliche Intelligenz übertragen, und der Server für künstliche Intelligenz kann das Spracherkennungsmodell durch Lernen der im TTS gelernten Sprachdaten aktualisieren.
Auch wenn der Benutzer, der feststellt, dass die vom TTS erzeugte Stimme seiner Stimme nicht ähnlich ist, eine Ablehnungsaufforderung eingibt, kann der Spracherkennungsagent den Benutzer erneut um zusätzliche Daten zum Lernen der Stimmdaten des Benutzers bitten.
In der Zwischenzeit kann die Textanforderung für zusätzliches Lernen durchgeführt werden, wenn die Spracherkennung wiederholt fehlschlägt.
Wenn der Spracherkennungsagent beispielsweise dasselbe Wort oder denselben Satz mehr als eine voreingestellte Anzahl von Malen nicht erkennt oder wenn die Erkennungsrate mehr als eine voreingestellte Anzahl von Malen niedriger ist als die voreingestellte Referenz, kann der Spracherkennungsagent den Benutzer auffordern, Text einzugeben, der den zuvor geäußerten Sprachdaten entspricht.
Als weiteres Beispiel führt der Spracherkennungsagent in erster Linie einen Lernvorgang durch, indem er dem Benutzer einen bestimmten Satz präsentiert und den Benutzer auffordert, den bestimmten Satz auf die gleiche Weise zu wiederholen, wie mit Bezug auf 6 beschrieben, und wenn die Stimme des Benutzers immer noch nicht erkannt wird, kann der Spracherkennungsagent den Benutzer um Text zum weiteren Lernen bitten.
13 ist ein Diagramm zur Beschreibung des Betriebs des Spracherkennungssystems gemäß einer Ausführungsform der vorliegenden Offenbarung.
Das Spracherkennungssystem kann Benutzerinformationen von einem Benutzer empfangen und die empfangenen Benutzerinformationen registrieren (S1310).
Im Detail kann der Spracherkennungsagent die Benutzerinformationen empfangen und die empfangenen Benutzerinformationen an den Server übertragen, und der Server kann die empfangenen Benutzerinformationen speichern.
Die Benutzerinformationen können mindestens eines der folgenden Merkmale enthalten: Land, Region, Intonation, Alter oder Geschlecht.
Weiterhin kann das Spracherkennungssystem die Sprachdaten des Benutzers empfangen, die Sprachdaten erkennen und die Funktion ausführen, die dem Ergebnis der Spracherkennung entspricht (S1320, S1330).
Weiterhin kann das Spracherkennungssystem feststellen, ob der Benutzer an zusätzlichem Lernen teilnimmt, und kann eine Lernoption bestimmen (S1340).
Im Detail kann der Spracherkennungsagent eine Anfrage für zusätzliches Lernen ausgeben und eine Vielzahl von Optionen für die zusätzliche Lernmethode anbieten.
Wenn der Benutzer eine Eingabe zur Annahme von zusätzlichem Lernen und zur Auswahl einer bestimmten Option macht, kann das Spracherkennungssystem die ausgewählte Option registrieren. Wenn später zusätzliches Lernen erforderlich ist, kann das Spracherkennungssystem zusätzliches Lernen mit der registrierten Option durchführen.
Da eine Option zum besseren Lernen je nach Benutzer unterschiedlich sein kann, kann der Spracherkennungsagent das Lernen mit allen der mehreren Optionen durchführen und dann eine Option mit einer hohen Spracherkennungsrate nach dem Lernen registrieren.
Wenn zum Beispiel die Erkennungsrate der zweiten Option die höchste ist unter der ersten Option der Wiederholung der dargebotenen Stimme, der zweiten Option der Wiederholung des dargebotenen Satzes und der dritten Option des Schreibens und der Wiederholung des direkten Satzes, kann das Spracherkennungssystem den Benutzer um zusätzliche Daten bitten, da die zweite Option die höchste Spracherkennungsrate hat.
Weiterhin können die Kriterien der Spracherkennungsrate für die Ausführung einer bestimmten Funktion unterschiedlich sein, je nachdem, was die bestimmte Funktion ist.
Zum Beispiel kann ein sprachbasierter Hausdienst mit Befehlen wie „Einschalten“ und „Ausschalten“ eine Funktion ausführen, die dem Befehl eines Benutzers entspricht, solange die Spracherkennungsrate 55 % oder mehr beträgt.
Als weiteres Beispiel kann ein Befehl zum Prüfen der persönlichen Nachricht eines Benutzers nur dann eine Funktion ausführen, die dem Befehl des Benutzers entspricht, wenn die Spracherkennungsrate 65 % oder mehr beträgt.
Als weiteres Beispiel kann ein Befehl zum Bezahlen oder zur Authentifizierung nur dann eine Funktion ausführen, die dem Befehl des Benutzers entspricht, wenn die Spracherkennungsrate 75 % oder mehr beträgt.
Weiterhin wurde die vorliegende Offenbarung wie oben beschrieben durch den Spracherkennungsagenten, den Server für künstliche Intelligenz und das mobile Endgerät implementiert, ist aber nicht darauf beschränkt.
Zum Beispiel können alle oben beschriebenen Konfigurationen und Funktionen des Servers für künstliche Intelligenz auf dem Spracherkennungsagenten aufgesetzt und auf diesem ausgeführt werden.
Im Gegensatz zum herkömmlichen Verfahren des passiven Sammelns und Lernens der Sprachdaten des Benutzers kann die vorliegende Offenbarung eine Spracheingabe anfordern, indem sie einen Satz präsentiert, der die Sprachgewohnheiten des Benutzers am besten erfassen kann, oder sie kann direkt einen vom Benutzer als Text geäußerten Satz anfordern. Daher kann gemäß der vorliegenden Offenbarung die Lernleistung erheblich verbessert werden und eine schnelle Personalisierung wird ermöglicht.
Andererseits ist die Steuereinheit 180 im Allgemeinen eine Komponente, die die Steuerung des Geräts verwaltet und kann auch als Zentraleinheit, Mikroprozessor, Prozessor und dergleichen bezeichnet werden.
Die vorliegende Offenbarung kann als computerlesbare Codes auf einem programmierten Aufzeichnungsmedium umgesetzt sein. Das computerlesbare Aufzeichnungsmedium kann jedes Aufzeichnungsmedium sein, das Daten speichert, die anschließend von einem Computersystem gelesen werden können. Beispiele für das computerlesbare Medium können ein Festplattenlaufwerk (HDD), eine Solid-State-Disk (SSD), ein Siliziumplattenlaufwerk (SDD), ein Festwertspeicher (ROM), ein Direktzugriffsspeicher (RAM), eine CD-ROM, ein Magnetband, eine Diskette und ein optisches Datenspeichergerät sein. Außerdem kann das computerlesbare Medium eine Trägerwelle enthalten (z. B. Übertragung über das Internet) . Darüber hinaus kann der Computer die Steuereinheit 180 des Endgeräts umfassen. Dementsprechend sollte die obige detaillierte Beschreibung nicht als in jeder Hinsicht einschränkend ausgelegt werden und sollte als illustrativ angesehen werden. Der Umfang der vorliegenden Beschreibung sollte durch rationale Auslegung der beigefügten Ansprüche bestimmt werden, und alle Änderungen innerhalb des äquivalenten Umfangs der vorliegenden Beschreibung fallen in den Umfang der vorliegenden Beschreibung.

Claims

Spracherkennungssystem, umfassend: einen Spracherkennungsagenten, der dazu eingerichtet ist, Sprachdaten von einem Benutzer zu empfangen und die Sprachdaten an einen Server für künstliche Intelligenz zu übertragen; und den Server für künstliche Intelligenz, der dazu eingerichtet ist, die Sprachdaten in ein Spracherkennungsmodell einzugeben, ein auf den Sprachdaten basierendes Erkennungsergebnis an den Spracherkennungsagenten zu übertragen und die Sprachdaten zu lernen, wobei, wenn eine Spracherkennungsrate für die Sprachdaten niedriger als eine voreingestellte Referenz ist, der Spracherkennungsagent ferner dazu eingerichtet ist, den Benutzer nach zusätzlichen Daten zum Lernen von Sprachdaten eines Benutzers zu fragen.
Spracherkennungssystem gemäß Anspruch 1, wobei der Spracherkennungsagent dazu eingerichtet ist: einen bestimmten Satz für den Benutzer bereitzustellen; und wenn zweite Sprachdaten, die dem bestimmten Satz entsprechen, empfangen werden, die zweiten Sprachdaten an den Server für künstliche Intelligenz zu übertragen, und wobei der Server für künstliche Intelligenz dazu eingerichtet ist, die zweiten Sprachdaten, die dem bestimmten Satz entsprechen, zu lernen.
Spracherkennungssystem gemäß Anspruch 2, wobei der Server für künstliche Intelligenz dazu eingerichtet ist, an den Spracherkennungsagenten den bestimmten Satz, der Merkmalen der Sprachdaten entspricht, aus einer Vielzahl von Sätzen basierend auf den Merkmalen der Sprachdaten zu übermitteln.
Spracherkennungssystem gemäß Anspruch 3, wobei die Vielzahl von Sätze in eine Kategorie klassifiziert sind, die mindestens eine Produktfunktion, ein Land, eine Region, ein Alter, einen Dialekt, ein Geschlecht und/oder eine Fremdsprache umfasst, und wobei der Server für künstliche Intelligenz dazu eingerichtet ist, dem Spracherkennungsagenten den bestimmten Satz, der in einer Kategorie enthalten ist, die den Benutzer zum zusätzlichen Lernen unter einer Vielzahl von Kategorien auf der Grundlage der Merkmale der Sprachdaten auffordert, zu übermitteln.
Spracherkennungssystem gemäß Anspruch 3, wobei der bestimmte Satz einen Befehl enthält, der einer Funktion des Spracherkennungsagenten entspricht.
Spracherkennungssystem gemäß Anspruch 2, wobei das Spracherkennungssystem ferner ein mobiles Endgerät umfasst, wobei der Spracherkennungsagent dazu eingerichtet ist, den bestimmten Satz an das mobile Endgerät des Benutzers zu übermitteln, und wobei das mobile Endgerät dazu eingerichtet ist, Text, der dem bestimmten Satz entspricht, anzuzeigen.
Spracherkennungssystem gemäß Anspruch 1, wobei, wenn die Spracherkennungsrate niedriger als die voreingestellte Referenz ist, der Spracherkennungsagent dazu eingerichtet ist, den Benutzer aufzufordern, Text entsprechend den Sprachdaten einzugeben.
Spracherkennungssystem gemäß Anspruch 7, wobei der Server für künstliche Intelligenz dazu eingerichtet ist, die Sprachdaten zu speichern, wobei, wenn der den Sprachdaten entsprechende Text eingegeben wird, der Spracherkennungsagent dazu eingerichtet ist, den den Sprachdaten entsprechenden Text an den Server für künstliche Intelligenz zu übermitteln, und wobei der Server für künstliche Intelligenz dazu eingerichtet ist, die gespeicherten Sprachdaten, die dem Text entsprechen, zu lernen.
Spracherkennungssystem gemäß Anspruch 8, wobei der Server für künstliche Intelligenz dazu eingerichtet ist, den Text in Sprachdaten umzuwandeln, die gespeicherten Sprachdaten als gültige Daten basierend auf der Ähnlichkeit zwischen den umgewandelten Sprachdaten und den gespeicherten Sprachdaten zu bestimmen und die als gültige Daten bestimmten Sprachdaten zu lernen.
Spracherkennungssystem gemäß Anspruch 8, wobei das Spracherkennungssystem ferner ein mobiles Endgerät umfasst, das dazu eingerichtet ist, eine Eingabe des den Sprachdaten entsprechenden Textes zu empfangen und den den Sprachdaten entsprechenden Text an den Spracherkennungsagenten zu übertragen.
Spracherkennungssystem gemäß Anspruch 1, wobei der Spracherkennungsagent dazu eingerichtet ist, wenn der Benutzer einen bestimmten Text und dritte Sprachdaten, die dem bestimmten Text entsprechen, eingibt, den bestimmten Text und die dritten Sprachdaten, die dem bestimmten Text entsprechen, an den Server für künstliche Intelligenz zu übermitteln, und wobei der Server für künstliche Intelligenz dazu eingerichtet ist, die dritten Sprachdaten, die dem bestimmten Text entsprechen, zu lernen.
Spracherkennungssystem gemäß Anspruch 1, wobei der Spracherkennungsagent dazu eingerichtet ist: eine erste Option zum Wiederholen einer dargebotenen Stimme, eine zweite Option zum Wiederholen eines dargebotenen Satzes und eine dritte Option zum direkten Schreiben und Wiederholen eines Satzes anzubieten; und die zusätzlichen Daten als eine Option mit der höchsten Spracherkennungsrate unter den ersten bis dritten Optionen anzufordern.
Spracherkennungssystem gemäß Anspruch 1, wobei der Server für künstliche Intelligenz dazu eingerichtet ist, die zusätzlichen Daten zu lernen und an den Spracherkennungsagenten eine Spracherkennungsrate, die entsprechend einem Ergebnis des Lernens der zusätzlichen Daten geändert wurde, zu übertragen.
Betriebsverfahren eines Spracherkennungssystems, wobei das Betriebssystem umfasst: Empfangen von Sprachdaten eines Benutzers durch einen Spracherkennungsagenten und Übertragen der Sprachdaten an einen Server für künstliche Intelligenz; Eingeben der Sprachdaten in ein Spracherkennungsmodell durch den Server für künstliche Intelligenz, Übertragen eines Erkennungsergebnisses basierend auf den Sprachdaten an den Spracherkennungsagenten und Lernen der Sprachdaten; und wenn eine Spracherkennungsrate für die Sprachdaten niedriger als eine voreingestellte Referenz ist, Anfordern von zusätzlichen Daten von dem Benutzer zum Lernen von Sprachdaten eines Benutzers durch den Spracherkennungsagenten.
Betriebsverfahren nach Anspruch 14, wobei der Vorgang des Abfragens des Benutzers nach den zusätzlichen Daten zum Lernen der Sprachdaten des Benutzers umfasst: Bereitstellen eines bestimmten Satzes für den Benutzer durch den Spracherkennungsagenten und, wenn zweite Sprachdaten, die dem bestimmten Satz entsprechen, empfangen werden, Übertragen der zweiten Sprachdaten an den Server für künstliche Intelligenz; und Lernen, durch den Server für künstliche Intelligenz, der zweiten Sprachdaten, die dem bestimmten Satz entsprechen.