DE202017105485U1

DE202017105485U1 - Dynamische Sprachsynthese-Bereitstellung

Info

Publication number: DE202017105485U1
Application number: DE202017105485.3U
Authority: DE
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-11-01
Filing date: 2017-09-11
Publication date: 2018-02-02
Anticipated expiration: 2027-09-12
Also published as: CN109891497B; CN109891497A; KR20190064626A; EP3510591A1; WO2018084904A1; EP3510591B1; KR102245246B1; US20180122361A1; US10074359B2; JP2019536091A; JP6767581B2

Abstract

Computerprogrammprodukt, das Computerprogrammprodukt Code beinhaltend, der bei Ausführen durch eine oder mehrere Rechenvorrichtungen die eine oder die mehreren Rechenvorrichtungen veranlasst, ein Verfahren durchzuführen, das Verfahren umfassend: Bestimmen, durch ein oder mehrere Computergeräte, eines oder mehrerer Benutzerattribute, basierend auf einem oder mehreren aus (i) einem Stimmmerkmal eines mit einem Benutzergerät assoziierten Benutzers und (ii) einem Abstandsindikator, der einen Abstand zwischen dem Benutzer und dem Benutzergerät angibt; Erhalten, durch das eine oder die mehreren Computergeräte, von auszugebenden Daten; Auswählen, durch das eine oder die mehreren Computergeräte, einer Audioausgabevorlage, basierend auf dem einen oder den mehreren Benutzerattributen; Erzeugen, durch das eine oder die mehreren Computergeräte, eines die ausgewählte Audioausgabevorlage verwendenden Audiosignals, das die Daten beinhaltet; und Bereitstellen, durch das eine oder die mehreren Computergeräte, des Audiosignals zur Ausgabe.

Description

TECHNISCHES GEBIET
Diese Offenbarung betrifft im Allgemeinen die Sprachsynthese.
ALLGEMEINER STAND DER TECHNIK
Die Funktionalität Text-zu-Sprache (TTS) wird in zunehmendem Maße durch Geräte verwendet, um Audioausgaben bereitzustellen. Jedoch kann sich die TTS-Ausgabe im Allgemeinen nicht automatisch an die Benutzerumstände anpassen, zudem sind nur wenige beschränkte Verfahren, wie das Steuern der Lautstärke eines Geräts, zur Steuerung der TTS-Ausgabe verfügbar.
KURZDARSTELLUNG DER OFFENBARUNG
Gemäß einigen Implementierungen kann ein auf einem Benutzergerät ausgeführter TTS-Vorgang eine Audioausgabe basierend auf mehreren Faktoren automatisch steuern und modifizieren, einschließlich der Stimme des Benutzers, der wahrscheinlichen Stimmung des Benutzers und der Umgebung, in der sich der Benutzer aufhält. In einigen Implementierungen kann zum Beispiel ein Benutzergerät einen Befehl empfangen, einem Benutzer Informationen zu liefern. In Reaktion auf den Empfang des Befehls ruft das Benutzergerät die betreffende Information ab und kann Attribute des Benutzers und der Umgebung bestimmen, darunter auch: (i) einen Abstandsindikator, der einen Abstand zwischen dem Benutzergerät und dem Benutzer angibt; (ii) Stimmmerkmale, wie den Ton oder die Tonhöhe des Benutzers; und (iii) Umgebungsgeräusche. Das Benutzergerät kann zudem die Anwendung bestimmen, durch die die abgerufene Information ausgegeben werden soll. Das Benutzergerät wählt eine Audioausgabevorlage, die zu den Benutzer- und Umgebungsattributen passt und mit der Umgebung kompatibel ist, in der sich Benutzer und Benutzergerät befinden. Die abgerufene Information wird in ein Audiosignal umgewandelt, das zur ausgewählten Audioausgabevorlage passt und vom Benutzergerät ausgegeben wird. Datenschutz- und Sicherheitsrichtlinien können so implementiert sein, dass das Benutzergerät den Benutzerdatenschutz einhält und keine Informationen an Dritte ausgibt oder auf Befehle Dritter reagiert.
Gemäß einigen Implementierungen kann das vom Benutzergerät ausgegebene Audiosignal dynamisch erzeugt werden, um Merkmale einer Sprechweise oder Stimmung des Benutzers zu imitieren, indem es sich beispielsweise an den Ton oder die Tonhöhe, in der der Benutzer spricht, anpasst oder bestimmte Wörter oder Silben so artikuliert, dass sie zur Stimme oder Stimmung des Benutzers passen. In einigen Implementierungen kann das Benutzergerät bestimmen, wie weit der Benutzer von dem Benutzergerät entfernt ist, und eine Lautstärke oder Intensität des Audioausgangssignals entsprechend anpassen. In einigen Implementierungen kann das Benutzergerät den Typus der Umgebung, in dem sich der Benutzer aufhält, bestimmen und das Audioausgangssignal entsprechend dem bestimmten Umgebungstypus anpassen. Das Benutzergerät kann zum Beispiel bestimmen, dass sich der Benutzer in einer Umgebung mit vielen Menschen aufhält und ein Audioausgangssignal erhöhen, sodass der Benutzer das Audioausgangssignal hören kann, obwohl er sich in einer Umgebung mit vielen Menschen befindet. In einem anderen Beispiel kann das Benutzergerät bestimmen, dass sich der Benutzer in einer Umgebung mit vielen Menschen aufhält, und kann beim Benutzer die Erlaubnis erfragen, das Audiosignal auszugeben, sodass Informationen, die der Benutzer nicht gegenüber Dritten offenbaren möchte, vertraulich bleiben.
Innovative Aspekte des in dieser Spezifikation beschriebenen Gegenstandes beinhalten, in einigen Implementierungen, ein computerimplementiertes Verfahren zum Durchführen von Vorgängen und ein Computerprogrammprodukt, wobei das Computerprogrammprodukt einen Code beinhaltet, der, wenn er von einem oder mehreren Computergeräten ausgeführt wird, das eine oder die mehreren Computergeräte veranlasst, ein Verfahren mit entsprechenden Vorgängen durchzuführen. Die Vorgänge beinhalten das Bestimmen, durch ein oder mehrere Computergeräte, ein oder mehrerer Benutzerattribute, basierend auf einem oder mehreren der Folgenden: (i) einem Stimmmerkmal eines mit einem Benutzergerät assoziierten Benutzers und (ii) einem Abstandsindikator, der einen Abstand zwischen dem Benutzer und dem Benutzergerät angibt. Die Vorgänge beinhalten zudem das Erhalten, durch das eine oder die mehreren Computergeräte, von auszugebenden Daten. Die Vorgänge beinhalten zudem das Auswählen, durch das eine oder die mehreren Computergeräte, einer Audioausgabevorlage, basierend auf dem einen oder den mehreren Benutzerattributen. Die Vorgänge beinhalten zudem das Erzeugen, durch das eine oder die mehreren Computergeräte, eines die ausgewählte Audioausgabevorlage verwendenden Audiosignals, das die Daten beinhaltet. Die Vorgänge beinhalten zudem das Bereitstellen, durch das eine oder die mehreren Computergeräte, des Audiosignals zur Ausgabe.
Implementierungen können jeweils optional eine oder mehrere der folgenden Merkmale beinhalten. In einigen Implementierungen beinhaltet das Stimmmerkmal des mit dem Benutzergerät assoziierten Benutzers beispielsweise ein oder mehrere der Folgenden: eine Tonhöhe, einen Ton, eine Frequenz und eine Amplitude in einem mit dem Benutzer assoziierten Audiosprachsignal.
In einigen Implementierungen beinhalten die Vorgänge das Bestimmen von Umgebungsattributen und das Bestimmen eines Art Umgebungstypus basierend auf den bestimmten Umgebungsattributen. Die Audioausgabevorlage wird basierend auf dem bestimmten Umgebungstypus ausgewählt.
In einigen Implementierungen beinhaltet die ausgewählte Audioausgabevorlage Amplitude, Frequenz, Wortaussprache und Tondaten zum Konfigurieren des Audiosignals zur Ausgabe. Die ausgewählte Audioausgabevorlage beinhaltet Attribute, die mit de(m/n) bestimmten einen oder mehreren Benutzerattributen übereinstimmen.
In einigen Implementierungen beinhaltet der Vorgang des Auswählens der Audioausgabevorlage das Auswählen der Audioausgabevorlage basierend auf einem oder mehreren der Folgenden: (I) einen Typus der auszugebenden Daten und (II) einen Typus der zum Bereitstellen der auszugebenden Daten verwendeten Anwendung.
In einigen Implementierungen beinhalten die Vorgänge das Empfangen eines Befehls zum Ausgeben von Daten. Der Befehl beinhaltet eine Benutzeranfrage, um Daten zu erhalten, oder eine Anweisung von einer Anwendung, die programmiert ist, Daten zu einer spezifischen Zeit auszugeben.
In einigen Implementierungen beinhaltet der Vorgang der Bestimmung des einen oder der mehreren Benutzerattribute basierend auf dem Abstandsindikator, der den Abstand zwischen dem Benutzer und dem Benutzergerät angibt, das Erhalten von Audiosignaldaten von einem ersten Mikrofon, das Erhalten von Audiosignaldaten von einem zweiten Mikrofon, das Erhalten von Sensordaten von einem oder mehreren Sensoren und das Bestimmen eines wahrscheinlichen Standorts und eines wahrscheinlichen Abstandes des Benutzers basierend auf den Sensordaten sowie Audiosignaldaten vom ersten Mikrofon und Audiosignaldaten vom zweiten Mikrofon.
In einigen Implementierungen beinhalten die Vorgänge das Empfangen eines Audiosprachsignals vom Benutzer. Das zur Ausgabe bereitgestellte Audiosignal besitzt eine Tonhöhe, einen Ton oder eine Amplitude, die mit dem empfangenen Audiosprachsignal übereinstimmt.
Andere Implementierungen dieser Aspekte beinhalten entsprechende Systeme, Vorrichtungen, computerlesbare Speichermedien und Computerprogramme, die konfiguriert sind, die Maßnahmen der vorstehenden Verfahren zu implementieren.
Implementierungen können mit einer Reihe technischer Vorteile verbunden sein. Im Allgemeinen wird ein optimiertes Kommunikationsverfahren durch Erzeugen eines Audiosignals erreicht, welches auf einer ausgewählten Audiovorlage basiert, sodass einem Empfänger Informationen auf eine Art und Weise übermittelt werden können, die ein einfaches Verständnis sicherstellen. Dies minimiert die Möglichkeit, dass die Interpretation der kommunizierten Informationen fehlerhaft ist, was den Benutzer sonst veranlassen könnte, die Wiederholung einer Ausgabe eines Audiosignals anzufordern, was weitere Bearbeitungsschritte hinzufügen und Ressourcen verschwenden würde. Folglich kann die Belastung des Computergeräts im Zusammenhang mit der Erzeugung des Audiosignals reduziert werden.
Implementierungen können weiterhin mit dem Vorteil verbunden sein, dass zur Erzeugung des Audiosignals verwendete Ressourcen nicht verschwendet werden müssen. In einer Umgebung, in der zum Beispiel ein stilles Audiosignal angemessen oder erforderlich ist, wird die Auswahl einer entsprechenden Audioausgabevorlage der Notwendigkeit einer unnötigen Amplitude im ausgegebenen Audiosignal zuvorkommen, wodurch Strom gespart wird. Vergleichbar kann der Einsatz von Ressourcen, die bei der Erzeugung eines Audiosignals mit einer bestimmten Tonhöhe, Ton oder Frequenz verbraucht werden, vermieden werden, wenn stattdessen eine Tonhöhe, Ton oder Frequenz verwendet werden können, die mit einem reduzierten Ressourcenverbrauch, wie z. B. einem geringeren Stromverbrauch oder einer geringerer Komplexität in der Bearbeitung, in Verbindung stehen.
Implementierungen können des Weiteren mit verbesserter Sicherheit verbunden sein, indem diese die Ausgabe eines Audiosignals verhindern, wenn eine Umgebung für nicht sicher befunden wird. Dies bietet eine weitere Möglichkeit, Ressourcen durch die Vermeidung einer unnötigen Erzeugung eines Audioausgabesignals einzusparen.
Die Details einer oder mehrerer Implementierungen sind in den nachstehenden beigefügten Zeichnungen und der Beschreibung dargelegt. Andere Eigenschaften und Vorteile werden aus der Beschreibung, den Zeichnungen und aus den Ansprüchen ersichtlich.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1A und 1B stellen exemplarische Szenarien der Bereitstellung von TTS-Ausgaben dar.
2A und 2B stellen exemplarische Szenarien der Bereitstellung von TTS-Ausgaben dar.
3 stellt exemplarische Szenarien der Bereitstellung von TTS-Ausgaben dar.
4 stellt ein Ablaufdiagramm zur Veranschaulichung eines Verfahrens zur Bereitstellung einer TTS-Ausgabe dar.
5 stellt ein exemplarisches System zur Bereitstellung einer TTS-Ausgabe dar.
Gleiche Bezugsnummern und Bezeichnungen in den verschiedenen Zeichnungen verweisen auf ähnliche Elemente.
AUSFÜHRLICHE BESCHREIBUNG
Exemplarische Implementierungen werden unter Bezugnahme auf die Figuren beschrieben.
In einem exemplarischen Szenario, das in 1A veranschaulicht ist, kann sich ein Benutzergerät in einem geringen Abstand vom Benutzer befinden. Wenn eine Nachricht, wie z. B. eine Nachricht über den Kurznachrichtendienst (SMS) oder eine Nachricht über den Multimedia-Nachrichtendienst (MMS), vom Benutzergerät (A) empfangen wird, kann Benutzergerät bestimmen, dass eine Nachrichtenübermittlungsanwendung verwendet wird, um Nachrichteninhalte auszugeben, und dass die Anwendung für die TTS-Ausgabe konfiguriert ist.
Das Benutzergerät kann dann Daten nutzbar machen, die durch Sensoren und Mikrofone erlangt wurden, um Benutzer- und Umgebungsattribute zu bestimmen. Wie unten noch ausführlicher erläutert werden wird, kann das Benutzergerät zum Beispiel die Mikrofone und Sensoren betätigen, um die Stimme des Benutzers zu beobachten, Umgebungsbedingungen festzustellen und einen Abstandsindikator zu bestimmen, der den Abstand des Benutzers vom Benutzergerät angibt. Auf Grundlage der von den Sensoren und Mikrofonen empfangenen Daten kann der durch das Benutzergerät bestimmte Abstandsindikator beispielsweise angeben, dass der Benutzer vermutlich bis zu 12 Zoll vom Benutzergerät entfernt ist. Das Benutzergerät kann außerdem bestimmen, dass die Umgebung, in der sich Benutzer und Benutzergerät aufhalten, keine laute Umgebung ist.
Das Benutzergerät kann dann den Inhalt der empfangenen Nachricht in ein Audiosignal umwandeln und die Ausgabe des Audiosignals so steuern, dass sie eine Lautstärke aufweist, die mit dem bestimmten Abstandsindikator proportional ist. Wie in 1A dargestellt, kann das Benutzergerät das Audiosignal mit einer relativ niedrigen Lautstärke ausgeben, da der Abstandsindikator angibt, dass der Benutzer wahrscheinlich etwa 12 Zoll vom Benutzergerät entfernt ist und die Umgebung des Benutzergeräts vermutlich keine laute Umgebung ist. Das Benutzergerät gibt zum Beispiel den Inhalt der empfangenen Nachricht „NICHT VERGESSEN, DIE EINKÄUFE HEIMZUBRINGEN“ unter Verwendung eines Audiosignals mit einer Lautstärke aus, die bei einem Viertel des maximalen Lautstärkepegels des Benutzergeräts (B) liegt.
In einem exemplarischen Szenario, das in 1B veranschaulicht ist, kann sich das Benutzergerät gegenüber dem Szenario in 1A weiter weg vom Benutzer befinden. Benutzer und Benutzergerät können beispielsweise durch einen Abstand von 8 Fuß voneinander getrennt sein. Wenn eine Nachricht, wie z. B. eine Nachricht über den Kurznachrichtendienst (SMS) oder eine Nachricht über den Multimedia-Nachrichtendienst (MMS), vom Benutzergerät (A) empfangen wird, kann Benutzergerät bestimmen, dass eine Nachrichtenübermittlungsanwendung verwendet wird, um Nachrichteninhalte auszugeben, und dass die Anwendung für die TTS-Ausgabe konfiguriert ist.
Das Benutzergerät kann dann Mikrofone und Sensoren betätigen, um Benutzer- und Umgebungsattribute zu bestimmen. Auf Grundlage der von den Sensoren und Mikrofonen empfangenen Daten kann der durch das Benutzergerät bestimmte Abstandsindikator beispielsweise angeben, dass der Benutzer vermutlich bis zu 8 Fuß vom Benutzergerät entfernt ist. Das Benutzergerät kann dann den Inhalt der empfangenen Nachricht in ein Audiosignal umwandeln und die Ausgabe des Audiosignals so steuern, dass sie eine Lautstärke aufweist, die mit dem Abstandsindikator proportional ist.
Wie unter Bezugnahme auf 1B ersichtlich, gibt der Abstandsindikator an, dass der Benutzer wahrscheinlich etwa 8 Fuß vom Benutzergerät entfernt ist, woraufhin das Benutzergerät das Audiosignal ggf. mit einer relativ hohen Lautstärke ausgibt. Das Benutzergerät gibt zum Beispiel die empfangene Nachricht „NICHT VERGESSEN, DIE EINKÄUFE HEIMZUBRINGEN“ unter Verwendung eines Audiosignals mit einer Lautstärke aus, die bei drei Vierteln des maximalen Lautstärkepegels des Benutzergeräts (B) liegt.
Das zuvor beschriebene automatische und dynamische Verfahren zur Steuerung der TTS ist aus mehreren Gründen von Vorteil. Es wäre zum Beispiel unerwünscht, wenn sich der Benutzer in der Nähe eines Benutzergeräts befindet, ein Audiosignal mit derselben Lautstärke auszugeben, wie dann, wenn der Benutzer weiter vom Benutzergerät entfernt ist. Durch Berücksichtigung des Abstandes des Benutzers zusätzlich zu Umgebungsattributen kann ein Benutzer die Unbequemlichkeit vermeiden, sich auf ein Benutzergerät zubewegen zu müssen, nur um eine Nachricht zu hören, oder jedes Mal die Lautstärke eines Benutzergeräts anpassen zu müssen, wenn der Benutzer seine Position relativ zum Benutzergerät wechselt.
Wie unter Bezugnahme auf 2A ersichtlich, empfängt ein Benutzergerät eine Anfrage von einem Benutzer. Die Anfrage wird vom Benutzer geflüstert. Obwohl die dargestellte Anfrage lautet „Kannst du mich daran erinnern, was auf meiner Aufgabenliste steht?“ kann im Allgemeinen jede Anfrage gestellt werden.
Nach Empfang der Anfrage kann das Benutzergerät bestimmen, dass die Anwendung, die für die Beantwortung der Benutzeranfrage verwendet wird, für die TTS-Ausgabe konfiguriert ist. Das Benutzergerät kann dann Mikrofone und Sensoren betätigen, um Benutzer- und Umgebungsattribute zu bestimmen.
Von den betätigten Mikrofonen kann das Benutzergerät die Stimmmuster des Benutzers beziehen. Die Stimmmuster können unterschiedlich große Abschnitte einer Anfrage des Benutzers sein. Die Stimmmuster werden verarbeitet, um ein oder mehrere Stimmmerkmale zu bestimmen, welche, ohne darauf beschränkt zu sein, eine Tonhöhe, einen Ton, eine Frequenz und eine Amplitude eines Audiosignals beinhalten können, das der Stimme des Benutzers entspricht.
Die Stimmmuster können zudem klassifiziert werden, um Benutzermerkmale, wie z. B. die wahrscheinliche Stimmung oder die Redeweise des Benutzers, zu bestimmen. Ein Stimmmuster kann zum Beispiel dahingehend klassifiziert werden, dass es anzeigt, dass ein Benutzer wahrscheinlich fröhlich, aufgeregt, traurig oder ängstlich ist. Die Klassifizierung des Stimmmusters kann außerdem Stimmsignaturen angeben, die einzigartig für einen Benutzer sind, wie z. B. die Aussprache von bestimmten Worten durch den Benutzer wie „mich“ oder „erinnern“. Daten, die kennzeichnend für die Benutzermerkmale und -klassifizierung sind, können als Benutzerattribute zu einem Benutzerprofil hinzugefügt werden, das in einer Benutzerdatenbank abgespeichert ist, und können in einigen Fällen für Spracherkennungszwecke verwendet werden.
Das Benutzergerät greift anschließend auf eine Datenbank mit einer Vielzahl von Audioausgabevorlagen zu und wählt aus der Vielzahl von Vorlagen eine Audioausgabevorlage aus, die den höchsten Grad an Ähnlichkeit mit den ermittelten Benutzerattributen aufweist. In einigen Fällen kann das Benutzergerät, sofern keine geeignete Audioausgabevorlage ausgewählt werden kann, auf Grundlage bestimmter Benutzerattribute selbst eine neue Vorlage erstellen oder mit einem Server zur Erstellung einer neuen Vorlage Verbindung aufnehmen.
Eine Audioausgabevorlage ist eine Vorlage, die verwendet wird, um ein Audiosignal zu erzeugen und auszugeben. Die Vorlage kann verschiedene Parameter wie Tonhöhe, Ton, Frequenzbereich, Amplitude, Benutzerstil und Benutzerstimmung beinhalten. Werte für diese Parameter können von den bestimmten Benutzerattributen geliefert werden, zudem kann eine Audioausgabevorlage, die ähnliche Merkmale wie die Stimme des Benutzers aufweist, auf diese Weise erzeugt werden.
In 2A bestimmt das Benutzergerät auf Grundlage der Stimmmerkmale und -klassifizierung, dass der Benutzer wahrscheinlich geflüstert hat, und wählt eine Sprachausgabevorlage, die einem geflüsterten Audiosignal entspricht. Eine Sprachausgabevorlage, die einem geflüsterten Audiosignal entspricht, kann Audiosignalmerkmale, wie z. B. eine niedrige Dezibelausgabe, eine geringe Lautstärke sowie eine Tonhöhe, einen Ton und eine Frequenz beinhalten, die einem Flüstern entsprechen.
Das Benutzergerät kann Daten aus jeder geeigneten Quelle beziehen, um auf die Benutzeranfrage zu antworten. Im veranschaulichten Szenario kann das Benutzergerät die Aufgaben- oder Merkliste des Benutzers durchsuchen, um auf die Benutzeranfrage zu antworten. Diese Informationen können durch Kommunikation mit einem Server in einem Netzwerk oder den Empfang von Daten aus einem Speichergerät bezogen werden. Das Speichergerät kann in das Benutzergerät integriert oder an das Benutzergerät angeschlossen sein.
Nach Erhalt der Daten zur Beantwortung der Anfrage, erzeugt das Benutzergerät ein Audiosignal, welches die bezogenen Daten beinhaltet und mit der ausgewählten Audioausgabevorlage übereinstimmt, sodass das Audiosignal Kennzeichen haben kann, die zu den Benutzerattributen passen oder an diese erinnern. Wie in 2A dargestellt, gibt das Benutzergerät ein Audiosignal aus, um den Benutzer daran zu erinnern, dass das Heimbringen der Einkäufe auf der Aufgabenliste des Benutzers stand (B). Das Benutzergerät gibt das Audiosignal so aus, als ob das Benutzergerät bei der Beantwortung der Benutzeranfrage zum Benutzer zurückflüstern würde. Das Benutzergerät ist auf einen relativ niedrigen Pegel eingestellt, beispielsweise ein Viertel der maximalen Lautstärke, um der Flüsterlautstärke zu entsprechen.
Im veranschaulichten Szenario von 2B kann ein Benutzer aufgeregt schreien und das Benutzergerät fragen, wer ein Spiel mit der Lieblingsmannschaft des Benutzers gewonnen hat. Durch Bestimmung der Benutzerattribute unter Verwendung des vorstehend unter Bezugnahme auf 2A beschriebenen Verfahrens kann das Benutzergerät Daten beziehen, um auf die Benutzeranfrage zu antworten und ein Audiosignal auszugeben, das dem Benutzer auf eine Weise antwortet, die die Attribute des Benutzers imitiert. Das vom Benutzergerät ausgegebene Audiosignal kann zum Beispiel eine relativ große Lautstärkeausgabe, z. B. drei Viertel der maximalen Lautstärke, sowie Ton und eine Tonhöhe aufweisen, die an eine aufgeregte Person erinnern. Das Audiosignal beinhaltet Informationen, die den Benutzer informieren, dass die Mannschaft des Benutzers gerade 2:1 gewonnen hat.
Die Nachahmung einer vom Benutzer eingegebenen Anfrage bietet mehrere Vorteile. Der Benutzer kann zum Beispiel in einer Umgebung sein, in der der Benutzer nicht laut sprechen kann und flüstern muss. In einer solchen Umgebung wird der Benutzer wahrscheinlich eine Antwort mit hoher Lautstärke vermeiden wollen, um potenzielle Peinlichkeit oder die Belästigung anderer Personen im Umfeld des Benutzers zu vermeiden. Dementsprechend kann der Benutzer durch Verwendung des dynamischen TTS-Bereitstellungsverfahrens ein solches potenziell peinliches Szenario vermeiden, indem er eine Antwort mit geringer Lautstärke erhält, und der Benutzer die Audio-Einstellungen des Benutzergerätes nicht modifizieren muss. Zusätzlich kann das Benutzererlebnis verbessert werden, wenn der Benutzer mit einem Benutzergerät interagiert, das die Stimmung des Benutzers widerspiegelt. Ein aufgeregter Benutzer wird zum Beispiel keine monotone oder matte Antwort auf eine Anfrage bekommen müssen.
3 stellt ein Szenario dar, in dem Sicherheits- und Datenschutzmerkmale des TTS-Bereitstellungsverfahrens implementiert werden. In 3 ist der Benutzer der Fahrer des Fahrzeugs und mehrere Fahrgäste sitzen gemeinsam mit dem Benutzer im Fahrzeug. Das Fahrzeug beinhaltet ein Fahrzeugsteuermodul, das mehrere Signale von Fahrzeugsensoren empfängt und Vorgänge gemäß Konfigurationen des Fahrzeugherstellers und des Fahrers ausführt. Zum Beispiel kann das Fahrzeugsteuermodul das hierin beschriebene dynamische TTS-Bereitstellungsverfahren ausführen. Um mit dem Fahrer zu kommunizieren kann das Fahrzeug Audiosignale durch Lautsprecher ausgeben oder Nachrichten über ein Anzeigegerät anzeigen.
Unter den Sicherheits- und Datenschutzmerkmalen im TTS-Bereitstellungsverfahren sind Funktionen zur Stimmerkennung und Umgebungserfassung. Das Fahrzeugsteuermodul empfängt Stimmmuster des Benutzers, verarbeitet die Stimmmuster und speichert Daten zum Zweck der Spracherkennung. Das Fahrzeugsteuermodul kann zum Beispiel ein Stimmmuster des Benutzers verarbeiten, um die Tonhöhe, den Ton, die Frequenz und Aussprache des Benutzers zu ermitteln und diese Stimmmerkmale als Benutzerattribute in einem Benutzerprofil zu speichern. Wenn eine nachfolgende Audioanweisung durch das Benutzergerät empfangen wird, kann das Benutzergerät bestimmen, ob die empfangene Audioanweisung vom Benutzer stammt, indem es Stimmmerkmale der Audioanweisung mit den gespeicherten Stimmmerkmalen des Benutzers abgleicht.
Wenn die Stimmmerkmale der nachfolgenden Audioanweisung und die gespeicherten, dem Benutzer zugehörigen Stimmmerkmale übereinstimmen, kann das Fahrzeugsteuermodul bestimmen, dass die nachfolgende Audioanweisung wahrscheinlich eine Anweisung des Benutzers ist. Das Fahrzeugsteuermodul kann dann die Audioanweisung verarbeiten und entsprechende Vorgänge ausführen. Wenn zum Beispiel die Audioanweisung lautet, die Lautstärke zu erhöhen, dann kann das Fahrzeugsteuermodul ein Steuersignal zur Erhöhung der Lautstärke an den Lautsprecher senden.
Wenn die Stimmmerkmale der nachfolgenden Audioanweisung nicht mit den gespeicherten, dem Benutzer zugehörigen Stimmmerkmalen übereinstimmen, kann das Fahrzeugsteuermodul bestimmen, dass die nachfolgende Audioanweisung ggf. keine Anweisung des Benutzers ist. Wie zum Beispiel in 3 veranschaulicht, kann ein Fahrgast im Fahrzeug versuchen, das Fahrzeugsteuermodul anzuweisen, die persönlichen Nachrichten des Fahrers vorzulesen, indem es dem Fahrzeugsteuermodul befiehlt: „LETZTE NACHRICHT VORLESEN“ (A). Das Fahrzeugsteuermodul verarbeitet den empfangenen Befehl und bestimmt, dass die Stimmmerkmale des Befehls und die gespeicherten Stimmmerkmale des Benutzers nicht übereinstimmen.
In einigen Implementierungen kann das Fahrzeugsteuermodul, sofern die Stimmmerkmale des empfangenen Befehls und die gespeicherten, dem Benutzer zugehörigen Stimmmerkmale nicht übereinstimmen, ein Audiosignal erzeugen, das anzeigt, dass die Stimme im Befehl nicht mit der Stimme des Benutzers übereinstimmt, und kann den Benutzer bitten, zu bestätigen, ob die Anweisung im empfangenen Befehl ausgeführt werden soll oder nicht. Das Fahrzeugsteuermodul kann zum Beispiel, wie dargestellt, eine Nachricht „DAS KLANG WIE EINE ANDERE PERSON. MÖCHTEN SIE, DASS ICH IHRE LETZTE NACHRICHT VORLESE?“ erzeugen, und die Nachricht durch eine Anzeigegerät im Fahrzeug oder einen Lautsprecher im Fahrzeug ausgeben. Der Benutzer kann dann mit einer Bestätigung oder Ablehnung antworten.
In einigen Implementierungen kann das Fahrzeugsteuermodul, sofern die Stimmmerkmale der nachfolgenden Audioanweisung nicht mit den gespeicherten, dem Benutzer zugehörigen Stimmmerkmalen übereinstimmen, keine weiteren Maßnahmen ergreifen und den empfangenen Befehl ignorieren.
Das TTS-Bereitstellungsverfahren kann zusätzliche Sicherheitsmerkmale beinhalten. In einigen Implementierungen kann das TTS-Bereitstellungsverfahren zum Beispiel, wenn ein empfangener Sprachbefehl nicht als Befehl des Benutzers erkannt wird, bestimmte Funktionen, wie z. B. das Imitieren des Tons und der Tonhöhe des empfangenen Sprachbefehls, nicht ausführen.
Dieses Merkmal würde verschiedene unerwünschte Szenarien vermeiden, wie beispielsweise, dass andere Benutzer in ein Benutzergerät schreien, nur damit das Benutzergerät ein Audiosignal mit hoher Lautstärke ausgibt.
4 stellt ein Ablaufdiagramm zur Veranschaulichung eines Verfahrens zur Bereitstellung einer dynamischen TTS-Ausgabe dar. Das Verfahren kann durch das in 5 veranschaulichte System ausgeführt werden. Das System kann in einem Benutzergerät oder verteilt über ein oder mehrere Netzwerke implementiert werden, die das Benutzergerät beinhalten. Das System beinhaltet einen Sendeempfänger 502, einen oder mehrere Sensoren 504, ein oder mehrere Mikrofone 506, einen Prozessor 510, einen Sprachsynthesizer 520 und einen Lautsprecher 530. Der Prozessor 510 beinhaltet einen Anwendungsbestimmer 512 und eine Vielzahl von Klassifizierern, einschließlich einem Abstandsklassifizierer 514, einem Stimmklassifizierer 516 und einem Umgebungsklassifizierer 518. Der Sprachsynthesizer 520 kann ein Prozessor sein, der einen Stimmungsklassifizierer 522, einen Audiosignalgenerator 526 und einen Audiovorlagenselektor 528 beinhaltet.
Das Benutzergerät kann ein geeignetes tragbares elektronisches Gerät sein, darunter auch u. a. ein Computer, Laptop, persönlicher digitalen Assistent, ein elektronisches Tablet, ein elektronisches Notebook, ein Telefon, ein Smartphone, ein Fernseher, ein Smart-TV, eine Uhr, ein Navigationsgerät oder im Allgemeinen jedes elektronische Gerät, das mit einem Netzwerk verbunden werden kann und einen Lautsprecher aufweist. Das Benutzergerät kann eine beliebige Kombination aus Hardware und Software sein und ein geeignetes Betriebssystem, wie z. B. ein Android^®-Betriebssystem, ausführen.
Ein Benutzer kann das Benutzergerät zur Ausgabe von Daten für bestimmte Anwendungen in einem Audioformat konfigurieren, indem er das hierin beschriebene dynamische TTS-Bereitstellungsverfahren verwendet. Zum Beispiel kann ein Benutzergerät konfiguriert werden, eine TTS-Funktion zu nutzen und ein Audiosignal für eine Anwendung, jedoch für keine weitere Anwendung, auszugeben. Ein vom Benutzergerät ausgegebenes Audiosignal kann Daten beinhalten, die durch eine Anwendung aus einem Netzwerk bezogen wurden, oder Daten, die durch das Benutzergerät erzeugt oder gespeichert wurden. Beispiele von Daten, die ausgegeben werden können, beinhalten, ist jedoch nicht beschränkt auf, Inhalte, die als Textnachricht empfangen wurden, Anwendungs-Push-Nachrichten, Daten, die für die Ausgabe durch Wecker- oder Terminplanungsanwendungen terminiert sind, Inhalte, die durch Webbrowser-Anwendungen erhalten wurden, textbasierte Inhalte, die im Benutzergerät gespeichert sind, und im Allgemeinen jegliche Daten, die in einem Audioformat ausgegeben werden können.
Das Verfahren zur dynamischen TTS-Ausgabe kann beginnen, wenn ein Befehl zum Ausgeben von Daten empfangen wird (401). Der Befehl kann auf verschiedene geeignete Arten empfangen werden. In einigen Fällen kann der Befehl ein Benutzerbefehl sein, der durch ein Mikrofon 506 empfangen wird. In einigen Fällen kann der Befehl in Reaktion auf die Ausführung eines Codes durch eine Anwendung, einen Server oder einen Prozessor erzeugt werden. Eine Anwendung kann zum Beispiel konfiguriert sein, eine Erinnerungsnachricht zu einer bestimmten Zeit unter Verwendung von TTS auszugeben. Als weiteres Beispiel kann eine Textnachricht empfangen werden und einen Befehl zur Ausgabe der empfangenen Textnachricht auslösen.
Nach Empfang des Befehls kann der Anwendungsbestimmer 512 bestimmen, welche Anwendung zu verwenden ist, um den Befehl zu verarbeiten oder darauf zu reagieren, und ob die bestimmte Anwendung für die TTS-Ausgabe (402) konfiguriert ist. Im Allgemeinen können Befehle klassifiziert und einer bestimmten Anwendung zugeordnet werden. Der Anwendungsbestimmer 512 greift auf die Zuordnungsinformation zu, um zu bestimmen, welche Anwendung zu verwenden ist, um den Befehl zu verarbeiten oder darauf zu reagieren. Wenn ein Befehl zum Beispiel lautet, eine elektronische oder Textnachricht auszugeben, dann wird der Befehl als Textnachrichten-Ausgabebefehl klassifiziert und einer Nachrichtenübermittlungsanwendung zugeordnet, die verwendet werden kann, um die empfangene Nachricht auszugeben. In einem anderen Beispiel kann ein Befehl, der einer Benutzeranfrage entspricht, als Wissensanfrage klassifiziert und einer Browseranwendung zugeordnet werden. Die Browseranwendung kann verwendet werden, um auf die Anfrage mit Daten zu antworten, die aus einem Netzwerk, wie z. B. dem Internet, abgerufen wurden.
Das Zuordnen von Befehlen zu Anwendungen kann durch einen Hersteller eines Benutzergeräts, einen Programmierer oder den Benutzer erledigt werden. In einigen Fällen kann der Benutzer die Verwendung einer bestimmten Anwendung als Reaktion auf einen bestimmten Befehl vorgeben. Zum Beispiel kann der Benutzer einen aus einer Vielzahl von Browsern zur Beantwortung von Wissensanfragen voreinstellen.
Nach dem Zugriff auf eine Zuordnung der Befehle und dem Auswählen einer Anwendung zur Bearbeitung eines Befehls oder als Reaktion darauf, bestimmt der Anwendungsbestimmer 512, ob die ausgewählte Anwendung für eine TTS-Ausgabe konfiguriert ist. Der Anwendungsbestimmer 512 kann zum Beispiel verifizieren, ob die ausgewählte Anwendung für die TTS-Ausgabe konfiguriert ist. In einigen Fällen kann der Anwendungsbestimmer 512 bestimmen, ob eine oder mehrere Bedingungen erfüllt sind, um die ausgewählte Anwendung zu aktivieren, damit diese eine TTS-Ausgabe bereitstellt. Wenn das System zum Beispiel auf Grundlage von Daten, die durch einen oder mehrere Sensoren 504, wie z. B. Gyroskope, Mikrowellensensoren oder Ultraschallsensoren geliefert werden, bestimmt, dass sich das Benutzergerät mit einer Geschwindigkeit bewegt, die einer Laufbewegung oder der Bewegung in einem Auto entspricht, kann das System bestimmen, dass Daten an den Benutzer in einem Audioformat unter Verwendung der dynamischen TTS-Bereitstellung ausgegeben werden müssen, um die Benutzersicherheit zu verbessern. Das System kann dann Anwendungen, die das Benutzergerät verwendet, konfigurieren, damit diese TTS ausführen, um Daten in einem Audioformat zu liefern, solange die Bewegungsbedingungen bestehen.
Falls die ausgewählte Anwendung nicht konfiguriert ist, die TTS-Funktionalität für die Datenausgabe zu verwenden, kann das System auf den Befehl durch andere Verfahren reagieren, die in 4 nicht dargestellt sind (403). In einigen Fällen kann zum Beispiel eine Reaktion auf den Befehl ohne TTS-Ausgabe erzeugt werden.
In einigen Implementierungen kann das System Daten beziehen, die die TTS-Funktionalität für die ausgewählte Anwendung aktivieren würden, und den Benutzer fragen, ob der Benutzer die Daten herunterladen möchte, welche die TTS-Funktionalität aktivieren würden. Falls der Benutzer dem Herunterladen von Daten zustimmt, kann das System dann die Daten herunterladen und ausführen, um die TTS-Funktionalität für die ausgewählte Anwendung zu installieren und den unten beschriebenen Vorgang 404 auszuführen. Falls der Benutzer dem Herunterladen von Daten nicht zustimmt, kann das System die ausgewählte Anwendung für TTS nicht nutzen und kann auf den Befehl durch andere Verfahren reagieren, die in 4 nicht dargestellt sind (403).
Falls die ausgewählte Anwendung konfiguriert ist, die TTS-Funktionalität zur Datenausgabe zu verwenden, versucht das System, Daten zur Verarbeitung des Befehls oder die Reaktion darauf abzurufen (404). Die Daten können auf verschiedene geeignete Arten abgerufen werden, darunter auch zum Beispiel mittels einer Verbindung mit einem Netzwerk, wie z. B. dem Internet, um Daten abzurufen, oder mittels einer Verbindung mit einem Server, einer Datenbank oder einem Speichergerät, um Daten abzurufen. Die Quelle, aus der die Daten bezogen werden, hängt von verschiedenen Faktoren ab, einschließlich der Art der Anwendung und der Art des Befehls. Um zum Beispiel in einigen Fällen bestimmte Befehle zu verarbeiten, kann eine Anwendung vorkonfiguriert werden, Daten von einer Anwendungsdatenbank oder einem Anwendungsserver abzurufen. Im Gegensatz dazu kann eine andere Anwendung flexibler sein und in Reaktion auf denselben Befehl Daten aus unterschiedlichen geeigneten Datenquellen abrufen. Das System kann Sendeempfänger 502 zum Verbinden mit einem beliebigen Modul oder Gerät verwenden, das nicht im System von 5 enthalten ist.
Falls das System keine Daten abrufen kann, um den Befehl zu verarbeiten oder darauf zu reagieren, gibt das System eine Fehlermeldung aus, die angibt, dass das System nicht in der Lage ist, auf den Befehl zu reagieren (406). Falls das System erfolgreich Daten abruft, bestimmt das System Benutzerattribute (408) und Umgebungsattribute (410).
Um Benutzerattribute zu bestimmen, kann das System einen oder mehrere Sensoren 504 und ein oder mehrere Mikrofone 506 nutzen. Die Sensoren 504 können verschiedene geeignete Sensoren beinhalten, darunter auch u. a. Berührungssensoren, kapazitive Sensoren, optische Sensoren und Bewegungssensoren. Von den Sensoren 504 empfangene Daten können verwendet werden, um verschiedene Arten von Informationen bereitzustellen. Berührungs-, optische oder kapazitive Sensoren können zum Beispiel verwendet werden, um zu bestimmen, ob ein Benutzer das Benutzergerät berührt oder sich in nächster Nähe des Benutzergeräts befindet. Die Sensoren können verwendet werden, um eine Richtung, Verlagerung oder Geschwindigkeit der Bewegung des Benutzergeräts zu bestimmen. Die Sensoren können verwendet werden, um die Lichtverhältnisse rund um das Benutzergerät zu bestimmen.
Das eine oder die mehreren Mikrofone 506 können verwendet werden, um ein Audiosignal vom Benutzer oder einer beliebigen Person zu empfangen, die dem Benutzergerät einen Befehl erteilt. In einigen Fällen können mehrere Mikrofone 506 in das Benutzergerät eingebaut sein. Jedes der mehreren Mikrofone 506 kann jeweils ein Audiosignal empfangen. Das Audiosignal von jedem Mikrofon kann verarbeitet werden, um einen Abstandsindikator zu bestimmen, der einen Abstand des Benutzers vom Benutzergerät angibt.
Das System kann zum Beispiel zwei Mikrofone haben. Ein Mikrofon ist auf einer Seite, beispielsweise der linken Seite des Benutzergeräts angeordnet, während das andere Mikrofon auf einer anderen Seite, beispielsweise der rechten Seite des Benutzergeräts angeordnet ist. Wenn ein Benutzer spricht, können beide Mikrofone entsprechende Audiosignale empfangen. Wenn das über das Mikrofon auf einer Seite, beispielsweise der linken Seite des Benutzergeräts empfangene Audiosignal eine größere Amplitude hat als das Audiosignal, das über das Mikrofon auf der anderen Seite, beispielsweise der rechten Seite des Benutzergeräts empfangen wurde, kann der Abstandsklassifizierer 514 bestimmen, dass sich der Benutzer oder der Mund des Benutzers wahrscheinlich näher zur linken Seite des Benutzergeräts befindet. Wenn das über das Mikrofon auf der rechten Seite des Benutzergeräts empfangene Audiosignal eine größere Amplitude hat als das Audiosignal, das über das Mikrofon auf der linken Seite empfangen wurde, kann der Abstandsklassifizierer 514 bestimmen, dass sich der Mund des Benutzers wahrscheinlich näher zur rechten Seite des Benutzergeräts befindet.
Wenn in einigen Fällen das über das Mikrofon auf einer Seite, beispielsweise der linken Seite des Benutzergeräts erfasste Audiosignal früher als das Audiosignal empfangen wurde, das über das Mikrofon auf der anderen Seite, beispielsweise der rechten Seite des Benutzergeräts erfasst wurde, kann der Abstandsklassifizierer 514 bestimmen, dass sich der Benutzer oder der Mund des Benutzers wahrscheinlich näher zur linken Seite des Benutzergeräts befindet. Wenn das über das Mikrofon auf der rechten Seite des Benutzergeräts erfasste Audiosignal früher empfangen wurde als das Audiosignal, das über das Mikrofon auf der linken Seite erfasst wurde, kann bestimmt werden, dass sich der Abstandsklassifizierer 514 wahrscheinlich näher zur rechten Seite des Benutzergeräts befindet. Wenn der Zeitunterschied der bei beiden Mikrofonen empfangenen Signale groß ist, kann bestimmt werden, dass der Benutzer wahrscheinlich weiter weg von dem Mikrofon ist, das ein Audiosignal zeitlich später empfangen hat, und näher an dem Mikrofon ist, das ein Audiosignal zum früheren Zeitpunkt empfangen hat.
In einigen Implementierungen kann der Abstandsklassifizierer 514, falls die Audiosignale von der Vielzahl von Mikrofonen ähnliche Merkmale, beispielsweise ähnliche Amplituden und Frequenzen aufweisen, bestimmen, dass sich der Benutzer wahrscheinlich in einem Abstand vom Gerät befindet, der größer ist als ein bestimmter Schwellenwertabstand. Falls die Audiosignale von der Vielzahl von Mikrofonen unterschiedliche Merkmale aufweisen, kann der Abstandsklassifizierer 514 bestimmen, dass sich der Benutzer wahrscheinlich in einem Abstand vom Gerät befindet, der geringer als ein bestimmter Schwellenwertabstand ist.
In einigen Implementierungen kann zusammen mit den Signalen, die vom einen oder den mehreren Mikrofone 506 empfangen werden, eine Gleitskala verwendet werden, um den Abstandsindikator zu berechnen. Falls zum Beispiel die von der Vielzahl von den Mikrofonen empfangenen Audiosignale die gleichen Merkmale haben, kann der Abstandsklassifizierer 514 einen Abstandsindikator berechnen, der anzeigt, dass sich der Benutzer in einem Abstand befindet, der größer oder gleich einem bestimmten Abstandsschwellenwert ist. Der konkrete Abstandsschwellenwert kann auf Grundlage des Typs des Benutzergeräts und der Mikrofone bestimmt werden und durch einen Hersteller des Benutzergeräts eingestellt werden. Während die Differenzen in den von den Mikrofonen empfangenen Audiosignalen größer werden, kann der Abstandsklassifizierer 514 eine Gleitskala anwenden und einen Abstandsindikator berechnen, der anzeigt, dass sich der Benutzer in einem Abstand befindet, der geringer als ein bestimmter Abstandsschwellenwert ist. Der berechnete Abstand vom Benutzergerät kann umgekehrt proportional zu den Differenzen in den Audiosignalen sein, und die Gleitskala kann angewendet werden, um den wahrscheinlichen Abstand des Benutzers vom Benutzergerät zu berechnen.
Zusätzlich zum Abstandsindikator können andere Benutzerattribute, wie Stimmmerkmale und die wahrscheinliche Stimmung des Benutzers, bestimmt werden. Wenn ein Audiosignal durch ein Mikrofon 506 empfangen wird, kann das Audiosignal durch den Stimmklassifizierer 516 verarbeitet werden, um Daten zu extrahieren, die verwendet werden, um Stimmmerkmale und die wahrscheinliche Stimmung des Benutzers zu bestimmen. Stimmmerkmale können Tonhöhe, Frequenz, Amplitude und Ton der Stimme eines Benutzers sowie Aussprachemuster des Benutzers beinhalten. Wahrscheinliche Benutzerstimmungen können eine Art menschlicher Stimmung, wie z. B. fröhliche, traurige oder aufgeregte Stimmungen, beinhalten.
Zur Bestimmung von Sprachmerkmalen kann ein Audiosignal, das von einem Mikrofon 506 empfangen wird, zum Entfernen von Umgebungsgeräuschen gefiltert werden. Es kann zum Beispiel ein Filter mit einer Durchlassbereich-Bandbreite verwendet werden, die dem wahrscheinlichen Bereich der menschlichen Stimmfrequenzen, z. B. 80 bis 260 Hz, entspricht. Das gefilterte Audiosignal kann verarbeitet werden, um die Amplitude und Frequenz des Audiosignals zu extrahieren. Der Stimmklassifizierer 516 kann die extrahierten Amplituden- und Frequenzdaten empfangen, um einer Tonhöhe und einen Ton der Stimme des Benutzers zu bestimmen. Ein Stimmungsklassifizierer 522 kann dann die wahrscheinliche Stimmung des Benutzers auf Grundlage der Tonhöhen-, Ton-, Amplituden- und Frequenzdaten des Audiosignals vorhersagen. Durch Verwendung von Klassifizierern zur Klassifizierung von Audiosignalen, die von einem Benutzer empfangen werden, und zur Bestimmung von Benutzerattributen, kann das wahrscheinliche Benutzertemperament, z. B. ob ein Benutzer flüstert, schreit, fröhlich, traurig oder aufgeregt ist, bestimmt werden.
In einigen Implementierungen beinhaltet der Stimmklassifizierer 516 einen linguistischen Klassifizierer, der verwendet werden kann, um Intonation und Aussprache von Wörtern in einem empfangenen Audiosignal zu bestimmen. Der linguistische Klassifizierer kann zum Beispiel Wörter im empfangenen Audiosignal identifizieren und bestimmen, ob bestimmte Wörter stärker als andere Wörter im empfangenen Audiosignal ausgesprochen werden.
Die Benutzerattribute, einschließlich der Stimmmerkmale und wahrscheinlichen Benutzerstimmung, können als Teil eines Benutzerstimmprofils in einer Datenbank gespeichert werden. Das Benutzerstimmprofil kann ohne jegliche Identitätsinformation anonymisiert werden, es kann aber auch Benutzerattributdaten beinhalten, die ein Stimmprofil eines standardmäßigen Benutzers des Benutzergeräts anzeigen. In einigen Implementierungen kann ein Benutzer steuern, ob das System ein Benutzerprofil erzeugen oder Benutzerattribute speichern kann, durch Auswahl einer Option, die es dem System erlaubt, ein Benutzerprofil zu erzeugen oder Benutzerattribute zu speichern. Im Allgemeinen sind das Benutzerprofil und die Benutzerattributdaten anonymisiert, sodass keine persönlich identifizierbaren Informationen für den Benutzer bestimmt werden können, oder ein geografischer Standort des Benutzers kann verallgemeinert werden, wenn Standortinformationen (wie beispielsweise eine Stadt, Postleitzahl oder Bundeslandebene) erhalten werden, sodass ein bestimmter Benutzerstandort nicht festgestellt werden kann.
In einigen Implementierungen können Daten, die aus Sprachsignalen extrahiert wurden, welche von den Mikrofonen 506 empfangen wurden, zu Genauigkeits- und Überprüfungszwecken verwendet werden. So kann zum Beispiel eine Benutzerattributinformation, die auf Grundlage eines Audiosignals bestimmt wird, das von einem Mikrofon empfangen wurde, mit einer Benutzerattributinformation verglichen werden, die auf Grundlage eines Audiosignals bestimmt wird, das von einem anderen Mikrofon empfangen wurde. Wenn die Information von beiden Mikrofonen gleich ist, kann das System größeres Vertrauen in seine Bestimmung des Benutzerattributs setzen. Wenn die Information von beiden Mikrofonen verschieden ist, kann das Benutzergerät weniger geringeres Vertrauen in seine Bestimmung des Benutzerattributs setzen. Das System kann dann Daten von einem dritten Mikrofon zum Bestimmen von Benutzerattributen beziehen oder zusätzliche Sprachsignale extrahieren und klassifizieren, die von den beiden Mikrofonen empfangen wurden. In einigen Implementierungen können Daten, die aus Sprachsignalen extrahiert sind, welche von mehreren Mikrofone empfangen werden, gemittelt werden, und die Durchschnittsdaten können verarbeitet werden, um Benutzerattribute zu bestimmen.
Um Umgebungsattribute zu bestimmen (410), kann der Umgebungsklassifizierer 518 Audiosignale verarbeiten, um wahrscheinliche Umgebungsmerkmale rund um das Benutzergerät zu klassifizieren. In einigen Implementierungen können zum Beispiel Amplituden- und Frequenzdaten aus den empfangenen Audiosignalen extrahiert und Sprachsignale, die der Stimme des Benutzers entsprechen, herausgefiltert werden. Die Amplituden- und Frequenzdaten können vom Umgebungsklassifizierer 518 verwendet werden, um die empfangenen Signale dahingehend zu klassifizieren, dass diese wahrscheinlich Geräusche beinhalten, die bestimmten Umgebungen, wie z. B. Umgebungen mit einer Menschenmenge, am Strand, im Restaurant, im Auto oder vor einem Fernsehgerät, entsprechen.
In einigen Implementierungen können Daten aus den Sensoren 504 unabhängig verwendet oder mit der Audiosignalklassifizierung verwendet werden, um Umgebungsattribute zu bestimmen. Falls zum Beispiel Bewegungssensoren bestimmen, dass sich das Benutzergerät in einem bestimmten Geschwindigkeitsbereich bewegt, beispielsweise 20 Meilen pro Stunde oder mehr, kann der Umgebungsklassifizierer 518 bestimmen, dass die Benutzergerätumgebung wahrscheinlich einer Umgebung entspricht, die ein sich bewegendes Fahrzeug beinhaltet. In einigen Implementierungen können auf Sensordaten basierende Umgebungsattributinformationen mit auf Audiodaten basierenden Umgebungsattributinformationen abgeglichen werden. Wenn die auf Sensordaten basierende Umgebungsattributinformation mit der auf Audiodaten basierenden Umgebungsattributinformation übereinstimmt, kann der Umgebungsklassifizierer 518 hohes Vertrauen in seine Bestimmung der Umgebungsattribute setzen. Wenn die auf Sensordaten basierende Umgebungsattributinformation nicht mit der auf Audiodaten basierenden Umgebungsattributinformation übereinstimmt, setzt der Umgebungsklassifizierer 518 ggf. geringes Vertrauen in seine Bestimmung der Umgebungsattribute.
In einigen Implementierungen können Datenschutz- und Sicherheitsrichtlinien zur Anwendung kommen, um den Benutzerdatenschutz einzuhalten und keine Informationen an Dritte auszugeben oder auf Befehle Dritter zu reagieren. Das System kann zum Beispiel, nachdem es Benutzerattribute bestimmt hat, überprüfen, ob die bestimmten Benutzer Attribute mit den Benutzerattributen übereinstimmen, die im Benutzerstimmprofil gespeichert sind. Wenn die bestimmten Benutzerattribute mit den gespeicherten Benutzerattributen übereinstimmen, kann das System bestimmen, dass das Audiosignal einer Stimme eines Benutzers des Benutzergeräts entspricht. Wenn die bestimmten Benutzerattribute nicht mit den gespeicherten Benutzerattributen übereinstimmen, kann das System bestimmen, dass das Audiosignal nicht einer Stimme des Benutzers des Benutzergeräts entspricht. Das System kann dann das dynamische TTS-Bereitstellungsverfahren beenden oder den Benutzer um Erlaubnis fragen, auf den Befehl zu reagieren.
In einigen Implementierungen werden die bestimmten Umgebungsattribute bestätigt, um zu bestimmen, ob das System Audiodaten in einer Umgebung ausgeben soll, die den bestimmten Umgebungsattributen entspricht.
Namentlich können Umgebungen, in denen die Audioausgabe eingeschränkt oder begrenzt ist, in einer Liste mit eingeschränkten Umgebungen aufgeführt werden. Wenn eine Umgebung, die den bestimmten Umgebungsattributen entspricht, in der Liste eingeschränkter Umgebungen aufgeführt ist, kann das System das dynamische TTS-Bereitstellungsverfahren beenden oder den Benutzer um Erlaubnis fragen, auf den Befehl zu reagieren. Falls zum Beispiel eine Umgebung mit vielen Menschen und vielen verschiedenen Stimmen als eingeschränkte Umgebung aufgeführt ist und die bestimmten Umgebungsattribute anzeigen, dass sich das Benutzergerät in einer Umgebung voller Menschen befindet, kann das System das dynamische TTS-Bereitstellungsverfahren beenden oder den Benutzer um Erlaubnis fragen, auf den Befehl zu reagieren.
Unter erneuter Bezugnahme auf 4 können die bestimmten Benutzerattribute und Umgebungsattribute durch den Audiovorlagenselektor 528 verwendet werden, um eine Audiovorlage für ein Audioausgabesignal auszuwählen (412). Ein Audioausgabevorlage mit Merkmalen, die mit den bestimmten Benutzerattributen und Umgebungsattributen übereinstimmt, wird aus einer Datenbank mit Audiovorlagen ausgewählt. In einigen Fällen hat die ausgewählte Audioausgabevorlage eine Amplitude, Frequenz, Ton, Tonhöhe und Aussprache, die jeweils mit einer Amplitude, Frequenz, Ton, Tonhöhe und Aussprache in den bestimmten Benutzerattributen und Umgebungsattributen übereinstimmen. In einigen Fällen stimmen ein oder mehrere von einer Amplitude, Frequenz, Ton, Tonhöhe und Aussprache der ausgewählten Audioausgabevorlage mit jeweils einem oder mehreren von einer Amplitude, Frequenz, Ton, Tonhöhe und Aussprache in den bestimmten Benutzerattributen und Umgebungsattributen überein.
Der Audiovorlagenselektor 528 kann auf eine Datenbank mit Audioausgabevorlagen zugreifen, um eine Audioausgabevorlage aus einer Vielzahl von Audioausgabevorlagen auszuwählen. In einigen Fällen erzeugt das System, falls eine geeignete Audioausgabevorlage nicht ausgewählt werden kann, eine neue Vorlage auf Grundlage der bestimmten Benutzerattribute und speichert die neue Vorlage in der Datenbank mit den Audioausgabevorlagen ab.
In einem exemplarischen Szenario wie dem Szenario in 2A kann der Audiovorlagenselektor 528 im Benutzergerät, falls die Benutzerattribute anzeigen, dass sich ein Benutzer nahe dem Benutzergerät befindet, und dass der Benutzer einen Befehl in einem Flüsterton geäußert hat, und die Umgebungsattribute anzeigen, dass sich der Benutzer wahrscheinlich in einem stillen Raum befindet, eine Audioausgabevorlage auswählen, die eine geringe Ausgabelautstärke und einen geflüsterten Ton aufweist.
In einigen Implementierungen kann die Audioausgabevorlage auf Grundlage von einer oder mehreren Arten des Inhalts, der in Reaktion auf den Befehl ausgegeben werden soll, und einer Art von Anwendung, durch welche die Daten ausgegeben werden sollen, ausgewählt werden. Falls der auszugebende Inhalt zum Beispiel ein Scherz ist, kann eine Audioausgabevorlage ausgewählt werden, die einen jovialen oder spaßigen Ton anschlägt. Um ein weiteres Beispiel zu geben, kann, falls eine Audiobuchanwendung in Reaktion auf den Befehl verwendet werden soll, eine Audioausgabevorlage ausgewählt werden, die für die Audiobuchanwendung konfiguriert ist. Die Anwendung, die zur Ausgabe von Daten in Reaktion auf den Befehl verwendet werden soll, wird in Vorgang 402 wie zuvor beschrieben bestimmt. Im Allgemeinen kann die Audioausgabevorlage durch den Audiovorlagenselektor 528 auf Grundlage jeglicher Kombination aus Benutzerattributen, Umgebungsattributen, der Art des auszugebenden Inhalts und der Art der Anwendung, durch die die Daten ausgegeben werden sollen, ausgewählt werden.
Als Nächstes werden die in Vorgang 404 abgerufenen Daten durch den Audiosignalgenerator 526 unter Verwendung der ausgewählten Audioausgabevorlage (414) in ein Audiosignal umgewandelt. Falls zum Beispiel, wie in 2A dargestellt, die in Reaktion auf den Benutzerbefehl erhaltenen Daten „NICHT VERGESSEN, DIE EINKÄUFE HEIMZUBRINGEN“ lauten, werden diese Daten unter Verwendung einer Audioausgabevorlage in ein Audiosignal umgewandelt, welche auf Grundlage des Benutzerattributs ausgewählt wurde, das auf einen Benutzer mit einem flüsternden Ton hinweist. Der Audiosignalgenerator 526 kann eine geeignete Audiosynthesizertechnik, wie z. B. die Verkettungssynthese, Formantensynthese, artikulatorische Synthese sowie die Synthese auf Grundlage des Hidden-Markov-Modells (HMM), verwenden, um die abgerufenen Daten in ein Audiosignal umzuwandeln.
Als Nächstes wird das Audiosignal, das die erhaltenen Daten in einem Audioformat beinhaltet, durch den einen oder die Vielzahl von Lautsprechern 530 ausgegeben (416).
Das in 5 veranschaulichte System kann in einem Benutzergerät oder verteilt über ein oder mehrere Netzwerke, die das Benutzergerät beinhalten, implementiert werden.
Der Sendeempfänger 502 im System beinhaltet einen Sender und einen Empfänger und kann verwendet werden, um mit einem oder mehreren Netzwerkservern und einer oder mehreren Datenbanken zu kommunizieren. Der Sendeempfänger kann Verstärker, Modulatoren, Demodulatoren, Antennen und verschiedene andere Komponenten beinhalten. Der Sendeempfänger kann Daten, die von anderen Netzwerkkomponenten empfangen wurden, an andere Systemkomponenten, wie z. B. den Prozessor 510 und den Sprachsynthesizer 520, weiterleiten. Der Sendeempfänger 527 kann zudem Daten, die von Systemkomponenten empfangen wurden, an andere Geräte in dem einen oder den mehreren Netzwerken weiterleiten.
Das eine oder die mehreren Netzwerke können Netzwerkzugriff, Datentransport und andere Dienste für das System, einen oder mehrere Netzwerkserver und eine oder mehrere Datenbanken bereitstellen. Das eine oder die mehreren Netzwerke können in der Regel jegliche allgemein definierten Netzwerkarchitekturen beinhalten und implementieren, die diejenigen beinhalten, die durch Normungsorganisationen wie die Global System for Mobile Communication (GSM) Association, die Internet Engineering Task Force (IETF) und das Worldwide Interoperability for Microwave Access-(WiMAX)-Forum definiert sind. Das eine oder die mehreren Netzwerke können beispielsweise eine oder mehrere von einer GSM-Architektur, einer allgemeinen paketorientierten Funkdienst-(GPRS)-Architektur, einer universellen Mobilfunksystem-(UMTS)-Architektur und einer Entwicklung von UMTS, die als langfristige Entwicklung (LTE) bezeichnet wird, implementieren. Das eine oder die mehreren Netzwerke können eine WiMAX-Architektur, die durch das WiMAX-Forum definiert ist, oder eine kabellose Netzwerkverbindungs-(WiFi)-Architektur implementieren. Das eine oder die mehreren Netzwerke können zum Beispiel ein lokales Netzwerk (LAN), ein Großraumnetzwerk (WAN), das Internet, ein virtuelles LAN (VLAN), ein Unternehmens-LAN, ein Virtuelles Privates Netzwerk der Schicht 3 (VPN), ein Unternehmens-IP-Netzwerk, ein Firmennetzwerk oder eine Kombination derselben beinhalten.
In einigen Implementierungen können das eine oder die mehreren Netzwerke ein Cloud-System, ein oder mehrere Speichersysteme, einen oder mehrere Server, eine oder mehrere Datenbanken, Zugangspunkte und Module beinhalten. Das eine oder die mehreren Netzwerke, die das Cloud-System beinhalten, können Internetkonnektivität und andere netzwerkbezogene Funktionen bereitstellen.
Der eine oder die mehreren Server können mit dem System zur Implementierung von einem oder mehreren Vorgängen des hierin beschriebenen dynamischen TTS-Bereitstellungsverfahrens kommunizieren. Der eine oder die mehreren Server können ein geeignetes Computergerät beinhalten, das mit dem einen oder den mehreren Netzwerken gekoppelt ist, einschließlich, jedoch nicht beschränkt auf, einen Personal-Computer, einen Server-Computer, eine Reihe von Server-Computern, einen Mini-Computer und einen Mainframe-Computer oder Kombinationen derselben. Der eine oder die mehreren Server können zum Beispiel einen Webserver (oder eine Reihe von Servern) beinhalten, auf denen ein Netzwerk-Betriebssystem betrieben wird.
Der eine oder die mehreren Server können auch gemeinsame und Standardprotokolle und Bibliotheken, wie z. B. das Secure-Sockets-Layer-(SSL)-Protokoll für den geschützten Dateitransfer, die Schlüsselverwaltung auf Basis des Secure Shell File Transfer Protocol (SFTP) und die NaCl-Verschlüsselungsbibliothek, implementieren. Der eine oder die mehreren Server können für Cloud-Computing und/oder Network-Computing verwendet werden und/oder diese bereitstellen. Obwohl in den Figuren nicht dargestellt, können der eine oder die mehreren Server Verbindungen zu externen Systemen aufweisen, die Nachrichtenübermittlungs-Funktionalität, wie z. B. E-Mail, SMS-Nachrichten, Textnachrichten und andere Funktionalitäten wie Verschlüsselungs-/Entschlüsselungsservice, Cyber Alerts usw., bereitstellen.
Der eine oder die mehreren Server können mit einer oder mehreren Datenbanken verbunden oder mit diesen integriert sein. Bei der einen oder den mehreren Datenbanken kann es sich um eine Cloud-Datenbank oder eine Datenbank handeln, die von einem Datenbank-Managementsystem (DBMS) verwaltet wird. Im Allgemeinen kann eine Cloud-Datenbank auf Plattformen wie Python betrieben werden. Ein DBMS kann als eine Engine implementiert sein, welche Organisation, Speicher, Management und Datenabruf in einer Datenbank steuert. DBMSe stellen häufig die Funktion bereit, Daten abzufragen, zu sichern, zu replizieren, Regeln durchzusetzen, Sicherheit zu gewährleisten, Berechnungen anzustellen, Änderungs- und Zugriffsprotokollierungen auszuführen und Optimierungen zu automatisieren. Ein DBMS beinhaltet typischerweise eine Modellierungssprache, eine Datenstruktur, eine Datenbankabfragesprache und einen Transaktionsmechanismus. Die Modellierungssprache kann verwendet werden, um das Schema jeder Datenbank im DBMS gemäß dem Datenbankmodell zu definieren, das ein hierarchisches Modell, ein Netzwerkmodell, ein relationales Modell, ein Objektmodell oder eine andere anwendbare bekannte oder brauchbare Organisation beinhalten kann. Datenstrukturen können Felder, Datensätze, Dateien, Objekte und jegliche anderen anwendbaren bekannten oder brauchbaren Strukturen zum Speichern von Daten beinhalten. Ein DBMS kann zudem Metadaten über die gespeicherten Daten beinhalten.
Die eine oder die mehreren Datenbanken können eine oder mehrere Massenspeichergeräte, wie zum Beispiel magnetische, magneto-optische Platten, optische Platten, EPROM, EEPROM, Flash-Speicher-Geräte, beinhalten und als eingebaute Plattenlaufwerke, Wechselplatten, magneto-optische Platten, CD-ROM oder DVD-ROMs zum Speichern von Daten implementiert sein. In einigen Implementierungen kann die Speicherdatenbank ein oder mehrere Benutzerprofile, Regeln zum Klassifizieren empfangener Audiosignale, Regeln zum Auswählen von Audiovorlagen und Trainingsdaten zum Trainieren der Klassifizierer im System speichern.
Im Allgemeinen können verschiedene Algorithmen für das maschinelle Lernen, neuronale Netzwerke oder Regeln zusammen mit Trainingsdaten genutzt werden, um die Klassifizierer im System zu trainieren und zu betreiben. Der Stimmklassifizierer 516 kann zum Beispiel mit Trainingsdaten zum Identifizieren von Stimmmerkmalen wie Tonhöhe und Ton trainiert werden. Die Trainingsdaten können ein oder mehrere aus einem Bereich von Frequenz- und Amplitudenwerten sowie Stimmmuster beinhalten, die Modellen von bestimmten Tonhöhen und Tönen entsprechen. Der Stimmungsklassifizierer 522 kann mit Trainingsdaten zum Identifizieren von Benutzerstimmungen trainiert werden. Die Trainingsdaten für den Stimmungsklassifizierer 522 können Werte beinhalten, die die Tonhöhe, den Ton, Bereiche von Frequenz- und Amplitudenwerten des Benutzers anzeigen, und Muster, die bestimmten Benutzerstimmungen entsprechen.
Der Abstandsklassifizierer 514 kann trainiert werden, Audiosignaldaten und -muster von einem oder mehreren Mikrofonen und Daten von Sensoren zu interpretieren, um den wahrscheinlichen Standort und die Position eines Benutzers relativ zum Benutzergerät zu ermitteln. Regeln für den Abstandsklassifizierer 514 können Regeln beinhalten, die Abstandsschwellenwerte und die Gleitskala definieren.
Der Umgebungsklassifizierer 518 kann mit Trainingsdaten zum Identifizieren von Umgebungsattributen trainiert werden. Die Trainingsdaten können Filterwerte, ein oder mehrere aus einem Bereich von Frequenz- und Amplitudenwerten sowie Muster beinhalten, die Modellen von bestimmten Umgebungen entsprechen.
Ausführungsformen und/oder die in dieser Beschreibung beschriebenen Funktionsvorgänge können in digitalen elektronischen Schaltungen oder in Computersoftware, Firmware oder Hardware, darunter auch in den in dieser Beschreibung offenbarten Strukturen und deren strukturellen Entsprechungen oder in Kombinationen von einer oder mehreren derselben, implementiert werden. Ausführungsformen der Erfindung können als ein oder mehrere Computerprogrammprodukte implementiert werden, wie zum Beispiel als ein oder mehrere Module von Computerprogrammbefehlen, die auf einem computerlesbaren Medium zur Ausführung codiert sind, oder um den Betrieb von Datenverarbeitungsvorrichtungen zu steuern. Das computerlesbare Medium kann ein nicht flüchtiges computerlesbares Speichermedium, ein maschinenlesbares Speichergerät, ein maschinenlesbares Datenträgermaterial, eine Speichervorrichtung, eine Materialzusammensetzung, die ein maschinenlesbares propagiertes Signal bewirkt, oder eine Kombination aus einem oder mehreren derselben sein. Der Begriff „Datenverarbeitungsvorrichtung“ umfasst alle Vorrichtungen, Geräte und Maschinen zum Verarbeiten von Daten, einschließlich beispielsweise eines programmierbaren Prozessors, eines Computers oder mehrerer Prozessoren oder Computer. Die Vorrichtung kann zusätzlich zur Hardware Code beinhalten, der eine Ausführungsumgebung für das betreffende Computerprogramm, wie zum Beispiel Code, erzeugt, der Prozessorfirmware, einen Protokollstapel, ein Datenbankmanagementsystem, ein Betriebssystem oder eine Kombination aus einem oder mehreren derselben bildet. Ein propagiertes Signal ist ein künstlich erzeugtes Signal, wie zum Beispiel ein maschinengeneriertes elektrisches, optisches oder elektromagnetisches Signal, das erzeugt wird, um Informationen für die Übertragung an eine geeignete Empfangsvorrichtung zu codieren.
Ein Computerprogramm (auch bekannt als Programm, Software, Softwareanwendung, Script oder Code) kann in einer Form von Programmiersprache, einschließlich kompilierter Sprachen oder Interpretersprachen geschrieben sein, und in irgendeiner Form, darunter auch als Einzelprogramm oder als Modul, Komponente, Unterprogramm oder als andere Einheit, die zur Verwendung in einer Computerumgebung geeignet ist, eingesetzt werden. Ein Computerprogramm entspricht nicht unbedingt einer Datei in einem Dateisystem. Ein Programm kann in einem Teil einer Datei, die andere Programme oder Daten in einer einzelnen Datei beinhaltet, die dem fraglichen Programm zugeordnet sind, oder in mehreren koordinierten Dateien gespeichert sein. Ein Computerprogramm kann derart eingesetzt werden, dass es auf einem Computer oder auf mehreren Computern ausgeführt wird, die sich an einem Standort oder verteilt über mehrere Standorte befinden und miteinander durch ein Kommunikationsnetzwerk verbunden sind.
Die in dieser Spezifikation beschriebenen Prozesse und Logikabläufe können durch einen oder mehrere programmierbare Prozessoren ausgeführt werden, die ein oder mehrere Computerprogramme ausführen, um Aktionen durch Verarbeiten von Eingabedaten und Erzeugen von Ausgaben auszuführen. Die Prozesse und Logikabläufe können auch als, Spezial-Logikschaltungen, wie zum Beispiel ein FPGA (feldprogrammierbarer Universalschaltkreis) oder eine ASIC (anwendungsspezifische integrierte Schaltung), ausgeführt werden, außerdem können Vorrichtungen als dieselben implementiert werden.
Prozessoren, die für die Ausführung eines Computerprogramms geeignet sind, beinhalten beispielsweise sowohl Universal- als auch Spezialmikroprozessoren, sowie einen oder mehrere Prozessoren einer beliebigen Art von digitalem Computer. Im Allgemeinen empfängt ein Prozessor Befehle und Daten von einem Festwertspeicher oder einem wahlfreien Zugriffsspeicher oder von beiden. Ein Prozessor kann jegliche geeignete Kombination aus Hardware und Software beinhalten.
Computerelemente können einen Prozessor zum Ausführen von Befehlen und eine oder mehrere Speichergeräte zum Speichern von Befehlen und Daten beinhalten. In der Regel beinhaltet ein Computer ein oder mehrere Massenspeichergeräte zum Speichern von Daten, wie zum Beispiel magnetische, magneto-optische oder optische Festplatten, bzw. er wird operativ mit diesen gekoppelt, um Daten von denselben zu empfangen oder auf dieselben zu übertragen. Außerdem kann ein Computer in ein anderes Gerät, zum Beispiel ein Benutzergerät, integriert sein. Computerlesbare Medien, die zum Speichern von Computerprogrammanweisungen und Daten geeignet sind, beinhalten alle Formen von nicht flüchtigem Speicher, Medien und Speichergeräten, darunter auch beispielsweise Halbleiterspeichergeräte, wie zum Beispiel EPROM, EEPROM und Flash-Speichergeräte, Magnetplatten, wie zum Beispiel interne Festplattenlaufwerke oder Wechselplatten, magneto-optische Platten sowie CD-ROMs und DVD-ROMs. Der Prozessor und der Speicher können durch Spezial-Logikschaltungen ergänzt werden oder darin integriert sein.
Während diese Beschreibung viele Details enthält, sollten diese nicht als Begrenzungen bezüglich des Umfangs der Offenbarung oder dessen ausgelegt werden, was ggf. beansprucht ist, sondern vielmehr als Beschreibungen von Merkmalen, die für bestimmte Ausführungsformen spezifisch sind. Bestimmte Merkmale, die in dieser Beschreibung im Kontext von separaten Ausführungsformen beschrieben sind, können auch in Kombination in einer einzelnen Ausführungsform implementiert werden. Im umgekehrten Fall können verschiedene Merkmale, die im Kontext einer einzelnen Ausführungsform beschrieben sind, auch in mehreren Ausführungsformen separat oder in einer geeigneten Teilkombination implementiert werden. Obwohl Merkmale vorstehend als in bestimmten Kombinationen agierend und ggf. sogar als solche beansprucht sind, können in einigen Fällen ein oder mehrere Merkmale von einer beanspruchten Kombination aus der Kombination herausgelöst und die beanspruchte Kombination an eine Teilkombination oder Variation einer Teilkombination gerichtet sein.
Ebenso werden Aktionen in den Zeichnungen zwar in einer bestimmten Reihenfolge dargestellt, dies sollte jedoch nicht als Anforderung verstanden werden, dass diese Aktionen in der bestimmten gezeigten Reihenfolge oder in einer aufeinanderfolgenden Reihenfolge ausgeführt werden müssen oder dass alle dargestellten Aktionen ausgeführt werden müssen, um erwünschte Ergebnisse zu erzielen. Darüber hinaus sollte die Trennung verschiedener Systemkomponenten in den vorstehend beschriebenen Ausführungsformen als nicht in allen Ausführungsformen erforderlich aufgefasst werden, zudem versteht sich, dass die beschriebenen Programmkomponenten und Systeme im Allgemeinen zusammen in ein einziges Softwareprodukt integriert oder in mehrere Softwareprodukte aufgeteilt sein können.
Es versteht sich, dass der Ausdruck ein oder mehrere von und der Ausdruck mindestens eines von jede beliebige Kombination von Elementen beinhalten können. Der Ausdruck ein oder mehrere von A und B beinhaltet zum Beispiel entweder A oder B oder sowohl A als auch B. Vergleichbar beinhaltet der Ausdruck mindestens eines von A und B entweder A oder B oder sowohl A als auch B.
Es wurden somit bestimmte Implementierungen beschrieben. Andere Implementierungen fallen in den Umfang der folgenden Ansprüche. Die in den Ansprüchen angeführten Aktionen können beispielsweise in einer anderen Reihenfolge ausgeführt werden und dennoch gewünschte Ergebnisse erzielen.

Claims

Computerprogrammprodukt, das Computerprogrammprodukt Code beinhaltend, der bei Ausführen durch eine oder mehrere Rechenvorrichtungen die eine oder die mehreren Rechenvorrichtungen veranlasst, ein Verfahren durchzuführen, das Verfahren umfassend: Bestimmen, durch ein oder mehrere Computergeräte, eines oder mehrerer Benutzerattribute, basierend auf einem oder mehreren aus (i) einem Stimmmerkmal eines mit einem Benutzergerät assoziierten Benutzers und (ii) einem Abstandsindikator, der einen Abstand zwischen dem Benutzer und dem Benutzergerät angibt; Erhalten, durch das eine oder die mehreren Computergeräte, von auszugebenden Daten; Auswählen, durch das eine oder die mehreren Computergeräte, einer Audioausgabevorlage, basierend auf dem einen oder den mehreren Benutzerattributen; Erzeugen, durch das eine oder die mehreren Computergeräte, eines die ausgewählte Audioausgabevorlage verwendenden Audiosignals, das die Daten beinhaltet; und Bereitstellen, durch das eine oder die mehreren Computergeräte, des Audiosignals zur Ausgabe.
Computerprogrammprodukt nach Anspruch 1, wobei das Stimmmerkmal des mit dem Benutzergerät assoziierten Benutzers ein oder mehrere aus einer Tonhöhe, einem Ton, einer Frequenz und einer Amplitude in einem mit dem Benutzer assoziierten Audiosprachsignal beinhaltet.
Computerprogrammprodukt nach Anspruch 1 oder Anspruch 2, das Verfahren ferner umfassend: Bestimmen von Umgebungsattributen; und Bestimmen eines Umgebungstypus basierend auf den bestimmten Umgebungsattributen, wobei die Audioausgabevorlage basierend auf dem bestimmten Umgebungstypus ausgewählt wird.
Computerprogrammprodukt nach Anspruch 1 oder Anspruch 2, wobei die ausgewählte Audioausgabevorlage Amplitude, Frequenz, Wortaussprache und Klangdaten zum Konfigurieren des Audiosignals zur Ausgabe beinhaltet; und wobei die ausgewählte Audioausgabevorlage Attribute beinhaltet, die mit de(m/n) bestimmten einen oder mehreren Benutzerattributen übereinstimmen.
Computerprogrammprodukt nach Anspruch 1 oder Anspruch 2, wobei ein Auswählen der Audioausgabevorlage ein Auswählen der Audioausgabevorlage basierend auf einem oder mehreren der folgenden Punkte umfasst: (I) einem Typus der auszugebenden Daten und (II) einem Typus der zum Bereitstellen der auszugebenden Daten verwendeten Anwendung.
Computerprogrammprodukt nach einem der vorstehenden Ansprüche, das Verfahren ferner umfassend: Empfangen, durch das eine oder die mehreren Computergeräte, eines Befehls, Daten auszugeben, wobei der Befehl eine Benutzeranfrage zum Erhalt von Daten oder eine Anweisung von einer Anwendung, die programmiert ist, Daten zu einem spezifischen Zeitpunkt auszugeben, enthält.
Computerprogrammprodukt nach einem der vorstehenden Ansprüche, wobei ein Bestimmen des einen oder der mehreren Benutzerattribute, basierend auf dem Abstandsindikator, der den Abstand zwischen dem Benutzer und dem Benutzergerät angibt, umfasst: Erhalten von Audiosignaldaten von einem ersten Mikrofon; Erhalten von Audiosignaldaten von einem zweiten Mikrofon; Erhalten von Sensordaten von einem oder mehreren Sensoren; und Bestimmen eines wahrscheinlichen Standorts und eines wahrscheinlichen Abstands des Benutzers basierend auf den Sensordaten, den Audiosignaldaten vom ersten Mikrofon und den Audiosignaldaten vom zweiten Mikrofon.
Computerprogrammprodukt nach Anspruch 1 oder Anspruch 2, das Verfahren ferner umfassend: Empfangen eines Audiosprachsignals vom Benutzer, wobei das zur Ausgabe bereitgestellte Audiosignal eine Tonhöhe, einen Ton oder eine Amplitude aufweist, die mit dem empfangenen Audiosprachsignal übereinstimmt.
Ein oder mehrere nicht flüchtige computerlesbare Speichermedien, Befehle umfassend, die, wenn sie durch ein oder mehrere Computergeräte ausgeführt werden, das eine oder die mehreren Computergeräte veranlassen, Vorgänge durchzuführen, die umfassen: Bestimmen eines oder mehrerer Benutzerattribute, basierend auf einem oder mehreren aus (i) einem Stimmmerkmal eines mit einem Benutzergerät assoziierten Benutzers und (ii) einem Abstandsindikator, der einen Abstand zwischen dem Benutzer und dem Benutzergerät angibt; Erhalten von auszugebenden Daten; Auswählen einer Audioausgabevorlage, basierend auf dem einen oder den mehreren Benutzerattributen; Erzeugen eines die Daten beinhaltenden Audiosignals unter Verwendung der ausgewählten Audioausgabevorlage; und Bereitstellen des Audiosignals zur Ausgabe.
Ein oder mehrere nicht flüchtige computerlesbare Speichermedien nach Anspruch 9, wobei das Stimmmerkmal des mit dem Benutzergerät assoziierten Benutzers ein oder mehrere der Folgenden: eine Tonhöhe, einen Ton, eine Frequenz und eine Amplitude in einem mit dem Benutzer assoziierten Audiosprachsignal beinhaltet.
Ein oder mehrere nicht flüchtige computerlesbare Speichermedien nach Anspruch 9 oder Anspruch 10, wobei die ausgewählte Audioausgabevorlage Amplitude, Frequenz, Wortaussprache und Tondaten zum Konfigurieren des Audiosignals zur Ausgabe beinhaltet; und wobei die ausgewählte Audioausgabevorlage Attribute beinhaltet, die mit de(m/n) bestimmten einen oder mehreren Benutzerattributen übereinstimmen.
Ein oder mehrere nicht flüchtige computerlesbare Speichermedien nach Anspruch 9 oder Anspruch 10, wobei ein Auswählen der Audioausgabevorlage ein Auswählen der Audioausgabevorlage basierend auf einem oder mehreren der folgenden Punkte umfasst: (I) einem Typus der auszugebenden Daten und (II) einem Typus der zum Bereitstellen der auszugebenden Daten verwendeten Anwendung.
Ein oder mehrere nicht flüchtige computerlesbare Speichermedien nach Anspruch 9 oder Anspruch 10, wobei die Vorgänge ferner umfassen: Empfangen eines Befehls zum Ausgeben von Daten, wobei der Befehl eine Benutzeranfrage zum Erhalt von Daten oder eine Anweisung von einer Anwendung, die programmiert ist, Daten zu einem spezifischen Zeitpunkt auszugeben, enthält.
Ein oder mehrere nicht flüchtige computerlesbare Speichermedien nach einem der Ansprüche 9 bis 13, wobei ein Bestimmen des einen oder der mehreren Benutzerattribute, basierend auf dem Abstandsindikator, der den Abstand zwischen dem Benutzer und dem Benutzergerät angibt, umfasst: Erhalten von Audiosignaldaten von einem ersten Mikrofon; Erhalten von Audiosignaldaten von einem zweiten Mikrofon; Erhalten von Sensordaten von einem oder mehreren Sensoren; und Bestimmen eines wahrscheinlichen Standorts und eines wahrscheinlichen Abstands des Benutzers basierend auf den Sensordaten, den Audiosignaldaten vom ersten Mikrofon und den Audiosignaldaten vom zweiten Mikrofon.
System, umfassend: ein oder mehrere Computergeräte und ein oder mehrere Speichergeräte, die Befehle speichern, die, wenn sie durch das eine oder die mehreren Computergeräte ausgeführt werden, das ein oder die mehreren Computergeräte veranlassen, Vorgänge auszuführen, die Vorgänge umfassend: Bestimmen eines oder mehrerer Benutzerattribute, basierend auf einem oder mehreren aus (i) einem Stimmmerkmal eines mit einem Benutzergerät assoziierten Benutzers und (ii) einem Abstandsindikator, der einen Abstand zwischen dem Benutzer und dem Benutzergerät angibt; Erhalten von auszugebenden Daten; Auswählen einer Audioausgabevorlage, basierend auf dem einen oder den mehreren Benutzerattributen; Erzeugen eines die Daten beinhaltenden Audiosignals unter Verwendung der ausgewählten Audioausgabevorlage; und Bereitstellen des Audiosignals zur Ausgabe.
System nach Anspruch 15, wobei das Stimmmerkmal des mit dem Benutzergerät assoziierten Benutzers ein oder mehrere der Folgenden: eine Tonhöhe, einen Ton, eine Frequenz und eine Amplitude in einem mit dem Benutzer assoziierten Audiosprachsignal beinhaltet.
System nach Anspruch 15 oder Anspruch 16, wobei die ausgewählte Audioausgabevorlage Amplitude, Frequenz, Wortaussprache und Tondaten zum Konfigurieren des Audiosignals zur Ausgabe beinhaltet; und wobei die ausgewählte Audioausgabevorlage Attribute beinhaltet, die mit de(m/n) bestimmten einen oder mehreren Benutzerattributen übereinstimmen.
System nach Anspruch 15 oder Anspruch 16, wobei ein Auswählen der Audioausgabevorlage ein Auswählen der Audioausgabevorlage basierend auf einem oder mehreren der folgenden Punkte umfasst: (I) einem Typus der auszugebenden Daten und (II) einem Typus der zum Bereitstellen der auszugebenden Daten verwendeten Anwendung.
System nach Anspruch 15 oder Anspruch 16, wobei die Vorgänge ferner umfassen: Empfangen eines Befehls zum Ausgeben von Daten, wobei der Befehl eine Benutzeranfrage zum Erhalt von Daten oder eine Anweisung von einer Anwendung, die programmiert ist, Daten zu einem spezifischen Zeitpunkt auszugeben, enthält.
System nach einem der Ansprüche 15 bis 19, wobei ein Bestimmen des einen oder der mehreren Benutzerattribute, basierend auf dem Abstandsindikator, der den Abstand zwischen dem Benutzer und dem Benutzergerät angibt, umfasst: Erhalten von Audiosignaldaten von einem ersten Mikrofon; Erhalten von Audiosignaldaten von einem zweiten Mikrofon; Erhalten von Sensordaten von einem oder mehreren Sensoren; und Bestimmen eines wahrscheinlichen Standorts und eines wahrscheinlichen Abstands des Benutzers basierend auf den Sensordaten, den Audiosignaldaten vom ersten Mikrofon und den Audiosignaldaten vom zweiten Mikrofon.