DE102017120698A1

DE102017120698A1 - Sprachliche Ausgabe von schriftlichen Kommunikationen in einer Stimme eines Senders

Info

Publication number: DE102017120698A1
Application number: DE102017120698.1A
Authority: DE
Inventors: Nathan J. Peterson; Joshua Neil Novak; Nicholas Richard Roberts; Brian Jules Jaeger
Original assignee: Lenovo Singapore Pte Ltd
Current assignee: Lenovo Singapore Pte Ltd
Priority date: 2016-09-26
Filing date: 2017-09-07
Publication date: 2018-03-29
Also published as: US20180090126A1; CN107870899A

Abstract

Eine Ausführungsform stellt ein Verfahren bereit, umfassend: Empfangen einer Angabe, eine sprachliche Ausgabe zu erzeugen, auf einem Informationshandhabungsgerät; Identifizieren eines Stimmenprofils, unter Verwenden eines Prozessors; Erzeugen der sprachlichen Ausgabe, unter Verwenden eines Prozessors, wobei die sprachliche Ausgabe basierend auf dem Stimmenprofil angepasst ist; und Bereitstellen der sprachlichen Ausgabe, unter Verwenden eines Lautsprechers. Andere Aspekte werden beschrieben und beansprucht.

Description

HINTERGRUND
Informationshandhabungsgeräte (“Geräte”), zum Beispiel Mobiltelefone, Smartphones, Tabletgeräte, Laptopcomputer und dergleichen, ermöglichen den Nutzern mit anderen Nutzern durch Senden und Empfangen von schriftlichen Daten, z.B. Textmitteilungen, E-Mails, Benachrichtigungen usw., zu kommunizieren. Fortschritte in der Technologie haben es ermöglicht, schriftliche Daten, die auf diesen Geräten empfangen werden, hörbar an den Nutzer (z.B. über Text-zu-Sprachsoftware) durch eine vorher aufgenommene Stimme auszugeben.
KURZE ZUSAMMENFASSUNG
Zusammenfassend stellt ein Aspekt ein Verfahren bereit, umfassend: Empfangen einer Angabe auf einem Informationshandhabungsgerät, eine sprachliche Ausgabe zu erzeugen; Identifizieren eines Stimmenprofils, unter Verwenden eines Prozessors; Erzeugen der sprachlichen Ausgabe, unter Verwenden eines Prozessors, wobei die sprachliche Ausgabe basierend auf dem Stimmenprofil angepasst ist; und Bereitstellen der sprachlichen Ausgabe, unter Verwenden eines Lautsprechers.
Ein anderer Aspekt stellt ein Informationshandhabungsgerät bereit, umfassend: einen Prozessor; einen Lautsprecher; ein Speichergerät, das Instruktionen speichert, die durch den Prozessor ausführbar sind, zum: Empfangen einer Angabe, eine sprachliche Ausgabe zu erzeugen; Identifizieren eines Stimmenprofils; Erzeugen der sprachlichen Ausgabe, wobei die sprachliche Ausgabe basierend auf dem Stimmenprofil angepasst ist; und Bereitstellen der sprachlichen Ausgabe.
Ein weiterer Aspekt stellt ein Produkt bereit, umfassend: ein Speichergerät, das einen Code speichert, wobei der Code durch einen Prozessor ausführbar ist und umfasst: einen Code, der eine Angabe empfängt, eine sprachliche Ausgabe zu erzeugen; einen Code, der ein Stimmenprofil identifiziert; einen Code, der die sprachliche Ausgabe erzeugt, wobei die sprachliche Ausgabe basierend auf dem Stimmenprofil angepasst ist; und einen Code, der die sprachliche Ausgabe bereitstellt.
Das Vorhergehende ist eine Zusammenfassung und kann somit Vereinfachungen, Verallgemeinerungen und Auslassungen von Details enthalten; konsequenterweise werden diejenigen, die mit der Technik vertraut sind, erkennen, dass die Zusammenfassung nur darstellend ist und diese nicht darauf abzielt, in irgendeiner Weise begrenzend zu sein.
Für ein besseres Verständnis der Ausführungsformen, zusammen mit anderen und weiteren Merkmalen und Vorteilen davon, wird auf die nachfolgende Beschreibung in Zusammenhang mit den begleitenden Zeichnungen Bezug genommen. Der Rahmen der Erfindung wird in den anhängenden Ansprüchen aufgezeigt.
KURZE BESCHREIBUNG MEHRERER ANSICHTEN DER ZEICHNUNGEN
1 zeigt ein Beispiel einer Informationshandhabungs-Geräteschaltung.
2 zeigt ein anderes Beispiel einer Informationshandhabungs-Geräteschaltung.
3 zeigt ein Beispiel eines Verfahrens das eine Text-zu-Sprachausgabe in einer Senderstimme bereitstellt.
DETAILLIERTE BESCHREIBUNG
Es ist ohne weiteres verständlich, dass die Komponenten der Ausführungsformen, wie sie hierin im Allgemeinen beschrieben und in den Figuren gezeigt werden, zusätzlich zu den beschriebenen beispielhaften Ausführungsformen in einer weiten Vielzahl von unterschiedlichen Konfigurationen angeordnet und konstruiert sein können. Somit ist die nachfolgende detaillierte Beschreibung von beispielhaften Ausführungsformen, wie sie in den Figuren repräsentiert werden, nicht dazu geeignet, den Rahmen der Ausführungsformen wie beansprucht zu begrenzen, sondern stellt diese lediglich beispielhafte Ausführungsformen dar.
Eine Bezugnahme in dieser gesamten Spezifikation auf eine „einzelne Ausführungsform” oder “eine Ausführungsform” (oder ähnliches) bedeutet, dass ein bestimmtes Merkmal, eine Struktur oder eine Eigenschaft, das oder die in Verbindung mit der Ausführungsform beschrieben wird, wenigstens in einer Ausführungsform enthalten ist. Somit bezieht sich das Auftreten der Phrasen “in einer einzelnen Ausführungsform” oder “in einer Ausführungsform” oder dergleichen an unterschiedlichen Stellen in dieser Spezifikation nicht notwendigerweise auf die gleiche Ausführungsform.
Weiterhin können die beschriebenen Merkmale, Strukturen oder Eigenschaften in irgendeiner geeigneten Weise in einer oder mehreren Ausführungsformen kombiniert werden. In der nachfolgenden Beschreibung wird eine Vielzahl spezieller Details bereitgestellt, um ein gründliches Verständnis der Ausführungsformen zu geben. Ein Fachmann des relevanten Standes der Technik wird jedoch erkennen, dass die unterschiedlichen Ausführungsformen ohne einen oder mehrere der spezifischen Details, oder mit oder ohne Verfahren, Komponenten, Materialien, usw., ausgeführt werden können. In anderen Beispielen werden bekannte Strukturen, Materialien oder Verfahren nicht im Detail gezeigt oder beschrieben, um eine Verwirrung zu vermeiden.
Konventionelle Text-zu-Sprachesoftware, die auf Geräten angewandt wird (z.B. Siri^® für Apple^® oder Cortana^® für Windows®) kann ein Segment der Textdaten (z.B. durch Vergleichen mit einer zugreifbaren Wörterbank) identifizieren, das Segment mit einer vorher aufgezeichneten stimmlichen Ausgabe assoziieren und anschließend die vorher aufgezeichnete stimmliche Ausgabe entsprechend dem identifizierten Textsegment zu einem Nutzer senden (z.B. durch einen Lautsprecher). Wenn ein Nutzer zum Beispiel eine Textmitteilung von einem anderen Nutzer empfängt, welche die Begrüßung “Hello” enthält, kann ein Programm das Wort identifizieren und anschließend die Ausgabe eines vorher aufgezeichneten Wortes “Hello” an den Nutzer ausgeben.
Text-zu-Sprachsoftware kann für Nutzer hilfreich sein, die sich selbst in Situationen befinden, in denen diese wünschen, den Inhalt einer empfangenen schriftlichen Kommunikation (z.B. Textmitteilung, E-Mail, Benachrichtigungen sozialer Medien usw.) zu erfahren, asich jedoch in einer Umgebung befinden, in der sie nicht in der Lage sind, die schriftliche Kommunikation visuell zu inspizieren. Ein übliches Beispiel umfasst, wenn ein Nutzer fährt und seine Aufmerksamkeit nicht von der Straße nehmen kann, um eine empfangene Textmitteilung zu lesen.
Konventionelle Text-zu-Sprachprogramme enthalten jedoch Probleme, die sich auf die Wirksamkeit und die Klarheit der stimmlichen Ausgabe beziehen. Ein Problem ist zum Beispiel, dass die vorher aufgezeichnete Stimme, die mit der stimmlichen Ausgabe assoziiert ist, nur für eine stimmliche Ausgabe der empfangenen textlichen Kommunikation in einer begrenzten Anzahl von Dialekten (z.B. Amerikanisch, Englisch, Britisches Englisch, Australisches Englisch usw.) programmiert sein kann. Individuen, die nicht an das Hören von einigen oder allen der Dialektoptionen, die mit der vorher aufgezeichneten Stimme assoziiert sind, gewöhnt sind, können es schwierig finden, die stimmliche Ausgabe zu verstehen. Zusätzlich besteht ein anderes Problem darin, dass einige Text-zu-Sprachprogramme den Namen des Senders der textlichen Kommunikation (nämlich die stimmliche Ausgabe des Kontaktnamens, der, falls verfügbar, mit der textlichen Kommunikation assoziiert wird) nicht identifizieren und stimmlich ausgeben. Die Programme, die das tun, können nicht in der Lage sein, den Namen des Senders genau auszusprechen. Wenn ein Sender einer Textmitteilung zum Beispiel einen ungewöhnlichen Namen aufweist, kann das Programm nicht in der Lage sein, eine stimmliche Ausgabe zu bestimmen, die mit dem Namen assoziiert ist. Alternativ kann ein Programm versuchen, die stimmliche Ausgabe mit dem unbekannten Namen zu assoziieren; weil es jedoch keine direkte Übereinstimmung zwischen dem Namen des Senders und irgendeiner gespeicherten stimmlichen Ausgabe gibt, ergibt sich eine unrichtige Aussprache des Namens des Senders. Beide Situationen würden eine Nutzerkonfusion ergeben, weil der Nutzer nicht in der Lage ist, den Sender der schriftlichen Kommunikation unmittelbar zu identifizieren. Darüber hinaus besteht eine regelmäßige Beschwerde durch Nutzer darin, dass die stimmliche Ausgabe von konventionellen Text-zu-Sprachprogrammen zu maschinenhaft sei und den Nutzern, aufgrund des Gebrauchs eines vorher aufgezeichneten, vorrätigen Audios für eine stimmliche Ausgabe, keine persönliche Kommunikationserfahrung bereitstellen würde.
Dementsprechend stellt eine Ausführungsform ein Verfahren zum Ausgeben der Inhalte von empfangenen schriftlichen Kommunikationen in einer Stimme bereit, die mit dem Sender der textlichen Kommunikation assoziiert ist. In einer Ausführungsform kann ein Stimmenprofil, das dem Nutzer entspricht, unter Verwenden einer stimmlichen Eingabe von dem Nutzer erzeugt werden. In einer Ausführungsform kann das Stimmenprofil mit den schriftlichen Kommunikationen, die durch den Nutzer versandt werden, der dem Stimmenprofil eine stimmliche Eingabe bereitstellt, assoziiert sein. Deshalb kann, wenn von dem Nutzer schriftliche Kommunikationen empfangen werden, ein Gerät den Inhalt der schriftlichen Kommunikation unter Verwenden des erzeugten Stimmenprofils mit der Stimme des Nutzers stimmlich ausgeben. Ein derartiges Verfahren ermöglicht es einem Nutzer, wenn dieser Text-zu-Sprachsoftware verwendet, den Sender einer schriftlichen Kommunikation unmittelbar, basierend auf dem Klang der Stimme des Senders, zu identifizieren. Zusätzlich versorgt eine Ausführungsform den Nutzer mit einer besseren Nutzungserfahrung, nämlich einer Erfahrung, die repräsentativ für eine persönliche Konversation ist.
In einer Ausführungsform kann ein Stimmenprofil für einen zweiten Nutzer (z.B. einem Telefonkontakt) auf dem Gerät des ersten Nutzers unter Verwenden der stimmlichen Eingabe von dem zweiten Nutzer erzeugt werden. In einer Ausführungsform kann ein Stimmenprofil für einen ersten Nutzer auf dem Gerät eines ersten Nutzers erzeugt werden und mit anderen Nutzern geteilt werden. In einer Ausführungsform kann das Stimmenprofil basierend auf nachfolgenden stimmlichen Eingaben aktualisiert werden.
Die dargestellten beispielhaften Ausführungsformen werden am Besten durch Bezugnahme auf die Figuren verstanden. Die nachfolgende Beschreibung ist nur als ein Beispiel beabsichtigt und illustriert lediglich bestimmte beispielhafte Ausführungsformen.
Während verschiedene andere Schaltkreise, Schaltungen oder Komponenten in Informationshandhabungsgeräten in Bezug auf eine Smartphone- und/oder Tablet-Schaltung 100 verwendet werden, umfasst ein in 1 gezeigtes Beispiel, ein System-on-Chip Design, das zum Beispiel in einem Tablet oder anderen mobilen Computer-Plattformen zu finden ist. Software und Prozessor(en) sind in einem einzigen Chip 110 kombiniert. Prozessoren umfassen interne arithmetische Einheiten, Register, Cache-Speicher, Busse, EIN/AUS-Ports, usw., wie sie in der Technik gut bekannt sind. Interne Busse und dergleichen hängen von unterschiedlichen Händlern ab, aber im Wesentlichen können all diese peripheren Geräte (120) an einem einzigen Chip 110 angebracht sein. Die Schaltung 100 kombiniert den Prozessor, die Speichersteuerung und einen EIN/AUS-Steuerknoten zusammen in einem einzigen Chip 110. Auch verwenden Systeme 100 dieses Typs typischerweise nicht SATA oder PCI oder LPC. Gemeinsame Schnittstellen schließen zum Beispiel SDIO und I2C ein.
Es gibt Strommanagementchips 130, z.B. eine Batteriemanagementeinheit, BMU, welche den Strom zum Beispiel über eine wiederaufladbare Batterie 140 liefert, die durch eine Verbindung mit einer Stromquelle (nicht gezeigt) wiederaufgeladen wird. In wenigstens einem Design wird ein einziger Chip 110 verwendet, um eine BIOS-ähnliche Funktionalität und einen DRAM-Speicher bereitzustellen.
Das System 100 umfasst typischerweise einen oder mehrere eines WWAN-Transceivers 150 und eines WLAN-Transceivers 160 zum Verbinden mit verschiedenen Netzwerken, wie Telekommunikationsnetzwerken und drahtlosen Internetgeräten, z.B. Zugriffspunkten. Zusätzlich sind für gewöhnlich Geräte 120 eingeschlossen, beispielsweise ein Bildsensor wie eine Kamera. Das System 100 umfasst häufig einen Berührungsbildschirm 170 für die Dateneingabe und für eine Anzeige/Wiedergabe. Das System 100 umfasst typischerweise auch verschiedene Speichergeräte, z.B. Flash-Speicher 180 und SDRAM 190.
2 zeigt ein Blockdiagramm eines anderen Beispiels von Informationshandhabungsgeräte-Schaltkreisen, Schaltungen oder Komponenten. Das Beispiel, das in 2 gezeigt wird, kann Computersystemen, wie denen der THINKPAD-Serien von Personalcomputern, die von Lenovo (US) Inc. of Morrisville, NC, verkauft werden, oder anderen Geräten entsprechen. Wie es durch die Beschreibung hierin ersichtlich ist, können Ausführungsformen andere Merkmale oder nur einige Merkmale des Beispiels, das in 2 dargestellt wird, einschließen.
Das Beispiel der 2 umfasst einen sogenannten Chipsatz 210 (eine Gruppe integrierter Schaltungen oder Chips, die zusammenarbeiten, Chipsätze) mit einer Architektur, die abhängig von dem Hersteller variieren kann (zum Beispiel INTEL, AMD, ARM, usw.). INTEL ist eine registrierte Handelsmarke der Intel Corporation in den Vereinigten Staaten und anderen Ländern. AMD ist eine registrierte Handelsmarke der Advanced Micro Devices Inc. in den Vereinigten Staaten und anderen Ländern. ARM ist eine nicht registrierte Handelsmarke der ARM Holding plc in den Vereinigten Staaten und anderen Ländern. Die Architektur des Chipsatzes 210 umfasst einen Kern und eine Speichersteuergruppe 220 und einen EIN/AUS-Steuerknoten 250, der Informationen (zum Beispiel Daten, Signale, Anweisungen, usw.) über eine Direct Management Interface (DMI) 242 oder ein Verbindungssteuergerät 244 austauscht. In 2 ist die DMI 242 eine Chip-zu-Chip-Schnittstelle (auf die manchmal auch als eine Verbindung zwischen einer “northbridge” und einer “southbridge” Bezug genommen wird). Der Kern und die Speichersteuergruppe 220 umfassen einen oder mehrere Prozessoren 222 (zum Beispiel Einzel- oder Mehrkern) und einen Speichersteuerknoten 226, die Informationen über einen Front-Side-Bus (FSB) 224 austauschen; es ist anzumerken, dass die Komponenten der Gruppe 220 auf einem Chip integriert sein können, der die konventionelle “northbridge”-artige Struktur ersetzt. Ein oder mehrere Prozessoren 222 umfassen interne arithmetische Einheiten, Register, Cache-Speicher, Busse, EIN/AUS-Ports, usw., wie sie in der Technik gut bekannt sind.
In 2 bildet der Speichersteuerknoten 226 Schnittstellen mit dem Speicher 240 (zum Beispiel um eine Unterstützung für eine Art RAM-Speicher bereitzustellen, auf den als einen “Systemspeicher” oder “Speicher” Bezug genommen werden kann). Der Speichersteuerknoten 226 schließt weiterhin eine Low Voltage Differential Signaling (LVDS) Interface 232 für ein Anzeigegerät 292 ein (zum Beispiel einen CRT, einen Flachbildschirm, einen Touchscreen, usw.). Ein Block 238 umfasst einige Technologien, die über die LVDS-Schnittstelle 232 unterstützt werden können (zum Beispiel serielles digitales Video, HDMI/DVI, Anzeigeanschluss). Der Speichersteuerknoten 226 schließt auch eine PCI-Express-Schnittstelle (PCI-E) 234 ein, die diskrete Grafiken 236 unterstützen kann.
In 2 umfasst der EIN/AUS-Steuerknoten 250 eine SATA-Schnittstelle 251 (zum Beispiel für HDDs, SDDs, usw. 280), eine PCI-E-Schnittstelle 252 (zum Beispiel für drahtlose Verbindungen 282), eine USB-Schnittstelle 253 (zum Beispiel für Geräte 284 wie einen Digitalisierer, eine Tastatur, eine Maus, Kameras, Telefone, Mikrofone, einen Speicher, andere verbundene Geräte, usw.), eine Netzwerkschnittstelle 254 (zum Beispiel LAN), eine GPIO-Schnittstelle 255, eine LPC-Schnittstelle 270 (für ASICs 271, eine TPM 272, einen Super Ein/Aus-Steuerknoten 273, einen Firmenware-Knoten 274, eine BIOS-Unterstützung 275 sowie unterschiedliche Arten von Speichern 276 wie ROM 277, Flash 278 und NVRAM 279), eine Strommanagementschnittstelle 261, eine Taktgeneratorschnittstelle 262, eine Audioschnittstelle 263 (zum Beispiel für Lautsprecher 294), eine TCO-Schnittstelle 264, eine Systemmanagementbus-Schnittstelle 265 und einen SPI-Flash 266, der eine BIOS 268 und einen Boot Code 290 beinhalten kann. Der EIN/AUS-Steuerknoten 250 kann eine Gigabit-Ethernet-Unterstützung aufweisen.
Sobald das System eingeschaltet ist, kann es konfiguriert sein, um einen Boot Code 290 für die BIOS-Schnittstelle 268 auszuführen, wie in dem SPI-Flash 266 gespeichert ist, und verarbeitet danach Daten unter der Steuerung von einem oder mehreren Betriebssystemen und Applikationssoftware (die zum Beispiel in dem Systemspeicher 240 gespeichert ist). Ein Betriebssystem kann an irgendeiner von unterschiedlichen Stellen gespeichert sein und zum Beispiel gemäß den Instruktionen der BIOS 268 auf dieses zugegriffen werden. Wie hierin beschrieben, kann ein Gerät weniger oder mehr Merkmale, als die in dem System der 2 gezeigt werden, enthalten.
Eine Informationshandhabungsgeräteschaltung, wie sie beispielsweise in den 1 und 2 gezeigt wird, kann in Geräten wie Tablets, Smartphones, Personalcomputergeräten allgemein und/oder elektronischen Geräten verwendet werden, welche es Nutzern ermöglichen, Text-zu-Sprachfunktionen auszuführen. Zum Beispiel kann die Schaltung, die in 1 dargestellt wird, in einer Tablet- oder Smartphone-Ausführungsform implementiert sein, wobei die Schaltung, die in 2 dargestellt wird, in einer Personalcomputer-Ausführungsform implementiert sein kann.
Nun Bezugnehmend auf 3, kann eine Ausführungsform bei 301 Textdaten auf einem Gerät empfangen. In einer Ausführungsform kann ein Nutzer schriftliche Kommunikationen von einem anderen Nutzer (“Sender”) empfangen, welche Textmitteilungen, E-Mails, Benachrichtigungen sozialer Medien, usw. umfassen. In einer Ausführungsform kann ein Identitätsprofil, das mit dem Sender assoziiert ist, durch den Nutzer erzeugt werden. Das Identitätsprofil kann Details über den Sender, wie zum Beispiel den Vor- und Nachnamen des Senders, einschließen. In einer Ausführungsform kann, wenn eine schriftliche Kommunikation von dem Sender empfangen wird, die Identität des Senders (z.B. Vor- und Nachname) gleichzeitig mit dem Aufbau der Textmitteilung erscheinen. Zum Beispiel kann ein Nutzer ein Identitätsprofil seines Freundes “Meghan Smith” erzeugen, so dass, wenn der Freund des Nutzers dem Nutzer eine Textmitteilung sendet, “Meghan Smith” oberhalb des Hauptteils der Textmitteilung erscheinen kann und die Identität des Senders anzeigt. In einer Ausführungsform können die Identitätsprofile verschiedener Sender in einer Listenform (z.B. einer Kontaktliste) gespeichert werden. Die Liste kann an einem Speicherort gespeichert sein, der entweder lokal (z.B. auf dem Gerät) oder an einem anderen Speicherort (z.B. Cloud-Speicher) zugreifbar ist.
Nachdem eine textliche Kommunikation von einem Sender empfangen wird, kann eine Ausführungsform bei 302 die empfangenen Textdaten mit einem Stimmenprofil assoziieren. In einer Ausführungsform kann das Stimmenprofil erlernte Aspekte einer Nutzerstimme aufweisen (z.B. eine Stimmentonhöhe, eine Stimmentönung, ein Stimmenakzent, usw.). Eine Ausführungsform kann schriftliche Kommunikationen, die von einem Sender empfangen wurden, mit einem Stimmenprofil assoziieren, so dass die schriftlichen Kommunikationen sprachlich mit der Stimme des Senders ausgegeben werden können (z.B. über Text-zu-Sprachsoftware), z.B. unter Verwenden eines angepassten Sprachausgabemodells, welches unter Verwenden der erlernten Aspekte der Senderstimme angepasst wurde.
In einer Ausführungsform kann ein Stimmenprofil für jeden Sender in einer Nutzerkontaktliste erzeugt werden. In einer Ausführungsform kann das Stimmenprofil automatisch erzeugt werden oder nur nach einer Nutzerbestimmung. Zum Beispiel kann eine Ausführungsform automatisch ein Stimmenprofil für jeden neuen Sender erzeugen, für den ein Nutzer ein Identitätsprofil erzeugt hat. Alternativ kann ein Nutzer beispielsweise einen Schalter umschalten (z.B. in dem Identitätsprofil eines Senders) um zu Bestimmen, dass ein Stimmenprofil für einen individuellen Nutzer erzeugt werden soll. In einer anderen Ausführungsform kann, wenn ein Nutzer eine schriftliche Kommunikation von einem Sender empfängt, der unbekannt ist (nämlich einem Sender, für den der Nutzer kein Identitätsprofil erstellt hat), dem Nutzer eine Option (z.B. durch eine Dialogbox) dargestellt werden, mit welcher der Nutzer gefragt wird, ob er ein Stimmenprofil für den unbekannten Sender erstellen möchte. In einer Ausführungsform kann das Stimmenprofil mit der Telefonnummer des unbekannten Senders assoziiert sein.
In einer Ausführungsform kann das Stimmenprofil basierend auf nachfolgende stimmliche Eingaben aktualisiert werden. Wenn ein bestimmtes Stimmenprofil aktualisiert wird und mehrere Probendaten für die Stimmenkennzeichen des Senders verfügbar sind, wird eine Ausführungsform in der Lage sein, die Stimme des Nutzers, mit der das Profil assoziiert ist, genauer zu duplizieren, wenn schriftliche Kommunikationen in hörbarer Form ausgegeben werden. In einer Ausführungsform kann zum Beispiel ein neues Stimmenprofil für ein Individuum schriftliche Kommunikationen von diesem Individuum mit einer maschinenhaften Stimme ausgeben. Im Gegensatz dazu, kann ein Stimmenprofil für ein Individuum, das häufig aktualisiert wurde, schriftliche Kommunikationen in einer Stimme ausgeben, die der des Individuums ähnelt. In einer anderen Ausführungsform kann ein Aktualisieren des Stimmenprofils ein Einführen nachfolgender Stimmeingaben von einem Nutzer betreffen, der mit dem Stimmenprofil assoziiert ist. Zum Beispiel kann eine Ausführungsform jedes Mal, wenn ein Nutzer eine Telefonkonversation mit einem anderen Individuum hat, für das ein Stimmenprofil erzeugt wurde, die Stimmeneingaben nutzen, die durch das Individuum gesendet werden, um das Stimmenprofil, das mit diesem Individuum assoziiert ist, zu aktualisieren.
In einer Ausführungsform kann ein Stimmenprofil für einen Nutzer erzeugt werden, welches immer dann, wenn der Nutzer irgendeine Art von stimmlicher Eingabe (z.B. Telefonkonversationen, Aufnahmen, stimmliche Notizen usw.) an das Gerät sendet, aktualisiert wird. Zum Beispiel kann eine Ausführungsform jedes Mal, wenn ein Nutzer ein Individuum auf seiner oder ihrer Kontaktliste anruft, die stimmliche Eingabe von dem Nutzer während des Anrufs nutzen, um das Stimmenprofil des Nutzers zu aktualisieren. In einer Ausführungsform kann das Stimmenprofil des Nutzers an einem Speicherort gespeichert sein, auf den das Gerät (z.B. lokal oder durch Cloud-Speicher) zugreifen kann. In einer Ausführungsform kann das Stimmenprofil des Nutzers durch eine Nutzerbestimmung automatisch mit den Geräten von anderen Nutzern geteilt werden. Zum Beispiel kann in einer Ausführungsform das Stimmenprofil eines Nutzers automatisch zu dem Gerät eines anderen Nutzers gesendet werden, basierend auf der Erfassung eines vorbestimmten Ereignisses (z.B. wenn der andere Nutzer einer Nutzerkontaktliste hinzugefügt wird oder umgekehrt). In einem anderen Beispiel kann ein Nutzer sein Stimmenprofil auf einen Speicherort (z.B. Cloud-Speicher) laden, an dem es zum Herunterladen durch andere Nutzer zugreifbar ist.
In einer Ausführungsform kann, wenn eine schriftliche Kommunikation auf einem Gerät des Nutzers empfangen wird, die schriftliche Kommunikation mit dem Stimmenprofil des Senders assoziiert werden. Zum Beispiel können, wenn eine Textmitteilung von dem gespeicherten Kontakt, Meghan Smith, empfangen wird, nur die Stimmendaten, die mit dem entsprechenden Stimmenprofil von Meghan Smith assoziiert sind, verwendet werden, um die Textmitteilung sprachlich auszugeben. Dies stellt sicher, dass eine Ausführungsform nicht auf falsche Stimmenprofile zurückgreift, wenn die schriftliche Kommunikation ausgegeben wird.
Bei 303 kann eine Ausführungsform eine Ausgabe an einen Nutzer zum Empfangen einer schriftlichen Kommunikation mit einer Stimme, die ähnlich zu der Stimme des Senders der schriftlichen Kommunikation ist, empfangen. In einer Ausführungsform kann die Ausgabe eine sprachliche Text-zu-Sprache Ausgabe umfassen, die hörbar (z.B. durch einen Lautsprecher eines Gerätes) die Inhalte der empfangenen schriftlichen Kommunikation wiedergibt. In einer Ausführungsform kann die Ausgabe hörbar mit der Stimme des Senders unter Verwenden der Stimmendaten in dem entsprechenden Stimmenprofil des Senders wiedergegeben werden. Wenn zum Beispiel eine Textmitteilung von dem Kontakt, Meghan Smith, empfangen wird, die besagt: “Hello, how are you?”, kann eine Ausführungsform auf das Stimmenprofil, das mit Meghan Smith assoziiert ist, zugreifen, um hörbar den vorher erwähnten Satz in einer Stimme wiederzugeben, die zu der von Meghan Smith ähnelt.
In einer Ausführungsform kann ein Gerät die empfangenen Textdaten nach dem Empfang automatisch ausgeben. In einigen Situationen kann es für eine Ausführungsform vorteilhaft sein, die empfangenen Textdaten nach dem Empfangen der Textdaten auszugeben. Zum Beispiel in Situationen, in denen Nutzer nicht in der Lage sind, ihr Gerät visuell zu inspizieren (z.B. während des Fahrens), kann es für eine Ausführungsform vorteilhaft sein, die Inhalte des empfangenen Textes automatisch an den Nutzer auszugeben. Alternativ möchte ein Nutzer in anderen Situationen nicht, dass eine empfangene schriftliche Kommunikation hörbar ausgegeben wird (z.B. während eines Geschäftsmeetings). Deshalb kann ein Nutzer in einer Ausführungsform die automatischen Text-zu-Sprachfunktionen für das System einschalten/ausschalten. Alternativ kann ein Nutzer in einer Ausführungsform automatisch Text-zu-Sprachfunktionen für einen besonderen Nutzer einschalten/ausschalten. Zum Beispiel kann ein Nutzer automatische Text-zu-Sprachfunktionen nur für den Kontakt zu Meghan Smith einschalten.
Aus der Beschreibung, die hierin bereitgestellt wird, ist es verständlich, dass eine Ausführungsform ein Stimmenmodell abstimmt, um besondere Sprachkennzeichen eines Nutzers nachzubilden, so dass eine Audioausgabe bereitgestellt wird, die ähnlicher zu dem besonderen Sprachklang des Nutzers ist. Dies kann sowohl auf Text-zu-Sprachsysteme als auch auf jedes andere System, in welchem maschinenerzeugte menschliche Stimmenausgabe verwendet wird, angewandt werden. Zum Beispiel kann eine Ausführungsform ausgeführt werden, um eine synthetische Sprachausgabe bereitzustellen, die einem bestimmten Nutzer in Navigationssystemen, Informationsständen, usw. ähnelt.
Die verschiedenen Ausführungsformen, die hierin beschrieben werden, repräsentieren somit eine technische Verbesserung der konventionellen Text-zu-Sprachsystemen und/oder Systemen, die menschliche Sprachausgabe produzieren. Unter Verwenden der hierin beschriebenen Verfahren kann ein Nutzer dazu in der Lage sein, die Identität eines Senders einer schriftlichen Kommunikation unmittelbar zu identifizieren. Eine Ausführungsform stellt dem Nutzer eine Ausgabe von irgendwelchen empfangen schriftlichen Kommunikationen in der Stimme des Senders der schriftlichen Kommunikation bereit.
Wie es für einen Fachmann der Technik ersichtlich ist, können unterschiedliche Aspekte in einem System, einem Verfahren oder einem Geräteprogrammprodukt verkörpert sein. Demgemäß können Aspekte die Form einer vollständigen Hardwareausführungsform oder einer Ausführungsform, die Software einschließt, einnehmen, auf die hierin allgemein als “Schaltkreis”, “Modul” oder “System” Bezug genommen wird. Weiterhin können Aspekte die Form eines Geräteprogrammprodukts einnehmen, welches in einem oder mehreren gerätelesbaren Medien enthalten ist, die darin verkörperte gerätelesbare Programmcodes aufweisen.
Es ist anzumerken, dass verschiedene Funktionen, die hierin beschrieben werden, unter Verwenden von Instruktionen, die auf einem gerätelesbaren Speichermedium, wie einem Nicht-signal-Speichergerät, gespeichert sind, und durch einen Prozessor ausgeführt werden, implementiert sein können. Ein Speichergerät kann zum Beispiel ein elektronisches, magnetisches, optisches oder elektromagnetisches, infrarotes oder Halbleiter-System, -Vorrichtung, oder -Gerät, oder irgendeine geeignete Kombination der Vorhergehenden sein. Noch spezifischere Beispiele für ein Speichermedium umfassen die Folgenden: eine tragbare Computerdiskette, eine Festplatte, einen Direktzugriffsspeicher (RAM), einen Nur-Lese-Speicher (ROM), einen löschbaren programmierbaren Nur-Lese-Speicher (EPROM oder Flash-Speicher), eine optische Faser, einen tragbaren Compact Disk Nur-Lese-Speicher (CD-ROM), ein optisches Speichergerät, ein magnetisches Speichergerät oder irgendeine geeignete Kombination der Vorhergehenden. In dem Kontext dieses Dokuments ist ein Speichergerät kein Signal und umfasst „nicht-transitorisch“ alle Medien außer Signalmedien.
Ein Programmcode, der auf einem Speichermedium vorhanden ist, kann unter Verwenden eines geeigneten Mediums übertragen werden, welches einschließt aber nicht begrenzt ist auf drahtlos, drahtgebunden, optische Faserkabel, HF, usw., oder irgendeine geeignete Kombination der Vorhergehenden.
Ein Programmcode kann Operationen ausführen, die in irgendeiner Kombination einer oder mehrerer Programmsprachen geschrieben sind. Der Programmcode kann vollständig auf einem einzigen Gerät, teilweise auf einem einzigen Gerät, als alleinstehendes Softwarepaket, teilweise auf einem einzigen Gerät, und teilweise auf einem anderen Gerät oder vollständig auf einem anderen Gerät ausgeführt werden. In einigen Fällen können die Geräte durch irgendeine Verbindung oder ein Netzwerk verbunden sein, einschließlich eines lokalen Netzwerkes (LAN) oder eines Weiteverkehrsnetzes (WAN) oder kann die Verbindung durch andere Geräte (zum Beispiel durch das Internet unter Verwenden eines Internet Service Providers), durch drahtlose Verbindung, z.B. Nahfeldkommunikation oder durch einer festverdrahteten Verbindung, wie über eine USB-Verbindung, hergestellt werden.
Hierin werden beispielhafte Ausführungsformen mit Bezug auf die Figuren beschrieben, welche beispielhafte Verfahren, Geräte und Programmprodukte gemäß unterschiedlicher beispielhafter Ausführungsformen darstellen. Es ist verständlich, dass die Aktionen und die Funktionalität wenigstens zum Teil durch Programminstruktionen implementiert werden können. Diese Programminstruktionen können einem Prozessor eines Gerätes, eines Informationsverarbeitungsgerätes für spezielle Zwecke, oder durch anderer programmierbare Datenverarbeitungsgeräte zum Erzeugen einer Maschine bereitgestellt werden, so dass die Instruktionen, welche über einen Prozessor des Gerätes ausgeführt werden, die spezifizierten Funktionen/Aktionen ausführen.
Es ist sinnvoll anzumerken, dass, während bestimmte Blöcke in den Figuren verwendet werden und eine bestimmte Anordnung der Blöcke dargestellt wird, dieses keine begrenzenden Beispiele sind. In bestimmten Kontexten können zwei oder mehr Blöcke kombiniert werden, kann ein Block in zwei oder mehr Blöcke aufgeteilt werden oder können bestimmte Blöcke neu geordnet oder neu geeignet organisiert werden, da die ausdrücklich dargestellten Beispiele nur für beschreibende Zwecke verwendet werden und nicht als begrenzend auszulegen sind.
Wie diese hierin verwendet wird, kann die Einzahl “ein” und “eine” ausgelegt werden, als wenn diese eine Mehrzahl wie “eines oder mehrere” einschließt, außer es ist ausdrücklich in anderer Weise dargestellt.
Diese Offenbarung wurde zu Zwecken der Darstellung und Beschreibung vorgelegt, jedoch ist es nicht beabsichtigt, dass dieses erschöpfend oder begrenzend sein soll. Viele Modifikationen und Variationen werden für den Fachmann in der Technik naheliegend sein. Die beispielhaften Ausführungsformen sind ausgewählt, um die Prinzipien und die praktischen Applikationen zu beschreiben, und um andere mit fachmännischem Wissen des Standes der Technik in die Lage zu versetzen, die Offenbarung der unterschiedlichen Ausführungsformen mit unterschiedlichen Modifikationen, wie sie für den besonders betrachteten Gebrauch geeignet sind, zu verstehen.
Somit ist es verständlich, dass diese Beschreibung, obgleich dargestellte beispielhafte Ausführungsformen hierin mit Bezug zu den begleitenden Zeichnungen beschrieben wurden, nicht-begrenzend ist und dass unterschiedliche andere Änderungen und Modifikationen hieran durch einen Fachmann der Technik angewendet werden können, ohne von dem Schutzumfang und dem Geist der Offenbarung abzuweichen.

Claims

Verfahren, umfassend: – Empfangen einer Angabe auf einem Informationshandhabungsgerät, eine sprachliche Ausgabe zu erzeugen; – Identifizieren eines Stimmenprofils, unter Verwenden eines Prozessors; – Erzeugen der sprachlichen Ausgabe, unter Verwenden eines Prozessors, wobei die sprachliche Ausgabe basierend auf dem Stimmenprofil angepasst ist; und – Bereitstellen der sprachlichen Ausgabe unter Verwenden eines Lautsprechers.
Verfahren nach Anspruch 1, weiterhin umfassend ein Empfangen von Textdaten, wobei das Stimmenprofil mit einem Nutzer, der die Textdaten sendet, assoziiert ist.
Verfahren nach Anspruch 2, wobei das Bereitstellen ein Bereitstellen einer Ausgabe nach Empfangen der Textdaten umfasst.
Verfahren nach Anspruch 2, wobei die Textdaten von einer Kommunikation abgeleitet werden, die ausgewählt ist aus der Gruppe, bestehend aus: einer Textmitteilung, einer E-Mail und einer Benachrichtigung sozialer Medien.
Verfahren nach Anspruch 1, weiterhin umfassend ein Aufnehmen einer stimmlichen Eingabe von einem Nutzer und ein Erzeugen eines Stimmenprofils unter Verwenden der stimmlichen Eingabe des Nutzers.
Verfahren nach Anspruch 5, umfassend ein Aktualisieren des Stimmenprofils basierend auf nachfolgenden stimmlichen Eingaben.
Verfahren nach Anspruch 1, wobei das Stimmenprofil auf dem Informationshandhabungsgerät von einem anderen Gerät empfangen wird.
Verfahren nach Anspruch 1, wobei das Stimmenprofil an einem Speicherort gespeichert wird, auf den das Informationshandhabungsgerät zugreifen kann.
Verfahren nach Anspruch 1, umfassend ein automatisches Erzeugen eines Stimmenprofils für jeden Nutzer, der einer Kontaktliste eines Nutzers hinzugefügt wird.
Verfahren nach Anspruch 1, umfassend ein Senden eines Stimmenprofils an ein anderes Gerät, basierend auf einem vordefinierten Ereignis.
Informationshandhabungsgerät, umfassend: einen Prozessor; – einen Lautsprecher; – ein Speichergerät, das Instruktionen speichert, die durch den Prozessor ausführbar sind, zum: – Empfangen einer Angabe, eine sprachliche Ausgabe zu erzeugen; – Identifizieren eines Stimmenprofils; Erzeugen der sprachlichen Ausgabe, wobei die sprachliche Ausgabe basierend auf dem Stimmenprofil angepasst ist; und – Bereitstellen der sprachlichen Ausgabe.
Informationshandhabungsgerät nach Anspruch 11, wobei die Instruktionen durch den Prozessor ausführbar sind, um Textdaten zu empfangen, wobei das Stimmenprofil mit einem Nutzer, der die Textdaten sendet, assoziiert ist.
Informationshandhabungsgerät nach Anspruch 12, wobei die sprachliche Ausgabe nach Empfangen der Textdaten bereitgestellt wird.
Informationshandhabungsgerät nach Anspruch 12, wobei die Textdaten von einer Kommunikation abgeleitet sind, die aus der Gruppe ausgewählt wird, bestehend aus: einer Textmitteilung, einer E-Mail und einer Benachrichtigung sozialer Medien.
Informationshandhabungsgerät nach Anspruch 11, wobei die Instruktionen durch den Prozessor ausführbar sind, um eine Stimmeneingabe von einem Nutzer aufzunehmen und ein Stimmenprofil unter Verwenden der Stimmeneingabe des Nutzers zu erzeugen.
Informationshandhabungsgerät nach Anspruch 15, wobei die Instruktionen durch den Prozessor ausführbar sind, um das Stimmenprofil basierend auf nachfolgenden stimmlichen Eingaben zu aktualisieren.
Informationshandhabungsgerät nach Anspruch 11, wobei das Stimmenprofil auf dem Informationshandhabungsgerät von einem anderen Gerät empfangen wird.
Informationshandhabungsgerät nach Anspruch 11, wobei das Stimmenprofil an einem Speicherort gespeichert wird, auf den das Informationshandhabungsgerät zugreifen kann.
Informationshandhabungsgerät nach Anspruch 11, wobei die Instruktionen durch den Prozessor ausführbar sind, um automatisch ein Stimmenprofil für jeden Nutzer, der einer Kontaktliste eines Nutzers hinzugefügt wird, zu erzeugen.
Produkt umfassend: – ein Speichergerät, das einen Code speichert, wobei der Code durch einen Prozessor ausführbar ist und umfasst: – einen Code, der eine Angabe empfängt, eine sprachliche Ausgabe zu erzeugen; – einen Code, der ein Stimmenprofil identifiziert; – einen Code, der die sprachliche Ausgabe erzeugt, wobei die sprachliche Ausgabe basierend auf dem Stimmenprofil angepasst ist; und – einen Code, der die sprachliche Ausgabe bereitstellt.