DE102004012208A1 - Individualisierung von Sprachausgabe durch Anpassen einer Synthesestimme an eine Zielstimme - Google Patents

Individualisierung von Sprachausgabe durch Anpassen einer Synthesestimme an eine Zielstimme Download PDF

Info

Publication number
DE102004012208A1
DE102004012208A1 DE102004012208A DE102004012208A DE102004012208A1 DE 102004012208 A1 DE102004012208 A1 DE 102004012208A1 DE 102004012208 A DE102004012208 A DE 102004012208A DE 102004012208 A DE102004012208 A DE 102004012208A DE 102004012208 A1 DE102004012208 A1 DE 102004012208A1
Authority
DE
Germany
Prior art keywords
voice
synthesis
product
communication
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE102004012208A
Other languages
English (en)
Inventor
Horst-Udo Hain
Klaus Lukas
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE102004012208A priority Critical patent/DE102004012208A1/de
Priority to US11/077,153 priority patent/US7664645B2/en
Publication of DE102004012208A1 publication Critical patent/DE102004012208A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

Die Stimme einer synthetischen Sprachausgabe kann individualisiert und beispielsweise an eine Benutzerstimme, die Stimme eines Kommunikationspartners oder die Stimme einer berühmten Persönlichkeit angepasst werden. Dadurch lassen sich insbesondere mobile Endgeräte originell individualisieren und beispielsweise Textmeldungen mit einer gewünschten Stimme vorlesen.

Description

  • Die Emotionalisierung von mobilen Endgeräten ist ein zunehmender Faktor in der Verkaufsstrategie. Personalisierungen durch Logos und Klingeltöne sowie flexible Oberflächengestaltungen und individuelle Designs von Handys rücken hierbei immer mehr in den Vordergrund. Auch die sprachliche Interaktion ermöglicht neue Kommunikationsstrukturen zum Endgerät und erlaubt damit immer natürlichere und individuellere Interaktionen.
  • Neben der komfortablen sprachlichen Eingabe ist auch die sprachliche Ausgabe ein wichtiges zukünftiges Produktmerkmal, da hierdurch eine Hands-Free-Kommunikation realisiert werden kann. Diese Hands-Free-Kommunikation erlaubt durch akustisches Feedback eine sprachliche Interaktion ohne manuellen Eingriff und kann daher beispielsweise in Fahrzeugumgebungen, bei eingestecktem Handy oder beim Joggen angewandt werden.
  • Derzeit sind verfügbare Text-to-Speech-Systeme entweder mit Standardsprechern oder mit Corporate Voices ausgestattet, die eine produktspezifische Ausrichtung der Sprache und des Text-to-Speech-Sprechers erlauben.
  • Davon ausgehend liegt der Erfindung die Aufgabe zugrunde, eine Möglichkeit der Individualisierung der Sprachausgabe anzugeben, die Kunden von mobilen Endgeräten einen neuen Kaufanreiz bietet.
  • Diese Aufgabe wird durch die in den unabhängigen Patentansprüchen angegebenen Erfindungen gelöst. Vorteilhafte Ausgestaltungen ergeben sich aus den abhängigen Patentansprüchen.
  • Dementsprechend wird in einem Verfahren zur Sprachsynthese auf einem Erzeugnis eine Synthesestimme, die zur Ausgabe der synthetisierten Sprache dient, an eine Zielstimme angepasst, so dass die Synthesestimme der Zielstimme ähnlich ist.
  • Die Zielstimme ist insbesondere die Stimme des Benutzers des Erzeugnisses.
  • Oft ist ein explizites Training zur Aufnahme der eigenen Stimme als Grundlage für eine neue synthetisierte Stimmausgabe inakzeptabel. Deshalb ist es vorteilhaft, wenn Daten zum Anpassen der Synthesestimme an die Zielstimme aus vom Benutzer ohnehin zu anderen Zwecken als dem Anpassen der Synthesestimme an die Zielstimme in das Erzeugnis eingesprochenen Sprachsignalen gewonnen werden. Die Daten zum Anpassen der Synthesestimme an die Zielstimme sind insbesondere Transformationsparameter.
  • Vorzugsweise ist das Erzeugnis ein Kommunikationserzeugnis, in das der Benutzer einspricht, um mit einem realen menschlichen Kommunikationspartner zu kommunizieren. Die Daten zum Anpassen der Synthesestimme an die Zielstimme werden dann aus vom Benutzer zur Kommunikation mit dem Kommunikationspartner in das Erzeugnis eingesprochenen Sprachsignalen gewonnen.
  • Alternativ oder ergänzend kann die Zielstimme die Stimme des Kommunikationspartners sein, mit dem der Benutzer über das Erzeugnis kommuniziert.
  • Ein explizites Training zur Aufnahme der Stimme des Kommunikationspartners als Grundlage für eine neue synthetisierte Stimmausgabe wird im Hinblick auf den Kommunikationspartner in der Regel nicht durchzuführen sein. Deshalb werden Daten zum Anpassen der Synthesestimme an die Zielstimme vorzugsweise aus vom Kommunikationspartner zur Kommunikation mit dem Benutzer eingesprochenen und übermittelten Sprachsignalen gewonnen.
  • Insbesondere wird die Synthesestimme zumindest so weit an die Zielstimme angepasst, dass das Geschlecht des Kommunikationspartners erkennbar ist.
  • Bei der Kommunikation über ein Kommunikationserzeugnis verfügt heute praktisch jeder Kommunikationspartner über eine Kommunikationskennung, beispielsweise in Form einer Telefonnummer oder URL. Wird diese Kommunikationskennung der Zielstimme zugewiesen, so kann, wenn ein Anpassen der Synthesestimme an die Zielstimme durchgeführt worden ist, ein Anruf des Kommunikationspartners mit einer seiner Stimme ähnlichen Synthesestimme angekündigt und/oder eine Textmeldung des Kommunikationspartners mit einer seiner Stimme ähnlichen Synthesestimme vorgelesen werden.
  • Wenn die Performance des Erzeugnisses nicht ausreicht, um Kommunikation und Anpassen der Synthesestimme an die Zielstimme gleichzeitig durchzuführen, können die Sprachsignale in Form von Sprache repräsentierenden Signale während der Kommunikation gespeichert werden. Nach Ende der Kommunikation werden dann aus diesen gespeicherten Sprachsignalen die Daten zum Anpassen der Synthesestimme an die Zielstimme gewonnen.
  • Erfahrungsgemäß werden Mobiltelefone immer seltener zum Telefonieren benutzt. Dies kann zu dem Problem führen, dass keine Stimme eines Kommunikationspartners mehr zur Verfügung steht. Deshalb kann alternativ oder ergänzend die Zielstimme die Stimme eines Dritten sein, beispielsweise einer bekannten Persönlichkeit. Die Daten zum Anpassen der Synthesestimme an die Zielstimme werden dann aus über ein Netzwerk, beispielsweise das Internet, geladenen Informationen gewonnen, die die Zielstimme, beispielsweise in Form einer Aufnahme, repräsentieren.
  • Um den Vorteil der Individualisierung besonders gut nutzen zu können, handelt es sich bei dem Erzeugnis vorzugsweise um Em bedded Hardware, ein mobiles Endgerät, einen Personal Digital Assistant und/oder ein Erzeugnis mit Mobiltelefonfunktion.
  • Ein Erzeugnis weist Mittel zur Sprachsynthese und Mittel zum Anpassen einer Synthesestimme an eine Zielstimme zur Ausgabe von synthetischer Sprache an eine Zielstimme auf. Vorteilhafte Ausgestaltungen des Erzeugnisses ergeben sich analog zu den vorteilhaften Ausgestaltungen des Verfahrens und umgekehrt. Dazu werden im Erzeugnis entsprechende Mittel und/oder Elemente vorgesehen, die eingerichtet sind, um jeweils einen oder mehrere Verfahrensschritte auszuführen.
  • Ein Programmprodukt für eine Datenverarbeitungsanlage, das Codeabschnitte enthält, mit denen eines der geschilderten Verfahren auf der Datenverarbeitungsanlage ausgeführt werden kann, lässt sich durch geeignete Implementierung des Verfahrens in einer Programmiersprache und Übersetzung in von der Datenverarbeitungsanlage ausführbaren Code ausführen. Die Codeabschnitte werden dazu gespeichert. Dabei wird unter einem Programmprodukt das Programm als handelbares Produkt verstanden. Es kann in beliebiger Form vorliegen, so zum Beispiel auf Papier, einem computerlesbaren Datenträger oder über ein Netz verteilt.
  • Weitere Vorteile und Merkmale der Erfindung ergeben sich aus der Beschreibung eines Ausführungsbeispiels anhand der Zeichnung. Dabei zeigt die Figur ein Ablaufdiagramm eines Verfahrens zur Sprachsynthese.
  • Das Ausführungsbeispiel zur Sprachsynthese basiert darauf, dass mit einem Handy geführte Telefongespräche die Grundlage für eine Stimmadaption bilden und somit das Sprachsynthesesystem des mobilen Endgeräts mit einer der Stimme des Benutzers oder der Stimme des Kommunikationspartners ähnlichen Stimme spricht. Bei diesen Voice-Conversion-Verfahren wird die ursprüngliche Synthesestimme durch Manipulation des Sprachsignals an eine Zielstimme angepasst.
  • Da das Handy den Mikrofonkanal der Benutzerstimme und den Lautsprecherkanal einer bestimmten Rufnummer zuordnen kann, ist ein dieser Stimme zugeordnetes Ablegen von Telefonatabschnitten mit den jeweiligen Stimminhalten möglich.
  • Von den Telefonatabschnitten, die brauchbare Stimmanteile enthalten, wird die Benutzerstimme zur Adaption in verschiedene Stimmmerkmale zerlegt und die Transformationswerte bzw. Warping-Werte werden ermittelt. Mit den Transformationswerten kann aus der vorgegebenen Standardstimme dann eine benutzerähnliche Stimme erzeugt werden. Das akustische Feedback erscheint dem Benutzer dadurch vertrauter und personalisierter.
  • Die angepasste Benutzerstimme kann zum Vorlesen von SMS, E-Mails oder Systemnachrichten verwendet werden.
  • Neben der Adaption auf den Benutzer kann das Verfahren auch für die Kommunikationspartner durchgeführt werden. Der Anruf eines Kommunikationspartners kann dadurch mit dessen Stimme oder zumindest einer ähnlich klingenden Stimme angekündigt werden.
  • Die Berechnung der Transformationsparameter aus den Telefonaten kann entweder zur Laufzeit durchgeführt werden oder, falls nicht genug Prozessorleistung verfügbar ist, während der akustischen Codierung/Decodierung nur gespeichert und zu einem späteren Stand-By-Zeitpunkt des Handys berechnet werden. Im letzteren Fall kann jedoch pro Telefonat aufgrund der Speicherbeschränkung möglicherweise nur ein kleiner Teil eines Telefonats ausgewertet werden.
  • Das Verfahren kann auch auf Datenmaterial von populären Personen angewandt werden und damit beispielsweise ein Download der synthetischen Sprache dieser Persönlichkeiten realisiert werden. Somit ist beispielsweise ein Vorlesen von SMSen mit der Stimme des Lieblingssängers, -schauspielers oder -politikers realisierbar.
  • Die Figur zeigt ein Ablaufdiagramm des Verfahrens zur Sprachsynthese. Im oberen Teil ist die Berechnung von Transformationsparametern (Daten) aus Gesprächsabschnitten dargestellt. Die Berechnung der Transformationsparameter für den Kommunikationspartner bzw. dessen Stimme erfolgt aus Sprachsignalen, die über den Ausgabekanal des Erzeugnisses zum Lautsprecher geleitet werden. Die Berechnung von Transformationsparametern für den Benutzer bzw. dessen Stimme als Zielstimme erfolgt durch die Auswertung von Sprachsignalen, die der Benutzer in den Eingabekanal mit Mikrofon eingibt.
  • Die Transformationsparameter werden Rufnummern zugeordnet und abgespeichert. So werden beispielsweise zum Benutzer die Parameter A, zur Telefonnummer 1 die Parameter B und zur Telefonnummer 2 die Parameter C abgespeichert.
  • Schließlich erfolgt die Verwendung der Transformationsparameter zur Sprachsynthese. Die Sprachsynthese wird mit Transformationsparametern des Benutzers bzw. der zugeordneten anrufenden Telefonnummer durchgeführt. Es erfolgt die Ausgabe der dem Benutzer bzw. dem Kommunikationspartner ähnlichen Stimme.
  • Durch die Bereitstellung einer Benutzer- und/oder kommunikationspartnerstimmähnlichen Sprachausgabe kann ein völlig neues Produktmerkmal für mobile Endgeräte angeboten werden. Gerade für das Marketing von emotionalen und benutzeradaptierten Produktmerkmalen bietet das vorgeschlagene Verfahren entscheidende Vorteile. Dabei ist besonders im Zusammenhang mit Avataren eine benutzer- und/oder kommunikationspartnerstimmähnliche Sprachausgabe interessant, beispielsweise beim Vorlesen von eingehenden SMS mit der Stimme des Senders und mit einer lippenanimierten Anzeige eines dazu passenden Calling-Face-Bildes, das ebenfalls auf den Sender personalisiert sein kann.
  • Das Verfahren kann vorhandene Sprachsynthesekomponenten nutzen und bedarf keiner spezifischen Zusatzhardware. Dadurch ist das Verfahren kostengünstig realisierbar. Wird das Feature von Benutzern nicht gewünscht, kann jederzeit die Standardstimme der Sprachsynthese wieder verwendet werden.
  • Für das Verfahren ist eine bestimmte Datenmenge von Gesprächsaufnahmen notwendig. Wird beispielsweise das noch notwendige Volumen dem Benutzer angezeigt, kann er selbst durch häufigeres Telefonieren die notwendige Datenmenge schneller erreichen und die Stimmqualität steigern bzw. weiter anpassen. Dies bietet wiederum für die Netzwerk-Provider ein interessantes Potential zur Erhöhung der Air-Time.

Claims (13)

  1. Verfahren zur Sprachsynthese auf einem Erzeugnis, bei dem eine Synthesestimme an eine Zielstimme angepasst synthetisiert wird.
  2. Verfahren nach Anspruch 1, bei dem die Zielstimme die Stimme eines Benutzers des Erzeugnisses ist.
  3. Verfahren nach Anspruch 2, bei dem Daten zum Anpassen der Synthesestimme an die Zielstimme aus von dem Benutzer in das Erzeugnis eingesprochenen Sprachsignalen gewonnen werden.
  4. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Erzeugnis ein Kommunikationserzeugnis ist.
  5. Verfahren nach den Ansprüchen 3 und 4, bei dem die Daten zum Anpassen der Synthesestimme an die Zielstimme aus vom Benutzer zur Kommunikation in das Erzeugnis eingesprochenen Sprachsignalen gewonnen werden.
  6. Verfahren nach Anspruch 4, bei dem die Zielstimme die Stimme eines Kommunikationspartners ist.
  7. Verfahren nach Anspruch 6, bei dem Daten zum Anpassen der Synthesestimme an die Zielstimme aus vom Kommunikationspartner zur Kommunikation mit dem Benutzer übermittelten Sprachsignalen gewonnen werden.
  8. Verfahren nach einem der Ansprüche 6 oder 7, bei dem der Kommunikationspartner eine Kommunikationskennung hat und die Kommunikationskennung der Zielstimme zugeordnet wird.
  9. Verfahren nach einem der Ansprüche 5 oder 7, bei die Sprachsignale während der Kommunikation gespeichert und nach Ende der Kommunikation die Daten zum Anpassen der Synthesestimme an die Zielstimme aus den gespeicherten Sprachsignalen gewonnen werden.
  10. Verfahren nach Anspruch 1, bei dem Daten zum Anpassen der Synthesestimme an die Zielstimme aus über ein Netzwerk geladenem Datenmaterial gewonnen werden.
  11. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Erzeugnis Embedded Hardware, ein mobiles Endgerät und/oder ein Gerät mit Mobiltelefonfunktion ist.
  12. Erzeugnis mit – Mitteln zur Sprachsynthese – Mitteln zum Anpassen einer Synthesestimme zur Ausgabe von synthetisierter Sprache an eine Zielstimme.
  13. Programmprodukt für eine Datenverarbeitungsanlage, das Codeabschnitte enthält, mit denen ein Verfahren nach einem der Ansprüche 1 bis 11 auf der Datenverarbeitungsanlage ausführbar ist.
DE102004012208A 2004-03-12 2004-03-12 Individualisierung von Sprachausgabe durch Anpassen einer Synthesestimme an eine Zielstimme Ceased DE102004012208A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE102004012208A DE102004012208A1 (de) 2004-03-12 2004-03-12 Individualisierung von Sprachausgabe durch Anpassen einer Synthesestimme an eine Zielstimme
US11/077,153 US7664645B2 (en) 2004-03-12 2005-03-11 Individualization of voice output by matching synthesized voice target voice

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102004012208A DE102004012208A1 (de) 2004-03-12 2004-03-12 Individualisierung von Sprachausgabe durch Anpassen einer Synthesestimme an eine Zielstimme

Publications (1)

Publication Number Publication Date
DE102004012208A1 true DE102004012208A1 (de) 2005-09-29

Family

ID=34895307

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102004012208A Ceased DE102004012208A1 (de) 2004-03-12 2004-03-12 Individualisierung von Sprachausgabe durch Anpassen einer Synthesestimme an eine Zielstimme

Country Status (2)

Country Link
US (1) US7664645B2 (de)
DE (1) DE102004012208A1 (de)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080161057A1 (en) * 2005-04-15 2008-07-03 Nokia Corporation Voice conversion in ring tones and other features for a communication device
US20070101010A1 (en) * 2005-11-01 2007-05-03 Microsoft Corporation Human interactive proof with authentication
JP2008172579A (ja) * 2007-01-12 2008-07-24 Brother Ind Ltd 通信装置
JP4966048B2 (ja) * 2007-02-20 2012-07-04 株式会社東芝 声質変換装置及び音声合成装置
US8886537B2 (en) * 2007-03-20 2014-11-11 Nuance Communications, Inc. Method and system for text-to-speech synthesis with personalized voice
WO2008132533A1 (en) * 2007-04-26 2008-11-06 Nokia Corporation Text-to-speech conversion method, apparatus and system
CN101359473A (zh) * 2007-07-30 2009-02-04 国际商业机器公司 自动进行语音转换的方法和装置
US8751239B2 (en) * 2007-10-04 2014-06-10 Core Wireless Licensing, S.a.r.l. Method, apparatus and computer program product for providing text independent voice conversion
US20090177473A1 (en) * 2008-01-07 2009-07-09 Aaron Andrew S Applying vocal characteristics from a target speaker to a source speaker for synthetic speech
EP2104096B1 (de) * 2008-03-20 2020-05-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und verfahren zum umwandeln eines audiosignals in eine parametrisierende darstellung, vorrichtung und verfahren zum modifizieren einer parametrisierenden darstellung, vorrichtung und verfahren zur synchronisation eines audiosignals
US8655660B2 (en) * 2008-12-11 2014-02-18 International Business Machines Corporation Method for dynamic learning of individual voice patterns
US20100153116A1 (en) * 2008-12-12 2010-06-17 Zsolt Szalai Method for storing and retrieving voice fonts
US8352269B2 (en) * 2009-01-15 2013-01-08 K-Nfb Reading Technology, Inc. Systems and methods for processing indicia for document narration
EP2518723A4 (de) * 2009-12-21 2012-11-28 Fujitsu Ltd Sprachsteuerung und sprachsteuerungsverfahren
TW201236444A (en) 2010-12-22 2012-09-01 Seyyer Inc Video transmission and sharing over ultra-low bitrate wireless communication channel
EP2705515A4 (de) * 2011-05-06 2015-04-29 Seyyer Inc Videoherstellung auf textbasis
RU2510954C2 (ru) * 2012-05-18 2014-04-10 Александр Юрьевич Бредихин Способ переозвучивания аудиоматериалов и устройство для его осуществления
US9570066B2 (en) * 2012-07-16 2017-02-14 General Motors Llc Sender-responsive text-to-speech processing
CN105096934B (zh) * 2015-06-30 2019-02-12 百度在线网络技术(北京)有限公司 构建语音特征库的方法、语音合成方法、装置及设备
EP3113175A1 (de) * 2015-07-02 2017-01-04 Thomson Licensing Verfahren zur umwandlung von text zu individueller sprache und vorrichtung zur umwandlung von text zu individueller sprache
US9830903B2 (en) 2015-11-10 2017-11-28 Paul Wendell Mason Method and apparatus for using a vocal sample to customize text to speech applications
KR20200027475A (ko) 2017-05-24 2020-03-12 모듈레이트, 인크 음성 대 음성 변환을 위한 시스템 및 방법
WO2021030759A1 (en) 2019-08-14 2021-02-18 Modulate, Inc. Generation and detection of watermark for real-time voice conversion
US11373633B2 (en) * 2019-09-27 2022-06-28 Amazon Technologies, Inc. Text-to-speech processing using input voice characteristic data
US11996117B2 (en) 2020-10-08 2024-05-28 Modulate, Inc. Multi-stage adaptive system for content moderation

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19841683A1 (de) * 1998-09-11 2000-05-11 Hans Kull Vorrichtung und Verfahren zur digitalen Sprachbearbeitung
JP2002023777A (ja) * 2000-06-26 2002-01-25 Internatl Business Mach Corp <Ibm> 音声合成システム、音声合成方法、サーバ、記憶媒体、プログラム伝送装置、音声合成データ記憶媒体、音声出力機器
DE10207875A1 (de) * 2002-02-19 2003-08-28 Deutsche Telekom Ag Parametergesteuerte Sprachsynthese
DE69811656T2 (de) * 1997-04-28 2003-10-16 Ivl Technologies Ltd Stimmentransformation nach einer zielstimme

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5007081A (en) * 1989-01-05 1991-04-09 Origin Technology, Inc. Speech activated telephone
US5594786A (en) * 1990-07-27 1997-01-14 Executone Information Systems, Inc. Patient care and communication system
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
US5473666A (en) * 1992-09-11 1995-12-05 Reliance Comm/Tec Corporation Method and apparatus for digitally controlling gain in a talking path
US5717828A (en) * 1995-03-15 1998-02-10 Syracuse Language Systems Speech recognition apparatus and method for learning
US5774841A (en) * 1995-09-20 1998-06-30 The United States Of America As Represented By The Adminstrator Of The National Aeronautics And Space Administration Real-time reconfigurable adaptive speech recognition command and control apparatus and method
US6490562B1 (en) * 1997-04-09 2002-12-03 Matsushita Electric Industrial Co., Ltd. Method and system for analyzing voices

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69811656T2 (de) * 1997-04-28 2003-10-16 Ivl Technologies Ltd Stimmentransformation nach einer zielstimme
DE19841683A1 (de) * 1998-09-11 2000-05-11 Hans Kull Vorrichtung und Verfahren zur digitalen Sprachbearbeitung
JP2002023777A (ja) * 2000-06-26 2002-01-25 Internatl Business Mach Corp <Ibm> 音声合成システム、音声合成方法、サーバ、記憶媒体、プログラム伝送装置、音声合成データ記憶媒体、音声出力機器
DE10207875A1 (de) * 2002-02-19 2003-08-28 Deutsche Telekom Ag Parametergesteuerte Sprachsynthese

Also Published As

Publication number Publication date
US7664645B2 (en) 2010-02-16
US20050203743A1 (en) 2005-09-15

Similar Documents

Publication Publication Date Title
DE102004012208A1 (de) Individualisierung von Sprachausgabe durch Anpassen einer Synthesestimme an eine Zielstimme
CN105869626B (zh) 一种语速自动调节的方法及终端
WO2021147237A1 (zh) 语音信号处理方法、装置、电子设备及存储介质
CN109410973B (zh) 变声处理方法、装置和计算机可读存储介质
KR20050102079A (ko) 이동영상통신을 위한 아바타 데이터베이스
CN111294471B (zh) 一种智能电话应答方法和系统
KR100974054B1 (ko) 무선장치내 커스텀 오디오 프로파일 제공
EP2380170B1 (de) Verfahren und system zur anpassung von kommunikation
DE112004000187T5 (de) Verfahren und Vorrichtung der prosodischen Simulations-Synthese
CN108184032A (zh) 一种客服系统的服务方法及装置
CN107800860A (zh) 语音处理方法、装置及终端设备
DE112019001058T5 (de) Stimmeneffekte basierend auf gesichtsausdrücken
CN107886963B (zh) 一种语音处理的方法、装置及电子设备
EP1670165B1 (de) Verfahren und modellbasiertes Audio-und Videosystem zur Darstellung einer virtuellen Figur
CN107623830A (zh) 一种视频通话方法及电子设备
CN103731541A (zh) 对通话中的音频进行控制的方法及终端
DE19751123C1 (de) Vorrichtung und Verfahren zur sprecherunabhängigen Sprachnamenwahl für Telekommunikations-Endeinrichtungen
CN112634886B (zh) 一种智能设备的交互方法、服务器、计算设备及存储介质
DE19638114A1 (de) Verfahren zum Einstellen von endgerätespezifischen Parametern eines Kommunikationsendgerätes
WO2020221865A1 (de) Verfahren, computerprogrammprodukt, system und vorrichtung zum modifizieren von akustischen interaktionssignalen, die von mindestens einem interaktionspartner erzeugt werden, hinsichtlich eines interaktionsziels
CN111194545A (zh) 一种移动通讯设备通话时改变原始声音的方法和系统
DE602004010522T2 (de) Verfahren zur bereitstellung von hintergrundschall aus einem persönlichen tragbaren endgerät während der kommunikation
CN107016949A (zh) 信息展示方法、装置及其设备
DE10254183A1 (de) Verfahren zur Wiedergabe von gesendeten Textnachrichten
Choo et al. Blind bandwidth extension system utilizing advanced spectral envelope predictor

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
R002 Refusal decision in examination/registration proceedings
R003 Refusal decision now final