DE102004012208A1 - Individualisierung von Sprachausgabe durch Anpassen einer Synthesestimme an eine Zielstimme - Google Patents
Individualisierung von Sprachausgabe durch Anpassen einer Synthesestimme an eine Zielstimme Download PDFInfo
- Publication number
- DE102004012208A1 DE102004012208A1 DE102004012208A DE102004012208A DE102004012208A1 DE 102004012208 A1 DE102004012208 A1 DE 102004012208A1 DE 102004012208 A DE102004012208 A DE 102004012208A DE 102004012208 A DE102004012208 A DE 102004012208A DE 102004012208 A1 DE102004012208 A1 DE 102004012208A1
- Authority
- DE
- Germany
- Prior art keywords
- voice
- synthesis
- product
- communication
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 36
- 238000003786 synthesis reaction Methods 0.000 title claims description 36
- 238000004891 communication Methods 0.000 claims abstract description 41
- 238000000034 method Methods 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 description 10
- 230000006978 adaptation Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
Die Stimme einer synthetischen Sprachausgabe kann individualisiert und beispielsweise an eine Benutzerstimme, die Stimme eines Kommunikationspartners oder die Stimme einer berühmten Persönlichkeit angepasst werden. Dadurch lassen sich insbesondere mobile Endgeräte originell individualisieren und beispielsweise Textmeldungen mit einer gewünschten Stimme vorlesen.
Description
- Die Emotionalisierung von mobilen Endgeräten ist ein zunehmender Faktor in der Verkaufsstrategie. Personalisierungen durch Logos und Klingeltöne sowie flexible Oberflächengestaltungen und individuelle Designs von Handys rücken hierbei immer mehr in den Vordergrund. Auch die sprachliche Interaktion ermöglicht neue Kommunikationsstrukturen zum Endgerät und erlaubt damit immer natürlichere und individuellere Interaktionen.
- Neben der komfortablen sprachlichen Eingabe ist auch die sprachliche Ausgabe ein wichtiges zukünftiges Produktmerkmal, da hierdurch eine Hands-Free-Kommunikation realisiert werden kann. Diese Hands-Free-Kommunikation erlaubt durch akustisches Feedback eine sprachliche Interaktion ohne manuellen Eingriff und kann daher beispielsweise in Fahrzeugumgebungen, bei eingestecktem Handy oder beim Joggen angewandt werden.
- Derzeit sind verfügbare Text-to-Speech-Systeme entweder mit Standardsprechern oder mit Corporate Voices ausgestattet, die eine produktspezifische Ausrichtung der Sprache und des Text-to-Speech-Sprechers erlauben.
- Davon ausgehend liegt der Erfindung die Aufgabe zugrunde, eine Möglichkeit der Individualisierung der Sprachausgabe anzugeben, die Kunden von mobilen Endgeräten einen neuen Kaufanreiz bietet.
- Diese Aufgabe wird durch die in den unabhängigen Patentansprüchen angegebenen Erfindungen gelöst. Vorteilhafte Ausgestaltungen ergeben sich aus den abhängigen Patentansprüchen.
- Dementsprechend wird in einem Verfahren zur Sprachsynthese auf einem Erzeugnis eine Synthesestimme, die zur Ausgabe der synthetisierten Sprache dient, an eine Zielstimme angepasst, so dass die Synthesestimme der Zielstimme ähnlich ist.
- Die Zielstimme ist insbesondere die Stimme des Benutzers des Erzeugnisses.
- Oft ist ein explizites Training zur Aufnahme der eigenen Stimme als Grundlage für eine neue synthetisierte Stimmausgabe inakzeptabel. Deshalb ist es vorteilhaft, wenn Daten zum Anpassen der Synthesestimme an die Zielstimme aus vom Benutzer ohnehin zu anderen Zwecken als dem Anpassen der Synthesestimme an die Zielstimme in das Erzeugnis eingesprochenen Sprachsignalen gewonnen werden. Die Daten zum Anpassen der Synthesestimme an die Zielstimme sind insbesondere Transformationsparameter.
- Vorzugsweise ist das Erzeugnis ein Kommunikationserzeugnis, in das der Benutzer einspricht, um mit einem realen menschlichen Kommunikationspartner zu kommunizieren. Die Daten zum Anpassen der Synthesestimme an die Zielstimme werden dann aus vom Benutzer zur Kommunikation mit dem Kommunikationspartner in das Erzeugnis eingesprochenen Sprachsignalen gewonnen.
- Alternativ oder ergänzend kann die Zielstimme die Stimme des Kommunikationspartners sein, mit dem der Benutzer über das Erzeugnis kommuniziert.
- Ein explizites Training zur Aufnahme der Stimme des Kommunikationspartners als Grundlage für eine neue synthetisierte Stimmausgabe wird im Hinblick auf den Kommunikationspartner in der Regel nicht durchzuführen sein. Deshalb werden Daten zum Anpassen der Synthesestimme an die Zielstimme vorzugsweise aus vom Kommunikationspartner zur Kommunikation mit dem Benutzer eingesprochenen und übermittelten Sprachsignalen gewonnen.
- Insbesondere wird die Synthesestimme zumindest so weit an die Zielstimme angepasst, dass das Geschlecht des Kommunikationspartners erkennbar ist.
- Bei der Kommunikation über ein Kommunikationserzeugnis verfügt heute praktisch jeder Kommunikationspartner über eine Kommunikationskennung, beispielsweise in Form einer Telefonnummer oder URL. Wird diese Kommunikationskennung der Zielstimme zugewiesen, so kann, wenn ein Anpassen der Synthesestimme an die Zielstimme durchgeführt worden ist, ein Anruf des Kommunikationspartners mit einer seiner Stimme ähnlichen Synthesestimme angekündigt und/oder eine Textmeldung des Kommunikationspartners mit einer seiner Stimme ähnlichen Synthesestimme vorgelesen werden.
- Wenn die Performance des Erzeugnisses nicht ausreicht, um Kommunikation und Anpassen der Synthesestimme an die Zielstimme gleichzeitig durchzuführen, können die Sprachsignale in Form von Sprache repräsentierenden Signale während der Kommunikation gespeichert werden. Nach Ende der Kommunikation werden dann aus diesen gespeicherten Sprachsignalen die Daten zum Anpassen der Synthesestimme an die Zielstimme gewonnen.
- Erfahrungsgemäß werden Mobiltelefone immer seltener zum Telefonieren benutzt. Dies kann zu dem Problem führen, dass keine Stimme eines Kommunikationspartners mehr zur Verfügung steht. Deshalb kann alternativ oder ergänzend die Zielstimme die Stimme eines Dritten sein, beispielsweise einer bekannten Persönlichkeit. Die Daten zum Anpassen der Synthesestimme an die Zielstimme werden dann aus über ein Netzwerk, beispielsweise das Internet, geladenen Informationen gewonnen, die die Zielstimme, beispielsweise in Form einer Aufnahme, repräsentieren.
- Um den Vorteil der Individualisierung besonders gut nutzen zu können, handelt es sich bei dem Erzeugnis vorzugsweise um Em bedded Hardware, ein mobiles Endgerät, einen Personal Digital Assistant und/oder ein Erzeugnis mit Mobiltelefonfunktion.
- Ein Erzeugnis weist Mittel zur Sprachsynthese und Mittel zum Anpassen einer Synthesestimme an eine Zielstimme zur Ausgabe von synthetischer Sprache an eine Zielstimme auf. Vorteilhafte Ausgestaltungen des Erzeugnisses ergeben sich analog zu den vorteilhaften Ausgestaltungen des Verfahrens und umgekehrt. Dazu werden im Erzeugnis entsprechende Mittel und/oder Elemente vorgesehen, die eingerichtet sind, um jeweils einen oder mehrere Verfahrensschritte auszuführen.
- Ein Programmprodukt für eine Datenverarbeitungsanlage, das Codeabschnitte enthält, mit denen eines der geschilderten Verfahren auf der Datenverarbeitungsanlage ausgeführt werden kann, lässt sich durch geeignete Implementierung des Verfahrens in einer Programmiersprache und Übersetzung in von der Datenverarbeitungsanlage ausführbaren Code ausführen. Die Codeabschnitte werden dazu gespeichert. Dabei wird unter einem Programmprodukt das Programm als handelbares Produkt verstanden. Es kann in beliebiger Form vorliegen, so zum Beispiel auf Papier, einem computerlesbaren Datenträger oder über ein Netz verteilt.
- Weitere Vorteile und Merkmale der Erfindung ergeben sich aus der Beschreibung eines Ausführungsbeispiels anhand der Zeichnung. Dabei zeigt die Figur ein Ablaufdiagramm eines Verfahrens zur Sprachsynthese.
- Das Ausführungsbeispiel zur Sprachsynthese basiert darauf, dass mit einem Handy geführte Telefongespräche die Grundlage für eine Stimmadaption bilden und somit das Sprachsynthesesystem des mobilen Endgeräts mit einer der Stimme des Benutzers oder der Stimme des Kommunikationspartners ähnlichen Stimme spricht. Bei diesen Voice-Conversion-Verfahren wird die ursprüngliche Synthesestimme durch Manipulation des Sprachsignals an eine Zielstimme angepasst.
- Da das Handy den Mikrofonkanal der Benutzerstimme und den Lautsprecherkanal einer bestimmten Rufnummer zuordnen kann, ist ein dieser Stimme zugeordnetes Ablegen von Telefonatabschnitten mit den jeweiligen Stimminhalten möglich.
- Von den Telefonatabschnitten, die brauchbare Stimmanteile enthalten, wird die Benutzerstimme zur Adaption in verschiedene Stimmmerkmale zerlegt und die Transformationswerte bzw. Warping-Werte werden ermittelt. Mit den Transformationswerten kann aus der vorgegebenen Standardstimme dann eine benutzerähnliche Stimme erzeugt werden. Das akustische Feedback erscheint dem Benutzer dadurch vertrauter und personalisierter.
- Die angepasste Benutzerstimme kann zum Vorlesen von SMS, E-Mails oder Systemnachrichten verwendet werden.
- Neben der Adaption auf den Benutzer kann das Verfahren auch für die Kommunikationspartner durchgeführt werden. Der Anruf eines Kommunikationspartners kann dadurch mit dessen Stimme oder zumindest einer ähnlich klingenden Stimme angekündigt werden.
- Die Berechnung der Transformationsparameter aus den Telefonaten kann entweder zur Laufzeit durchgeführt werden oder, falls nicht genug Prozessorleistung verfügbar ist, während der akustischen Codierung/Decodierung nur gespeichert und zu einem späteren Stand-By-Zeitpunkt des Handys berechnet werden. Im letzteren Fall kann jedoch pro Telefonat aufgrund der Speicherbeschränkung möglicherweise nur ein kleiner Teil eines Telefonats ausgewertet werden.
- Das Verfahren kann auch auf Datenmaterial von populären Personen angewandt werden und damit beispielsweise ein Download der synthetischen Sprache dieser Persönlichkeiten realisiert werden. Somit ist beispielsweise ein Vorlesen von SMSen mit der Stimme des Lieblingssängers, -schauspielers oder -politikers realisierbar.
- Die Figur zeigt ein Ablaufdiagramm des Verfahrens zur Sprachsynthese. Im oberen Teil ist die Berechnung von Transformationsparametern (Daten) aus Gesprächsabschnitten dargestellt. Die Berechnung der Transformationsparameter für den Kommunikationspartner bzw. dessen Stimme erfolgt aus Sprachsignalen, die über den Ausgabekanal des Erzeugnisses zum Lautsprecher geleitet werden. Die Berechnung von Transformationsparametern für den Benutzer bzw. dessen Stimme als Zielstimme erfolgt durch die Auswertung von Sprachsignalen, die der Benutzer in den Eingabekanal mit Mikrofon eingibt.
- Die Transformationsparameter werden Rufnummern zugeordnet und abgespeichert. So werden beispielsweise zum Benutzer die Parameter A, zur Telefonnummer 1 die Parameter B und zur Telefonnummer 2 die Parameter C abgespeichert.
- Schließlich erfolgt die Verwendung der Transformationsparameter zur Sprachsynthese. Die Sprachsynthese wird mit Transformationsparametern des Benutzers bzw. der zugeordneten anrufenden Telefonnummer durchgeführt. Es erfolgt die Ausgabe der dem Benutzer bzw. dem Kommunikationspartner ähnlichen Stimme.
- Durch die Bereitstellung einer Benutzer- und/oder kommunikationspartnerstimmähnlichen Sprachausgabe kann ein völlig neues Produktmerkmal für mobile Endgeräte angeboten werden. Gerade für das Marketing von emotionalen und benutzeradaptierten Produktmerkmalen bietet das vorgeschlagene Verfahren entscheidende Vorteile. Dabei ist besonders im Zusammenhang mit Avataren eine benutzer- und/oder kommunikationspartnerstimmähnliche Sprachausgabe interessant, beispielsweise beim Vorlesen von eingehenden SMS mit der Stimme des Senders und mit einer lippenanimierten Anzeige eines dazu passenden Calling-Face-Bildes, das ebenfalls auf den Sender personalisiert sein kann.
- Das Verfahren kann vorhandene Sprachsynthesekomponenten nutzen und bedarf keiner spezifischen Zusatzhardware. Dadurch ist das Verfahren kostengünstig realisierbar. Wird das Feature von Benutzern nicht gewünscht, kann jederzeit die Standardstimme der Sprachsynthese wieder verwendet werden.
- Für das Verfahren ist eine bestimmte Datenmenge von Gesprächsaufnahmen notwendig. Wird beispielsweise das noch notwendige Volumen dem Benutzer angezeigt, kann er selbst durch häufigeres Telefonieren die notwendige Datenmenge schneller erreichen und die Stimmqualität steigern bzw. weiter anpassen. Dies bietet wiederum für die Netzwerk-Provider ein interessantes Potential zur Erhöhung der Air-Time.
Claims (13)
- Verfahren zur Sprachsynthese auf einem Erzeugnis, bei dem eine Synthesestimme an eine Zielstimme angepasst synthetisiert wird.
- Verfahren nach Anspruch 1, bei dem die Zielstimme die Stimme eines Benutzers des Erzeugnisses ist.
- Verfahren nach Anspruch 2, bei dem Daten zum Anpassen der Synthesestimme an die Zielstimme aus von dem Benutzer in das Erzeugnis eingesprochenen Sprachsignalen gewonnen werden.
- Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Erzeugnis ein Kommunikationserzeugnis ist.
- Verfahren nach den Ansprüchen 3 und 4, bei dem die Daten zum Anpassen der Synthesestimme an die Zielstimme aus vom Benutzer zur Kommunikation in das Erzeugnis eingesprochenen Sprachsignalen gewonnen werden.
- Verfahren nach Anspruch 4, bei dem die Zielstimme die Stimme eines Kommunikationspartners ist.
- Verfahren nach Anspruch 6, bei dem Daten zum Anpassen der Synthesestimme an die Zielstimme aus vom Kommunikationspartner zur Kommunikation mit dem Benutzer übermittelten Sprachsignalen gewonnen werden.
- Verfahren nach einem der Ansprüche 6 oder 7, bei dem der Kommunikationspartner eine Kommunikationskennung hat und die Kommunikationskennung der Zielstimme zugeordnet wird.
- Verfahren nach einem der Ansprüche 5 oder 7, bei die Sprachsignale während der Kommunikation gespeichert und nach Ende der Kommunikation die Daten zum Anpassen der Synthesestimme an die Zielstimme aus den gespeicherten Sprachsignalen gewonnen werden.
- Verfahren nach Anspruch 1, bei dem Daten zum Anpassen der Synthesestimme an die Zielstimme aus über ein Netzwerk geladenem Datenmaterial gewonnen werden.
- Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Erzeugnis Embedded Hardware, ein mobiles Endgerät und/oder ein Gerät mit Mobiltelefonfunktion ist.
- Erzeugnis mit – Mitteln zur Sprachsynthese – Mitteln zum Anpassen einer Synthesestimme zur Ausgabe von synthetisierter Sprache an eine Zielstimme.
- Programmprodukt für eine Datenverarbeitungsanlage, das Codeabschnitte enthält, mit denen ein Verfahren nach einem der Ansprüche 1 bis 11 auf der Datenverarbeitungsanlage ausführbar ist.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102004012208A DE102004012208A1 (de) | 2004-03-12 | 2004-03-12 | Individualisierung von Sprachausgabe durch Anpassen einer Synthesestimme an eine Zielstimme |
US11/077,153 US7664645B2 (en) | 2004-03-12 | 2005-03-11 | Individualization of voice output by matching synthesized voice target voice |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102004012208A DE102004012208A1 (de) | 2004-03-12 | 2004-03-12 | Individualisierung von Sprachausgabe durch Anpassen einer Synthesestimme an eine Zielstimme |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102004012208A1 true DE102004012208A1 (de) | 2005-09-29 |
Family
ID=34895307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102004012208A Ceased DE102004012208A1 (de) | 2004-03-12 | 2004-03-12 | Individualisierung von Sprachausgabe durch Anpassen einer Synthesestimme an eine Zielstimme |
Country Status (2)
Country | Link |
---|---|
US (1) | US7664645B2 (de) |
DE (1) | DE102004012208A1 (de) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080161057A1 (en) * | 2005-04-15 | 2008-07-03 | Nokia Corporation | Voice conversion in ring tones and other features for a communication device |
US20070101010A1 (en) * | 2005-11-01 | 2007-05-03 | Microsoft Corporation | Human interactive proof with authentication |
JP2008172579A (ja) * | 2007-01-12 | 2008-07-24 | Brother Ind Ltd | 通信装置 |
JP4966048B2 (ja) * | 2007-02-20 | 2012-07-04 | 株式会社東芝 | 声質変換装置及び音声合成装置 |
US8886537B2 (en) * | 2007-03-20 | 2014-11-11 | Nuance Communications, Inc. | Method and system for text-to-speech synthesis with personalized voice |
WO2008132533A1 (en) * | 2007-04-26 | 2008-11-06 | Nokia Corporation | Text-to-speech conversion method, apparatus and system |
CN101359473A (zh) * | 2007-07-30 | 2009-02-04 | 国际商业机器公司 | 自动进行语音转换的方法和装置 |
US8751239B2 (en) * | 2007-10-04 | 2014-06-10 | Core Wireless Licensing, S.a.r.l. | Method, apparatus and computer program product for providing text independent voice conversion |
US20090177473A1 (en) * | 2008-01-07 | 2009-07-09 | Aaron Andrew S | Applying vocal characteristics from a target speaker to a source speaker for synthetic speech |
EP2104096B1 (de) * | 2008-03-20 | 2020-05-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und verfahren zum umwandeln eines audiosignals in eine parametrisierende darstellung, vorrichtung und verfahren zum modifizieren einer parametrisierenden darstellung, vorrichtung und verfahren zur synchronisation eines audiosignals |
US8655660B2 (en) * | 2008-12-11 | 2014-02-18 | International Business Machines Corporation | Method for dynamic learning of individual voice patterns |
US20100153116A1 (en) * | 2008-12-12 | 2010-06-17 | Zsolt Szalai | Method for storing and retrieving voice fonts |
US8352269B2 (en) * | 2009-01-15 | 2013-01-08 | K-Nfb Reading Technology, Inc. | Systems and methods for processing indicia for document narration |
EP2518723A4 (de) * | 2009-12-21 | 2012-11-28 | Fujitsu Ltd | Sprachsteuerung und sprachsteuerungsverfahren |
TW201236444A (en) | 2010-12-22 | 2012-09-01 | Seyyer Inc | Video transmission and sharing over ultra-low bitrate wireless communication channel |
EP2705515A4 (de) * | 2011-05-06 | 2015-04-29 | Seyyer Inc | Videoherstellung auf textbasis |
RU2510954C2 (ru) * | 2012-05-18 | 2014-04-10 | Александр Юрьевич Бредихин | Способ переозвучивания аудиоматериалов и устройство для его осуществления |
US9570066B2 (en) * | 2012-07-16 | 2017-02-14 | General Motors Llc | Sender-responsive text-to-speech processing |
CN105096934B (zh) * | 2015-06-30 | 2019-02-12 | 百度在线网络技术(北京)有限公司 | 构建语音特征库的方法、语音合成方法、装置及设备 |
EP3113175A1 (de) * | 2015-07-02 | 2017-01-04 | Thomson Licensing | Verfahren zur umwandlung von text zu individueller sprache und vorrichtung zur umwandlung von text zu individueller sprache |
US9830903B2 (en) | 2015-11-10 | 2017-11-28 | Paul Wendell Mason | Method and apparatus for using a vocal sample to customize text to speech applications |
KR20200027475A (ko) | 2017-05-24 | 2020-03-12 | 모듈레이트, 인크 | 음성 대 음성 변환을 위한 시스템 및 방법 |
WO2021030759A1 (en) | 2019-08-14 | 2021-02-18 | Modulate, Inc. | Generation and detection of watermark for real-time voice conversion |
US11373633B2 (en) * | 2019-09-27 | 2022-06-28 | Amazon Technologies, Inc. | Text-to-speech processing using input voice characteristic data |
US11996117B2 (en) | 2020-10-08 | 2024-05-28 | Modulate, Inc. | Multi-stage adaptive system for content moderation |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19841683A1 (de) * | 1998-09-11 | 2000-05-11 | Hans Kull | Vorrichtung und Verfahren zur digitalen Sprachbearbeitung |
JP2002023777A (ja) * | 2000-06-26 | 2002-01-25 | Internatl Business Mach Corp <Ibm> | 音声合成システム、音声合成方法、サーバ、記憶媒体、プログラム伝送装置、音声合成データ記憶媒体、音声出力機器 |
DE10207875A1 (de) * | 2002-02-19 | 2003-08-28 | Deutsche Telekom Ag | Parametergesteuerte Sprachsynthese |
DE69811656T2 (de) * | 1997-04-28 | 2003-10-16 | Ivl Technologies Ltd | Stimmentransformation nach einer zielstimme |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5007081A (en) * | 1989-01-05 | 1991-04-09 | Origin Technology, Inc. | Speech activated telephone |
US5594786A (en) * | 1990-07-27 | 1997-01-14 | Executone Information Systems, Inc. | Patient care and communication system |
WO1993018505A1 (en) * | 1992-03-02 | 1993-09-16 | The Walt Disney Company | Voice transformation system |
US5473666A (en) * | 1992-09-11 | 1995-12-05 | Reliance Comm/Tec Corporation | Method and apparatus for digitally controlling gain in a talking path |
US5717828A (en) * | 1995-03-15 | 1998-02-10 | Syracuse Language Systems | Speech recognition apparatus and method for learning |
US5774841A (en) * | 1995-09-20 | 1998-06-30 | The United States Of America As Represented By The Adminstrator Of The National Aeronautics And Space Administration | Real-time reconfigurable adaptive speech recognition command and control apparatus and method |
US6490562B1 (en) * | 1997-04-09 | 2002-12-03 | Matsushita Electric Industrial Co., Ltd. | Method and system for analyzing voices |
-
2004
- 2004-03-12 DE DE102004012208A patent/DE102004012208A1/de not_active Ceased
-
2005
- 2005-03-11 US US11/077,153 patent/US7664645B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69811656T2 (de) * | 1997-04-28 | 2003-10-16 | Ivl Technologies Ltd | Stimmentransformation nach einer zielstimme |
DE19841683A1 (de) * | 1998-09-11 | 2000-05-11 | Hans Kull | Vorrichtung und Verfahren zur digitalen Sprachbearbeitung |
JP2002023777A (ja) * | 2000-06-26 | 2002-01-25 | Internatl Business Mach Corp <Ibm> | 音声合成システム、音声合成方法、サーバ、記憶媒体、プログラム伝送装置、音声合成データ記憶媒体、音声出力機器 |
DE10207875A1 (de) * | 2002-02-19 | 2003-08-28 | Deutsche Telekom Ag | Parametergesteuerte Sprachsynthese |
Also Published As
Publication number | Publication date |
---|---|
US7664645B2 (en) | 2010-02-16 |
US20050203743A1 (en) | 2005-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102004012208A1 (de) | Individualisierung von Sprachausgabe durch Anpassen einer Synthesestimme an eine Zielstimme | |
CN105869626B (zh) | 一种语速自动调节的方法及终端 | |
WO2021147237A1 (zh) | 语音信号处理方法、装置、电子设备及存储介质 | |
CN109410973B (zh) | 变声处理方法、装置和计算机可读存储介质 | |
KR20050102079A (ko) | 이동영상통신을 위한 아바타 데이터베이스 | |
CN111294471B (zh) | 一种智能电话应答方法和系统 | |
KR100974054B1 (ko) | 무선장치내 커스텀 오디오 프로파일 제공 | |
EP2380170B1 (de) | Verfahren und system zur anpassung von kommunikation | |
DE112004000187T5 (de) | Verfahren und Vorrichtung der prosodischen Simulations-Synthese | |
CN108184032A (zh) | 一种客服系统的服务方法及装置 | |
CN107800860A (zh) | 语音处理方法、装置及终端设备 | |
DE112019001058T5 (de) | Stimmeneffekte basierend auf gesichtsausdrücken | |
CN107886963B (zh) | 一种语音处理的方法、装置及电子设备 | |
EP1670165B1 (de) | Verfahren und modellbasiertes Audio-und Videosystem zur Darstellung einer virtuellen Figur | |
CN107623830A (zh) | 一种视频通话方法及电子设备 | |
CN103731541A (zh) | 对通话中的音频进行控制的方法及终端 | |
DE19751123C1 (de) | Vorrichtung und Verfahren zur sprecherunabhängigen Sprachnamenwahl für Telekommunikations-Endeinrichtungen | |
CN112634886B (zh) | 一种智能设备的交互方法、服务器、计算设备及存储介质 | |
DE19638114A1 (de) | Verfahren zum Einstellen von endgerätespezifischen Parametern eines Kommunikationsendgerätes | |
WO2020221865A1 (de) | Verfahren, computerprogrammprodukt, system und vorrichtung zum modifizieren von akustischen interaktionssignalen, die von mindestens einem interaktionspartner erzeugt werden, hinsichtlich eines interaktionsziels | |
CN111194545A (zh) | 一种移动通讯设备通话时改变原始声音的方法和系统 | |
DE602004010522T2 (de) | Verfahren zur bereitstellung von hintergrundschall aus einem persönlichen tragbaren endgerät während der kommunikation | |
CN107016949A (zh) | 信息展示方法、装置及其设备 | |
DE10254183A1 (de) | Verfahren zur Wiedergabe von gesendeten Textnachrichten | |
Choo et al. | Blind bandwidth extension system utilizing advanced spectral envelope predictor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
R002 | Refusal decision in examination/registration proceedings | ||
R003 | Refusal decision now final |