ES2357700T3 - Dispositivo y procedimiento de edición diferenciada de voz. - Google Patents

Dispositivo y procedimiento de edición diferenciada de voz. Download PDF

Info

Publication number
ES2357700T3
ES2357700T3 ES01991746T ES01991746T ES2357700T3 ES 2357700 T3 ES2357700 T3 ES 2357700T3 ES 01991746 T ES01991746 T ES 01991746T ES 01991746 T ES01991746 T ES 01991746T ES 2357700 T3 ES2357700 T3 ES 2357700T3
Authority
ES
Spain
Prior art keywords
voice
parameters
editing
voice editing
static
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES01991746T
Other languages
English (en)
Inventor
Georg Obert
Klaus Bengler
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bayerische Motoren Werke AG
Original Assignee
Bayerische Motoren Werke AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bayerische Motoren Werke AG filed Critical Bayerische Motoren Werke AG
Application granted granted Critical
Publication of ES2357700T3 publication Critical patent/ES2357700T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)
  • Traffic Control Systems (AREA)

Abstract

Dispositivo de edición diferenciada de voz (1) que puede unirse con un primer sistema (31) y al menos con otro sistema (32, 33 a 3N), estando asociada a la edición de voz del primer sistema (31) una primera característica de la voz y estando asociada a la edición de voz adicional del otro sistema (32, 33 a 3N) otra característica de la voz que se diferencia audiblemente de la primera característica de la voz, caracterizado por un dispositivo de síntesis de voz (10) que recibe parámetros de control que presentan una primera clase de parámetros dinámicos y una segunda clase de parámetros estáticos, controlando los parámetros dinámicos la articulación correspondiente al movimiento de un tracto vocal y controlando los parámetros estáticos las propiedades características de la voz, estando almacenados los parámetros estáticos para los sistemas como juegos de parámetros asociados en una memoria (20) del dispositivo de edición de voz y empleándose, en función de una señal de selección de un sistema, un juego de parámetros asociado por parte del dispositivo de síntesis de voz (10) para la edición de voz, y estando almacenados los parámetros dinámicos con arreglo a la secuencia de palabras, frases y series de frases en cada sistema.

Description

La presente invención concierne a un dispositivo de edición o generación diferenciadas de voz y a un procedimiento correspondiente, a sistemas para uso con el dispositivo de edición de voz y a combinaciones de un 5 dispositivo de edición de voz con al menos dos sistemas, especialmente para uso en un vehículo.
En los vehículos se utilizan sistemas individuales que disponen de una interfaz acústica hombre-máquina para la edición de voz. En estos sistemas está siempre asociado directamente un módulo de edición de voz. Los procedimientos de producción de voz empleados se basan casi siempre en modulación de código de impulsos (= PCM), en donde se puede conectar una compresión subsiguiente (por ejemplo, MPEG). Otros sistemas emplean 10 procedimientos de síntesis de voz que forman principalmente palabras y frases (manipulación de señales) a través del ensamble de segmentos de sílabas (fonemas).
En los procedimientos de edición de voz citados existe también una dependencia del hablante que requiere que, al ampliar el volumen de palabras o de texto, se soliciten tomas una y otra vez al mismo hablante humano. Además, los procedimientos PCM, exactamente igual que una síntesis de fonemas de alto valor cualitativo, requieren, debido a la 15 manipulación de señales, un espacio de memoria considerable para archivar textos o segmentos de sílabas. En ambos procedimientos el espacio de memoria aumenta aún considerablemente cuando se deben editar diferentes idiomas nacionales.
Asimismo, se conocen procedimientos que se basan en una síntesis completa de la voz. Se conocen especialmente procedimientos que convierten el tracto vocal humano en el equivalente eléctrico y trabajan con un 20 generador de sonido y varios filtros pospuestos (modelo fuente-filtro). Un aparato que trabaja según este procedimiento es un llamado sintetizador de formantes (por ejemplo, KLATTALK). Este sintetizador de formantes tiene la ventaja de que se puede influir sobre las propiedades características de la voz.
El documento EP-A-0 901 000 describe un dispositivo de tratamiento de mensajes con medios de recepción para recibir mensajes enviados, una memoria para almacenar una pluralidad de articulaciones diferentes (tono de voz o 25 tono vocal) y medios de asignación para asignar una articulación de la pluralidad de articulaciones a al menos un mensaje recibido. Otra articulación es asignada a otro mensaje recibido y unos medios de edición editan el primer mensaje con una primera articulación y el segundo mensaje con una segunda articulación.
RUTLEDGE J C ET AL: "SYNTHESIZING STYLED SPEECH USING THE KLATT SYNTHESIZER", PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON ACOUSTICS; SPEECH; AND SIGNAL PROCESSING 30 (ICASSP): DETROIT; 9-12 DE MAYO DE 1995. SPEECH, NUEVA YORK, IEEE, US, Vol. 1, 9 de Mayo de 1995 (09-05-1995), páginas 648-651, XP000658077 ISBN: 0-7803-2432-3, se ocupan en general del funcionamiento y los conocimientos experimentales en la construcción de sintetizadores de la voz basados en el tracto vocal (sintetizador Klatt) para la síntesis de diferentes estilos de voz con diferentes características de la voz.
La invención se basa especialmente en el problema de proporcionar un dispositivo de edición de voz central con 35 un gran número de sistemas en el que se active por los sistemas un único generador de voz con una pequeña memoria de parámetros.
Este problema se resuelve según la invención con las características de la reivindicación 1. Ejecuciones ventajosas son objeto de las reivindicaciones subordinadas.
La invención tiene la ventaja de que con un único dispositivo de edición de voz o dispositivo de síntesis de voz 40 son posibles ediciones de voz para sistemas diferentes, pudiendo identificarse cada sistema por diferencias características de la voz.
Según una forma de realización preferida de la invención, se ha asociado a cada sistema un juego de parámetros que es empleado por el dispositivo de síntesis de voz para realizar una edición de voz desde este sistema. Por ejemplo, se proporciona un primer juego de parámetros para un ordenador de a bordo, un segundo juego de 45 parámetros para un sistema de navegación, un tercer juego de parámetros para informaciones del tráfico, un cuarto juego de parámetros para un sistema TTS (sistema de texto a voz), tal como correo electrónico, y uno o más juegos de parámetros adicionales para sistemas adicionales.
Dependiendo del juego de parámetros asociado, el dispositivo de síntesis de voz genera la edición de voz, por ejemplo con una suave voz femenina, por ejemplo para ediciones de voz de un sistema de navegación, o con una fuerte 50 voz de bajo masculino, por ejemplo para la edición de voz de avisos del tráfico.
Según una forma de realización preferida de la invención, se emplean un procedimiento y un dispositivo para una síntesis de voz completa, preferiblemente un sintetizador de formantes. En este caso, se dividen en clases los parámetros de control para el sintetizador. Una clase de parámetros dinámicos controla la articulación, tal como el movimiento del tracto vocal al hablar. Una segunda clase de parámetros estáticos controla propiedades características 55 del hablante, tales como la frecuencia fundamental del generador y los formantes fijos que, en el caso de un niño, una mujer o un hablante masculino, son formados por la diferente dimensión geométrica del tracto vocal.
En un modelo ampliado del sintetizador de formantes es posible una generación separada de sonidos con voz y sin voz. En este caso, se pueden intercalar mediante otros parámetros resonadores o miembros de amortiguación adicionales o bien se puede influir sobre los parámetros dinámicos para la articulación. 60
El dispositivo según la invención y el procedimiento según la invención se pueden utilizar especialmente en
sistemas de un vehículo. Cada sistema tiene, por cada edición de voz, dos posibilidades de controlar la edición de voz. La primera posibilidad de edición de voz comprende la emisión de una secuencia de órdenes de control para la articulación de voz, estando almacenada en el sistema la secuencia de los parámetros de control para palabras, frases y series de frases. La segunda posibilidad de control de la edición de voz se efectúa a través de una segunda edición que conmuta un juego de parámetros que es determinante de la característica del hablante. 5
Como alternativa o adicionalmente, es posible también almacenar este juego de datos paramétricos directamente en el sistema y cargar el juego de datos paramétricos en el dispositivo de síntesis de voz en caso de una edición de voz necesaria.
Según otra forma de realización preferida, que se puede utilizar como alternativa o adicionalmente a las formas de realización anteriores, se pueden variar, además, dinámicamente los parámetros del generador y de los formantes 10 para diferenciar las fuentes de información, es decir, los sistemas que realizan una edición de voz. Se pueden conseguir así diferencias audibles en la prosodia, tales como la duración y/o la acentuación de segmentos de sílabas y/o la melodía de las frases. En especial, se puede utilizar una modulación prosódica en función, por ejemplo, de una condición de tráfico o una situación de tráfico para la edición de voz de textos de anuncios. Por último, la importancia de una información puede expresarse por modulación de la voz. 15
La invención tiene la ventaja de que, por ejemplo, en un vehículo solamente un único generador de voz con una pequeña memoria de parámetros puede ser activado desde varias fuentes de información. Las fuentes de información pueden equiparse aquí con características de voz diferentes.
Cuando se utiliza un dispositivo de síntesis completa, por ejemplo un dispositivo de síntesis de tracto vocal, se tiene que el procedimiento es independiente del hablante y no se necesitan grabaciones de estudio de alto valor. 20
En un sintetizador de formantes ampliado se puede incorporar también según la invención una expresión emocional en la voz.
Con ayuda de plantillas de parámetros prefabricadas se puede variar muy fácilmente la característica de la voz. El procedimiento es adecuado también para la conversión de textos libres en voz (texto a voz), por ejemplo para la lectura del correo electrónico. 25
Se explica seguidamente la invención con más detalle ayudándose de un ejemplo de realización y del dibujo.
La figura 1 muestra una representación de principio de una forma de realización preferida de la invención para la edición diferenciada de voz con varios sistemas según la invención.
La forma de realización preferida de la invención representada en la figura 1 presenta una unidad de edición de voz 1 con un dispositivo de síntesis de voz 10 que en el ejemplo es un módulo de síntesis de tracto vocal y que se basa 30 en una síntesis de voz completa. Por ejemplo, se puede utilizar un sintetizador de formantes como el KLATTALK. El dispositivo de síntesis de voz 10 está unido con un amplificador 12 cuya salida 14 suministra una señal de audio que edita voz a través de un altavoz (no representado). El dispositivo de síntesis de voz 10 lleva asociados N juegos de parámetros 21, 22 a 2N que en el ejemplo mostrado están almacenados en una memoria 20 de la unidad de edición de voz 1. Asimismo, se muestran N sistemas 31, 32 a 3N que están unidos con la unidad de edición de voz 1 a través de un 35 respectivo enlace de datos, tal como líneas individuales, un sistema de bus o canales de datos. Cada sistema puede realizar una edición de voz a través de la unidad de edición de voz. En particular, están presentes un ordenador 31 de a bordo con un juego de parámetros correspondiente para el ordenador 21 de a bordo, un sistema de navegación 32 con un juego de parámetros correspondiente para la navegación 22, un sistema de información de tráfico 33 con un juego de parámetros correspondiente para la información de tráfico 23, y un sistema de correo electrónico, tal como un sistema 40 TTS 34, con un juego de parámetros correspondiente para el correo electrónico 24. Pueden preverse más sistemas 3N con un respectivo juego de parámetros asociado 2N. En el ejemplo mostrado es posible que, empleando una única unidad de edición de voz 1, el sistema de navegación 32 pueda hablar, por ejemplo, con una suave voz femenina que viene determinada por el juego de parámetros para el sistema de navegación 22. Asimismo, puede estar previsto, por ejemplo para avisos de tráfico, un juego de parámetros 23 con el que se emplee una fuerte voz de bajo masculino para la 45 edición de voz.
La secuencia de ediciones de voz puede efectuarse sucesivamente en el tiempo con arreglo a la entrada del pedido de edición de voz desde los sistemas. Preferiblemente, las informaciones con mayor prioridad, por ejemplo informaciones del tráfico en situaciones de peligro, tal como falsos conductores, son las primeras en emitirse por cada edición de voz. De manera especialmente preferida, se emiten inmediatamente las informaciones con máxima prioridad, 50 por ejemplo informaciones del ordenador de a bordo sobre funciones erróneas del vehículo o la iniciación de una calzada resbaladiza, pudiendo interrumpirse una edición de voz en curso. La edición de voz interrumpida puede llevarse después hasta su final o repetirse.
La invención tiene la ventaja de que sistemas con indicación acústica le proporcionen al conductor información de sistemas diferentes sin distraerle de su tarea, tal como ocurre en el caso de indicaciones visuales. Mediante la 55 utilización de un dispositivo de síntesis de voz que se puede emplear por diferentes ordenadores de a bordo se pueden ahorrar costes. Se puede reducir la demanda de espacio de memoria en comparación con procedimientos de producción de voz empleados hasta ahora en, por ejemplo, sistemas de navegación.
La invención se puede utilizar de manera especialmente ventajosa en vehículos automóviles.

Claims (11)

  1. REIVINDICACIONES
  2. 1.- Dispositivo de edición diferenciada de voz (1) que puede unirse con un primer sistema (31) y al menos con otro sistema (32, 33 a 3N), estando asociada a la edición de voz del primer sistema (31) una primera característica de la voz y estando asociada a la edición de voz adicional del otro sistema (32, 33 a 3N) otra característica de la voz que se diferencia audiblemente de la primera característica de la voz, caracterizado por un dispositivo de síntesis de voz (10) que recibe parámetros de control que presentan una primera clase de parámetros dinámicos y una segunda clase de 5 parámetros estáticos, controlando los parámetros dinámicos la articulación correspondiente al movimiento de un tracto vocal y controlando los parámetros estáticos las propiedades características de la voz, estando almacenados los parámetros estáticos para los sistemas como juegos de parámetros asociados en una memoria (20) del dispositivo de edición de voz y empleándose, en función de una señal de selección de un sistema, un juego de parámetros asociado por parte del dispositivo de síntesis de voz (10) para la edición de voz, y estando almacenados los parámetros dinámicos 10 con arreglo a la secuencia de palabras, frases y series de frases en cada sistema.
  3. 2.- Dispositivo según la reivindicación 1, en el que los parámetros estáticos presentan una frecuencia fundamental de generador y/o formantes fijos que corresponden preferiblemente a la diferente dimensión geométrica del tracto vocal en un niño, una mujer o un hablante varón.
  4. 3.- Dispositivo según la reivindicación 2, en el que se pueden variar parámetros de generador y/o parámetros de 15 formantes para la edición de voz de sistemas diferentes y se producen preferiblemente diferencias audibles en la prosodia, tales como la duración y/o la acentuación de segmentos de sílabas y/o la melodía de las frases.
  5. 4.- Dispositivo según cualquiera de las reivindicaciones 1 a 3, en el que el dispositivo de síntesis de voz (10) es un sintetizador de formantes con el que se puede influir sobre las propiedades características de la voz.
  6. 5.- Dispositivo según la reivindicación 4, en el que el sintetizador de formantes es adecuado para generar por 20 separado sonidos con voz y sin voz, y en el que especialmente se pueden intercalar por medio de otros parámetros resonadores o miembros de amortiguación adicionales y/o se puede influir sobre los parámetros dinámicos para la articulación.
  7. 6.- Dispositivo según cualquiera de las reivindicaciones 1 a 5, en el que el dispositivo de síntesis de voz (10) está unido con un amplificador (12) y se efectúa una edición de voz a través de una salida de audio (14) del amplificador 25 (12).
  8. 7.- Sistema para uso con un dispositivo según cualquiera de las reivindicaciones 1 a 6, con una primera salida para la emisión de parámetros dinámicos y una segunda salida para la emisión de una señal de selección para conmutar un juego de parámetros en el dispositivo de edición de voz (10).
  9. 8.- Sistema para uso con un dispositivo según cualquiera de las reivindicaciones 1 a 6, con una salida para la 30 emisión de parámetros dinámicos y parámetros estáticos enviados preferiblemente como un juego de parámetros al dispositivo de edición de voz (10).
  10. 9.- Combinación de un dispositivo según cualquiera de las reivindicaciones 1 a 6 con al menos un primer sistema y un sistema adicional, tales como un ordenador (31) de a bordo, un sistema de navegación (32), un sistema de información de tráfico (33), un sistema de correo electrónico (34) o un sistema de información (3N), preferiblemente para 35 uso en un vehículo.
  11. 10.- Procedimiento de edición diferenciada de voz empleando un dispositivo según cualquiera de las reivindicaciones 1 a 6.
ES01991746T 2000-12-20 2001-11-21 Dispositivo y procedimiento de edición diferenciada de voz. Expired - Lifetime ES2357700T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10063503A DE10063503A1 (de) 2000-12-20 2000-12-20 Vorrichtung und Verfahren zur differenzierten Sprachausgabe
DE10063503 2000-12-20

Publications (1)

Publication Number Publication Date
ES2357700T3 true ES2357700T3 (es) 2011-04-28

Family

ID=7667936

Family Applications (1)

Application Number Title Priority Date Filing Date
ES01991746T Expired - Lifetime ES2357700T3 (es) 2000-12-20 2001-11-21 Dispositivo y procedimiento de edición diferenciada de voz.

Country Status (6)

Country Link
US (1) US7698139B2 (es)
EP (1) EP1344211B1 (es)
JP (1) JP2004516515A (es)
DE (2) DE10063503A1 (es)
ES (1) ES2357700T3 (es)
WO (1) WO2002050815A1 (es)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2412046A (en) * 2004-03-11 2005-09-14 Seiko Epson Corp Semiconductor device having a TTS system to which is applied a voice parameter set
DE102005063077B4 (de) * 2005-12-29 2011-05-05 Airbus Operations Gmbh Aufzeichnung digitaler Cockpit-Boden-Kommunikation auf einem unfallgeschützten Sprachrekorder
ATE456845T1 (de) * 2006-06-02 2010-02-15 Koninkl Philips Electronics Nv Sprachdifferenzierung
DE102008019071A1 (de) * 2008-04-15 2009-10-29 Continental Automotive Gmbh Verfahren, Fahrerinformationssystem und Fahrerassistenzsystem zur Ausgabe von Informationen
JP7133149B2 (ja) * 2018-11-27 2022-09-08 トヨタ自動車株式会社 自動運転装置、カーナビゲーション装置及び運転支援システム
JP7336862B2 (ja) * 2019-03-28 2023-09-01 株式会社ホンダアクセス 車両用ナビゲーション装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5667470A (en) * 1979-11-07 1981-06-06 Canon Inc Voice desk-top calculator
US5559927A (en) * 1992-08-19 1996-09-24 Clynes; Manfred Computer system producing emotionally-expressive speech messages
US5561736A (en) * 1993-06-04 1996-10-01 International Business Machines Corporation Three dimensional speech synthesis
JPH08328573A (ja) * 1995-05-29 1996-12-13 Sanyo Electric Co Ltd カラオケ装置及び音声再生装置及びこれに使用する記録媒体
US5924068A (en) * 1997-02-04 1999-07-13 Matsushita Electric Industrial Co. Ltd. Electronic news reception apparatus that selectively retains sections and searches by keyword or index for text to speech conversion
JP3287281B2 (ja) * 1997-07-31 2002-06-04 トヨタ自動車株式会社 メッセージ処理装置
JP3502247B2 (ja) * 1997-10-28 2004-03-02 ヤマハ株式会社 音声変換装置
DE19908137A1 (de) * 1998-10-16 2000-06-15 Volkswagen Ag Verfahren und Vorrichtung zur automatischen Steuerung mindestens eines Gerätes per Sprachdialog
US20020087655A1 (en) * 1999-01-27 2002-07-04 Thomas E. Bridgman Information system for mobile users
GB9925297D0 (en) * 1999-10-27 1999-12-29 Ibm Voice processing system
US6181996B1 (en) * 1999-11-18 2001-01-30 International Business Machines Corporation System for controlling vehicle information user interfaces
US6539354B1 (en) * 2000-03-24 2003-03-25 Fluent Speech Technologies, Inc. Methods and devices for producing and using synthetic visual speech based on natural coarticulation

Also Published As

Publication number Publication date
EP1344211A1 (de) 2003-09-17
WO2002050815A1 (de) 2002-06-27
JP2004516515A (ja) 2004-06-03
DE50115798D1 (de) 2011-03-31
DE10063503A1 (de) 2002-07-04
EP1344211B1 (de) 2011-02-16
US7698139B2 (en) 2010-04-13
US20030225575A1 (en) 2003-12-04

Similar Documents

Publication Publication Date Title
US5727120A (en) Apparatus for electronically generating a spoken message
US7565291B2 (en) Synthesis-based pre-selection of suitable units for concatenative speech
JP3673471B2 (ja) テキスト音声合成装置およびプログラム記録媒体
US6496801B1 (en) Speech synthesis employing concatenated prosodic and acoustic templates for phrases of multiple words
ES2357700T3 (es) Dispositivo y procedimiento de edición diferenciada de voz.
US20030014253A1 (en) Application of speed reading techiques in text-to-speech generation
JP3518898B2 (ja) 音声合成装置
JP4411017B2 (ja) 話速変換装置、話速変換方法及びプログラム
JPH08335096A (ja) テキスト音声合成装置
JP2006330484A (ja) 音声案内装置及び音声案内プログラム
JP2894447B2 (ja) 複合音声単位を用いた音声合成装置
JP2010175717A (ja) 音声合成装置
JPH11249679A (ja) 音声合成装置
JP3094622B2 (ja) テキスト音声合成装置
JP2001337690A (ja) 情報再生装置及び情報再生方法並びに記憶媒体
JPH07200554A (ja) 文章読み上げ装置
JP3432336B2 (ja) 音声合成装置
JP2001350490A (ja) テキスト音声変換装置及び方法
JP3171775B2 (ja) 音声合成装置
JP3192981B2 (ja) テキスト音声合成装置
SU1683063A1 (ru) Способ компил ционного синтеза речи и устройство дл его осуществлени
JPH04243299A (ja) 音声出力装置
JPH10319992A (ja) 車載用音声合成装置
JPS6339920B2 (es)
JP2001236086A (ja) テキスト音声合成出力機能を有するゲーム装置