ES2220630T3

ES2220630T3 - Arquitectura de la placa de circuito impreso madre de un ordenador.

Info

Publication number: ES2220630T3
Application number: ES01115769T
Authority: ES
Inventors: Robert G. Schultz
Original assignee: Xybernaut Corp
Current assignee: Xybernaut Corp
Priority date: 2000-10-02
Filing date: 2001-07-10
Publication date: 2004-12-16
Anticipated expiration: 2021-07-10
Also published as: PT1193690E; DE60102993T2; TW541470B; JP4132737B2; KR20020026804A; US7162426B1; DE60102993D1; EP1193690A1; EP1193690B1; JP2002132285A; ATE265730T1

Abstract

Arquitectura de placa de circuito impreso madre de ordenador que comprende: - una placa de circuito impreso madre de ordenador que tiene componentes que incluyen una CPU, un bus de datos, una interfaz de alimentación y un recorrido de datos de entrada de audio, conectando dicho recorrido de datos de entrada de audio, la entrada de audio de la placa de circuito impreso madre con la CPU; - un chip DSP en el recorrido de datos de entrada de audio; - una interfaz de puente entre dicho chip DSP y el bus de la placa de circuito impreso madre de ordenador; - una memoria en conexión eléctrica con dicho chip DSP; y - un aparato de reconocimiento de voz que reside en dicha memoria de dicho chip DSP, - caracterizada porque dicho aparato de reconocimiento de voz es un aparato de reconocimiento de voz de comando y control, dicho puente es un puente PCI a DSP y dicho chip DSP está capacitado para funcionar como aparato de reconocimiento de voz en un modo de mando y control, y como procesador central en un modo de voz continua, para un aparato de reconocimiento de voz continua que tiene como base el software en la CPU..

Description

Arquitectura de la placa de circuito impreso madre de un ordenador.

Campo y antecedentes de la invención

La presente invención se refiere a la arquitectura de una placa de circuito impreso madre de un ordenador según las características de la reivindicación 1 y a un método según las características de la reivindicación 16.

La invención se refiere principalmente a una arquitectura novedosa de la placa de circuito impreso madre de un ordenador, que integra hardware de procesamiento de señal numérica en la placa como interfaz de entrada de audio para manipular el mando y control así como el procesamiento de voz continua.

El estado de la técnica más reciente está formado por la EP-A-0 531 909, que describe una arquitectura de placa de circuito impreso madre de ordenador que comprende: una placa de circuito impreso madre de ordenador con los componentes típicos, entre los que se incluyen una CPU, un bus de datos, una interfaz de alimentación y un recorrido de datos de entrada de audio, conectando dicho recorrido de datos de entrada de audio la entrada de datos de la placa de circuito impreso madre a la CPU; un chip DSP en el recorrido de datos de entrada de audio; un puente interconectado entre dicho chip DSP y el bus que están en la placa de circuito impreso madre del ordenador; una memoria en conexión eléctrica con dicho chip DSP y un aparato de reconocimiento de voz que reside en dicha memoria de dicho chip DSP.

El reconocimiento de voz y la activación de voz ganan cada vez más popularidad como aparatos de voz que tienen como base el software, son cada vez más eficaces y las velocidades de los microprocesadores han alcanzado 1GHz. Concebidas originalmente como herramientas para tomar dictado y para permitir un control limitado del sistema operativo, son actualmente y serán en el futuro cada vez más dominantes en cualquier tipo de aplicación. La voz es la forma de comunicación más natural y eficaz. Se puede incorporar en todos los comandos de control y en varias aplicaciones, tales como navegadores de Internet y buscadores. La voz se puede utilizar para automatizar muchas operaciones que se realizan manualmente en un ordenador. Algunos ordenadores modernos están incluso diseñados para ser controlados en primer lugar con la voz. En las patentes U.S. 5.305.244 y 5.844.824, hay dos ejemplos que enseñan un ordenador portátil con activación por voz que permite a los usuarios manejar el ordenador en un modo de manos libres. La descripción de la patente U.S. 5.305.244 declara que: "El aparato informático incluye un módulo de reconocimiento de voz, en comunicación con un procesador, para recibir órdenes acústicas del usuario, para transformar la orden acústica en señales eléctricas, para reconocer las señales eléctricas transformadas y para enviar las señales reconocidas al procesador para su procesamiento, sosteniendo el usuario el módulo de reconocimiento de voz". La patente 5.844.824 describe además, "...un ordenador portátil con manos libres que no se activa ni se le introduce información a través de un teclado, sino que tiene varios medios de activación, todos ellos de manos libres". Uno de estos medios de activación es la voz. Por tanto, la invención que describen estas dos patentes nos enseña una plataforma de hardware para ordenador que permite el control del sistema operativo y de varias aplicaciones usando la voz como activación primaria.

La mayoría de la gente habla cinco veces más deprisa de lo que puede escribir en un teclado y probablemente diez veces más rápido de lo que puede escribir. Por tanto, se gana en eficacia cuando se integra con éxito el reconocimiento por voz y su procesamiento en los ordenadores personales. El método actual para procesar la voz en el campo de los ordenadores es primariamente un método que tiene como base el software. La tarjeta de sonido se utiliza como una entrada de audio y contiene un convertidor analógico-numérico (A/D) que recoge los sonidos/palabras con un micrófono analógico estándar y los transforma en una señal binaria numérica para pasarla al microprocesador. A continuación, el software que está almacenado en la memoria, se utiliza en tándem con la CPU para procesar la señal que representa la voz, ya sea una orden o simplemente texto, y para ejecutar la orden o función adecuada. Las aplicaciones de software principales para este tipo de interacción son IBM Corporation's ViaVoice® y Dragon Systems Corporation's Naturally Speaking®. Ambos son programas de reconocimiento de voz con aparatos de software de reconocimiento de voz que utilizan la CPU del ordenador para todo el procesamiento de la voz. Esta tarea requiere un trabajo intensivo de cálculo por parte de la CPU y limita los recursos del sistema. En ambientes donde hay ordenadores de sobremesa o portátiles que funcionan con corriente alterna, un corte de energía causa simplemente la degradación del funcionamiento del sistema. Sin embargo, en ambientes donde sólo hay ordenadores móviles normalmente alimentados con baterías, también se produce un consumo excesivo de energía. Hay una relación directa entre los ritmos que realiza la CPU y el consumo de energía. Además, en estos ambientes donde sólo hay ordenadores móviles, en los cuales el espacio también está limitado y se emplea poco o incluso nada de refrigeración, la generación de calor excesivo puede hacer que se degrade la memoria, la placa de circuito impreso madre y otros componentes electrónicos que tienen como base la silicona y puede hacer también que se degrade la velocidad de la CPU para acomodar el calor que se ha acumulado. Por tanto, una arquitectura que prolongue la vida útil de la batería, que reduzca la acumulación de calor que produce la CPU y que al mismo tiempo procese de manera efectiva y eficaz la voz supone un avance importante si se compara con el estado de la técnica.

Recientemente se ha descubierto el uso de un procesador de señales numéricas (a partir de ahora chip DSP) para procesar la voz natural. Un ejemplo de ello son los sistemas telefónicos de servicio al cliente en los que las personas que llaman pueden marcar por voz o en el teclado numérico que está integrado en sus teléfonos. Cuando el sistema recibe una señal que representa una palabra hablada, el DSP hace que se corresponda con señales conocidas que representan palabras conocidas y efectúa una entrada de este dato. Estos sistemas, sin embargo, se limitan generalmente a un reconocimiento numérico y no están disponibles en productos que pueden adquirir los consumidores.

Un DSP es básicamente un microprocesador universal que se puede utilizar para varias aplicaciones de uso específico. Incluye un hardware lógico especial para realizar funciones matemáticas a velocidades, niveles de consumo de energía y eficacia que no están normalmente asociados con los microprocesadores. Estos chips se pueden programar para que realicen varias funciones de procesamiento de señales. Se pueden adquirir comercialmente tarjetas de expansión para ordenadores que incluyen DSPs, y normalmente una aplicación de software para programarlas, con el fin de llevar a cabo funciones de procesamiento de señales. Debido a su hardware y arquitectura, están normalmente mejor adaptadas para realizar determinadas funciones informáticamente intensivas.

El diseño del DSP se optimiza normalmente y de manera específica para algoritmos matemáticos tales como las correlaciones, circunvoluciones, filtros de respuesta de impulsos limitados (FIR), filtros de respuesta de impulsos ilimitados (IIR), transformaciones rápidas de Fourier (FFTs), cálculos matriciales y productos internos entre otras operaciones. Las aplicaciones de estos algoritmos matemáticos comprenden normalmente largas secuencias de operaciones aritméticas/multiplicativas sistemáticas. Los FFT y los filtros tienen una importancia particular para el procesamiento de la voz.

Una CPU comprende normalmente una unidad de ejecución, una memoria de almacenamiento temporal, una unidad de control de memoria y una unidad de coma flotante además de otros circuitos lógicos. La función de una CPU universal es ejecutar un código y realizar operaciones en base a unos datos que hay en la memoria del ordenador, controlando así la plataforma informática. En general, la X86 básica u otra CPU de ordenador está diseñada básicamente para realizar operaciones Booleanas/ de control/ de datos de decisión de manipulación. Las instrucciones que ejecuta una CPU universal incluyen funciones matemáticas básicas. Sin embargo, estas funciones no están bien adaptadas para operaciones matemáticas complejas de tipo DSP. Por tanto, se necesita una CPU universal para ejecutar un gran número de instrucciones correspondientes a un DSP, para realizar incluso funciones DSP básicas.

En el estado de la técnica se ha intentado, tanto en hardware como en software, incorporar DSPs en la arquitectura de los ordenadores para aprovechar la efectividad asociada a los mismos. La patente U.S. 5.794.068 (a partir de ahora '068) muestra un ejemplo. En la patente '068 se describe una CPU universal que contiene una unidad de CPU universal tal como un núcleo X86 y además incluye un núcleo DSP. La CPU incluye un descodificador o preprocesador de función DSP que examina secuencias de instrucciones y determina si se está realizando una función DSP. Si el descodificador determina que se está ejecutando una función DSP, el descodificador de función transforma las secuencias de instrucción en un DSP macro y encamina el macro al núcleo del DSP. El núcleo del DSP puede realizar la función DSP en paralelo con otras operaciones que realiza el núcleo de la CPU universal. La arquitectura de ésta asegura que es por el contrario compatible con paquetes de programas existentes que necesitan que se realicen operaciones DSP y con las otras no. Sin embargo, debido al preprocesador, se introduce una fase extra en el ciclo de ejecución. Una desventaja de la patente '068 es que se debe descodificar una orden para comprobar las instrucciones del DSP antes del procesamiento de la orden. Otra desventaja del sistema de la patente '068 es que su arquitectura no está optimizada para el procesamiento de voz y no describe la inclusión de un aparato de reconocimiento de voz de mando y control que reside en el mismo chip DSP. Además, el DSP no sirve como interfaz primaria para todas las señales de entrada de voz que se originan en la entrada de audio del ordenador.

En otro ejemplo, la patente U.S. 5.915.236 (a partir de ahora '236) enseña una propuesta de software para utilizar DSP para procesar la voz. La '236 enseña un sistema de reconocimiento de palabras que detecta los recursos computacionales disponibles para el mismo, por ejemplo la velocidad, el número de procesadores, la presencia de un DSP, y altera las instrucciones que ejecuta en respuesta a esta detección para optimizar la asignación de instrucciones. El sistema es básicamente un programa de reconocimiento de voz, aunque el verdadero programa de reconocimiento de voz puede variar la intensidad computacional de su procesamiento de señales como una función de recursos computacionales disponibles. Si el programa detecta tanto una CPU como un procesador DSP, puede hacer que el DSP determine cuándo el programa debe interrumpir la CPU. El programa puede variar también la velocidad con la que filtra palabras relativamente lentas fuera de consideración durante el proceso de reconocimiento como una función del nivel de recursos disponibles. La desventaja o problema con este sistema, es que es una solución que tiene como base el software, que está inherentemente limitado por la arquitectura del ordenador en el que está incluido. Es decir, en ausencia de un DSP, el sistema acepta un funcionamiento menos resistente y menos preciso. Además, el software y la CPU son necesarios para comprobar el código de las instrucciones del DSP para introducir una fase extra en el proceso.

Por tanto, existe la necesidad de obtener una arquitectura de procesamiento de voz para ordenadores personales, especialmente ordenadores móviles, de mano y llevados por el usuario, que elimine los defectos anteriores.

Breve descripción de la invención

Por tanto, un objeto de esta invención es proporcionar una placa de circuito impreso madre novedosa desprovista de las desventajas anteriores.

También es un objeto de esta invención proporcionar una arquitectura novedosa de placa de circuito impreso madre con capacidad para procesar señales numéricas (a partir de ahora "DSP").

Otro objeto de esta invención es proporcionar una arquitectura de hardware que esté optimizada para procesar la voz.

Otro objeto más de esta invención es proporcionar una arquitectura de placa de circuito impreso madre que reduzca el consumo de energía y los ritmos de la CPU cuando esté procesando la voz.

Otro objeto de esta invención es proporcionar una arquitectura informática que proporcione un aumento de precisión y capacidad en comparación con los métodos existentes de procesamiento de voz que tienen como base el software.

Otro objeto de esta invención es proporcionar una arquitectura de placa de circuito impreso madre para ordenadores personales, especialmente móviles, de mano y llevados por el usuario y otros dispositivos electrónicos, que reduzca el número de ciclos requeridos por la CPU para procesar la voz.

Un objeto adicional de esta invención es proporcionar un diseño de procesamiento de voz para ordenadores móviles, de mano y portátiles que reduzca el consumo de energía y la generación de calor durante el procesamiento de la voz.

Otro objeto más de esta invención es proporcionar una arquitectura que permita la cancelación y reducción de ruido durante el procesamiento de la voz.

Otro objeto más de esta invención es proporcionar un aparato de reconocimiento de voz incorporado DSP que pueda adaptase al vocabulario de mando y control.

Estos y otros objetos de la invención, se consiguen normalmente con un diseño de placa de circuito impreso madre de ordenador que incorpora hardware DSP en la placa de circuito impreso madre como una interfaz entre la entrada de audio y el microprocesador para reconocer y procesar órdenes de voz.

Breve descripción de los dibujos

Otras ventajas y características de la invención, se derivan de la siguiente descripción de varias realizaciones de la misma, en la que se hace referencia a los dibujos adjuntos, que muestran:

La figura 1, un ordenador o dispositivo informático típico con componentes de sistema también típicos.

La figura 2, un ordenador personal típico con un micrófono que sirve como fuente de entrada de audio.

La figura 3, un organigrama del proceso de la presente invención con respecto a la entrada de voz en el dispositivo informático.

La figura 4, el organigrama y el árbol de decisión para el modo de voz continua y el modo de voz de mando y control.

La figura 5, una placa de circuito impreso madre ejemplar para un ordenador móvil con el DSP integrado en el diseño del circuito y el recorrido de los datos de la placa.

Descripción detallada de la invención

Para el propósito de esta memoria y reivindicaciones, el término "placa de circuito impreso madre de un ordenador" incluye cualquier placa de circuito impreso madre que se usa con un ordenador personal, un ordenador que se puede llevar encima, un ordenador móvil, un ordenador portátil, un dispositivo combinado de ordenador y comunicaciones, o un ordenador de bolsillo. La invención es principalmente una nueva arquitectura de la placa de circuito impreso madre de un ordenador que incorpora hardware DSP en la placa de circuito impreso madre como una interfaz entre la tarjeta de sonido, o dispositivo de entrada de audio similar, y el microprocesador. Esto resuelve varios problemas que encontramos hoy en día con las arquitecturas existentes de procesamiento de la voz. La incorporación de DSP en la corriente de entrada de datos vocales añade una capacidad importante a la arquitectura actual de procesamiento de la voz y minimiza el uso del microprocesador durante el procesamiento de la voz. El problema con el método actual para usar la CPU y los aparatos que tienen como base el software, tales como por ejemplo ViaVoice© y Naturally Speaking©, para procesar la voz, es que los microprocesadores no son adecuados para llevar a cabo el gran número de transformaciones rápidas de Fourier (a partir de ahora FFT) necesarias para el procesamiento de la voz. Esto produce un uso considerable del procesador que consume energía, produce un aumento excesivo de calor e impide que el ordenador realice otras tareas tan rápidamente como es posible en otras circunstancias. Los microprocesadores consumen energía que se mide en vatios. Si se coloca un DSP como puente entre el convertidor analógico-numérico y el microprocesador, se puede llevar a cabo el procesamiento de la voz de manera continua y dirigirla mediante el DSP, ahorrando de este modo una gran cantidad de energía y permitiendo una verificación adicional para mejorar la precisión. El chip DSP, por ejemplo la serie TMS5000 de DSP fabricada por Texas Instruments Corporation, de Dallas, Texas, consume únicamente milivatios de energía, una reducción sustancial si se compara con la CPU. En segundo lugar, estos chips se optimizan para realizar el tipo de operaciones computacionales necesarias para un procesamiento de voz efectivo y eficaz. Así, se produce un aumento de precisión, velocidad y capacidad como resultado de su arquitectura. Además, es libre para llevar a cabo otras tareas relacionadas con aplicaciones de software que se producen en el ordenador al mismo tiempo, algunas de las cuales se pueden utilizar para mejorar la precisión de reconocimiento y la experiencia interactiva con el usuario. Esto tiene beneficios importantes para ordenadores portátiles, para ordenadores móviles y que se pueden llevar encima y para ordenadores domésticos y de sobremesa. En particular, en el ambiente de los ordenadores que se pueden llevar encima o de los móviles, aumenta el uso global del dispositivo mediante la capacidad de llevar a cabo un procesamiento de la voz práctico. Para el propósito de esta descripción, los ordenadores que se pueden llevar encima son ordenadores tales como los que se describen en la patente U.S. 5.844.824 cedida a Xybernaut Corporation de Fairfax, VA y comercializados posteriormente con el nombre comercial de Mobile Assistant ®. La U.S. 5.844.824 describe el uso de medios de comunicación con el ordenador que sostiene el usuario. Además, se puede utilizar cualquier monitor con el presente sistema, por ejemplo un HMD, un monitor colgado del cuello, un monitor plano o cualquier otro monitor. Sin embargo, cualquiera versado en la materia puede apreciar que los ordenadores que se pueden llevar encima también se pueden referir a ordenadores fabricados por otras entidades o a ordenadores que tienen como base una placa de circuito impreso madre y a productos electrónicos que no se fabrican actualmente. La incorporación de esta tecnología permite a los usuarios utilizar de manera práctica y precisa tales dispositivos usando activación de voz en vez de o además de activación manual o dispositivo apuntador. Además, debido al reducido consumo de energía con el DSP a diferencia de la CPU, se prolonga de manera sustancial la vida útil de la batería. En el ambiente de los ordenadores de sobremesa, también se realizan los beneficios de un procesamiento de voz más eficaz y de una liberación de los ritmos de la CPU.

El procesamiento de voz, en el contexto de un ordenador, se puede dividir en dos categorías básicas: la primera dirigir y controlar la voz y la segunda que sea una voz continua. La dirección y control de la voz son palabras que se usan para controlar el sistema operativo o para navegar a través de una aplicación específica. Estas palabras o frases se pueden adaptar al gusto del cliente y unir a comandos específicos. Frases tales como por ejemplo "abrir ventana" o "desplazar hacia abajo" son ejemplos de dirección y control de voz. Son generalmente palabras elegidas de un vocabulario limitado o seleccionado, en donde cada palabra está relacionada con una orden específica para el ordenador. Actualmente, esto se procesa con el aparato de reconocimiento de voz que tiene como base el software y la CPU. Sin embargo, el DSP puede servir como aparato de reconocimiento de voz para estas palabras o frases de comando y control. El mismo aparato de reconocimiento de voz reside en la memoria incorporada en el chip DSP, con lo cual sólo el comando traducido es enviado a la CPU para su ejecución. Esto permite una interpretación y un procesamiento completos de la voz mediante el DSP sin que se tenga que utilizar en absoluto la CPU. La plantilla de palabras de mando de palabras legales puede residir en la memoria del DSP o como alternativa cargarse en la memoria del DSP desde la CPU central en base al contexto y a la aplicación permitiendo una gran variedad de bibliotecas de comandos de control diferentes dependiendo de la aplicación que se use. De este modo, el DSP no requiere una memoria extensiva ya que sólo hay un conjunto limitado de palabras de mando y se pueden cargar plantillas de palabras referentes al contexto en la memoria del DSP en cualquier momento, o cuando cambia el contexto. Las necesidades de la memoria del aparato de reconocimiento de voz de control y mando se reducen de manera sustancial permitiendo un funcionamiento eficaz. Sesenta y cuatro kilooctetos de memoria son suficientes para una biblioteca de comando y control y está dentro de la capacidad de la memoria del actual DSP. A medida que el chip DSP se hace más resistente con respecto a su cantidad de memoria, llega a ser práctico y efectivo almacenar más o todas las plantillas de palabras de control y mando en la memoria DSP. El mismo aparato se puede adaptar al gusto del cliente con lo cual el usuario puede definir la orden verbal que efectúa la acción. Esto mitiga el problema de las palabras que tienen un sonido parecido aunque efectúan una orden diferente. Por ejemplo, si hay dos órdenes que son fonéticamente similares aunque efectúan diferentes resultados, se puede cambiar una orden de voz diferente para efectuar el mismo resultado o el conjunto contextual y medioambiental de órdenes pueden dictar la respuesta adecuada.

En lo que se refiere al procesamiento de voz continua, existen ventajas importantes al usar también un DSP para ayudar a la CPU a procesar la voz. Cuando la CPU recibe una señal binaria numérica muestreada que representa las palabras habladas procedentes del convertidor A/D CODEC, la tiene que convertir en fonemas o sonidos que representen grupos de letras o letras aisladas, y después encontrar la palabra/frase más adecuada para representar la combinación de sonidos. Este proceso de convertir la señal binaria en fonemas requiere un cálculo exhaustivo y el circuito lógico de una CPU universal no está optimizado para este tipo de proceso. El chip DSP también puede servir como procesador central para un aparato de reconocimiento de voz continua que tiene como base el software. Como el diccionario de palabras es muy largo para un aparato de reconocimiento de voz continua y el DSP tiene una memoria limitada, resulta más eficaz usar la CPU y un aparato de reconocimiento de voz que tiene como base el software para el procesador principal. El DSP recibe la entrada de la señal binaria de la voz y la convierte en fonemas para que pasen por la CPU para coincidir con el aparato de reconocimiento de voz que tiene como base el software. Los fonemas son las unidades básicas indivisibles de los sonidos que forman palabras, por ejemplo una única combinación silábica de letras. Este preprocesamiento, que lleva a cabo normalmente la CPU, reduce sustancialmente el número total de ciclos de ejecución que necesita la CPU para procesar un número dado de palabras en comparación con el único método de procesamiento de voz de la CPU. Es la conversión de la señal binaria de fonemas lo que requiere grandes cantidades de cálculos FFT. De este modo, el chip DSP que tiene un buen rendimiento realiza la mayor parte del trabajo que hoy en día realiza la CPU, reduciendo así el uso de la CPU y dejándola libre para procesar las instrucciones del software necesarias para convertir los fonemas en palabras y frases reales. Esto a su vez produce beneficios que se manifiestan en forma de una mayor precisión por parte del aparato de reconocimiento de voz, un funcionamiento del sistema más rápido, una reducción de la generación de calor y un uso más eficaz de la energía. Puede que sea necesario desarrollar un nuevo aparato de reconocimiento de voz que tenga como base el software para procesar una voz continua que permite que el DSP lleve a cabo el procesamiento central para aprovecharse de esta nueva arquitectura. De manera alternativa, el código fuente de los aparatos de voz continua que se pueden adquirir comercialmente, por ejemplo la ViaVoice ® y la Naturally Speaking ® se pueden modificar para permitir que el DSP lleve a cabo el procesamiento central de la voz que realiza actualmente la CPU.

Otra ventaja de la presente invención es la capacidad de filtrar y reducir el ruido ambiental. El chip DSP es adecuado para filtrar ruidos y realizar los algoritmos de cancelación de ruidos y recoge la señal binaria numérica que representa la voz, ya sea continua o de comando y control, sustraída del ruido, y después la convierte en fonemas claros. Si está en un modo de comando y control, extrae la orden y la traspasa a la CPU. Si está en un modo continuo, pasa el fonema a la CPU para procesarlo con el aparato de reconocimiento de voz que tiene como base el software. Esta capacidad de cancelar el ruido de la voz permite a los usuarios de los ordenadores que tienen esta arquitectura trabajar en ambientes bastante ruidosos con una precisión mejorada. Por ejemplo, alguien que lleve a cabo un trabajo de mantenimiento en una central termoeléctrica accionada por turbina, en una cadena de montaje de aviones donde hay ruidos muy fuertes procedentes de las herramientas o de los robots de remachado, puede controlar de manera precisa su ordenador usando la activación por voz con poca o ninguna perturbación en el funcionamiento. Esto ofrece unos beneficios especiales a los ordenadores que se llevan encima y a los manuales que se utilizan en estos ambientes, permitiendo a los usuarios mantener su(s) mano(s) libre(s) mientras miran y se desplazan por la información del ordenador. Normalmente, estos tipos de aplicaciones implican tener que mirar manuales técnicos electrónicos interactivos, por lo cual un técnico necesita poder desplazarse y buscar en un sistema experto computerizado listas de materiales o esquemas al mismo tiempo que realiza un trabajo de mantenimiento o montaje. Este tipo de trabajo se realiza a menudo con piezas grandes o que no se pueden mover con facilidad del equipo o artículos de fabricación. Así se amplia la utilidad del ordenador móvil del técnico, que puede continuar manejándolo y navegando a través de su manual en un ambiente muy ruidoso tal como en fábricas, centrales termoeléctricas, cadenas de montaje, etc.

Esta invención tiene otras ventajas importantes tanto para los ordenadores personales tradicionales como para los que se llevan encima. El DSP puede facilitar o ayudar en el proceso de transformar texto en voz. Este proceso es lo contrario del reconocimiento de voz ya que las mismas palabras del texto necesitan descomponerse en sus fonemas para transferirse a un hablante al que se le puede oír. Además, si el ordenador que utiliza el DSP de a bordo es un ordenador que se lleva encima o un dispositivo manual, y está equipado con medios de comunicación inalámbricos, por ejemplo un MODEM inalámbrico u otro dispositivo de comunicaciones, el DSP puede controlar funciones de teléfono móvil tales como la digitalización de la voz y de los comandos para facilitar peculiaridades tales como la marcación activada por voz, control de voz, reducción de ruido, transformación de voz a señal, etc.

En una realización preferida, hay controles que tienen como base el software para designar el modo en el que el DSP funciona, es decir, modo de comando y control o modo de voz continua. Esto se puede facilitar con uno de los diferentes métodos que existen. En un método, el usuario, activando los controles que tienen como base el software, fija el modo del DSP ya sea al iniciar el sistema o mientras el sistema está accionado. Este modo puede permanecer hasta que cambie por defecto. Como alternativa, el sistema puede activarse en el estado de control y comando, permitiendo al usuario acceder al sistema, controlar el sistema de funcionamiento y seleccionar una aplicación específica. Sin embargo, una vez que se solicita la aplicación, si es una aplicación que necesita voz continua, por ejemplo un procesador de textos, el modo cambia automáticamente a continuo. Puede resultar útil tener un comando de interrupción de modo que permita al usuario cambiar de modo en mitad de una aplicación. Por ejemplo, si el usuario está dictando un texto a esta aplicación y quiere guardar un archivo o realizar otras tareas que requieran el uso de menús pull-down de la aplicación, sus palabras habladas deberán interpretarse como órdenes y no simplemente como voz de dictado. Además, puede haber determinadas aplicaciones que pueden incluir un vocabulario específico de palabras de mando y control que se pueden cargar en la memoria del DSP al solicitar la aplicación. Por ejemplo, si se solicita un navegador de Internet, todos los comandos necesarios para navegar y realizar funciones estándar de navegación se cargarán en la memoria del DSP. La utilidad global de la invención se maximiza al facilitar una variedad de comandos específicos de aplicación además de los comandos fundamentales para controlar el sistema operativo.

En otra realización, la invención se puede usar para facilitar la traducción, sobre la marcha, de la lengua natural a otra lengua diferente. Por ejemplo alguien que esté ejecutando un programa de traducción con reconocimiento de voz podría hablar al ordenador en una lengua y tenerla traducida a otra lengua para entrada de texto o para salida visualizada o de audio. El DSP sirve como procesador central para la CPU y el software, y puede realizar un preprocesamiento en lenguas extranjeras. Adicionalmente se pueden cargar en el DSP filtros especiales que se optimizan para recuperar un dialecto particular, con el fin de ofrecer una traducción más exacta de la entrada hablada. De nuevo, la arquitectura de hardware del DSP permite llevar a cabo esta tarea de manera más eficaz que la CPU.

En otra realización más, la invención se puede usar para integrar la voz en otros dispositivos informáticos tales como por ejemplo ordenadores móviles y dispositivos de comunicaciones. Por ejemplo, los asistentes personales digitales (PDA), los dispositivos de comunicaciones personales (es decir los teléfonos móviles que pueden recibir y mostrar visualmente contenidos de Internet), e incluso los ordenadores manuales o de bolsillo se pueden beneficiar con la presente invención. Si se incorporan las enseñanzas de esta invención, estos dispositivos pueden llevar a cabo control de voz de un modo práctico y con un ahorro de energía sustancial. Como toda la energía de los dispositivos informáticos móviles y de comunicaciones deriva normalmente de baterías, es de suma importancia el uso eficaz de la energía al ejecutar las aplicaciones. Además, los procesadores de este tipo de dispositivos, normalmente no son tan competentes como los de los ordenadores que se llevan encima o de sobremesa, por tanto, no pueden realizar tantas funciones DSP como las CPU del estado de la técnica. También se puede observar el mismo aumento de eficacia y comodidad totales para el usuario. En un teléfono, por ejemplo, el usuario puede usar el DSP para facilitar la marcación por voz, ya sea diciendo el número al teléfono o el nombre de una persona que se asocia mediante una señal que hace que coincida el DSP con un número almacenado en la memoria. En un PDA u ordenador de bolsillo, se puede usar el DSP para facilitar el control de algunas aplicaciones específicas tales como un programa de correo electrónico o navegador de Internet, o podría usarse para controlar el propio sistema operativo. El usuario puede simplemente dar la orden de manera oral para comprobar un correo electrónico o abrir el navegador en vez de tener que tocar el monitor, usar el ratón u otro medio de activación manual.

En otra realización adicional, se pueden usar las enseñanzas de la presente invención para facilitar el control por voz en un ordenador de juegos manual, que se lleva encima del cuerpo, o de cualquier, otra forma móvil o no. El DSP que está en la placa de circuito impreso madre se puede usar para facilitar el control por voz del aparato de juego, en vez de pedir al usuario que apriete botones para tomar una decisión. De manera alternativa, se podría usar en tándem con controles manuales para reducir la complejidad de los controles manuales permitiendo que se puedan tomar determinadas decisiones con la voz. Por ejemplo, cuando se juega una partida en la que el carácter (entidad cuyo movimiento, posición y/o acciones controla la persona que está jugando) mueve y realiza acciones manuales tales como disparar un arma o lanzar una bola, se podrían usar los controles manuales para realizar el movimiento, mientras que la voz se podría utilizar para llevar a efecto una acción, tal como disparar, lanzar, seleccionar o recargar un arma. Ello añadiría una dimensión extra de realismo al juego y dejaría libres las manos del usuario para centrarse más en los mandos básicos. Esto cada vez es más importante en los sistemas de juego del estado de la técnica, tales como los que fabrica Sony Corporation y Nintendo Corporation, que incluyen controladores que permiten diez o más órdenes diferentes al mismo tiempo. Si se descargaran algunos de los comandos para ofrecer la activación por voz, se reduciría el nivel de destreza manual necesario.

Para una realización ejemplar de la presente invención, se hace referencia a las figuras. La figura 1 ilustra una placa de circuito impreso madre típica 1 de ordenador. La placa de circuito impreso madre 1 de ordenador podría ser una placa de circuito impreso madre de ordenador personal, una placa de circuito impreso madre de ordenador móvil, una placa de circuito impreso madre de un dispositivo informático o de comunicaciones, o una placa de circuito impreso madre de otro dispositivo informático electrónico. Tal placa de circuito impreso madre tiene normalmente componentes de sistema fundamentales tales como una CPU 2, una memoria 3, un bus de datos, una interfaz de alimentación 5, una interfaz I/O 4, una salida de vídeo 6, y una salida de audio y opcionalmente entrada.

La figura 2 ilustra una aplicación de nivel de sistema típica de un ordenador personal que puede funcionar para aceptar entrada de voz. El sistema informático comprende un monitor 10, una caja de CPU 9, un teclado 11, un ratón 12 y un micrófono 8. El micrófono 8 sirve como generador directo de entrada de voz en el ordenador para todas las aplicaciones.

La figura 3 ilustra un organigrama de funciones de entrada de voz en el contexto de la presente invención. La voz entra en el sistema vía la entrada de micrófono 13 que transforma la voz en una señal eléctrica. El recorrido de los datos traslada después esta señal a un codificador-descodificador 14 o chip similar que realiza una conversión de la señal de analógica a numérica (A/D). Esta señal numérica se desplaza después al DSP 15 para su procesamiento. En este punto, el sistema introduce un estado de decisión 16 de si el DSP 15 está funcionando en un modo de comando y control (C&C) o en un modo continuo. Si está en el modo C&C, el comando se extrae en 17 y después se envía a la CPU para su procesamiento 19. Sin embargo, si el DSP 15 está funcionando en el modo de voz continua, el DSP 15 se debe transformar en fonemas en la fase 18 y enviar estos a la CPU para su procesamiento en 19 junto con el aparato de reconocimiento de voz que tiene como base el software.

La figura 4 ilustra un organigrama del proceso que se produce en el DSP cuando se recibe una señal que representa la voz. La señal de voz 20 entra en el DSP 15 que se programa en el modo continuo o en el modo C&C. Si se programa en el modo continuo, la señal se filtra y se elimina cualquier ruido en la fase 24. Este proceso se puede hacer a medida para un ambiente físico específico o contexto de voz. A continuación, en la fase 25, la señal se transforma en fonemas que se envían a la CPU para que los reconozca la CPU y el aparato de reconocimiento de voz que tiene como base el software en la fase 26. Si el DSP se programa en el modo C&C, la señal también atraviesa un filtro y se elimina el ruido en la fase 21. Esto también se puede optimizar para determinados tipos de ruidos de ambiente y ciertos tipos de bibliotecas de control. El DSP hace que esta señal limpia que representa un comando, coincida con señales que están almacenadas en una memoria a la que puede acceder el DSP en la fase 22. Una vez que el comando se ha extraído, es enviado a la CPU en la fase 23.

La figura 5 ilustra una realización ejemplar de un DSP de a bordo en el contexto de una tarjeta de sistema informático móvil 200. El elemento 103 es un chip DSP serie TMS5000. Está integrado en la tarjeta de sistema como un puente entre la entrada de audio 101 y el codificador-descodificador 102 y la CPU 108 y el puente integrado Intel 82443MX100 N&S 105. La comunicación entre el DSP 103 y el bus PCI paralelo 106 se facilita mediante un chip de puente entre TI PCI2040 y DSP 104, que permite que las señales de salida del DSP 103 se conecten con el bus 106. En este ejemplo, la CPU 108 es un Pentium mobile 600 MHz ® fabricado por Intel Corporation. Sin embargo, cualquiera versado en la materia entiende que se puede sustituir por cualquier CPU de ordenador adecuada sin alejarnos del espíritu o el objeto de la presente invención. En este ejemplo, se muestra una interfaz de usuario PCB 100. Ésta incluye varias interfaces de entrada y salida típicas tales como el puerto de interfaz del usuario 101, el puerto USB 110, el puerto 1394 11 y el puerto del monitor 109.

El recorrido del flujo de datos típico de comando y control o de procesamiento de voz continua es el siguiente: la voz entra por la entrada de audio analógica 101, desde un micrófono analógico estándar, y se introduce por el puerto de interfaz del usuario 101. Las señales de audio analógicas viajan hasta el codificador-descodificador 102 donde un convertidor analógico-numérico (A/D) las transforma en una señal binaria numérica. Esta señal binaria se desplaza después al chip DSP 103. El DSP 103 realiza las funciones necesarias para "limpiar" y procesar la voz para transformarla en fonemas. Si el ordenador está en el modo de comando y control, el DSP 103 usa su aparato de reconocimiento de voz interna para establecer una correlación entre los fonemas de las palabras y la orden real. Si está en modo continuo, transforma únicamente la voz en fonemas. La siguiente fase consiste en hacer pasar la información, ya sea una orden para que la ejecute la CPU 108 o una serie de fonemas, por el recorrido de los datos para que pueda ser procesada por la CPU 108. Esto se lleva a cabo haciendo que pase la información a través de un chip de puente DSP a PCI 104 que pasa la información a un formato bit a bit que es compatible con el bus PCI 106. Esta información pasa después a través del Intel 82443MX100 105 para comunicarse directamente con la CPU 108. Si es una señal de comando y control, el comando lo ejecuta la CPU 108. La CPU 108 está parada con respecto al procesamiento de voz hasta este punto. Si es un flujo de fonemas, como es el caso de la voz continua, la CPU 108 pide que el aparato de reconocimiento de voz que tiene como base el software y que lleva a cabo el reconocimiento de voz procese los fonemas y los convierta en texto para cualquier aplicación que esté asociada con la voz. Cualquiera versado en la materia entiende que aunque esta realización física se ha proporcionado con fines ilustrativos, la misma invención se puede aplicar en cualquier placa de circuito impreso madre de ordenador independientemente de la configuración que tenga, y que se puede llevar a cabo una variedad de cambios y variaciones existentes sin alejarse del objeto de la presente invención, como se define en las reivindicaciones en anexo, siempre que esté presente la idea básica de la invención, la cual consiste en el uso de un DSP en el recorrido de los datos de entrada de audio para servir como aparato de reconocimiento de voz continua o de comando y/o como procesador central para voz continua, con el fin de procesar y facilitar selecciones de menú o controles y comandos de un teléfono móvil, y para ayudar a transformar el texto en voz.

Las realizaciones preferidas de la presente invención que se han descrito aquí ilustran los principios fundamentales de la invención, aunque se debe entender que se pueden realizar numerosas modificaciones y derivaciones sin alejarse del objeto de la invención.

Lista de signos de referencia

1: Placa de circuito impreso madre de ordenador

2: CPU

3: Memoria

4: Interfaz I/O

5: Interfaz de alimentación

6: Entrada de vídeo

7: Entrada y salida de audio

8: Micrófono

9: Caja de CPU

10: Monitor

11: Teclado

12: Ratón

13: Entrada de micrófono

14: Codificador-descodificador

15: DSP

16: Estado de decisión

17: Extracción de mando

18: Fase de conversión

19: Procesamiento de comando/CPU

20: Señal de voz

21: Fase de filtrado y eliminación de ruido

22: Fase de adaptación

23: Fase de envío

24: Fase de filtrado y sustracción

25: Fase de conversión

26: Fase de reconocimiento

101: Entrada de audio

102: Codificador-descodificador

103: Elemento / DSP

104: Chip

105: Puente

106: Bus PCI

108: CPU

109: Puerto de monitor

110: Puerto de USB

111: Puerto 1394

200: Tarjeta de sistema informático móvil

Claims

1. Arquitectura de placa de circuito impreso madre de ordenador que comprende:

- una placa de circuito impreso madre de ordenador que tiene componentes que incluyen una CPU, un bus de datos, una interfaz de alimentación y un recorrido de datos de entrada de audio, conectando dicho recorrido de datos de entrada de audio, la entrada de audio de la placa de circuito impreso madre con la CPU;

- un chip DSP en el recorrido de datos de entrada de audio;

- una interfaz de puente entre dicho chip DSP y el bus de la placa de circuito impreso madre de ordenador;

- una memoria en conexión eléctrica con dicho chip DSP; y

- un aparato de reconocimiento de voz que reside en dicha memoria de dicho chip DSP,

caracterizada porque dicho aparato de reconocimiento de voz es un aparato de reconocimiento de voz de comando y control, dicho puente es un puente PCI a DSP y dicho chip DSP está capacitado para funcionar como aparato de reconocimiento de voz en un modo de mando y control, y como procesador central en un modo de voz continua, para un aparato de reconocimiento de voz continua que tiene como base el software en la CPU.

2. Arquitectura de placa de circuito impreso madre de ordenador según la reivindicación 1, caracterizada porque dicho chip DSP sirve como preprocesador de toda la entrada de voz antes de que la CPU realice las instrucciones para procesar la entrada de voz.

3. Arquitectura de placa de circuito impreso madre de ordenador según la reivindicación 1 ó 2, caracterizada porque dicho chip DSP puede funcionar para que un usuario lo programe dinámicamente bien en dicho modo de voz continua o en dicho modo de mando y control.

4. Arquitectura de placa de circuito impreso madre de ordenador según cualquiera de las reivindicaciones anteriores, caracterizada porque dicho recorrido de datos de entrada de audio comprende una entrada de micrófono, medios para digitalizar una entrada de audio en dicho recorrido de datos de entrada de audio, un chip DSP y un chip de puente PCI a DSP que se comunica con dicho bus.

5. Arquitectura de placa de circuito impreso madre de ordenador según cualquiera de las reivindicaciones anteriores, caracterizada porque dicho chip DSP puede funcionar para transformar dicha entrada de audio en fonemas en dicho modo de voz continua.

6. Arquitectura de placa de circuito impreso madre de ordenador según cualquiera de las reivindicaciones anteriores, caracterizada porque dicho aparato de reconocimiento de voz que funciona en el modo de mando y control incluye un vocabulario de términos de voz que están asociados con instrucciones específicas o ambientes contextuales.

7. Arquitectura de placa de circuito impreso madre de ordenador según la reivindicación 6, caracterizada porque dicho vocabulario de términos de voz reside en dicha memoria de dicho chip DSP.

8. Arquitectura de placa de circuito impreso madre de ordenador según la reivindicación 6 ó 7, caracterizada porque un usuario puede definir dicho vocabulario de términos de voz ya sea en modo estático o en modo activo.

9. Arquitectura de placa de circuito impreso madre de ordenador según cualquiera de las reivindicaciones anteriores, caracterizada porque la CPU renueva dicho vocabulario de términos de voz en base al contexto de una aplicación que se está ejecutando en un ordenador central.

10. Arquitectura de placa de circuito impreso madre de ordenador según cualquiera de las reivindicaciones anteriores, caracterizada porque dicho chip DSP puede funcionar para ejecutar un preproceso para un aparato de reconocimiento de voz que tiene como base el software que reside en cualquier otra parte del ordenador, para ejecutar una selección de menú, por ejemplo funciones de audio en un teléfono móvil que comprenden marcación por voz, control de voz, cancelación de ruidos y transformación de voz en señal y para realizar funciones de cancelación de ruido.

11. Arquitectura de placa de circuito impreso madre de ordenador según cualquiera de las reivindicaciones anteriores, caracterizada porque dicho chip DSP está capacitado para funcionar en un modo de reconocimiento de voz de control y mando, en un modo de reconocimiento de voz continua, en un modo de teléfono móvil, y/o en un modo de traducción de lenguas.

12. Arquitectura de placa de circuito impreso madre de ordenador según la reivindicación 1, caracterizada porque dicha placa de circuito impreso madre de ordenador puede funcionar en un ordenador llevado por el usuario, especialmente en un ordenador llevado por el usuario con activación por voz.

13. Arquitectura de placa de circuito impreso madre de ordenador según cualquiera de las reivindicaciones anteriores, caracterizada porque dicha placa de circuito impreso madre de ordenador es una placa de circuito impreso madre de ordenador móvil, una placa de circuito impreso madre de ayuda numérica personal, una placa de circuito impreso madre de ordenador de sobremesa, una placa de circuito impreso madre de ordenador de mano, una placa de circuito impreso madre de ordenador de consola de videojuego y/o una placa de circuito impreso madre de ordenador de un dispositivo informático o de comunicaciones.

14. Arquitectura de placa de circuito impreso madre de ordenador según cualquiera de las reivindicaciones anteriores, caracterizada porque dicha placa de circuito impreso madre de ordenador es un componente de un elemento seleccionado del grupo que consiste en ordenadores que se llevan encima, ordenadores portátiles, ordenadores de sobremesa, ordenadores móviles y combinaciones de los mismos.

15. Arquitectura de placa de circuito impreso madre de ordenador según cualquiera de las reivindicaciones anteriores, caracterizada porque dicha placa de circuito impreso madre de ordenador es un componente de un elemento seleccionado del grupo que consiste en teléfonos móviles, teléfonos inalámbricos, ordenadores móviles, medios de comunicación con hilos y sin hilos y combinaciones de los mismos.

16. Método para procesar voz en un ordenador, especialmente con una arquitectura de placa de circuito impreso madre de ordenador según una de las reivindicaciones anteriores, que comprende:

- designar un modo de mando y control;

- designar un modo de procesamiento continuo;

- colocar un chip DSP en una placa de circuito impreso madre en el recorrido de datos de entrada de audio;

- colocar un chip de puente DSP a PCI o circuito equivalente en serie después del chip DSP para comunicarse con dicho bus PCI del ordenador;

- recibir una entrada de voz a través de dicho recorrido de datos de entrada de audio;

si está en dicho modo de procesamiento de mando y control, dicho chip DSP transforma dicha entrada de voz en fonemas y hace que se correspondan dichos fonemas con comandos que están almacenados en dicha memoria que reside en dicho DSP para crear órdenes de CPU;

si está en dicho modo continuo, dicho chip DSP transforma dicha entrada de voz en fonemas;

- hacer pasar dicha orden o dichos fonemas a una CPU a través de dicho puente DSP a PCI o vía equivalente de dicha placa de circuito impreso madre.