ES2574680T3 - Sistema y procedimiento de registro de audio inteligente para dispositivos móviles - Google Patents
Sistema y procedimiento de registro de audio inteligente para dispositivos móviles Download PDFInfo
- Publication number
- ES2574680T3 ES2574680T3 ES11717375.7T ES11717375T ES2574680T3 ES 2574680 T3 ES2574680 T3 ES 2574680T3 ES 11717375 T ES11717375 T ES 11717375T ES 2574680 T3 ES2574680 T3 ES 2574680T3
- Authority
- ES
- Spain
- Prior art keywords
- audio
- context information
- audio signal
- digital audio
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 230000005236 sound signal Effects 0.000 claims abstract description 74
- 238000012545 processing Methods 0.000 claims abstract description 55
- 230000004044 response Effects 0.000 claims abstract description 24
- 239000000284 extract Substances 0.000 claims abstract description 7
- 230000006835 compression Effects 0.000 claims description 39
- 238000007906 compression Methods 0.000 claims description 39
- 238000001514 detection method Methods 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 13
- 230000001629 suppression Effects 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000007423 decrease Effects 0.000 claims description 6
- 230000005055 memory storage Effects 0.000 claims description 5
- 230000003595 spectral effect Effects 0.000 claims description 5
- 230000001131 transforming effect Effects 0.000 claims description 2
- 101710163391 ADP-ribosyl cyclase/cyclic ADP-ribose hydrolase Proteins 0.000 claims 1
- 230000001052 transient effect Effects 0.000 claims 1
- 238000012544 monitoring process Methods 0.000 description 67
- 238000010586 diagram Methods 0.000 description 56
- 230000000694 effects Effects 0.000 description 30
- 230000004913 activation Effects 0.000 description 28
- 230000008859 change Effects 0.000 description 25
- 230000008569 process Effects 0.000 description 25
- 230000007246 mechanism Effects 0.000 description 17
- 230000033228 biological regulation Effects 0.000 description 14
- 238000004891 communication Methods 0.000 description 11
- 238000005265 energy consumption Methods 0.000 description 11
- 238000011156 evaluation Methods 0.000 description 11
- 230000009849 deactivation Effects 0.000 description 8
- 230000007774 longterm Effects 0.000 description 7
- 230000008451 emotion Effects 0.000 description 6
- 230000003068 static effect Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010921 in-depth analysis Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000001154 acute effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000010998 test method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000008713 feedback mechanism Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/10527—Audio or video recording; Data buffering arrangements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/7243—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
- H04M1/72433—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for voice messaging, e.g. dictaphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/10527—Audio or video recording; Data buffering arrangements
- G11B2020/10537—Audio or video recording
- G11B2020/10546—Audio or video recording specifically adapted for audio data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/60—Substation equipment, e.g. for use by subscribers including speech amplifiers
- H04M1/6008—Substation equipment, e.g. for use by subscribers including speech amplifiers in the transmitter circuit
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/64—Automatic arrangements for answering calls; Automatic arrangements for recording messages for absent subscribers; Arrangements for recording conversations
- H04M1/65—Recording arrangements for recording a message from the calling party
- H04M1/656—Recording arrangements for recording a message from the calling party for recording conversations
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Computer Networks & Wireless Communication (AREA)
- Quality & Reliability (AREA)
- Telephone Function (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Un procedimiento de procesamiento de una señal de audio digital para un dispositivo móvil, comprendiendo el procedimiento: recibir (S270) una señal acústica por parte de al menos un micrófono; convertir la señal acústica recibida en la señal de audio digital; extraer (S600) al menos una información de contexto auditivo desde la señal de audio digital; en respuesta a detectar automáticamente un indicador de inicio de suceso (S910) en base a la información de contexto extraída, o a información de contexto adicional, realizar un registro de audio para la señal de audio digital; y en respuesta a detectar automáticamente un indicador de fin de suceso (S940), finalizar el registro de audio.
Description
5
10
15
20
25
30
35
40
45
50
55
60
65
DESCRIPCION
Sistema y procedimiento de registro de audio inteligente para dispositivos moviles ANTECEDENTES
I. Campo
La presente divulgacion se refiere, en general, a la captura de senales de audio y de habla. Mas especfficamente, la divulgacion se refiere a dispositivos moviles capaces de iniciar y / o terminar operaciones de captura de senales de audio y de habla, o bien, de manera intercambiable, de registrar una operacion, en base al analisis de informacion de contexto de audio.
II. Descripcion de la tecnica relacionada
Gracias al avance de la tecnologfa del control de energfa en los Circuitos Integrados Especfficos de la Aplicacion (ASIC) y a la potencia informatica aumentada de los procesadores moviles tales como el Procesador de Senales Digitales (DSP) o los microprocesadores, un numero creciente de dispositivos moviles son ahora capaces de habilitar caracterfsticas mucho mas complejas, que no eran consideradas como factibles hasta tiempos recientes, debido a la falta del soporte requerido de potencia de calculo o de hardware (HW). Por ejemplo, las estaciones moviles (MS) o los telefonos moviles fueron desarrollados inicialmente para permitir la comunicacion de voz o de habla por tradicionales redes celulares inalambricas basadas en circuitos. Por tanto, la MS fue originalmente disenada para abordar aplicaciones fundamentales de voz, como la compresion de la voz, la cancelacion del eco acustico (AEC), la supresion del ruido (NS) y el registro de la voz.
El proceso de implementacion de un algoritmo de compresion de voz es conocido como vocodificacion y el aparato de implementacion es conocido como un vocodificador o “codificador del habla”. Existen varios algoritmos estandarizados de vocodificacion, como soporte de los distintos sistemas de comunicacion digital que requieren la comunicacion del habla. El Proyecto 2 de Colaboracion de 3a Generacion (3GPP2) es una organizacion ejemplar de estandarizacion que especifica tecnologfa de Acceso Multiple por Division de Codigo (CDMA), tal como los sistemas de comunicacion de IS-95, de Tecnologfa 1x de Transmision de Radio (IxRTT) Optimizada para Datos - Evolucion de CDMA2000 (EV-DO). El Proyecto de Colaboracion de 3a Generacion (3GPP) es otra organizacion ejemplar de estandarizacion que especifica el Sistema Global para Comunicaciones Moviles (GSM), el Sistema Universal de Telecomunicaciones Moviles (UMTS), el Acceso de Paquetes de Enlace Descendente de Alta Velocidad (HSDPA), el Acceso de Paquetes de Enlace Ascendente de Alta Velocidad (HSUPA), la Evolucion del Acceso de Paquetes de Alta Velocidad (HSPA+) y la Evolucion a Largo Plazo (LTE). El Protocolo de Voz por Internet (VOIP) es un protocolo ejemplar usado en sistemas de comunicacion definidos en 3GPP y 3GPP2, asf como otros. Los ejemplos de vocodificadores empleados en tales sistemas y protocolos de comunicacion incluyen el G.729 de la Union Internacional de Telecomunicaciones (ITU)-T, el codec Adaptativo de Multiples Velocidades (AMR) y el Codec Mejorado de Velocidad Variable (EVRC), opciones de servicios del habla 3, 68 y 70.
La grabacion de la voz es una aplicacion para grabar la voz humana. La grabacion de la voz es mencionada a menudo como registro de voz o memoria de voz, de forma intercambiable. La grabacion de la voz permite a los usuarios guardar alguna parte de una senal del habla, recogida por uno o mas microfonos, en un espacio de memoria. La grabacion de voz guardada puede ser reproducida mas tarde en el mismo dispositivo, o puede ser transmitida a un dispositivo distinto, a traves de un sistema de comunicacion de voz. Aunque los grabadores de la voz pueden grabar algunas senales musicales, la calidad de la musica grabada, habitualmente, no es magnffica, porque el grabador de voz esta optimizado para caracterfsticas vocales emitidas por un conducto vocal humano.
La grabacion de audio, o el registro de audio, se usa a veces de manera intercambiable con la grabacion de la voz, pero se entiende a veces como una aplicacion distinta, para grabar cualquier sonido audible, incluyendo la voz humana, los instrumentos y la musica, debido a su capacidad de capturar senales de mayor frecuencia que las generadas por el conducto vocal humano. En el contexto de la presente solicitud, la terminologfa de “registro de audio” o “grabacion de audio” sera usada extensamente para referirse a la grabacion de voz o a la grabacion de audio.
El registro de audio permite la grabacion de todas, o algunas de, las partes de una senal de audio de interes, que son habitualmente recogidas por uno o mas microfonos en uno o mas dispositivos moviles. El registro de audio es mencionado a veces como grabacion de audio o memoria de audio, de forma intercambiable. El documento WO 2004 / 057892 A1 describe un procedimiento para organizar la informacion proporcionada por usuarios, disponible en un dispositivo terminal movil, con meta-informacion para permitir la extraccion de la informacion proporcionada por el usuario. Durante la grabacion, se obtiene informacion adicional proporcionada por el usuario e informacion de contexto referida a la operacion de grabacion.
SUMARIO
5
10
15
20
25
30
35
40
45
50
55
60
65
La invencion esta definida en las reivindicaciones adjuntas, a las cuales deberfa hacerse referencia ahora.
Este documento describe un procedimiento de procesamiento de una senal de audio digital para un dispositivo movil. Este procedimiento incluye recibir una senal acustica por al menos un microfono; convertir la senal acustica recibida en la senal de audio digital; extraer al menos una informacion de contexto auditivo de la senal de audio digital; en respuesta a detectar automaticamente un indicador de inicio de suceso, realizar un registro de audio para la senal de audio digital; y en respuesta a detectar automaticamente un indicador de fin de suceso, finalizar el registro de audio. Esta al menos una informacion de contexto auditivo puede estar relacionada con la clasificacion de audio, la identificacion de palabras clave o la identificacion del orador. Esta al menos una informacion de contexto auditivo puede estar basada, al menos en parte, en la energfa de senal, la razon entre senal y ruido, el declive espectral o la frecuencia del cruce por el cero. Esta al menos una informacion de contexto auditivo puede estar basada, al menos en parte, en informacion no auditiva, tal como informacion de planificacion o informacion de cronograma. Este documento tambien describe un aparato, una combinacion de medios y un medio legible por ordenador relacionados con este procedimiento.
Este documento tambien describe un procedimiento de procesamiento de una senal de audio digital para un dispositivo movil. Este procedimiento incluye recibir una senal acustica por parte de al menos un microfono; transformar la senal acustica recibida en una senal electrica; muestrear la senal electrica en base a una frecuencia de muestreo y a un ancho de datos para cada dato muestreado, para obtener la senal de audio digital; almacenar la senal de audio digital en un almacen temporal; extraer al menos una informacion de contexto auditivo de la senal de audio digital; en respuesta a detectar automaticamente un indicador de inicio de suceso, realizar un registro de audio para la senal de audio digital; y en respuesta a detectar automaticamente un indicador de fin de suceso, finalizar el registro de audio. Esta deteccion de los indicadores de inicio o de fin de suceso puede estar basada, al menos en parte, en informacion no auditiva tal como informacion de planificacion o informacion de cronograma. Este documento tambien describe un aparato, una combinacion de medios y un medio legible por ordenador, relacionados con este procedimiento.
Este documento tambien describe un procedimiento de deteccion de un indicador de inicio de suceso. Este procedimiento incluye seleccionar al menos una informacion de contexto desde dicha al menos una informacion de contexto auditivo; comparar la informacion de contexto seleccionada con al menos un umbral predeterminado; y determinar si el indicador de inicio de suceso ha sido detectado en base a la comparacion de la informacion de contexto seleccionada con al menos un umbral predeterminado. Este documento tambien describe un aparato, una combinacion de medios y un medio legible por ordenador, relacionados con este procedimiento.
Este documento tambien describe un procedimiento de deteccion de un indicador de fin de suceso. Este procedimiento incluye seleccionar al menos una informacion de contexto procedente de dicha al menos una informacion de contexto auditivo; comparar la informacion de contexto seleccionada con al menos un umbral predeterminado; y determinar si el indicador de fin de suceso ha sido detectado, en base a la comparacion de la informacion de contexto seleccionada con al menos un umbral predeterminado. Esta deteccion de un indicador de fin de suceso puede estar basada, al menos en parte, en la no ocurrencia de un suceso auditivo durante un periodo de tiempo predeterminado. Este documento tambien describe un aparato, una combinacion de medios y un medio legible por ordenador, relacionados con este procedimiento.
Este documento tambien describe un procedimiento de realizacion del registro de audio. Este procedimiento incluye actualizar al menos un parametro relacionado con la conversion, en base, al menos en parte, a dicha al menos una informacion de contexto auditivo; en respuesta a la determinacion de si se requiere un procesamiento adicional, en base, al menos en parte, a dicha al menos una informacion de contexto auditivo, aplicar el procesamiento adicional a la senal de audio digital para obtener una senal de audio procesada; y almacenar la senal de audio procesada en un almacenamiento de memoria. El procesamiento adicional puede ser procesamiento de realce de senales, tal como la cancelacion de eco acustico (AEC), recepcion de realce de voz (RVE), cancelacion de ruido activo (ANC), supresion de ruido (NS), control de ganancia acustica (AGC), control de volumen acustico (AVC) o control de gama dinamica acustica (ADRC). La supresion del ruido puede estar basada en una solucion basada en un unico microfono o en multiples microfonos. El procesamiento adicional puede ser procesamiento de compresion de senales, tal como la compresion del habla o la compresion de audio. Los parametros de compresion, tales como la modalidad de compresion, la velocidad de bits o el numero de canal, pueden ser determinados en base a la informacion de contexto auditivo. El almacenamiento de memoria incluye una memoria local dentro del dispositivo movil o una memoria remota conectada con el dispositivo movil a traves de un canal inalambrico. La seleccion entre la memoria local y la memoria remota puede estar basada, al menos en parte, en la informacion de contexto auditivo. Este documento tambien describe un aparato, una combinacion de medios y un medio legible por ordenador, relacionados con este procedimiento.
Este documento tambien describe un procedimiento para un dispositivo movil que incluye detectar automaticamente un indicador de inicio de suceso; procesar la primera parte de una senal de entrada de audio para obtener una primera informacion en respuesta a la deteccion de un indicador de inicio de suceso; determinar al menos un parametro de grabacion en base a la primera informacion; y reconfigurar una unidad de captura de audio del dispositivo movil, en base a dicho al menos un parametro de grabacion determinado. Esta reconfiguracion puede
5
10
15
20
25
30
35
40
45
50
55
60
65
ocurrir durante una parte inactiva de la senal de entrada de audio. Este al menos un parametro de grabacion incluye informacion indicativa de una frecuencia de muestreo o de un ancho de datos para un convertidor de A / D del dispositivo movil. Este al menos un parametro de grabacion incluye informacion indicativa del numero del microfono activo del dispositivo movil, o informacion de temporizacion, indicativa del intervalo de vigilia o la duracion activa de al menos un microfono. Esta primera informacion puede ser informacion de contexto que describe un entorno en el cual el dispositivo movil esta grabando, o una caracterfstica de la senal de entrada de audio. Este indicador de inicio de suceso puede estar basado en una senal transmitida por un canal inalambrico. Este documento tambien describe un aparato, una combinacion de medios y un medio legible por ordenador, relacionados con este procedimiento.
Este documento tambien describe un procedimiento para un dispositivo movil que incluye detectar automaticamente un indicador de inicio de suceso; procesar una primera parte de una senal de entrada de audio, para obtener una primera informacion en respuesta a la deteccion de un indicador de inicio de suceso; determinar al menos un parametro de grabacion en base a la primera informacion; reconfigurar una unidad de captura de audio del dispositivo movil, en base a dicho al menos un parametro de grabacion determinado; procesar una segunda parte de la senal de entrada de audio, para obtener una segunda informacion; realzar la senal de entrada de audio suprimiendo un ruido de fondo, para obtener una senal realzada; codificar la senal realzada para obtener una senal codificada; y almacenar la senal codificada en un almacenamiento local dentro del dispositivo movil. Esta codificacion de la senal realzada incluye determinar un tipo de codificacion basado en la segunda informacion; determinar al menos un parametro de codificacion para la codificacion determinada; y procesar la senal realzada en base al tipo de codificacion determinado y a dicho al menos un parametro de codificacion determinado, para obtener la senal codificada. En la presente memoria, dicho al menos un parametro de codificacion incluye la velocidad de bits o la modalidad de codificacion. Ademas, este procedimiento puede incluir determinar un grado del realce de la senal de entrada de audio, en base a la segunda informacion. Este documento tambien describe un aparato, una combinacion de medios y un medio legible por ordenador, relacionados con este procedimiento.
Este documento tambien describe un procedimiento para un dispositivo movil que incluye detectar automaticamente un indicador de inicio de suceso; procesar una primera parte de una senal de entrada de audio para obtener una primera informacion en respuesta a la deteccion de un indicador de inicio de suceso; determinar al menos un parametro de grabacion en base a la primera informacion; reconfigurar una unidad de captura de audio del dispositivo movil, en base a dicho al menos un parametro de grabacion determinado; procesar la segunda parte de la senal de entrada de audio para obtener una segunda informacion; realzar la senal de entrada de audio suprimiendo un ruido de fondo, para obtener una senal realzada; codificar la senal realzada para obtener una senal codificada; y almacenar la senal codificada en un almacenamiento local dentro del dispositivo movil. Ademas, este procedimiento puede incluir detectar automaticamente un indicador de fin de suceso; y, en respuesta a la deteccion de un indicador de fin de suceso, determinar una ubicacion de almacenamiento a largo plazo para la senal codificada, entre el almacenamiento local dentro del dispositivo movil y un almacenamiento en red conectado con el dispositivo movil, a traves de un canal inalambrico. Esta determinacion de la ubicacion de almacenamiento a largo plazo puede estar basada en una prioridad de la senal codificada. Este documento tambien describe un aparato, una combinacion de medios y un medio legible por ordenador, relacionados con este procedimiento.
BREVE DESCRIPCION DE LOS DIBUJOS
Los aspectos y las ventajas concomitantes de las realizaciones descritas en la presente memoria devendran mas inmediatamente evidentes por referencia a la siguiente descripcion detallada, cuando se considere conjuntamente con los dibujos adjuntos, en los que:
la FIG. 1A es un diagrama que ilustra el concepto de un sistema inteligente de registro de audio.
La FIG. 1B es otro diagrama que ilustra el concepto de un sistema inteligente de registro de audio.
La FIG. 1C es un diagrama que ilustra el concepto de un sistema convencional de registro de audio.
La FIG. 2 es un diagrama de una realizacion ejemplar del sistema inteligente de registro de audio.
La FIG. 3 es un diagrama de una realizacion de la Unidad de Procesamiento de Salida 240.
La FIG. 4 es un diagrama de una realizacion de la Unidad de Procesamiento de Entrada 250.
La FIG. 5 es un diagrama de una realizacion del Procesador de Registro de Audio 230.
La FIG. 6 es un diagrama que ilustra ejemplos de informacion de contexto S600.
La FIG. 7 es un diagrama de una realizacion del identificador de contexto 560.
La FIG. 8 es un diagrama de una realizacion ejemplar del identificador de contexto 560 y de la informacion de
contexto S600.
5
10
15
20
25
30
35
40
45
50
55
60
65
La FIG. 9A es una realizacion del mecanismo de generacion de un indicador de inicio de suceso de nivel unico.
La FIG. 9B es otra realizacion del mecanismo de generacion de un indicador de inicio de suceso de nivel unico.
La FIG. 10 es una realizacion del mecanismo de generacion de un indicador de fin de suceso.
La FIG. 11 es un diagrama de una primera realizacion ejemplar que ilustra los estados del Procesador de Registro de Audio 230 y la transicion de los mismos.
La FIG. 12 es un diagrama de una segunda realizacion ejemplar que ilustra los estados del Procesador de Registro de Audio 230 y la transicion de los mismos.
La FIG. 13 es un diagrama de flujo de una realizacion de la Unidad de Captura de Audio 215 durante el estado S1 de monitorizacion pasiva de audio o el estado S4 de monitorizacion de audio.
La FIG. 14 es un diagrama de un ejemplo para almacenar entrada de audio digital en el Almacen Temporal 220 en la Unidad de Captura de Audio 215 durante el estado S1 de monitorizacion pasiva de audio o el estado S4 de monitorizacion de audio.
La FIG. 15 es un diagrama de flujo de una realizacion del Procesador de Registro de Audio 230 durante el estado
51 de monitorizacion pasiva de audio.
La FIG. 16 es un diagrama de flujo de una realizacion de la Unidad de Captura de Audio 215 durante el estado
52 de monitorizacion activa de audio.
La FIG. 17 es un diagrama de ejemplo para almacenar entrada de audio digital en el Almacen Temporal 220 en la Unidad de Captura de Audio 215 durante el estado S2 de monitorizacion activa de audio.
La FIG. 18 es un diagrama de flujo de una realizacion del Procesador de Registro de Audio 230 durante el estado
52 de monitorizacion activa de audio.
La FIG. 19 es un diagrama de ejemplo de una realizacion de identificacion de contexto en el Procesador de Registro de Audio 230 durante el estado S2 de monitorizacion activa de audio.
La FIG. 20 es un diagrama de flujo de una realizacion de la Unidad de Captura de Audio 215 durante el estado
53 o S5 de registro activo de audio.
La FIG. 21 es un diagrama de flujo de una realizacion del Procesador de Registro de Audio 230 durante el estado
53 de registro activo de audio.
La FIG. 22 es un diagrama de flujo de una realizacion del Procesador de Registro de Audio 230 durante el estado
54 de monitorizacion de audio.
La FIG. 23 es un diagrama de flujo de una realizacion del Procesador de Registro de Audio 230 durante el estado
55 de registro activo de audio.
La FIG. 24 es un diagrama de flujo de una realizacion del modulo central de registro de audio durante los estados S3 o S5 de registro activo de audio.
La FIG. 25 es un diagrama de una realizacion del control de ACTIVACION y DESACTIVACION de microfono unico.
La FIG. 26 es un diagrama de una primera realizacion del control de ACTIVACION y DESACTIVACION de microfono unico.
La FIG. 27 es un diagrama de una segunda realizacion del control de ACTIVACION y DESACTIVACION de microfono unico.
La FIG. 28 es un diagrama de una primera realizacion del control de ACTIVACION y DESACTIVACION de multiples microfonos.
La FIG. 29 es un diagrama de una segunda realizacion del control de ACTIVACION y DESACTIVACION de multiples microfonos.
La FIG. 30 es un diagrama de una realizacion del control de numero de microfono activo.
5
10
15
20
25
30
35
40
45
50
55
60
65
La FIG. 31 es un diagrama de una realizacion de la seleccion de ubicacion de almacenamiento, en la cual la seleccion puede ser controlada de acuerdo a la prioridad pre-definida de la informacion de contexto S600.
La FIG. 32 es un diagrama de una realizacion de la seleccion de ubicacion de almacenamiento, en la cual la seleccion puede ser controlada dinamicamente, de acuerdo a la prioridad de la informacion de contexto S600 durante el Estado de Registro Activo de Audio S3 o S5.
La FIG. 33 es un diagrama de una realizacion de una configuracion del tiempo de agotamiento de almacenamiento, en la cual el tiempo de agotamiento puede ser controlado de acuerdo a una prioridad pre- definida de la informacion de contexto S600.
La FIG. 34 es un diagrama de una realizacion del arranque, etapa por etapa, de bloques dentro del sistema inteligente de registro de audio, en la cual el numero de bloques activos y el consumo total de energfa de los mismos pueden ser controlados dinamicamente de acuerdo a cada estado.
La FIG. 35 es un diagrama de una realizacion del control de precision de un convertidor de A / D, en la cual la precision puede ser configurada como correspondiente a cada estado predeterminado, o controlada dinamicamente de acuerdo a la informacion de contexto S600.
La FIG. 36 es un diagrama de una realizacion del control de realce de la senal de entrada de audio, en la cual el realce puede ser dinamicamente configurado de acuerdo a la informacion de contexto S600.
La FIG. 37 es un diagrama de una realizacion del control de parametros de compresion de audio, en la cual la compresion puede ser dinamicamente configurada de acuerdo a la informacion de contexto S600.
La FIG. 38 es un diagrama de una realizacion de la seleccion del formato de codificacion de compresion, en la cual la seleccion del formato de codificacion de compresion, o la ausencia de la misma, puede ser dinamicamente configurada de acuerdo a la informacion de contexto S600.
DESCRIPCION DETALLADA
La presente solicitud sera mejor entendida con referencia a los dibujos adjuntos.
A menos que este expresamente limitado por su contexto, el termino “senal” se usa en la presente memoria para indicar cualquiera de sus significados corrientes, incluyendo un estado de una ubicacion de memoria (o conjunto de ubicaciones de memoria) segun lo expresado en un cable, bus u otro medio de transmision. A menos que este expresamente limitado por su contexto, el termino “generar” se usa en la presente memoria para indicar cualquiera de sus significados corrientes, tales como computar o producir de otro modo. A menos que este expresamente limitado por su contexto, el termino “calcular” se usa en la presente memoria para indicar cualquiera de sus significados corrientes, tales como computar, evaluar y / o seleccionar entre un conjunto de valores. A menos que este expresamente limitado por su contexto, el termino “obtener” se usa para indicar cualquiera de sus significados corrientes, tales como calcular, deducir, recibir (p. ej., desde un dispositivo externo) y / o extraer (p. ej., desde una formacion de elementos de almacenamiento). Allf donde el termino “comprender” se usa en la presente descripcion y las reivindicaciones, no excluye otros elementos u operaciones. El termino “basado en” (como en “A esta basado en B”) se usa para indicar cualquiera de sus significados corrientes, incluyendo los casos (i) “basado en al menos” (p. ej., “A esta basado en al menos B”) y, si corresponde en el contexto espedfico, (ii) “igual a” (p. ej., “A es igual a B”).
A menos que se indique lo contrario, cualquier divulgacion de un funcionamiento de un aparato que tiene una caracterfstica particular tambien esta expresamente concebida para divulgar un procedimiento que tenga una caracterfstica analoga (y viceversa), y cualquier divulgacion de un funcionamiento de un aparato de acuerdo a una configuracion especffica tambien esta expresamente concebida para divulgar un procedimiento de acuerdo a una configuracion analoga (y viceversa). A menos que se indique lo contrario, el termino “contexto” (o “contexto de audio”) se usa para indicar un componente de audio o del habla, y lleva informacion desde el entorno ambiental del orador, y el termino “ruido” se usa para indicar cualquier otro fenomeno en la senal de audio o de habla.
La FIG. 1A es un diagrama que ilustra el concepto de sistema inteligente de registro de audio. Uno o mas microfonos en un dispositivo movil pueden ser configurados para recibir senales acusticas continuamente o periodicamente, mientras el dispositivo movil esta en modalidad de reposo. La senal acustica recibida puede ser convertida en senal de audio digital por un convertidor de Analogico a Digital (A / D). Esta conversion puede incluir transformar la senal acustica recibida en una senal electrica, en forma analogica o continua, en general, muestreando o cuantizando la senal electrica para generar una senal de audio digital. El numero y el tamano de la senal de audio digital pueden depender de una frecuencia de muestreo y de un ancho de datos para cada muestra de audio digital. Esta senal de audio digital puede ser configurada para ser almacenada temporalmente en una memoria o un almacen temporal. Esta senal de audio digital puede ser procesada para extraer informacion significativa. Esta informacion es mencionada generalmente como “informacion de contexto S600” o, de forma intercambiable, “informacion de
5
10
15
20
25
30
35
40
45
50
55
60
65
contexto auditivo”. La informacion de contexto puede incluir informacion acerca un entorno en el cual el dispositivo movil esta grabando y una caracterfstica de la senal de entrada de audio recibida por al menos un microfono. La descripcion detallada de la informacion de contexto S600 sera presentada en la divulgacion posterior.
El sistema inteligente de registro de audio puede ser configurado para realizar el inicio inteligente 115 o el fin inteligente 150 del registro de audio. En comparacion con un sistema convencional de registro de audio, en el cual un usuario inicia o finaliza manualmente la grabacion de la senal de audio, el sistema inteligente de registro de audio puede ser configurado para iniciar o finalizar el registro de audio detectando automaticamente un indicador de inicio de suceso o un indicador de fin de suceso. Estos indicadores pueden estar basados en la informacion de contexto obtenida de la senal de audio; bases de datos situadas dentro del dispositivo movil o conectadas con el dispositivo movil mediante conexiones de red cableada o inalambrica; sensores no acusticos; o incluso una senalizacion desde otros dispositivos inteligentes de registro de audio. Alternativamente, estos indicadores pueden ser configurados para incluir un comando de voz del usuario, o un comando de tecla asimismo. En una realizacion, el indicador de fin de suceso puede ser configurado para basarse en la no ocurrencia de un suceso auditivo durante un periodo de tiempo predeterminado. La deteccion del indicador de inicio de suceso y del indicador de fin de suceso puede incluir las etapas de seleccionar al menos una informacion de contexto especffico, a partir de al menos una informacion de contexto auditivo; comparar la informacion de contexto seleccionada con al menos un umbral predeterminado, y determinar si los indicadores de inicio o fin de suceso han sido detectados, en base a la comparacion.
El sistema inteligente de registro de audio puede ser configurado para comprender un cierto numero de sub-bloques inteligentes o, de manera intercambiable, cimientos inteligentes basados, al menos en parte, en dicha al menos una informacion de contexto auditivo. El cimiento inteligente puede ser caracterizado por su capacidad de configurar dinamicamente su propia modalidad operativa, o parametros funcionales, durante el proceso de registro de audio, a diferencia del registro convencional de audio, en el cual la configuracion o la modalidad operativa pueden ser predeterminadas o determinadas estaticamente durante el funcionamiento.
Por ejemplo, en una realizacion del registro inteligente de audio, el bloque inteligente de control de microfono 120 de la FIG. 1A puede ser configurado para ajustar dinamicamente el numero de microfonos activos o el control de temporizacion de la ACTIVACION / DESACTIVACION de al menos un microfono durante el proceso de registro de audio, en base a la informacion de contexto S600. En otra realizacion, el bloque inteligente convertidor de A / D 125 de la FIG. 1A puede ser configurado para ajustar dinamicamente sus propios parametros operativos en base a la informacion de contexto S600. Tales parametros pueden incluir la frecuencia de muestreo de la senal de audio capturada desde al menos un microfono, o el ancho de datos de la muestra de audio digital capturada, en base a la informacion de contexto S600. Estos parametros pueden ser mencionados como “parametro de grabacion” porque la seleccion de estos parametros afectarfa la calidad o el tamano del registro de audio grabado. Estos parametros pueden ser configurados para ser reconfigurados, o conmutados, durante una parte inactiva de la senal de entrada de audio, para minimizar el impacto sobre la calidad de audio. La parte inactiva de la senal de entrada de audio puede incluir aun algun nivel de actividad minima de audio. Pero, en general, “parte inactiva” significa ninguna parte activa, asf como una parte relativamente menos activa, de la senal de entrada de audio.
En otra realizacion, el bloque inteligente de realce de audio 130 de la FIG. 1A puede ser configurado para seleccionar dinamicamente, en base a la informacion de contexto S600, si es necesario el realce de la senal de audio y, en tal caso, que tipo de realce de senal deberfa ser realizado. El bloque inteligente de realce de audio 130 puede ser configurado para seleccionar el grado del nivel de realce de senal, por ejemplo, realce agresivo o realce menos agresivo, en base a la informacion de contexto S600. El realce de senal puede ser configurado para basarse en un unico microfono o en multiples microfonos. El bloque inteligente de compresion de audio 135 de la FIG. 1A puede ser configurado para seleccionar dinamicamente el tipo de formato de codificacion a usar, o los parametros de codificacion del mismo, tales como la modalidad de compresion, la velocidad de bits o el numero de canal de audio / habla, en base a la informacion de contexto S600. Una descripcion mas detallada y ejemplos de la caracterfstica de configuracion dinamica de los sub-bloques inteligentes seran presentados posteriormente. El bloque inteligente de resguardo de audio en almacenamiento 145 de la FIG. 1A puede ser configurado para seleccionar la ubicacion en la cual sera almacenado el registro de audio capturado, en base a la informacion de contexto S600. La seleccion puede ser entre una memoria local del dispositivo movil y una memoria remota conectada con el dispositivo movil, mediante un canal cableado o inalambrico. El bloque inteligente de resguardo de audio en almacenamiento 145 puede ser configurado para almacenar la senal de audio digital en la memoria local, por omision, durante el proceso del registro de audio, y luego determinar posteriormente una ubicacion de almacenamiento a largo plazo entre el almacenamiento local y un almacenamiento en red.
Deberfa observarse que los cimientos inteligentes 120, 125, 130, 135, 145 y el orden de los mismos, divulgados en la FIG. 1A, son solamente con fines ejemplares y, por lo tanto, deberfa ser obvio para un experto en la tecnica que algunos de los cimientos pueden ser reordenados, combinados o incluso omitidos, en su totalidad o en parte, dentro del ambito de la solicitud. Por ejemplo, en una realizacion de acuerdo a la presente solicitud, el bloque inteligente de realce de audio 130 puede ser omitido o reemplazado por un bloque tradicional de realce de audio, en el cual la capacidad de reconfigurar dinamicamente su propia modalidad operativa, de acuerdo a la informacion de contexto S600, no esta disponible. Analogamente, el bloque inteligente de compresion de audio 135 puede ser omitido o reemplazado por la compresion convencional de audio.
5
10
15
20
25
30
35
40
45
50
55
60
65
El sistema inteligente de registro de audio tambien puede referirse al sistema que puede ser configurado para usar la combinacion de alguno de los sistemas convencionales existentes de registro de audio y alguno de los cimientos inteligentes, o bien la caracterfstica inteligente del inicio / fin del registro, como fue presentada en la FIG. 1B. Por el contrario, la FIG. 1C es un diagrama que ilustra el concepto de sistema convencional de registro de audio, en el cual no se incluye ni la caracterfstica inteligente de inicio / fin de registro de audio ni ninguno de los cimientos inteligentes.
La FIG. 1B muestra tres configuraciones conceptuales ejemplares distintas de un sistema inteligente de registro de audio. La configuracion 1 presenta el sistema en el cual estan implementados tanto la caracterfstica inteligente del inicio / fin del registro de audio 165 como los cimientos inteligentes 175. El sistema en la configuracion 1, por lo tanto, es considerado como el mas avanzado sistema inteligente de registro de audio. La configuracion 2 muestra el sistema que puede ser configurado para reemplazar la caracterfstica inteligente de inicio / fin de registro de audio 165 de la configuracion 1, con una caracterfstica convencional de inicio / fin de registro de audio 160. En una implementacion alternativa, la configuracion 3 muestra el sistema que puede ser configurado para reemplazar los cimientos inteligentes 175 de la configuracion 1 por los cimientos convencionales 170.
La FIG. 2 es una realizacion ejemplar del sistema inteligente de registro de audio. La Unidad de Captura de Audio 215, que comprende la Unidad de Microfono 200 y el Convertidor de A / D 210, es la interfaz de usuario del sistema inteligente de registro de audio. La Unidad de Microfono 200 comprende al menos un microfono que puede ser configurado para recoger o recibir una senal de audio acustico y transformarla en una senal electrica. El Convertidor de A / D 210 convierte la senal de audio en una senal digital discreta. En otra realizacion, dicho al menos un microfono dentro de la Unidad de Microfono 200 puede ser un microfono digital. En tal caso, puede configurarse la etapa de conversion de A / D para que sea omitida.
El Suceso Auditivo S210 se refiere, en general, a una senal de audio o, en particular, a la senal de audio de interes para un usuario. Por ejemplo, el Suceso Auditivo S210 puede incluir, pero no esta limitado a, la presencia de una senal de habla, musica, caracterfsticas especfficas de ruido de fondo o palabras clave especfficas. El Suceso Auditivo S210 se menciona a menudo como una “escena auditiva” en la tecnica.
La Unidad de Captura de Audio 215 puede incluir al menos un microfono o al menos un convertidor de A / D. Al menos un microfono o al menos un convertidor de A / D podrfa haber sido parte de un sistema convencional de registro de audio, y puede ser arrancado solamente durante el uso activo del dispositivo movil. Por ejemplo, una unidad tradicional de captura de audio en el sistema convencional puede ser configurada para ser arrancada solamente durante la llamada entera de voz o la grabacion entera de video, en respuesta a la seleccion del usuario de la realizacion o la recepcion de la llamada, o la pulsacion del boton de inicio de la grabacion de video.
En la presente solicitud, sin embargo, la Unidad de Captura de Audio 215 puede ser configurada para despertar, o arrancar, intermitentemente, incluso durante la modalidad de reposo del dispositivo movil, ademas de durante una llamada de voz o durante la ejecucion de otras aplicaciones cualesquiera que pudieran requerir el uso activo de al menos un microfono. La Unidad de Captura de Audio 215 puede incluso ser configurada para permanecer activada, recogiendo continuamente una senal de audio. Este enfoque puede ser mencionado como “Siempre Activada”. La senal de audio recogida S260 puede ser configurada para ser almacenada en el Almacen Temporal 220 en forma discreta.
La “modalidad de reposo” del dispositivo movil descrito en la presente memoria se refiere, en general, al estado en el cual el dispositivo movil no esta ejecutando activamente ninguna aplicacion en respuesta a la entrada manual del usuario, a menos que se especifique lo contrario. Por ejemplo, los dispositivos moviles tfpicos envfan o reciben senales periodicamente a y desde una o mas estaciones base, incluso sin la seleccion del usuario. El estado del dispositivo movil que realiza este tipo de actividad es considerado como una modalidad de reposo dentro del ambito de la presente solicitud. Cuando el usuario esta participando activamente en la comunicacion de voz o la grabacion de video, usando su dispositivo movil, no se considera como una modalidad de reposo.
El Almacen Temporal 220 almacena datos de audio digital temporalmente antes de que los datos de audio digital sean procesados por el Procesador de Registro de Audio 230. El Almacen Temporal 220 puede ser cualquier memoria ffsica y, aunque es preferible que este situado dentro del dispositivo movil, debido a las ventajas del acceso mas rapido y a la huella de memoria requerida, relativamente pequena, desde la Unidad de Captura de Audio 215, el Almacen Temporal 220 tambien podrfa estar situado fuera de dispositivos moviles, mediante conexiones de red inalambricas o cableadas. En otra realizacion, la senal de audio recogida S260 puede ser configurada para estar directamente conectada con el Procesador de Registro de Audio 230, sin estar temporalmente almacenada en el Almacen Temporal 220. En tal caso, la senal de audio recogida S260 puede ser identica a la Entrada de Audio S270.
El Procesador de Registro de Audio 230 es una unidad principal de procesamiento para el sistema inteligente de registro de audio. Puede ser configurado para tomar diversas decisiones con respecto a cuando iniciar o finalizar el registro, o como configurar los cimientos inteligentes. Puede ser adicionalmente configurado para controlar bloques adyacentes, para mantener una interfaz con la Unidad de Procesamiento de Entrada 250 o la Unidad de Procesamiento de Salida 240, para determinar el estado interno del sistema inteligente de registro de audio, y para
5
10
15
20
25
30
35
40
45
50
55
60
65
acceder a la Unidad de Datos Auxiliares 280, o a bases de datos. Un ejemplo de una realizacion del Procesador de Registro de Audio 230 esta presentado en la FIG. 5. El Procesador de Registro de Audio 230 puede ser configurado para leer los datos discretos de entrada de audio almacenados en el Almacen Temporal. Los datos de entrada de audio luego pueden ser procesados para la extraccion de la informacion de contexto S600, que luego puede ser almacenada en memoria situada bien dentro o bien fuera del Procesador de Registro de Audio 230. Una descripcion mas detallada de la informacion de contexto S600 esta presentada conjuntamente con la descripcion de la FlG. 6 y la FIG. 7.
La Unidad de Datos Auxiliares 280 puede incluir diversas bases de datos o programas de aplicacion, y puede ser configurada para proporcionar informacion adicional, que puede ser usada, en parte o en su totalidad, por el Procesador de Registro de Audio 230. En una realizacion, la Unidad de Datos Auxiliares 280 puede incluir informacion de planificacion del propietario del dispositivo movil equipado con la caracterfstica inteligente de registro de audio. En tal caso, la informacion de planificacion, por ejemplo, puede incluir los siguientes detalles: “la hora y / o duracion de la siguiente reunion de negocios”, “participantes invitados”, “ubicacion del lugar de reunion” o “asunto de la reunion”, por nombrar unos pocos. En una realizacion, la informacion de planificacion puede ser obtenida de una aplicacion de cronograma tal como Microsoft Outlook u otras aplicaciones de Calendario cualesquiera, comercialmente disponibles. Al recibir o extraer activamente estos tipos de detalles desde la Unidad Auxiliar de Datos 280, el Procesador de Registro de Audio 230 puede ser configurado para tomar decisiones con respecto a cuando iniciar o detener el registro de audio, de acuerdo a los detalles, preferiblemente, en combinacion con la informacion de contexto S600 extrafda de los datos discretos de entrada de audio, almacenados en el Almacen Temporal 220.
El almacenamiento se refiere, en general, a una o mas ubicaciones de memoria en el sistema que esta disenado para almacenar el registro de audio procesado proveniente del Procesador de Registro de Audio 230. El Almacenamiento puede ser configurado para comprender el Almacenamiento Local 270, que esta disponible localmente dentro de los dispositivos moviles, o el Almacenamiento Remoto 290, que esta conectado remotamente con dispositivos moviles mediante un canal de comunicacion cableado o inalambrico. El Procesador de Registro de Audio 230 puede ser configurado para seleccionar donde almacenar los registros de audio procesados, entre el Almacenamiento Local 270 y el Almacenamiento Remoto 290. La seleccion de almacenamiento puede ser hecha de acuerdo a diversos factores que pueden incluir, pero no se limitan a, la informacion de contexto S600, el tamano estimado de los registros de audio, el tamano de la memoria disponible, la velocidad de la red, la latencia de la red o la prioridad de la informacion de contexto S600. La seleccion de almacenamiento puede incluso ser configurada para ser conmutada dinamicamente entre el Almacenamiento Local 270 y el Almacenamiento Remoto 290 durante el proceso activo de registro de audio, si es necesario.
La FIG. 3 es un diagrama ejemplar de una realizacion de la Unidad de Procesamiento de Salida 240. La Unidad de Procesamiento de Salida 240 puede ser configurada para entregar la Senal de Salida S230, generada desde el Procesador de Registro de Audio 230, a diversos dispositivos perifericos, tales como un altavoz, un visor, un dispositivo haptico o dispositivos inteligentes externos de registro de audio. El dispositivo haptico permite al sistema proporcionar una experiencia avanzada de usuario, en base a un mecanismo de retro-alimentacion tactil. Puede aprovechar el sentido del tacto de un usuario, aplicando fuerzas, vibraciones y / o movimientos al usuario. El sistema inteligente de registro de audio puede transmitir la Senal de Salida S230, a traves de la Unidad de Procesamiento de Salida 240, a al menos otro sistema inteligente de registro de audio. La transmision de la senal de salida puede ser por un canal inalambrico y pueden ser usados diversos protocolos de comunicacion inalambrica, preferiblemente, tales como GSM, UMTS, hSpA+, CDMA, Wi-Fi, LTE, vOlP o WiMax. La Unidad de Procesamiento de Salida 240 puede ser configurada para incluir el Demultiplexador (De-Mux) 310, que puede distribuir la Senal de Salida S230 selectivamente a los dispositivos perifericos adecuados. El Generador de Salida de Audio 315, si es seleccionado por el De-Mux 310, genera una senal de audio para altavoz o auricular, de acuerdo a la Senal de Salida S230. El Generador de Salida de Visor 320, si es seleccionado por el De-Mux 310, genera una senal de video para un dispositivo visor, de acuerdo a la Senal de Salida S230. El Generador de Salida Haptica 330, si es seleccionado por el De-Mux 310, genera una senal tactil para un dispositivo haptico. El transmisor, si es seleccionado por el De-Mux 310, genera la senal procesada que esta lista para su transmision a los dispositivos externos, incluyendo otro sistema inteligente de registro de audio.
La FIG. 4 es un diagrama ejemplar de una realizacion de la Unidad de Procesamiento de Entrada 250. En este ejemplo, la Unidad de Procesamiento de Entrada 250 procesa diversos tipos de entradas y genera la Senal de Entrada S220, que puede ser transferida selectivamente, a traves del Multiplexador (Mux) 410, al Procesador de Registro de Audio 230. Las entradas pueden incluir, pero no se limitan a, comandos de voz o de tecla del usuario, la senal desde sensores no acusticos tales como una camara, un temporizador, un GPS, un sensor de proximidad, un Gyro, un sensor ambiental, un acelerometro, etc. Las entradas pueden ser transmitidas desde al menos otro sistema inteligente de registro de audio. Las entradas pueden ser procesadas en consecuencia por diversos modulos, tales como el Procesador de Comandos de Voz 420, el Procesador de Comandos de Tecla 430, la Interfaz de Temporizador 440, el Receptor 450 o la Interfaz de Sensor 460, antes de que sean enviadas al Procesador de Registro de Audio 230.
5
10
15
20
25
30
35
40
45
50
55
60
65
La FIG. 5 es un diagrama ejemplar de una realizacion del Procesador de Registro de Audio 230. El Procesador de Registro de Audio 230 es el principal motor informatico del sistema inteligente de registro de audio, y puede ser implementado en la practica con al menos un microprocesador, o con al menos un procesador de senales digitales, o con cualquier combinacion de los mismos. Alternativamente, algunos de, o todos, los modulos del Procesador de Registro de Audio 230 pueden ser implementados en HW. Segun se muestra en la FIG. 5, el Procesador de Registro de Audio 230 puede comprender un cierto numero de modulos dedicados a una operacion especffica, asf como un modulo mas general llamado “Procesador General de Senales de Audio 595”.
El modulo Detector de Actividad Auditiva 510, o “detector de audio”, puede detectar el nivel de actividad de audio proveniente de la Entrada de Audio S270. La actividad de audio puede ser definida como clasificacion binaria, tal como activa o no activa, o con mas niveles de clasificacion, si es necesario. Pueden ser usados diversos procedimientos para determinar el nivel de audio de la Entrada de Audio S270. Por ejemplo, el Detector de Actividad Auditiva 510 puede estar basado en la energfa de la senal, la razon entre senal y ruido (SNR), la periodicidad, el declive espectral y / o la frecuencia de cruce por el cero. Pero es preferible usar soluciones relativamente sencillas, a fin de mantener la complejidad de calculo tan baja como sea posible, lo cual, a su vez, ayuda a extender la vida de la baterfa. El modulo Realzador de Calidad de Audio 520 puede mejorar la calidad de la Entrada de Audio S270, suprimiendo el ruido de fondo activamente o pasivamente; cancelando el eco acustico; ajustando la ganancia de entrada; o mejorando la inteligibilidad de la Entrada de Audio S270 para la senal de habla conversacional.
El modulo Analizador de Senal Auxiliar 530 puede analizar la senal auxiliar proveniente de la Unidad de Datos Auxiliares 280. Por ejemplo, la senal auxiliar puede incluir un programa de planificacion tal como un programa de cronograma o un programa cliente de correo electronico. Tambien puede incluir bases de datos adicionales, tales como un diccionario, un perfil de empleado o diversos parametros de audio y del habla, obtenidos de terceros, o datos de entrenamiento. El modulo Gestor de Senales de Entrada 540 puede detectar, procesar o analizar la Senal de Entrada S220 proveniente de la Unidad de Procesamiento de Entrada 250. El modulo Gestor de Senales de Salida 590 puede generar la Senal de Salida S230, en consecuencia, para la Unidad de Procesamiento de Salida 240.
El Gestor de Senales de Control 550 gestiona diversas senales de control que pueden ser aplicadas a unidades perifericas del sistema inteligente de registro de audio. Dos ejemplos de las senales de control, el Control de Convertidor de A / D S215 y el Control de Unidad de Microfono S205, son divulgados en la FIG. 5 con fines ejemplares. El Administrador de Inicios de Sucesos 570 puede ser configurado para gestionar, detectar o generar un indicador de inicio de suceso. El indicador de inicio de suceso es un marcador o senal que indica que el registro inteligente de audio puede estar listo para comenzar. Puede ser deseable usar el indicador de inicio de suceso para el Procesador de Registro de Audio 230, para conmutar su estado interno si su funcionamiento esta basado en una maquina de estados. Deberfa ser obvio para un experto en la tecnica que el indicador de inicio de suceso es un marcador o senal conceptual para la comprension del funcionamiento del Procesador de Registro de Audio 230. En una realizacion, puede ser implementado usando una o mas variables en la implementacion de SW, o una o mas senales cableadas en el diseno de HW. El indicador de inicio de suceso puede estar en un unico nivel, en el cual el Indicador de Inicio de Suceso S910 es activado cuando se satisfacen una o mas condiciones, o en multiples niveles, en los cuales el registro inteligente efectivo del audio es activado cuando mas de un nivel de indicadores de inicio de suceso son todos activados.
El Procesador General de Senales de Audio 595 es un modulo de multiples propositos para gestionar todos los otros procedimientos fundamentales de procesamiento de audio y de habla, no explfcitamente presentados en la presente solicitud, pero aun necesarios para una implementacion exitosa. Por ejemplo, estos procedimientos de procesamiento de senales pueden incluir, pero no se limitan a, conversiones de tiempo a frecuencia o de frecuencia a tiempo; filtrados miscelaneos; ajuste de ganancia de senal; o control de gama dinamico. Deberfa observarse que cada modulo divulgado por separado en la FIG. 5 se proporciona solamente con fines de ilustracion de la descripcion funcional del Procesador de Registro de Audio 230. En una realizacion, algunos modulos pueden ser combinados en un unico modulo, o algunos modulos pueden incluso ser adicionalmente divididos en modulos mas pequenos en la implementacion en la vida real del sistema. En otra realizacion, todos los modulos divulgados en la FIG. 5 pueden ser integrados como un unico modulo.
La FIG. 6 es un diagrama que ilustra ejemplos de la informacion de contexto S600. A menos que se indique lo contrario, el termino “contexto” (o “informacion de contexto S600”) se refiere a informacion del usuario tal como la identificacion, la emocion, los habitos, la condicion biologica o la actividad de participacion; a un entorno ffsico, tal como una ubicacion absoluta o relativa; a informacion sobre el contenido, tal como la identificacion de palabras clave o clases; o al entorno social, tal como la interaccion social o la actividad comercial. La FIG. 7 es un diagrama de una realizacion del Identificador de Contexto 560. El Identificador de Contexto 560 es parte del Procesador de Registro de Audio 230 y extrae la informacion de contexto S600 desde la Entrada de Audio S270. En una realizacion, el Identificador de Contexto 560 puede ser configurado para ser implementado en un motor de HW dedicado o en un procesador de senales digitales.
La FIG. 8 es un diagrama de una realizacion ejemplar del Identificador de Contexto 560 y de la informacion de contexto S600. El Identificador de palabras clave analiza la Entrada de Audio S270 y reconoce palabras clave
5
10
15
20
25
30
35
40
45
50
55
60
65
importantes entre el contenido del habla conversacional. El proceso de reconocimiento puede estar basado en una base de datos auxiliar, tal como un diccionario o tablas de consulta que almacenan uno o mas vocabularios. El Detector de Musica / Habla puede ser configurado para clasificar la senal de Entrada de Audio S270 como en mas de una categorfa, en base a las caracterfsticas de la senal de entrada. La deteccion puede estar basada en la identificacion de parametros de audio o de habla y en la comparacion de los parametros identificados de audio o de habla con uno o mas umbrales. La clasificacion dentro del ambito de la presente solicitud puede ser considerada como deteccion, de manera intercambiable.
El Detector de Musica / Habla 820 tambien puede ser configurado para clasificar la senal de entrada en una clasificacion de multiples niveles. Por ejemplo, en una realizacion del Detector de Musica / Habla 820, puede clasificar la senal de entrada en una clasificacion de primer nivel, tal como “Musica” o “Habla”, o “Musica+Habla”. Posteriormente, puede ademas determinar una clasificacion de segundo nivel, tal como “Rock”, “Popular” o “Clasica”, para la senal clasificada como “Musica” en la etapa de clasificacion del primer nivel. De la misma manera, puede tambien determinar una clasificacion de segundo nivel, tal como “Conversacion de negocios”, “Conversacion personal” o “Conferencia”, para la senal clasificada como “Habla” en la etapa de clasificacion del primer nivel.
El Identificador de Orador 830 puede ser configurado para detectar la identificacion del orador para la entrada de senales del habla. El proceso de identificacion del orador puede estar basado en una caracterfstica de la senal del habla de entrada, tal como la energfa de senal o de trama, la relacion entre senal y ruido (SNR), la periodicidad, el declive espectral y / o la frecuencia del cruce por el cero. El Identificador de Orador 830 puede ser configurado para identificar una clasificacion sencilla, tal como “Orador masculino” u “Oradora femenina”; o para identificar informacion mas sofisticada, tal como el nombre o tftulo del orador. La identificacion del nombre, o el tftulo, del orador, podrfa requerir una extensa complejidad informatica. Se torna aun mas retador cuando el Identificador de Orador 830 tiene que buscar un gran numero de muestras de habla por diversos motivos.
Por ejemplo, supongamos la siguiente situacion hipotetica. La companfa X tiene en total 15.000 empleados y un usuario Y tiene que asistir a una serie de reuniones de conferencia de audio, relacionadas con el trabajo, cada dfa, usando su dispositivo movil equipado con una caracterfstica inteligente de registro de audio. El usuario Y quiere identificar a los oradores en tiempo real cuando un cierto numero de oradores, empleados de la companfa X, estan participando en la conversacion. Lo primero: las muestras del habla, o las caracterfsticas del habla, extrafdas de las muestras del habla, pueden no estar disponibles en primer lugar para todos los empleados. Lo segundo: incluso si estan ya disponibles en la memoria local, o en un sector servidor remoto, conectado mediante un canal inalambrico, la busqueda de ese gran numero de muestras del habla en tiempo real en el dispositivo movil puede ser extremadamente retadora. Lo tercero: incluso si la busqueda puede hacerse en el sector servidor remoto y la potencia informatica del servidor puede ser significativamente mayor que la del dispositivo movil, el procesamiento en tiempo real podrfa aun ser retador, considerando la latencia de transmision Rx / Tx. Estos problemas pueden hacerse manejables si se dispone de informacion adicional procedente de una base de datos auxiliar. Por ejemplo, si la lista de participates de una conferencia esta disponible a partir del programa de cronograma, el Identificador de Orador puede reducir efectivamente el numero de personas a buscar de manera significativa, estrechando el espacio de busqueda.
El Detector de Entorno 850 puede ser configurado para identificar una escena auditiva en base a una o mas caracterfsticas de la senal del habla de entrada, tal como la energfa de trama, la razon entre senal y ruido (SNR), la periodicidad, el declive espectral y / o la frecuencia del cruce por el cero. Por ejemplo, puede identificar el entorno de la senal de entrada actual como “Oficina”, “Coche”, “Restaurante”, “Metro”, “Parque de baile”, etc.
El Clasificador de Ruidos 840 puede ser configurado para clasificar las caracterfsticas del ruido de fondo de la Entrada de Audio S270. Por ejemplo, puede identificar el ruido de fondo como “Estatico o No Estatico”, “Ruido callejero”, “Ruido de avion” o una combinacion de los mismos. Puede clasificar el ruido de fondo en base al nivel de severidad del mismo, tal como “Agudo” o “Medio”. El Clasificador de Ruidos 840 puede ser configurado para clasificar la entrada en un procesamiento de estado unico o un procesamiento de multiples etapas.
El Detector de Emocion 850 puede ser configurado para detectar la emocion de un orador, para el habla conversacional, o el aspecto emocional del contenido musical. La musica consiste en un cierto numero de interesantes parametros acusticos. Por ejemplo, la musica puede incluir ritmos, instrumentos, tonos, trozos cantados, timbres, notas y versos. Estos parametros pueden ser usados para detectar o estimar la emocion de un orador, para una o mas categorfas de la emocion, tales como felicidad, ira, miedo, victoria, ansiedad o depresion. El Detector de Actividad Participativa 870 puede ser configurado para detectar la actividad del orador, en base a las caracterfsticas de la Entrada de Audio S270. Por ejemplo, puede detectar que el orador esta “Hablando”, “Corriendo”, “Caminando”, “Practicando deportes”, “En clase” o “De compras”. La deteccion puede estar basada en parametros del habla y / o parametros de senales musicales. La deteccion tambien puede ser configurada para obtener la informacion suplementaria desde la Unidad de Datos Auxiliares 280 o los otros modulos en la FIG. 8. Por ejemplo, el Detector de Emocion 850 puede ser configurado para usar la informacion procedente del Detector de Entorno 860, el Clasificador de Ruido 840 o cualquier otra combinacion de los modulos divulgados en la FIG. 8.
5
10
15
20
25
30
35
40
45
50
55
60
65
La FIG. 9A y la FIG. 9B son diagramas de una realizacion ejemplar del mecanismo de generacion de indicadores de inicio de sucesos de nivel unico y de multiples niveles, respectivamente. Un indicador de inicio de suceso de nivel unico es deseable para una realizacion relativamente sencilla del mecanismo de inicio, mientras que el indicador de inicio de suceso de multiples niveles es deseable para una realizacion algo compleja del mecanismo de inicio, por lo cual es deseable un esquema mas agresivo de arranque etapa por etapa, para un consumo eficaz de energfa. El Administrador de Inicios de Sucesos 570 puede ser configurado para generar el Indicador de Inicio de Suceso S910, de acuerdo a cualquier combinacion de las salidas, o senales de activacion interna, desde el Detector de Actividad Auditiva 510, el Analizador de Senales Auxiliares 530 o el Gestor de Senales de Entrada 540. Por ejemplo, el Detector de Actividad Auditiva 510 puede ser configurado para generar una senal de activacion interna basada en la actividad de la Entrada de Audio S270, cuando se detectan uno o mas sucesos o actividades auditivas interesantes.
El Analizador de Senales Auxiliares 530 tambien puede generar una senal de activacion interna de acuerdo a la planificacion del programa de cronograma del usuario. Una reunion especffica que el usuario deseaba grabar puede generar automaticamente la senal de activacion interna sin ninguna intervencion manual del usuario. Alternativamente, el Analizador de Senales Auxiliares 530 puede ser configurado para tomar tales decisiones en base a prioridades explfcitas o implfcitas de la reunion. La generacion de la senal de activacion interna puede ser iniciada a partir de entradas distintas al analisis de la Entrada de Audio S270 o la Senal Auxiliar. Tales entradas pueden incluir la voz del usuario o controles manuales de teclas; un temporizador; una senal desde sensores no acusticos tales como una camara, un temporizador, un GPS, un sensor de proximidad, un Gyro, un sensor ambiental o un acelerometro; o la senal transmitida desde al menos otro sistema inteligente de registro de audio. La Logica Combinatoria 900 puede ser configurada para generar el Indicador de Inicio de Suceso S910 en base a ciertos mecanismos de combinacion de las senales de activacion interna. Por ejemplo, la logica combinatoria puede ser configurada para generar el Indicador de Inicio de Suceso S910 de acuerdo a la operacion logica O o la operacion logica Y de las senales de activacion interna provenientes del Detector de Actividad Auditiva 510, el Analizador de Senales Auxiliares 530 o el Gestor de Senales de Entrada 540. En otra realizacion, puede ser configurada para generar el Indicador de Inicio de Suceso S910 cuando una o mas senales de activacion interna han sido fijadas o activadas.
Con referencia de nuevo a la FIG. 9B, el Administrador de Inicios de Sucesos 570 puede ser configurado para generar el Indicador de Inicio de Sucesos de 1er nivel S920 y luego el Indicador de Inicio de Sucesos de 2° nivel S930, antes del inicio del registro efectivo. El mecanismo Indicador de Inicio de Sucesos de multiples niveles, divulgado en la presente memoria, puede ser preferible para determinar un punto de inicio mas preciso del registro de audio, apoyandose en mas de un nivel de indicadores. Una implementacion ejemplar del Indicador de Inicio de Suceso de multiples niveles puede ser configurada para adoptar un mecanismo de decision, relativamente sencillo y de baja complejidad, para el Indicador de Inicio de Suceso de 1er nivel, y para adoptar un mecanismo de decision, sofisticado y de alta complejidad, para el Indicador de Inicio de Suceso de 2° nivel S930. En una realizacion, la generacion del Indicador de Inicio de Suceso de 1er nivel S920 puede ser configurada para que sea esencialmente similar al procedimiento como el del Indicador de Inicio de Suceso S910 en la FIG. 9A. A diferencia de la FIG. 9A, el Procesador de Registro de Audio 230 no inicia el registro efectivo al activarse el Indicador de Inicio de Suceso de 1er nivel S920, sino que, en cambio, preferiblemente, puede despertar o, de manera intercambiable, arrancar los modulos adicionales necesarios para activar la senal del Indicador de Inicio de Suceso de 2° nivel S930, en base a un analisis adicional en profundidad de la Entrada de Audio S270. Estos modulos pueden incluir el Identificador de Contexto 560 y la Logica de Evaluacion de Contexto 950. El Identificador de Contexto 560 analizara luego la Entrada de Audio S270 de acuerdo a procedimientos divulgados en la FIG. 8, y puede detectar o identificar una cierta cantidad de Informacion de Contexto S600 que puede ser evaluada por la Logica de Evaluacion de Contexto 950. La Logica de Evaluacion de Contexto 950 puede ser configurada para activar el Indicador de Inicio de Suceso de 2° nivel S930, de acuerdo a diversos procedimientos internos de decision. Tales procedimientos, por ejemplo, pueden incluir el calculo de la suma ponderada de prioridades para la salida de algunos de, o todos, los sub-modulos divulgados en la FIG. 8, y la comparacion de la suma ponderada con uno o mas umbrales. Deberfa observarse que la Logica de Evaluacion de Contexto 950 puede ser implementada bien con SW o bien con HW, o puede ser implementada como parte del Procesador General de Senales de Audio 595 en la FIG. 8.
La FIG. 10 es una realizacion del mecanismo de generacion de indicadores de fines de sucesos. El Indicador de Fin de Suceso S940 puede ser generado por el Administrador de Fines de Sucesos 580, de acuerdo a cualquier combinacion de las salidas, o senales internas de activacion, provenientes del Detector de Actividad Auditiva 510, el Analizador de Senales Auxiliares 530 o el Gestor de Senales de Entrada 540. El funcionamiento de los modulos en la FIG. 10 es esencialmente similar al procedimiento explicado bien en la FIG. 9A o bien en la FIG. 9B, pero las senales internas de activacion desde cada modulo son habitualmente activadas cuando cada modulo detecta indicaciones para detener el registro efectivo, o indicaciones para conmutar a la modalidad eficaz en terminos de energfa, desde su modalidad operativa actual. Por ejemplo, el Detector de Actividad Auditiva 510 puede activar su senal interna de activacion cuando la actividad de audio de la Entrada de Audio S270 deviene significativamente reducida en comparacion o, de manera similar, el Analizador de Senales Auxiliares 530 puede activar su senal interna de activacion cuando la reunion ha llegado a su hora planificada de terminacion. La Logica Combinatoria 900 puede ser configurada para generar el Indicador de Fin de Suceso S940, en base a ciertos mecanismos de combinacion de las senales internas de activacion. Por ejemplo, puede ser configurada para generar el Indicador de Fin de Suceso S940 de acuerdo, por ejemplo, a la operacion logica O o la operacion logica Y de las senales internas
5
10
15
20
25
30
35
40
45
50
55
60
65
de activacion provenientes del Detector de Actividad Auditiva 510, el Analizador de Senales Auxiliares 530 o el Gestor de Senales de Entrada 540. En otra realizacion, puede ser configurada para generar el Indicador de Fin de Suceso S940 cuando una o mas senales internas de activacion han sido fijadas o activadas.
La FIG. 11 es un diagrama de una primera realizacion ejemplar que ilustra estados internos del Procesador de Registro de Audio 230 y la transicion de los mismos para el sistema indicador de inicio de suceso de multiples niveles. El estado por omision en el arranque del registro inteligente de audio puede ser el Estado de Monitorizacion Pasiva de Audio S1, durante el cual el dispositivo movil que comprende la caracterfstica de registro inteligente de audio es esencialmente equivalente al habitual estado de la modalidad en reposo. Durante el Estado de Monitorizacion Pasiva de Audio S1, es crftico minimizar el consumo de energfa, porque, estadfsticamente, el dispositivo movil permanece en este estado la mayor parte del tiempo. Por lo tanto, la mayorfa de los modulos del sistema de registro inteligente de audio, excepto unos pocos modulos requeridos para detectar la actividad de la Entrada de Audio S270, pueden ser configurados para permanecer en un estado durmiente o en otras modalidades cualesquiera de ahorro de energfa. Por ejemplo, unos pocos modulos excepcionales de ese tipo pueden incluir la Unidad de Captura de Audio 215, el Almacen Temporal 220 o el Detector de Actividad Auditiva 510. En una realizacion, estos modulos pueden ser configurados para estar constantemente activados o pueden ser configurados para despertar intermitentemente.
El estado podrfa ser cambiado, desde el Estado de Monitorizacion Pasiva de Audio S1 al Estado de Monitorizacion Activa de Audio S2, al activarse el Indicador de Inicio de Suceso de 1er nivel S920. Durante el Estado de Monitorizacion Activa de Audio S2, el sistema de registro inteligente de audio puede ser configurado para despertar uno o mas modulos adicionales, por ejemplo, tales como el Identificador de Contexto 560 o la Logica de Evaluacion de Contexto 950. Estos modulos adicionales pueden ser usados para proporcionar la monitorizacion y el analisis en profundidad de la senal de Entrada de Audio S270, para determinar si se requiere que el Indicador de Inicio de Suceso de 2° nivel S930 sea activado de acuerdo a la descripcion presentada en la FIG. 9B. Si el Indicador de Inicio de Suceso de 2° nivel S930 es finalmente activado, entonces el sistema efectua la transicion al Estado de Registro Activo de Audio S3, durante el cual proseguira el registro efectivo de audio. La descripcion detallada del funcionamiento ejemplar en cada estado sera presentada en los siguientes parrafos. Si el Indicador de Fin de Suceso S940 es activado durante el Estado de Monitorizacion Activa de Audio S2, el sistema puede ser configurado para poner los modulos adicionales, que fueron arrancados durante el estado, en la modalidad durmiente y conmutar el estado de vuelta al Estado de Monitorizacion Pasiva de Audio S1. De manera similar, si el Indicador de Fin de Suceso S940 es activado durante el Estado de Registro Activo de Audio S3, el sistema puede ser configurado para detener el registro de audio y conmutar el estado de vuelta al Estado de Monitorizacion Pasiva de Audio S1.
La FIG. 12 es un diagrama de una segunda realizacion ejemplar que ilustra los estados internos del Procesador de Registro de Audio 230 y las transiciones de los mismos para el sistema Indicador de inicio de suceso de nivel unico. La realizacion en la presente memoria es mas sencilla que la realizacion divulgada en la FIG. 11, pues hay solamente dos estados operativos disponibles. El estado por omision en el arranque del registro inteligente de audio puede ser el Estado de Monitorizacion de Audio S1, durante el cual el dispositivo movil que comprende la caracterfstica de registro inteligente de audio es esencialmente equivalente al habitual estado de modalidad en reposo. Durante el Estado de Monitorizacion de Audio S4, es preferible minimizar el consumo de energfa porque, estadfsticamente, el dispositivo movil permanece en este estado la mayor parte del tiempo. Por lo tanto, la mayorfa de los modulos del sistema de registro inteligente de audio, excepto unos pocos modulos, mfnimamente requeridos para detectar la actividad de la Entrada de Audio S270, pueden ser configurados para permanecer en estado durmiente o en otras modalidades cualesquiera de ahorro de energfa. Por ejemplo, los pocos modulos excepcionales pueden incluir la Unidad de Captura de Audio 215, el Almacen Temporal 220 o el Detector de Actividad Auditiva 510. En una realizacion, estos modulos pueden ser configurados para estar constantemente activados, o pueden ser configurados para despertar intermitentemente.
El estado podrfa ser cambiado desde el Estado de Monitorizacion de Audio S4 al Estado de Registro Activo de Audio S5, al activarse el Indicador de Inicio de Suceso S910. Durante el Estado de Registro Activo de Audio S5, proseguira el registro efectivo de audio. La descripcion detallada del funcionamiento habitual en cada estado sera presentada en los siguientes parrafos. Si el Indicador de Fin de Suceso S940 es activado durante el Estado de Registro Activo de Audio S5, el sistema puede ser configurado para detener el registro de audio y conmutar el estado de vuelta al Estado de Monitorizacion de Audio S4.
La FIG. 13 es un diagrama de flujo de una realizacion de la Unidad de Captura de Audio 215 durante el Estado de Monitorizacion Pasiva de Audio S1 de la FIG. 11, o el Estado de Monitorizacion de Audio S4 de la FIG. 12. Se supone que el dispositivo movil que comprende la caracterfstica de registro inteligente de audio esta inicialmente en la modalidad de reposo. Dos intervalos se presentan en la FIG. 13. T1 representa un intervalo de vigilia de microfono y T2 representa un lapso en que un microfono permanece activado. Los diagramas de flujo presentados en la presente memoria son solamente con fines ejemplares y deberfa ser obvio para un experto en la tecnica que algunos de los bloques en el diagrama de flujo pueden ser reordenados de manera intercambiable dentro del ambito de la presente solicitud. Por ejemplo, en una realizacion, los bloques dedicados para configuraciones de un convertidor de A / D 1315, 1320 en la FIG. 13 pueden ser configurados para ser procesados despues del bloque que
5
10
15
20
25
30
35
40
45
50
55
60
65
enciende un microfono y / o un convertidor de A / D 1330. En tal caso, los bloques 1315, 1320 pueden ser configurados para ser ejecutados cada intervalo T1, en lugar de solamente una vez al comienzo del funcionamiento.
Adicionalmente, la FIG. 13 divulga varios conceptos importantes, fundamentales para la implementacion del registro inteligente de audio. El convertidor de A / D puede ser programado para mantener una baja resolucion en terminos de frecuencia de muestreo y / o de ancho de datos. La configuracion de baja resolucion ayuda a minimizar el tamano de los datos a procesar y / o almacenar en el Almacen Temporal 220. La alta resolucion puede ser usada para mejorar la precision de la entrada de audio digitalizada. Sin embargo, en una implementacion ejemplar, puede ser preferible usar una configuracion de baja resolucion, debido al aumento del uso del almacen temporal y del consumo de energfa de la configuracion de alta resolucion. La configuracion de baja resolucion puede ser deseable, considerando que el proposito de los Estados de Monitorizacion de Audio S1, S2, S4 es, principalmente, detectar y monitorizar entornos, esperando la temporizacion correcta para iniciar el registro activo de audio.
Un microfono puede ser configurado para despertar cada intervalo T1, el intervalo de vigilia del microfono, y recoger la Entrada de Audio S270 durante el lapso T2, el lapso de ACTIVACION del microfono. Los valores de T1 o T2 pueden estar predeterminados en un intervalo fijo, o pueden ser adaptados dinamicamente durante el tiempo de ejecucion. En una implementacion ejemplar del sistema, T1 puede ser mayor que T2, o puede determinarse que T2 sea mas pequeno, pero proporcional a T1. Si hay mas de un microfono en la Unidad de Microfono 200, cada microfono puede ser configurado para que tenga el mismo intervalo, o algun microfono puede ser configurado para que tenga intervalos distintos de los otros. En una realizacion, algunos de los microfonos pueden no ser activados en absoluto durante el Estado de Monitorizacion Pasiva de Audio S1 de la FIG. 11, o el estado de Monitorizacion de Audio S4 de la FIG. 12. En otra realizacion, uno o mas microfonos pueden estar activados constantemente, lo que puede ser el mero caso especial en el cual T1 es identico a T2.
Las entradas de audio digitalizado durante el lapso T2 pueden ser almacenadas en el Almacen Temporal 220 cada intervalo T1, y la entrada almacenada de audio digital puede ser objeto de acceso, y procesada, por el Procesador de Registro de Audio 230 en cada intervalo T3. Esto puede ser mejor entendido con la FIG. 14, que muestra un diagrama ejemplar para almacenar entrada de audio digital en el Almacen Temporal 220 en la Unidad de Captura de Audio 215 durante el Estado de Monitorizacion Pasiva de Audio S1 o el Estado de Monitorizacion de Audio S4. La entrada de audio digital almacenada 1415, 1425, 1435, 1445 en el Almacen Temporal 220 puede ser analizada por el Detector de Actividad Auditiva 510 dentro del Procesador de Registro de Audio 230. En una implementacion ejemplar, el intervalo T3 puede ser identico al lapso T2, o puede ser determinado sin ninguna relacion con el lapso T2. Cuando el intervalo T3 es mayor que el lapso T2, el Detector de Actividad Auditiva 510 puede ser configurado para acceder a, y procesar, mas que el tamano de los datos almacenados en el Almacen Temporal 220 durante un ciclo del intervalo T1.
La FIG. 15 es un diagrama de flujo de una realizacion del Procesador de Registro de Audio 230 durante el Estado de Monitorizacion Pasiva de Audio S1. En este estado, puede ser deseable que la mayorfa de los modulos dentro del Procesador de Registro de Audio 230 puedan estar en una modalidad eficaz en terminos de energfa, excepto un numero mfnimo de modulos requeridos para el funcionamiento de la FIG. 15. Estos modulos requeridos pueden ser los modulos mostrados en la FIG. 9B. Por lo tanto, el diagrama de flujo en la FIG. 15 puede ser mejor entendido con la FIG. 9B. Si la solicitud de inicio de suceso fue originada a partir de la Senal de Entrada S220, detectada 1515 por el Gestor de Senales de Entrada 540 cuando el dispositivo movil esta en la modalidad de reposo, puede activar el Indicador de Inicio de Suceso de 1er nivel 1540. Si la solicitud de inicio de suceso, originada a partir de la Senal Auxiliar S240, es detectada 1520 por el Analizador de Senales Auxiliares 530, puede activar el Indicador de Inicio de Suceso de 1er nivel 1540. La FIG. 15 tambien muestra que el Detector de Actividad Auditiva 510 analiza los datos 1530 en el Almacen Temporal 220 cada intervalo T3, y puede determinar si ha sido detectada o no cualquier actividad auditiva que indique que puede ser requerido un analisis adicional en profundidad. Las descripciones detalladas de realizaciones ejemplares para estas pruebas fueron previamente divulgadas en la presente solicitud junto con la FIG. 5. Si se detecta la actividad auditiva de interes, puede activar el Indicador de Inicio de Suceso de 1er nivel 1540.
Un experto en la tecnica reconocera que el orden de los bloques en la FIG. 15 es solamente con fines ejemplares en la explicacion del funcionamiento del Procesador de Registro de Audio 230 y, por lo tanto, puede haber muchas variaciones que pueden ser funcionalmente equivalentes, o esencialmente equivalentes, a la FIG. 15. Por ejemplo, dicho bloque 1515 y el otro bloque 1520 pueden ser reordenados de modo que el 1520 pueda ser ejecutado primero, o pueden ser reordenados de modo que puedan no ser ejecutados en orden secuencial.
La FIG. 16 es un diagrama de flujo de una realizacion de la Unidad de Captura de Audio 215 durante el Estado de Monitorizacion Activa de Audio s2. El funcionamiento de la Unidad de Captura de Audio 215 en la FIG. 16 es muy similar al funcionamiento divulgado en la FIG. 13, excepto por unas pocas diferencias y, por lo tanto, solamente las partes diferentes pueden ser descritas en la presente memoria. El convertidor de A / D puede ser programado para mantener una mayor resolucion, etiquetada como “MEDIA” en la FIG. 16, en terminos de frecuencia de muestreo y / o de ancho de datos, que la resolucion “BAJA” en la FIG. 13. La configuracion de resolucion media puede ayudar a obtener datos digitalizados de entrada de audio con mejor precision, lo que, a su vez, puede ser beneficioso para que el Procesador de Registro de Audio 230 extraiga informacion de contexto S600 mas fiable.
5
10
15
20
25
30
35
40
45
50
55
60
65
Un microfono puede ser configurado para despertar cada intervalo T4; el intervalo de vigilia del microfono, y recoger la Entrada de Audio S270 durante el lapso T5; el lapso de ACTIVACION del microfono. Los valores de T4 o T5 pueden ser identicos o esencialmente similares, respectivamente, a los valores de Ti o T2. Sin embargo, puede ser preferible fijar T4 para que sea mas pequeno que Ti, porque puede ser beneficioso para el Procesador de Registro de Audio 230 extraer informacion de contexto S600 mas precisa. En otra realizacion, los valores de T4 o T5 pueden ser predeterminados en un intervalo fijo, o pueden ser adaptados dinamicamente durante el tiempo de ejecucion. En otra realizacion, en la cual hay una pluralidad de microfonos en la Unidad de Microfono 200, uno o mas microfonos pueden estar encendidos constantemente, lo que puede ser el mero caso especial en el cual T4 es identico a T5.
La FIG. 17 es un diagrama ejemplar para almacenar una entrada de audio digital en el Almacen Temporal 220 en la unidad de Captura de Audio 215 durante el Estado de Monitorizacion Activa de Audio S2. La entrada almacenada de audio digital 1715, 1725, 1735, 1745 en el Almacen Temporal 220 puede ser analizada por el Identificador de Contexto 560 y la Logica de Evaluacion de Contexto 950 dentro del Procesador de Registro de Audio 230 cada intervalo T6. En una implementacion ejemplar, el intervalo T6 puede ser identico al lapso T5 o, alternativamente, puede ser determinado sin ninguna relacion con el lapso T5. Cuando el intervalo T6 es mayor que el lapso T5, el Detector de Actividad Auditiva 510 puede ser configurado para acceder a, y procesar, los datos almacenados en el Almacen Temporal 220 durante uno o mas ciclos del intervalo T4.
La FIG. 18 es un diagrama de flujo de una realizacion del Procesador de Registro de Audio 230 durante el Estado de Monitorizacion Activa de Audio S2. En este estado, el Identificador de Contexto 560 dentro del Procesador de Registro de Audio 230 analiza la Entrada de Audio S270 almacenada en el Almacen Temporal 220 e identifica 1815 la informacion de contexto S600 en cada intervalo T6. La informacion de contexto S600 puede ser configurada para ser almacenada 1820 en una ubicacion de memoria para referencia futura. La Logica de Evaluacion de Contexto 950 puede evaluar 1825 la informacion de contexto S600 y puede activar el Indicador de Inicio de Suceso de 2° nivel 1835, de acuerdo a diversos procedimientos internos de decision. Tales procedimientos de decision, por ejemplo, pueden incluir el calculo de la suma ponderada de prioridades para la salida de algunos de, o todos, los sub- modulos divulgados en la FIG. 8, y la comparacion de la suma ponderada con uno o mas umbrales. La FIG. 18 tambien muestra el mecanismo ejemplar de activacion del Indicador de Fin de Suceso S940. El Indicador de Fin de Suceso S940 puede ser activado cuando la Logica de Evaluacion de Contexto 950 no activo el Indicador de Inicio de Suceso de 2° nivel S930 durante el ultimo lapso S que, preferiblemente, puede ser mucho mas largo que el intervalo T6. En otra realizacion, el Indicador de Fin de Suceso S940 puede ser generado cuando el Administrador de Fines de Sucesos 580 detecta las senales S1052, S1053 desde el Analizador de Senales Auxiliares 530 o el Gestor de Senales de Entrada 540, segun se muestra en la FIG. 10.
La FIG. 19 es un diagrama ejemplar de una realizacion de identificacion de contexto en el Procesador de Registro de Audio 230 durante el Estado de Monitorizacion Activa de Audio S2. Muestra que el proceso de identificacion de contexto, que es realizado por el Identificador de Contexto 560 en cada intervalo T6, puede ser configurado para iniciarse asfncronamente para el intervalo T4. El intervalo T6 puede ser determinado en consideracion del tamano del Almacen Temporal 220 y del equilibrio entre el consumo de energfa y la precision de la decision. Un proceso de identificacion de contexto demasiado frecuente, o un intervalo T6 demasiado pequeno, pueden dar como resultado un consumo aumentado de energfa, mientras que un proceso de identificacion de contexto demasiado a menudo, o un intervalo T6 demasiado grande, pueden dar como resultado la degradacion de la precision de la informacion de contexto S600.
La FIG. 20 es un diagrama de flujo de una realizacion de la Unidad de Captura de Audio 215 durante el Estado de Registro Activo de Audio S3, S5. El convertidor de A / D puede ser programado para mantener una mayor resolucion, etiquetada como “ALTA” en la presente memoria, en terminos de frecuencia de muestreo y / o de ancho de datos, en comparacion con las resoluciones “BAJA” o “MEDIA” en la FIG. 13 o la FIG. 16. La configuracion de alta resolucion puede aumentar el tamano de los datos de registro de audio, pero tambien puede ayudar a obtener datos de entrada de audio de mayor calidad. La regulacion de la resolucion del convertidor de A / D puede ser configurada para que sea ajustada dinamicamente de acuerdo a la senal de control desde el Procesador de Registro de Audio 230. Una descripcion mas detallada se presenta en una parte posterior de la presente solicitud. En el estado presente, el Procesador de Registro de Audio 230 puede estar implicado en el registro (almacenamiento) de datos de audio en la ubicacion de almacenamiento deseada. El almacenamiento deseado puede residir en el dispositivo movil local o en el sector servidor remoto, mediante una conexion cableada o inalambrica. El registro de audio puede continuar hasta que el Indicador de Fin de Suceso S940 sea detectado por el Administrador de Fines de Sucesos 580, segun se muestra en la FIG. 10.
La FIG. 21 es un diagrama de flujo de una realizacion del Procesador de Registro de Audio 230 durante el Estado de Registro Activo de Audio S3. Si la solicitud de fin de suceso se origino a partir de la Senal de Entrada S220 detectada 2110 por el Gestor de Senales de Entrada 540, puede activar el Indicador de Fin de Suceso 2130. Si la solicitud de fin de suceso originada a partir de la Senal Auxiliar S240 es detectada 2115 por el Analizador de Senales Auxiliares 530, puede activar el Indicador de Fin de Suceso 2130. Si no hay ningun fin de suceso detectado a partir del Gestor de Senales de Entrada 540, o bien del Analizador de Senales Auxiliares 530, entonces el registro efectivo de audio es realizado en el Modulo central de Registro de Audio 2120. Durante el registro de audio, el
5
10
15
20
25
30
35
40
45
50
55
60
65
Identificador de Contexto 560 puede ser configurado para continuar identificando la informacion de contexto S600, y la informacion de contexto mas antigua identificada S600, almacenada en la ubicacion de memoria, puede ser actualizada por informacion mas reciente de contexto identificada S600. La descripcion detallada del funcionamiento interno del Modulo Central de Registro de Audio se presenta en la FIG. 24. Mientras el registro efectivo de audio esta en marcha, la Logica de Evaluacion de Contexto 950 puede ser configurada para continuar monitorizando y analizando la Entrada de Audio S270, y activar por ello el Indicador de Fin de Suceso S940 cuando no ha sido detectada ninguna informacion de contexto S600 interesante durante un periodo de tiempo predeterminado. Una implementacion ejemplar para el periodo de tiempo predeterminado puede incluir el uso de los datos de audio durante los S segundos mas recientes. Este procedimiento de generacion del Indicador de Fin de Suceso S940 puede ser mencionado como un “mecanismo de temporizador agotado”. Tales procedimientos de prueba, por ejemplo, pueden incluir el calculo de una suma ponderada de prioridades para la salida de algunos de, o todos, los sub-modulos divulgados en la FIG. 8, y la comparacion de la suma ponderada con uno o mas umbrales.
La FIG. 22 es un diagrama de flujo de una realizacion del Procesador de Registro de Audio 230 durante la Etapa de Monitorizacion de Audio S4. El diagrama de flujo en la presente figura puede ser configurado para que sea esencialmente similar al diagrama de flujo en la FIG. 15, excepto porque el ultimo bloque 2240 puede activar el Indicador de Inicio de Suceso, en lugar del Indicador de Inicio de Suceso de 1er nivel 1540. Esta similitud se debe al hecho de que tanto el Estado de Monitorizacion Pasiva de Audio S1 de la FIG. 11 como el Estado de Monitorizacion de Audio S4 de la FIG. 12 pueden tener identicos propositos: detectar los sucesos auditivos del entorno periodicamente de manera eficaz en terminos de energfa.
La FIG. 23 es un diagrama de flujo de una realizacion del Procesador de Registro de Audio 230 durante el Estado de Registro Activo de Audio S5. Debido a que el Procesador de Registro Activo, bien en S3 o en S5, puede realizar operaciones similares, el diagrama de flujo en la presente memoria tambien puede ser esencialmente cercano, o ser identico, al diagrama de flujo en la FIG. 21, con la excepcion de los bloques adicionales 2300, 2305 al comienzo del diagrama de flujo. A diferencia de S3, estado donde su estado anterior siempre era el Estado de Monitorizacion Activa de Audio S2, en el cual el Identificador de Contexto 560 puede ser configurado para identificar la informacion de contexto S600 periodicamente o continuamente, segun la preferencia de diseno, estos bloques adicionales 2300, 2305 pueden ser requeridos en la presente memoria porque el estado anterior de S5 es el Estado de Monitorizacion de Audio S4, y ninguna etapa de identificacion de contexto puede ser realizada en el estado S4. Si la solicitud de fin de suceso se origino a partir de la Senal de Entrada S220 detectada 2310 por el Gestor de Senales de Entrada 540, puede activar el Indicador de Fin de Suceso 2330. Si la solicitud de fin de suceso originada a partir de la Senal Auxiliar S240 es detectada 2315 por el Analizador de Senales Auxiliares 530, puede activar el Indicador de Fin de Suceso 2330. Si no hay ningun fin de suceso detectado desde el Gestor de Senales de Entrada 540, o bien desde el Analizador de Senales Auxiliares 530, entonces el registro efectivo del audio es realizado en el Modulo Central de Registro de Audio 2320. Durante el registro de audio, el Identificador de Contexto 560 puede ser configurado para continuar identificando la informacion de contexto S600, y la mas antigua informacion de contexto identificada S600, almacenada en la ubicacion de memoria, puede ser actualizada por la mas reciente informacion de contexto identificada S600. La descripcion detallada del funcionamiento interno del Modulo Central de Registro de Audio se presenta en la FIG. 24. Mientras el registro efectivo del audio esta en marcha, la Logica de Evaluacion de Contexto puede ser configurada para continuar monitorizando y analizando la Entrada de Audio S270 y activar por ello el Indicador de Fin de Suceso S940 cuando ninguna informacion de contexto S600 interesante ha sido detectada durante un periodo de tiempo predeterminado. Una implementacion ejemplar para el periodo de tiempo predeterminado puede incluir el uso de datos de audio durante el mas reciente lapso S. Este procedimiento de generacion del Indicador de Fin de Suceso S940 puede ser llamado “mecanismo de agotamiento temporal”. Tal procedimiento de prueba, por ejemplo, puede incluir el calculo de la suma ponderada de prioridades para la salida de algunos de, o todos, los sub-modulos divulgados en la FIG. 8, y la comparacion de la suma ponderada con uno o mas umbrales.
La FIG. 24 es un diagrama de flujo de una realizacion del modulo central de registro de audio durante los Estados de Registro Activo de Audio S3, S5. En esta realizacion ejemplar, los tres primeros bloques a partir del extremo superior del diagrama de flujo 2410, 2415, 2420 muestran la caracterfstica de configuracion dinamica del sistema de registro inteligente de audio, de acuerdo a la informacion de contexto S600. La frecuencia de muestreo 2410 y / o el ancho de datos 2415 del convertidor de A / D pueden ser dinamicamente reconfigurados durante el proceso de registro de audio, en base a la informacion de contexto S600. La informacion de contexto S600, habitualmente, varfa gradualmente, o incluso abruptamente, durante el curso entero del registro de audio, que puede durar mas que minutos, o incluso horas. Por ejemplo, el tema del habla conversacional puede cambiar a lo largo del tiempo. El ruido de fondo, o el entorno del orador, puede cambiar, por ejemplo, cuando el orador esta caminando por la calle o esta en transito usando el transporte publico. Ademas, el contenido de la Entrada de Audio S270 puede cambiar a lo largo del tiempo, por ejemplo, desde el habla conversacional a la musica, o a la musica mas habla, y viceversa. Puede ser deseable usar una mayor resolucion de la frecuencia de muestreo o del ancho de datos para el contenido musical, y una menor resolucion de la frecuencia de muestreo o del ancho de datos para una senal principalmente de habla. En otra realizacion, la resolucion puede ser configurada para que sea distinta de acuerdo a la caracterfstica del contenido vocal. Por ejemplo, el sistema puede ser configurado para usar una resolucion distinta para la comunicacion de negocios, en comparacion con una conversacion personal entre amigos. Los bloques 2410, 2415, 2420 para la regulacion dinamica de las configuraciones del convertidor de A / D y la seleccion dinamica de la
5
10
15
20
25
30
35
40
45
50
55
60
65
ubicacion de memoria, de acuerdo a la informacion de contexto S600, pueden ser resituados en orden distinto entre los mismos, o a diferencia de otros bloques en el diagrama de flujo, dentro del ambito del principio general divulgado en la presente memoria.
El sistema tambien puede ser configurado para seleccionar dinamicamente la ubicacion de memoria 2420 en base a la informacion de contexto S600. Por ejemplo, el sistema puede ser configurado para almacenar los datos de registro de audio en un almacenamiento que este remotamente conectado en el sector servidor cuando uno o mas oradores durante la conversacion resultan coincidir con un cierto perfil, tal como clientes comerciales principales, o cuando la Entrada de Audio S270 incluye esencialmente mas musica que senales de habla. En tales casos puede ser deseable usar una mayor resolucion del convertidor de A / D y, por lo tanto, requerir un mayor espacio de almacenamiento.
El Procesador del Registro de Audio 230 puede luego ser configurado para leer los datos de audio 2424 desde el Almacen Temporal 220. La nueva Informacion de Contexto puede ser identificada 2430 a partir de los mas recientes datos de audio y la nueva Informacion de Contexto puede ser almacenada 2435 en la memoria. En otra realizacion, el proceso 2430 de Identificacion de Contexto, o el proceso de resguardo 2434 de la informacion de contexto S600, puede ser omitido o resituado en un orden distinto, a diferencia de los otros bloques en el diagrama de flujo dentro del ambito del principio general divulgado en la presente memoria.
El Procesador de Registro de Audio 230 puede ser configurado para determinar 2440 si es deseable el realce de la senal de Entrada de Audio S270 o, en tal caso, que tipos de procesamiento de realce pueden ser deseables antes de que la senal procesada sea almacenada en la memoria seleccionada. La determinacion puede estar basada en la informacion de contexto S600, o pre-configurada automaticamente por el sistema, o manualmente por el usuario. Tal procesamiento de realce puede incluir la cancelacion del eco acustico (AEC), la recepcion de realce de voz (RVE), la cancelacion del ruido activo (ANC), la supresion del ruido (NS), el control de ganancia acustica (AGC), el control de volumen acustico (AVC) o el control de gama dinamica acustica (ADRC). En una realizacion, la agresividad del realce de senales puede estar basada en el contenido de la Entrada de Audio S270 o en la informacion de contexto S600.
El Procesador de Registro de Audio 230 puede ser configurado para determinar 2445 si es deseable la compresion de la senal de Entrada de Audio S270 o, en tal caso, que tipos de procesamiento de compresion pueden ser deseables antes de que la senal procesada sea almacenada en la ubicacion de memoria seleccionada. La determinacion puede estar basada en la informacion de contexto S600, estar automaticamente pre-configurada por el sistema, o manualmente por el usuario. Por ejemplo, el sistema puede seleccionar usar la compresion antes de que comience el registro de audio, en base a la duracion esperada del registro de audio, preferiblemente en base a la informacion de cronograma. La seleccion de un procedimiento de compresion, tal como la codificacion del habla o la codificacion del audio, puede ser configurada dinamicamente en base al contenido de la Entrada de Audio S270, o a la informacion de contexto S600. A menos que se especifique lo contrario, la compresion dentro del contexto de la presente solicitud puede significar codificacion de origen, tal como codificacion / descodificacion del habla y codificacion / descodificacion del audio. Por lo tanto, deberfa ser obvio para un experto en la tecnica que la compresion puede ser usada de forma intercambiable como codificacion, y la descompresion puede ser usada de forma intercambiable como descodificacion. Los parametros de codificacion, tales como la velocidad de bits, la modalidad de codificacion o el numero de canal, tambien pueden ser dinamicamente configurados en base al contenido de la Entrada de Audio S270 o a la informacion de contexto S600.
La FIG. 25 es un diagrama de una realizacion de un control de ACTIVACION y DESACTIVACION de un microfono unico, de acuerdo al control convencional de microfono. Cuando un dispositivo movil esta en la modalidad de reposo 2550, un microfono, y los bloques relacionados, requeridos para el funcionamiento del microfono, tales como un convertidor de A/D, estan habitualmente apagados 2510. Un microfono y sus bloques relacionados estan habitualmente encendidos 2520 solamente durante el uso activo de un dispositivo movil para una aplicacion que requiera el uso de un microfono, tal como una llamada de voz o una grabacion de video.
La FIG. 26 es un diagrama de una primera realizacion de un control de ACTIVACION y DESACTIVACION de un microfono unico. A diferencia de la FIG. 25, un microfono puede ser configurado para estar selectivamente ACTIVADO 2520 incluso durante el periodo en que un dispositivo movil esta en la modalidad de reposo 2550. Un microfono puede ser configurado para estar selectivamente ACTIVADO de acuerdo a la informacion de contexto S600 de la Entrada de Audio S270. En una realizacion, esta caracteristica puede ser deseable para el Estado de Monitorizacion Pasiva de Audio S1, el Estado de Monitorizacion Activa de Audio S2, o el Estado de Monitorizacion de Audio S4.
La FIG. 27 es un diagrama de una segunda realizacion de un control de ACTIVACION y DESACTIVACION DE microfono unico. A diferencia de la FIG. 26, un microfono puede estar configurado para estar regularmente ACTIVADO 2700 durante el periodo en que un dispositivo movil esta en la modalidad de reposo 2550. En tal caso, el consumo de energia del sistema puede aumentar mientras un microfono este encendido. En una realizacion, esta caracteristica puede ser aplicable al Estado de Monitorizacion Pasiva de Audio S1, el Estado de Monitorizacion Activa de Audio S2, el Estado de Monitorizacion de Audio S4 o el Estado de Registro Activo de Audio S3 S5.
5
10
15
20
25
30
35
40
45
50
55
60
65
La FIG. 28 es un diagrama de una primera realizacion del control de ACTIVACION y DESACTIVACION de multiples microfonos. En una realizacion, uno o mas microfonos pueden ser configurados para funcionar de manera similar al sistema convencional. En otras palabras, uno o mas microfonos solamente pueden ser encendidos durante una llamada activa de voz o durante la grabacion de video, u otras aplicaciones cualesquiera que requieran el uso activo de uno o mas microfonos en respuesta a la seleccion manual del usuario. Sin embargo, los otros microfonos pueden ser configurados para estar ACTIVADOS intermitentemente. Solamente se presentan dos microfonos en la figura, con fines ejemplares, pero el mismo concepto de control de microfono puede ser aplicado a mas de dos microfonos.
La FIG. 29 es un diagrama de una segunda realizacion del control de ACTIVACION y DESACTIVACION de multiples microfonos. A diferencia de la FIG. 28, uno o mas microfonos pueden ser configurados para funcionar de manera similar a un sistema convencional, de manera que uno o mas microfonos solamente puedan ser encendidos durante una llamada de voz activa o durante una grabacion de video, u otras aplicaciones cualesquiera que requieran el uso activo de uno o mas microfonos en respuesta a la seleccion manual del usuario. Sin embargo, los otros microfonos pueden ser configurados para estar ACTIVADOS constantemente. En tal caso, el consumo de energfa del sistema puede aumentar mientras un microfono este encendido. Solamente se presentan dos microfonos en la figura con fines ejemplares, pero el mismo concepto de control de microfono puede ser aplicado a mas de dos microfonos.
La FIG. 30 es un diagrama de una realizacion del control de un numero de microfonos activos, de acuerdo a la presente solicitud, en la cual el numero activo de microfonos puede ser controlado dinamicamente de acuerdo a la informacion de contexto S600. Con fines ejemplares, se supone que el numero maximo de microfonos disponibles es tres y que tambien es el numero maximo de microfonos que pueden estar encendidos durante el Estado de Monitorizacion Pasiva de Audio S1, el Estado de Monitorizacion Activa de Audio S2 o el Estado de Monitorizacion de Audio S4. Sin embargo, la seleccion de un numero distinto de microfonos todavfa puede estar dentro el ambito de la presente divulgacion. Durante el Estado de Monitorizacion Pasiva de Audio S1 o el Estado de Monitorizacion de Audio S4, un microfono puede ser configurado para ser encendido periodicamente, para que pueda monitorizar un suceso auditivo del entorno. Por lo tanto, durante estos estados, el numero activo de microfonos puede cambiar, preferiblemente entre cero y uno. Durante el Estado de Monitorizacion Activa de Audio S2, el numero activo de microfonos puede continuar cambiando, preferiblemente entre cero y uno, pero el intervalo entre el periodo de ACTIVACION, T4, puede ser configurado para que sea mayor que el del Estado de Monitorizacion Pasiva de Audio S1 o el del Estado de Monitorizacion de Audio S4, T1.
Durante el Estado de Registro Activo de Audio S3 S5, el numero de microfonos activos puede ser configurado para cambiar dinamicamente de acuerdo a la informacion de contexto S600. Por ejemplo, el numero activo de microfonos puede ser configurado para aumentar desde uno 3045 hasta dos 3050, al detectar informacion de contexto S600 especffica o informacion de contexto S600 de alta prioridad. En otro ejemplo, el numero de microfonos puede ser configurado para aumentar cuando las caracterfsticas del ruido de fondo cambian de estaticas a no estaticas, o desde el nivel leve al nivel agudo. En tal caso, un procedimiento de supresion de ruido basado en multiples microfonos puede ser capaz de aumentar la calidad de la Entrada de Audio S270. El aumento, o la disminucion, del numero de microfonos activos tambien puede estar basado en la calidad de la Entrada de Audio S270. El numero de microfonos puede aumentar con la calidad de la Entrada de Audio S270; por ejemplo, de acuerdo a la razon entre senal y ruido (SNR) de la Entrada de Audio S270, se degrada por debajo de un cierto umbral.
El almacenamiento del registro de audio puede ser configurado para cambiar dinamicamente entre el almacenamiento local y el almacenamiento remoto durante el proceso de registro efectivo de audio, o despues de completarse el registro de audio. Por ejemplo, la FIG. 31 muestra una realizacion de la seleccion de ubicacion de almacenamiento, en la cual la seleccion puede ser controlada de acuerdo a la prioridad predefinida de la informacion de contexto S600. Esta seleccion puede ser realizada antes del inicio del registro de audio, o despues de completarse el registro de audio. Por ejemplo, la informacion de contexto puede estar pre-configurada para que tenga un nivel distinto de prioridad. Luego, antes del inicio de cada registro de audio, el almacenamiento puede ser seleccionado de acuerdo a la comparacion entre las caracterfsticas de la informacion de contexto S600 durante algun periodo de ventana y uno o mas umbrales predefinidos. En otra realizacion, la seleccion del almacenamiento a largo plazo puede ser decidida despues de completarse cada registro de audio. El registro inicial de audio puede ser almacenado por omision, por ejemplo, dentro del almacenamiento local con fines de almacenamiento a corto plazo. Al completarse un registro de audio, el registro de audio puede ser analizado por el Procesador de Registro de Audio 230 a fin de determinar la ubicacion de almacenamiento a largo plazo para el registro de audio. Cada registro de audio puede tener asignada una prioridad antes o despues de completarse el registro de audio. La seleccion de almacenamiento a largo plazo puede ser configurada para basarse en la prioridad del registro de audio. La FIG. 31 muestra un sistema ejemplar en el cual el registro de audio con informacion de contexto de menor prioridad es almacenado en almacenamiento local, mientras que el registro de audio con informacion de contexto de mayor prioridad es almacenado en un almacenamiento en red. Deberfa observarse que el registro de audio con informacion de contexto de menor prioridad puede ser almacenado en un almacenamiento de red, o que el registro de audio con informacion de contexto de mayor prioridad puede ser almacenado en un almacenamiento local dentro del ambito de la presente divulgacion.
5
10
15
20
25
30
35
40
45
50
55
60
65
La FIG. 32 muestra una realizacion de la seleccion de ubicacion de almacenamiento, en la cual la seleccion puede ser controlada dinamicamente de acuerdo a la prioridad de la informacion de contexto S600 durante el Estado de Registro Activo de Audio S3, S5. A diferencia de la FIG. 31, la seleccion de almacenamiento puede ser conmutada dinamicamente durante el procesamiento del registro efectivo del audio, de acuerdo a la informacion de contexto S600, al espacio de memoria disponible o a la calidad del canal entre un dispositivo movil y un servidor remoto.
La FIG. 33 es un diagrama de una realizacion de la configuracion del tiempo de agotamiento del almacenamiento, en la cual el tiempo de agotamiento puede ser controlado de acuerdo a la prioridad predefinida de la informacion de contexto S600. El registro de audio almacenado en los almacenamientos puede ser configurado para que sea borrado por seleccion manual del usuario, o agotado automaticamente por un mecanismo que puede estar basado en el tiempo de agotamiento predefinido. Cuando un registro de audio se agota, el registro de audio agotado puede ser configurado para ser borrado o desplazado a un lugar de almacenamiento temporal, tal como el “Recipiente de reciclaje”. El registro de audio agotado puede ser configurado para ser comprimido, si no fue comprimido en el momento de la grabacion. En el caso en que ya estuviera codificado en el momento de la grabacion, puede ser trans-codificado usando un formato de codificacion, o parametros de codificacion, que pudieran permitir una mayor compresion, dando como resultado un tamano de registro de audio mas compacto.
La configuracion del tiempo de agotamiento puede ser determinada en el momento del registro de audio, o despues de completarse el audio. En una realizacion, cada registro de audio puede tener asignado un valor de prioridad de acuerdo a las caracterfsticas o las estadfsticas de la informacion de contexto S600 del registro de audio. Por ejemplo, el registro de audio #1 3340 en la FIG. 33 puede tener menor prioridad que el registro de audio #3 3320. En una implementacion ejemplar, puede ser deseable fijar el tiempo de agotamiento del registro de audio #1, ET1, menor que el tiempo de agotamiento del registro de audio #3, ET3. Como ejemplo, ET1 puede ser fijado en “1 semana” y ET3 puede ser fijado en “2 semanas”. Es generalmente deseable tener un tiempo de agotamiento para un registro de audio, en proporcion a la prioridad del registro de audio. Pero deberfa observarse que un registro de audio que tenga una prioridad distinta no necesariamente debe tener siempre una configuracion distinta del tiempo de agotamiento.
La FIG. 34 es un diagrama de una realizacion del arranque, etapa por etapa, de los bloques dentro del sistema de registro inteligente de audio, en la cual el numero de bloques activos y el consumo total de energfa de los mismos pueden ser controlados dinamicamente de acuerdo a cada estado. Durante el Estado de Monitorizacion Pasiva de Audio S1, uno o mas microfonos pueden ser configurados para despertar periodicamente a fin de recibir la Entrada de Audio S270. A fin de realizar esta operacion de recepcion, el sistema puede ser configurado para despertar una parte del sistema y, por ello, el numero de bloques activos o bien, de forma intercambiable, el numero de bloques de arranque, del sistema, aumentados a N1 en al FIG. 34. Durante el Estado de Monitorizacion Activa de Audio S2, uno o mas bloques adicionales pueden ser configurados para despertar, ademas de N1, lo que hace que el numero total de bloques activos sea N2 durante los periodos en que uno o mas microfonos estan activos 3420. Por ejemplo, el Identificador de Contexto 560 y la Logica de Evaluacion de Contexto 950 pueden ser configurados para despertar, como fue ejemplificado en la FIG. 9B. Durante el Estado de Registro Activo de Audio S3, es probable que al menos algunos bloques mas puedan necesitar despertarse, ademas de los N2, lo que, a su vez, hace que el numero total de bloques activos durante el Estado de Registro Activo de Audio S3 sea N3. El numero de referencia de bloques activos 3425 durante el Estado de Monitorizacion Activa de Audio S2 se fija como N1 en la FIG. 34, que resulta ser el mismo numero de bloques activos durante el Estado de Monitorizacion Pasiva de Audio S1, pero deberfa ser obvio para los expertos en la tecnica que esto puede ser configurado para que sea distinto en otra realizacion dentro del ambito de la presente divulgacion. El numero de bloques activos para el Estado de Monitorizacion de Audio S4 o el Estado de Registro Activo de Audio S5 puede ser implementado, respectivamente, de manera similar al Estado de monitorizacion Pasiva de Audio S1 o al Estado de Registro Activo de Audio S3.
La FIG. 35 es un diagrama de una realizacion del control de precision del convertidor de A / D, en la cual la precision puede ser configurada de acuerdo a cada estado predeterminado, o controlada dinamicamente en correspondencia con la informacion de contexto S600. La unidad convertidora de A / D durante el Estado de Monitorizacion Pasiva de Audio S1 puede ser configurada para que tenga una regulacion de baja resolucion, etiquetada como “BAJA” en la FIG. 35, mientras que puede ser configurada para que tenga una regulacion de resolucion media, regulacion “MEDIA”, o una regulacion de mayor resolucion, regulacion “ALTA”, para el Estado de Monitorizacion Activa de Audio S2 o el Estado de Registro Activo de Audio S3, respectivamente. Este mecanismo puede ayudar a ahorrar en el consumo de energfa o en el uso de memoria, permitiendo configuraciones optimizadas para cada estado. En otra realizacion, la regulacion del convertidor de A / D durante las etapas del Estado de Monitorizacion Pasiva de Audio S1 y del Estado de Monitorizacion Activa de Audio S2 puede ser configurada para que tenga la misma resolucion. Alternativamente, la regulacion del convertidor de A / D durante las etapas del Estado de Monitorizacion Activa de Audio S2 y del Estado de Registro Activo de Audio S3 puede ser configurada para que tenga la misma resolucion.
La regulacion de la precision para la unidad convertidora de A/D puede ser configurada para que cambie dinamicamente durante el Estado de Registro Activo de Audio S3, en base a la informacion de contexto S600. La FIG. 35 muestra que el cambio dinamico puede ser configurado para que tenga efecto durante el lapso entero, o bien parcial, 3540, durante el proceso de registro activo de audio. Se supone que la configuracion de la precision por omision para el Estado de Registro Activo de Audio S3 es “Alta” 3520. Cuando hay un cambio signifi cativo en
5
10
15
20
25
30
35
40
45
50
55
60
65
terminos de la prioridad de la informacion de contexto S600, la regulacion de la precision puede ser reducida a las configuraciones “Media” 3535 o “Baja” 3525. Por ejemplo, el cambio de configuracion de precision puede ser iniciado por el cambio de la clasificacion de contenido, que es un subconjunto de la informacion de contexto S600, de “Musica” a “Habla” o de “Habla” a “Musica”. Alternativamente, puede ser iniciado por el cambio del nivel del ruido de fondo o el tipo de ruido de la Entrada de Audio S270. En otra realizacion, puede ser iniciado por el tamano de memoria disponible en el almacenamiento local, o la calidad del canal entre un dispositivo movil y un servidor remoto.
La FIG. 36 es un diagrama de una realizacion del control de realce de senales de entrada de audio, en la cual el realce puede ser configurado dinamicamente de acuerdo a la informacion de contexto S600. Con fines ejemplares, se supuso que hay varios niveles de realce de senal: ningun realce, realces de nivel bajo, nivel medio y de nivel alto. Durante el Estado de Registro Activo de Audio S3, S5, el nivel de realce de la senal de audio puede ser configurado para que se ajuste dinamicamente de acuerdo a la informacion de contexto S600. Por ejemplo, las caracterfsticas o el nivel del ruido de fondo pueden ser usados para activar el cambio del nivel de realce de la senal de audio. Cuando el nivel del ruido de fondo es significativamente mayor o las caracterfsticas del nivel del ruido de fondo cambian significativamente desde el ruido de tipo estatico al ruido de tipo no estatico, la regulacion del realce de la senal de audio puede ser configurada para que cambie desde el realce de bajo nivel, o sin realce, al realce de nivel medio, o incluso al realce de alto nivel. Por ejemplo, un usuario puede estar dentro de la estacion del Metro esperando que llegue su tren cuando el sistema de registro inteligente de audio podrfa estar en el Estado de Registro de Audio S3, S5, registrando activamente la Entrada de Audio S270. Cuando el tren esta llegando a, o partiendo de, una plataforma, el nivel de ruido a menudo superaba un cierto umbral, mas alla del cual el habla conversacional normal es diffcil de entender. Al detectar el significativo cambio del nivel o del tipo del ruido de fondo, o al detectar el cambio importante de escena auditiva, el sistema de registro inteligente de audio puede reconfigurar en consecuencia las regulaciones del realce de senales de audio. El cambio de regulacion del realce de la senal de audio puede ser seguido o precedido por el numero activo de microfonos.
La FIG. 37 es un diagrama de una realizacion del control de parametros de compresion de audio, en la cual la compresion puede ser dinamicamente configurada de acuerdo a la informacion de contexto S600. Con fines ejemplares, se supuso que hay varios niveles de compresion: ninguna compresion, compresiones “Baja”, “Media” y “Alta”. Durante el Estado de Registro Activo de Audio S3, S5, el nivel de compresion de la senal de audio puede ser configurado para que sea ajustado dinamicamente de acuerdo a la informacion de contexto S600. Por ejemplo, el cambio de la modalidad de compresion puede ser iniciado por el cambio de la clasificacion del contenido, que es un subconjunto de la informacion de contexto S600, de “Musica” a “Habla” o de “Habla” a “Musica”. Puede ser deseable usar una mayor velocidad de bits para el contenido de “Musica”, mientras que puede ser deseable usar una menor velocidad de bits para el contenido de “Habla”, en el cual el ancho de banda de la senal a codificar es habitualmente mucho mas estrecho que el contenido de “Musica” habitual. Alternativamente, puede ser iniciado por el tamano de memoria disponible en el almacenamiento local, o la calidad del canal entre un dispositivo movil y un servidor remoto.
El formato de codificacion puede ser configurado para que cambie asimismo de acuerdo a la informacion de contexto S600. La FIG. 38 es un diagrama de una realizacion de la seleccion del formato de codificacion de compresion, en la cual la seleccion del formato de codificacion de compresion, o la falta de la misma, puede ser configurada dinamicamente de acuerdo a la informacion de contexto S600. Con fines ejemplares, el codec de audio #1 y el codec de habla #1 fueron mostrados en la FIG. 38, pero en general el formato de codificacion tambien puede ser configurado para que cambie entre los codecs de audio o entre los codecs del habla.
Por ejemplo, el presente codec de audio #1 3810 puede ser configurado para que sea cambiado por el codec del habla #1 3820. Al detectar el cambio principal de clasificacion de senal, de “Musica” a “Habla”. En otra realizacion, el cambio de formato de codificacion, si acaso, puede ser activado solamente despues de la “modalidad sin compresion” 3830 o, alternativamente, puede ser activado en cualquier momento al detectar el cambio de la informacion de contexto S600 predefinida, sin la “modalidad sin compresion” 3830 de por medio.
Se proporcionan diversas configuraciones ejemplares para permitir a cualquier persona experta en la tecnica hacer o usar los procedimientos y otras estructuras divulgadas en la presente memoria. Los diagramas de flujo, los diagramas de bloques y otras estructuras mostradas y descritas en la presente memoria son solamente ejemplos, y otras variantes de estas estructuras tambien estan dentro del ambito de la divulgacion. Son posibles diversas modificaciones para estas configuraciones, y los principios genericos presentados en la presente memoria pueden ser aplicados asimismo a otras configuraciones. Por ejemplo, se subraya que el ambito de esta divulgacion no esta limitado a las configuraciones ilustradas. En cambio, esta expresamente contemplado, y divulgado por la presente, que las caracterfsticas de las distintas configuraciones particulares, segun lo descrito en la presente memoria, pueden ser combinadas para producir otras configuraciones que estan incluidas dentro del ambito de esta divulgacion, para cualquier caso en el cual tales caracterfsticas no sean incongruentes entre sf. Tambien esta expresamente contemplado y divulgado por la presente que allf donde se describe una conexion entre dos o mas elementos de un aparato, pueden existir uno o mas elementos intervinientes (tal como un filtro), y que allf donde se describe una conexion entre dos o mas tareas de un procedimiento, pueden existir una o mas tareas u operaciones intervinientes (tal como una operacion de filtrado).
5
10
15
20
25
Las configuraciones descritas en la presente memoria pueden ser implementadas, en parte o en su totalidad, como un circuito cableado, como una configuracion de circuitos elaborada en un circuito integrado especffico de la aplicacion, o como un programa de firmware cargado en un almacenamiento no volatil, o un programa de software cargado desde, o en, un medio legible por ordenador, tal como codigo legible por maquina, siendo dicho codigo instrucciones ejecutables por una formacion de elementos logicos tales como un microprocesador u otra unidad de procesamiento de senales digitales. El medio legible por ordenador puede ser una formacion de elementos de almacenamiento, tales como la memoria semiconductora (que puede incluir, sin limitacion, RAM (memoria de acceso aleatorio) dinamica o estatica, ROM (memoria de solo lectura) y / o RAM flash), o la memoria ferroelectrica, polimerica o de cambios de fase; un medio en disco tal como un disco magnetico u optico; o cualquier otro medio legible por ordenador para el almacenamiento de datos. El termino “software” debena ser entendido como incluyente de codigo fuente, codigo en lenguaje ensamblador, codigo de maquina, codigo binario, firmware, macro-codigo, micro-codigo, uno o mas conjuntos o secuencias cualesquiera de instrucciones ejecutables por una formacion de elementos logicos, y cualquier combinacion de tales ejemplos.
Cada uno de los procedimientos divulgados en la presente memoria tambien puede ser realizado tangiblemente (por ejemplo, en uno o mas medios legibles por ordenador, segun lo enumerado anteriormente) como uno o mas conjuntos de instrucciones legibles y / o ejecutables por una maquina, incluyendo una formacion de elementos logicos (p. ej., un procesador, un microprocesador, un micro-controlador u otra maquina de estados finitos). Por tanto, la presente divulgacion no esta concebida para limitarse a las configuraciones mostradas anteriormente, sino que, en cambio, ha de concedersele el mas amplio ambito congruente con los principios y caracterfsticas novedosas divulgados de cualquier modo en la presente memoria, incluidos en las reivindicaciones adjuntas segun lo presentado, que forman parte de la divulgacion original.
Claims (8)
10
15
2.
20
25
30
35
3.
40
45
50
55 4.
5.
60
65
REIVINDICACIONES
Un procedimiento de procesamiento de una senal de audio digital para un dispositivo movil, comprendiendo el procedimiento:
recibir (S270) una senal acustica por parte de al menos un microfono; convertir la senal acustica recibida en la senal de audio digital;
extraer (S600) al menos una informacion de contexto auditivo desde la senal de audio digital;
en respuesta a detectar automaticamente un indicador de inicio de suceso (S910) en informacion de contexto extrafda, o a informacion de contexto adicional, realizar un registro de la senal de audio digital; y
en respuesta a detectar automaticamente un indicador de fin de suceso (S940), finalizar el audio.
Un aparato para procesar una senal de audio digital para un dispositivo movil, comprendiendo el aparato:
medios para recibir una senal acustica, por parte de al menos un microfono (200);
medios para convertir (210) la senal acustica recibida en la senal de audio digital;
medios para extraer (560) al menos una informacion de contexto auditivo desde la senal de audio digital;
medios para detectar automaticamente un indicador de inicio de suceso (570) en base a la informacion de contexto extrafda o a informacion de contexto adicional;
medios para realizar un registro de audio (230) para una senal de audio digital, en respuesta a la deteccion del indicador de inicio de suceso;
medios para detectar automaticamente (580) un indicador de fin de suceso; y
medios para finalizar el registro de audio para la senal de audio digital, en respuesta a la deteccion del indicador de fin de suceso.
El aparato para procesar una senal de audio digital de acuerdo a la reivindicacion 2, en el que los medios para la conversion comprenden:
medios para transformar la senal acustica recibida en una senal electrica;
medios para tomar muestras (210) de la senal electrica, para obtener la senal de audio digital; y
medios para almacenar la senal de audio digital en un almacen temporal (220),
en el que la toma de muestras se basa en una frecuencia de muestreo y en un ancho de datos y, preferiblemente, en el que dicha al menos una informacion de contexto auditivo se refiere a al menos uno entre: clasificacion de audio, identificacion de palabras clave o identificacion de orador y, ademas, preferiblemente, en el que dicha al menos una informacion de contexto auditivo esta basada, al menos en parte, en uno entre: energfa de senal, razon entre senal y ruido, declive espectral o frecuencia de cruce por el cero y, en particular, en el que dicha al menos una informacion de contexto auditivo esta basada, al menos en parte, en informacion no auditiva.
El aparato para procesar una senal de audio digital de acuerdo a la reivindicacion 3, en el que la informacion no auditiva comprende informacion de planificacion o de cronograma.
El aparato para procesar una senal de audio digital de acuerdo a la reivindicacion 2, en el que los medios para detectar el indicador de inicio de suceso comprenden:
medios para seleccionar (230) dicha al menos una informacion de contexto entre dicha al menos una informacion de contexto auditivo;
medios para comparar (230) la informacion de contexto seleccionada con al menos un umbral predeterminado; y
base a la audio para
registro de
10
15
20 7.
25
8.
30 9.
35 10.
40 11.
12.
45
13.
50
55
14.
60
65
medios para determinar (230) si el indicador de inicio de suceso ha sido detectado, en respuesta a la comparacion.
El aparato para procesar una senal de audio digital de acuerdo a la reivindicacion 2, en el que la deteccion del indicador de inicio de suceso esta basada, al menos en parte, en informacion no auditiva, y en el que la informacion no auditiva comprende informacion de planificacion o de cronograma y, preferiblemente, en el que los medios para realizar el registro de audio comprenden:
medios para actualizar al menos un parametro relacionado con los medios para la conversion, en base, al menos en parte, a dicha al menos una informacion de contexto auditivo;
medios para determinar si se requiere un procesamiento adicional, en base, al menos en parte, a dicha al menos una informacion de contexto auditivo;
medios para aplicar el procesamiento adicional a la senal de audio digital, para obtener una senal de audio procesada, en respuesta a la determinacion; y
medios para almacenar (220) la senal de audio procesada en un almacenamiento de memoria.
El aparato para procesar una senal de audio digital de acuerdo a la reivindicacion 6, en el que el procesamiento adicional incluye el procesamiento de realce de senal y, preferiblemente, en el que el procesamiento de realce de senal incluye al menos uno entre: la cancelacion de eco acustico, aEc, la recepcion del realce de voz, RVE, la cancelacion activa del ruido, ANC, la supresion del ruido, NS, el control de ganancia acustica, AGC, el control de volumen acustico, AVC, o el control de gama dinamica acustica, ADRC.
El aparato para procesar una senal de audio digital de acuerdo a la reivindicacion 7, en el que la supresion del ruido esta basada en una pluralidad de microfonos.
El aparato para procesar una senal de audio digital de acuerdo a la reivindicacion 6, en el que el procesamiento adicional incluye el procesamiento de compresion de senales y, preferiblemente, en el que el almacenamiento de memoria comprende una memoria local dentro del dispositivo movil, o una memoria remota conectada con el dispositivo movil a traves de un canal inalambrico.
El aparato para procesar una senal de audio digital de acuerdo a la reivindicacion 9, en el que el procesamiento de compresion de senales incluye la compresion del habla o la compresion del audio y, preferiblemente, en el que al menos un parametro de compresion esta determinado en base a la informacion de contexto auditivo.
El aparato para procesar una senal de audio digital de acuerdo a la reivindicacion 10, en el que dicho al menos un parametro de compresion incluye la modalidad de compresion, la velocidad de bits o el numero de canal.
El aparato para procesar una senal de audio digital de acuerdo a la reivindicacion 9, en el que el almacenamiento de memoria se selecciona en base, al menos en parte, a la informacion de contexto auditivo.
El aparato para procesar una senal de audio digital de acuerdo a la reivindicacion 2, en el que los medios para detectar el indicador de fin de suceso comprenden:
medios para seleccionar al menos una informacion de contexto entre dicha al menos una informacion de contexto auditivo;
medios para comparar la informacion de contexto seleccionada con al menos un umbral predeterminado; y
medios para determinar si el indicador de fin de suceso ha sido detectado, en respuesta a la comparacion.
El aparato para procesar una senal de audio digital de acuerdo a la reivindicacion 2, en el que los medios para detectar el indicador de fin de suceso estan basados, al menos en parte, en una no ocurrencia de un suceso auditivo durante un periodo de tiempo predeterminado y, preferiblemente, en el que los medios para detectar el indicador de fin de suceso estan basados, al menos en parte, en informacion no auditiva, y en el que la informacion no auditiva comprende informacion de planificacion o de cronograma.
Un medio no transitorio legible por ordenador, que comprende instrucciones para procesar una senal de audio digital para un dispositivo movil que, cuando son ejecutadas por un procesador, provocan que el procesador:
10
15
al recibir una senal acustica por parte de al menos un microfono, convierta la senal acustica recibida en la senal de audio digital;
extraiga al menos una informacion de contexto auditivo desde la senal de audio digital;
detecte automaticamente un indicador de inicio de suceso, en base a la informacion de contexto extrafda o a informacion de contexto adicional;
realice un registro de audio para la senal de audio digital, en respuesta a la deteccion del indicador de inicio de suceso;
detecte automaticamente un indicador de fin de suceso; y
finalice el registro de audio en respuesta a la deteccion del indicador de fin de suceso.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US32217610P | 2010-04-08 | 2010-04-08 | |
US322176P | 2010-04-08 | ||
US13/076,242 US9112989B2 (en) | 2010-04-08 | 2011-03-30 | System and method of smart audio logging for mobile devices |
US201113076242 | 2011-03-30 | ||
PCT/US2011/031859 WO2011127457A1 (en) | 2010-04-08 | 2011-04-08 | System and method of smart audio logging for mobile devices |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2574680T3 true ES2574680T3 (es) | 2016-06-21 |
Family
ID=44227871
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES15198125.5T Active ES2688371T3 (es) | 2010-04-08 | 2011-04-08 | Sistema y procedimiento de registro de audio inteligente para dispositivos móviles |
ES11717375.7T Active ES2574680T3 (es) | 2010-04-08 | 2011-04-08 | Sistema y procedimiento de registro de audio inteligente para dispositivos móviles |
ES21171952T Active ES2963099T3 (es) | 2010-04-08 | 2011-04-08 | Sistema y método de registro de audio inteligente para dispositivos móviles |
ES18179847T Active ES2877325T3 (es) | 2010-04-08 | 2011-04-08 | Sistema y método de registro de audio inteligente para dispositivos móviles |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES15198125.5T Active ES2688371T3 (es) | 2010-04-08 | 2011-04-08 | Sistema y procedimiento de registro de audio inteligente para dispositivos móviles |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES21171952T Active ES2963099T3 (es) | 2010-04-08 | 2011-04-08 | Sistema y método de registro de audio inteligente para dispositivos móviles |
ES18179847T Active ES2877325T3 (es) | 2010-04-08 | 2011-04-08 | Sistema y método de registro de audio inteligente para dispositivos móviles |
Country Status (12)
Country | Link |
---|---|
US (3) | US9112989B2 (es) |
EP (4) | EP3438975B1 (es) |
JP (3) | JP2013527490A (es) |
KR (2) | KR101498347B1 (es) |
CN (2) | CN105357371B (es) |
DK (1) | DK3035655T3 (es) |
ES (4) | ES2688371T3 (es) |
HU (3) | HUE055010T2 (es) |
PL (1) | PL3035655T3 (es) |
PT (1) | PT3035655T (es) |
SI (1) | SI3035655T1 (es) |
WO (1) | WO2011127457A1 (es) |
Families Citing this family (122)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130090926A1 (en) * | 2011-09-16 | 2013-04-11 | Qualcomm Incorporated | Mobile device context information using speech detection |
CN103918247B (zh) | 2011-09-23 | 2016-08-24 | 数字标记公司 | 基于背景环境的智能手机传感器逻辑 |
US9992745B2 (en) | 2011-11-01 | 2018-06-05 | Qualcomm Incorporated | Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate |
KR20160036104A (ko) * | 2011-12-07 | 2016-04-01 | 퀄컴 인코포레이티드 | 디지털화된 오디오 스트림을 분석하는 저전력 집적 회로 |
US9838810B2 (en) | 2012-02-27 | 2017-12-05 | Qualcomm Technologies International, Ltd. | Low power audio detection |
US9922646B1 (en) | 2012-09-21 | 2018-03-20 | Amazon Technologies, Inc. | Identifying a location of a voice-input device |
CN103811013B (zh) * | 2012-11-07 | 2017-05-03 | 中国移动通信集团公司 | 噪声抑制方法、装置、电子设备和通信处理方法 |
US9275625B2 (en) | 2013-03-06 | 2016-03-01 | Qualcomm Incorporated | Content based noise suppression |
US9076459B2 (en) * | 2013-03-12 | 2015-07-07 | Intermec Ip, Corp. | Apparatus and method to classify sound to detect speech |
US10255930B2 (en) * | 2013-06-28 | 2019-04-09 | Harman International Industries, Incorporated | Wireless control of linked devices |
US20150031416A1 (en) | 2013-07-23 | 2015-01-29 | Motorola Mobility Llc | Method and Device For Command Phrase Validation |
US9449602B2 (en) * | 2013-12-03 | 2016-09-20 | Google Inc. | Dual uplink pre-processing paths for machine and human listening |
CN103841244A (zh) * | 2013-12-03 | 2014-06-04 | 华为技术有限公司 | 一种终端及终端的录音方法 |
JP6478006B2 (ja) * | 2013-12-16 | 2019-03-06 | パナソニックIpマネジメント株式会社 | 無線通信装置、無線通信システム、及びデータ処理方法 |
US9311639B2 (en) | 2014-02-11 | 2016-04-12 | Digimarc Corporation | Methods, apparatus and arrangements for device to device communication |
US9646607B2 (en) * | 2014-03-10 | 2017-05-09 | Dell Products, L.P. | Managing wake-on-voice buffer quality based on system boot profiling |
US9185062B1 (en) * | 2014-05-31 | 2015-11-10 | Apple Inc. | Message user interfaces for capture and transmittal of media and location content |
US20150371655A1 (en) * | 2014-06-19 | 2015-12-24 | Yang Gao | Acoustic Echo Preprocessing for Speech Enhancement |
JP6129343B2 (ja) * | 2014-07-10 | 2017-05-17 | オリンパス株式会社 | 録音装置、及び録音装置の制御方法 |
JP2016042132A (ja) * | 2014-08-18 | 2016-03-31 | ソニー株式会社 | 音声処理装置、音声処理方法、並びにプログラム |
US9307317B2 (en) | 2014-08-29 | 2016-04-05 | Coban Technologies, Inc. | Wireless programmable microphone apparatus and system for integrated surveillance system devices |
US9225527B1 (en) | 2014-08-29 | 2015-12-29 | Coban Technologies, Inc. | Hidden plug-in storage drive for data integrity |
FI126923B (fi) * | 2014-09-26 | 2017-08-15 | Genelec Oy | Menetelmä ja laitteisto digitaalisen audiosignaalin tunnistamiseksi |
US20160125891A1 (en) * | 2014-10-31 | 2016-05-05 | Intel Corporation | Environment-based complexity reduction for audio processing |
US20160140978A1 (en) * | 2014-11-18 | 2016-05-19 | Qualcomm Incorporated | Customizable Local Media Mixing And Stream Selection In Group Communications |
EP3253069B1 (en) * | 2015-01-26 | 2021-06-09 | Shenzhen Grandsun Electronic Co., Ltd. | Earphone noise reduction method and apparatus |
KR20170132187A (ko) * | 2015-03-03 | 2017-12-01 | 오픈에이치디 피티와이 엘티디 | 분산된 라이브 퍼포먼스 스케줄 오디오 레코딩, 클라우드 기반 오디오 컨텐츠 편집 및 오디오 트랙 및 관련 메타 데이터의 온라인 컨텐츠 배포를 위한 시스템, 컨텐츠 편집 서버, 오디오 레코딩 슬레이브 장치 및 컨텐츠 편집 인터페이스 |
US9916836B2 (en) * | 2015-03-23 | 2018-03-13 | Microsoft Technology Licensing, Llc | Replacing an encoded audio output signal |
US10715468B2 (en) * | 2015-03-27 | 2020-07-14 | Intel Corporation | Facilitating tracking of targets and generating and communicating of messages at computing devices |
US10003938B2 (en) | 2015-08-14 | 2018-06-19 | Apple Inc. | Easy location sharing |
US20170069309A1 (en) * | 2015-09-03 | 2017-03-09 | Google Inc. | Enhanced speech endpointing |
US10186276B2 (en) | 2015-09-25 | 2019-01-22 | Qualcomm Incorporated | Adaptive noise suppression for super wideband music |
EP3321794A4 (en) * | 2015-10-23 | 2018-09-12 | Samsung Electronics Co., Ltd. | Electronic device and control method therefor |
US10902043B2 (en) | 2016-01-03 | 2021-01-26 | Gracenote, Inc. | Responding to remote media classification queries using classifier models and context parameters |
US10165171B2 (en) | 2016-01-22 | 2018-12-25 | Coban Technologies, Inc. | Systems, apparatuses, and methods for controlling audiovisual apparatuses |
WO2017142112A1 (ko) * | 2016-02-19 | 2017-08-24 | 주식회사 트리니티랩 | 가청 주파수 대역 오디오 신호의 저전력용 수신 방법 |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US9811314B2 (en) | 2016-02-22 | 2017-11-07 | Sonos, Inc. | Metadata exchange involving a networked playback system and a networked microphone system |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US10097919B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Music service selection |
CN105788611A (zh) * | 2016-02-25 | 2016-07-20 | 成都普创通信技术股份有限公司 | 一种音频质量在线监测系统 |
US10370102B2 (en) | 2016-05-09 | 2019-08-06 | Coban Technologies, Inc. | Systems, apparatuses and methods for unmanned aerial vehicle |
US10789840B2 (en) | 2016-05-09 | 2020-09-29 | Coban Technologies, Inc. | Systems, apparatuses and methods for detecting driving behavior and triggering actions based on detected driving behavior |
US10152858B2 (en) | 2016-05-09 | 2018-12-11 | Coban Technologies, Inc. | Systems, apparatuses and methods for triggering actions based on data capture and characterization |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US20170372697A1 (en) * | 2016-06-22 | 2017-12-28 | Elwha Llc | Systems and methods for rule-based user control of audio rendering |
US10152969B2 (en) | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US10176809B1 (en) * | 2016-09-29 | 2019-01-08 | Amazon Technologies, Inc. | Customized compression and decompression of audio data |
US9743204B1 (en) | 2016-09-30 | 2017-08-22 | Sonos, Inc. | Multi-orientation playback device microphones |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US10248613B2 (en) * | 2017-01-10 | 2019-04-02 | Qualcomm Incorporated | Data bus activation in an electronic device |
KR102580418B1 (ko) * | 2017-02-07 | 2023-09-20 | 삼성에스디에스 주식회사 | 어쿠스틱 에코 제거 장치 및 방법 |
US11183181B2 (en) | 2017-03-27 | 2021-11-23 | Sonos, Inc. | Systems and methods of multiple voice services |
CN107343105B (zh) * | 2017-07-21 | 2020-09-22 | 维沃移动通信有限公司 | 一种音频数据的处理方法和移动终端 |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
CN110870201B (zh) * | 2017-08-18 | 2023-10-24 | Oppo广东移动通信有限公司 | 音频信号调节方法、装置、存储介质及终端 |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US10614831B2 (en) * | 2017-10-12 | 2020-04-07 | Qualcomm Incorporated | Audio activity tracking and summaries |
US10880650B2 (en) | 2017-12-10 | 2020-12-29 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
US10818290B2 (en) | 2017-12-11 | 2020-10-27 | Sonos, Inc. | Home graph |
JP2019110447A (ja) * | 2017-12-19 | 2019-07-04 | オンキヨー株式会社 | 電子機器、電子機器の制御方法、及び、電子機器の制御プログラム |
US11343614B2 (en) | 2018-01-31 | 2022-05-24 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10847178B2 (en) | 2018-05-18 | 2020-11-24 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
US11100918B2 (en) | 2018-08-27 | 2021-08-24 | American Family Mutual Insurance Company, S.I. | Event sensing system |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
JP7019096B2 (ja) * | 2018-08-30 | 2022-02-14 | ドルビー・インターナショナル・アーベー | 低ビットレート符号化オーディオの増強を制御する方法及び機器 |
US10878811B2 (en) | 2018-09-14 | 2020-12-29 | Sonos, Inc. | Networked devices, systems, and methods for intelligently deactivating wake-word engines |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
EP3641286B1 (en) * | 2018-10-15 | 2021-01-13 | i2x GmbH | Call recording system for automatically storing a call candidate and call recording method |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
CN111383663A (zh) * | 2018-12-29 | 2020-07-07 | 北京嘀嘀无限科技发展有限公司 | 一种录音控制方法、装置、用户终端及存储介质 |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11241616B1 (en) * | 2019-05-17 | 2022-02-08 | Amazon Technologies, Inc. | Techniques for conserving power on a device |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
CN110246501B (zh) * | 2019-07-02 | 2022-02-01 | 思必驰科技股份有限公司 | 用于会议记录的语音识别方法及系统 |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
KR20210042520A (ko) * | 2019-10-10 | 2021-04-20 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
TWI727521B (zh) * | 2019-11-27 | 2021-05-11 | 瑞昱半導體股份有限公司 | 動態語音辨識方法及其裝置 |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
CN113823289B (zh) * | 2020-06-18 | 2024-09-24 | 中兴通讯股份有限公司 | 一种定位方法、定位装置和计算机可读存储介质 |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
RU2766273C1 (ru) * | 2020-09-24 | 2022-02-10 | Акционерное общество "Лаборатория Касперского" | Система и способ определения нежелательного звонка |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
CN112508388B (zh) * | 2020-12-02 | 2022-08-19 | 唐旸 | 产品质量检测数据的录入方法及系统、服务端、存储介质 |
US11551700B2 (en) | 2021-01-25 | 2023-01-10 | Sonos, Inc. | Systems and methods for power-efficient keyword detection |
US11581007B2 (en) | 2021-04-27 | 2023-02-14 | Kyndryl, Inc. | Preventing audio delay-induced miscommunication in audio/video conferences |
KR102516391B1 (ko) * | 2022-09-02 | 2023-04-03 | 주식회사 액션파워 | 음성 구간 길이를 고려하여 오디오에서 음성 구간을 검출하는 방법 |
Family Cites Families (66)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4704696A (en) * | 1984-01-26 | 1987-11-03 | Texas Instruments Incorporated | Method and apparatus for voice control of a computer |
US4780906A (en) * | 1984-02-17 | 1988-10-25 | Texas Instruments Incorporated | Speaker-independent word recognition method and system based upon zero-crossing rate and energy measurement of analog speech signal |
JPS63260345A (ja) | 1987-04-17 | 1988-10-27 | Matsushita Electric Ind Co Ltd | 自動音声収録装置 |
JPH04108246A (ja) * | 1990-08-29 | 1992-04-09 | Oki Electric Ind Co Ltd | ハンズフリー電話装置 |
JP3167385B2 (ja) * | 1991-10-28 | 2001-05-21 | 日本電信電話株式会社 | 音声信号伝送方法 |
US5749072A (en) * | 1994-06-03 | 1998-05-05 | Motorola Inc. | Communications device responsive to spoken commands and methods of using same |
US5614914A (en) * | 1994-09-06 | 1997-03-25 | Interdigital Technology Corporation | Wireless telephone distribution system with time and space diversity transmission for determining receiver location |
JP3133632B2 (ja) | 1994-12-29 | 2001-02-13 | 三洋電機株式会社 | 長時間記録装置 |
JP3513320B2 (ja) | 1996-04-15 | 2004-03-31 | シャープ株式会社 | 留守番電話機 |
JPH10161698A (ja) | 1996-11-28 | 1998-06-19 | Saitama Nippon Denki Kk | 留守番電話機およびその音声記録方法 |
JPH11187156A (ja) | 1997-12-18 | 1999-07-09 | Brother Ind Ltd | 通信装置 |
WO2010030978A2 (en) * | 2008-09-15 | 2010-03-18 | Aman James A | Session automated recording together with rules based indexing, analysis and expression of content |
US6549587B1 (en) * | 1999-09-20 | 2003-04-15 | Broadcom Corporation | Voice and data exchange over a packet based network with timing recovery |
JP2001022386A (ja) | 1999-07-06 | 2001-01-26 | Sanyo Electric Co Ltd | 録音再生装置及び留守番電話機 |
US6959274B1 (en) * | 1999-09-22 | 2005-10-25 | Mindspeed Technologies, Inc. | Fixed rate speech compression system and method |
JP3429237B2 (ja) | 1999-11-29 | 2003-07-22 | 船井電機株式会社 | 通信端末装置 |
JP2002057749A (ja) * | 2000-08-09 | 2002-02-22 | Denso Corp | 携帯形通信装置 |
US7231531B2 (en) * | 2001-03-16 | 2007-06-12 | Dualcor Technologies, Inc. | Personal electronics device with a dual core processor |
JP2002324290A (ja) * | 2001-04-25 | 2002-11-08 | Yazaki Corp | 緊急通報システム |
JP2003198716A (ja) | 2001-12-26 | 2003-07-11 | Hitachi Kokusai Electric Inc | 携帯電話機 |
US7224981B2 (en) | 2002-06-20 | 2007-05-29 | Intel Corporation | Speech recognition of mobile devices |
AU2002353389A1 (en) | 2002-12-20 | 2004-07-14 | Nokia Corporation | Method and device for organizing user provided information with meta-information |
US7392183B2 (en) | 2002-12-27 | 2008-06-24 | Intel Corporation | Schedule event context for speech recognition |
JP2005221565A (ja) | 2004-02-03 | 2005-08-18 | Nec Saitama Ltd | 音声データファイル格納方法および録音処理装置 |
US20060020486A1 (en) * | 2004-04-02 | 2006-01-26 | Kurzweil Raymond C | Machine and method to assist user in selecting clothing |
KR100640893B1 (ko) * | 2004-09-07 | 2006-11-02 | 엘지전자 주식회사 | 음성 인식용 베이스밴드 모뎀 및 이동통신용 단말기 |
JP4686160B2 (ja) | 2004-10-04 | 2011-05-18 | 沖コンサルティングソリューションズ株式会社 | 会話記録装置および会話記録方法 |
JP2006189626A (ja) | 2005-01-06 | 2006-07-20 | Fuji Photo Film Co Ltd | 記録装置及び音声記録プログラム |
ES2675734T3 (es) * | 2005-04-07 | 2018-07-12 | Orange | Procedimiento de sincronización entre una operación de procesamiento de reconocimiento vocal y una acción de activación de dicho procesamiento |
US20070033030A1 (en) | 2005-07-19 | 2007-02-08 | Oded Gottesman | Techniques for measurement, adaptation, and setup of an audio communication system |
JP2007140063A (ja) | 2005-11-17 | 2007-06-07 | Olympus Imaging Corp | 音声記録再生装置 |
US7856283B2 (en) * | 2005-12-13 | 2010-12-21 | Sigmatel, Inc. | Digital microphone interface, audio codec and methods for use therewith |
KR100785076B1 (ko) * | 2006-06-15 | 2007-12-12 | 삼성전자주식회사 | 스포츠 동영상에서의 실시간 이벤트 검출 방법 및 그 장치 |
US20080005067A1 (en) * | 2006-06-28 | 2008-01-03 | Microsoft Corporation | Context-based search, retrieval, and awareness |
GB0619825D0 (en) * | 2006-10-06 | 2006-11-15 | Craven Peter G | Microphone array |
JP4979343B2 (ja) | 2006-10-27 | 2012-07-18 | 三建設備工業株式会社 | 内・外気の調湿システム |
US8652040B2 (en) * | 2006-12-19 | 2014-02-18 | Valencell, Inc. | Telemetric apparatus for health and environmental monitoring |
JP2008165097A (ja) | 2006-12-29 | 2008-07-17 | Mariko Kawashima | いじめ防止を目的とした音声録音装置および音声データ解析装置 |
US8140325B2 (en) * | 2007-01-04 | 2012-03-20 | International Business Machines Corporation | Systems and methods for intelligent control of microphones for speech recognition applications |
US20080192906A1 (en) * | 2007-02-14 | 2008-08-14 | Winbond Electronics Corporation | Method and system for message management for audio storage devices |
US7844460B2 (en) | 2007-02-15 | 2010-11-30 | Motorola, Inc. | Automatic creation of an interactive log based on real-time content |
US8977255B2 (en) * | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8229134B2 (en) * | 2007-05-24 | 2012-07-24 | University Of Maryland | Audio camera using microphone arrays for real time capture of audio images and method for jointly processing the audio images with video images |
JP4909854B2 (ja) * | 2007-09-27 | 2012-04-04 | 株式会社東芝 | 電子機器および表示処理方法 |
US7962525B2 (en) | 2007-11-05 | 2011-06-14 | Microsoft Corporation | Automated capture of information generated at meetings |
US20090177476A1 (en) | 2007-12-21 | 2009-07-09 | May Darrell | Method, system and mobile device for registering voice data with calendar events |
US20090204243A1 (en) * | 2008-01-09 | 2009-08-13 | 8 Figure, Llc | Method and apparatus for creating customized text-to-speech podcasts and videos incorporating associated media |
US8483854B2 (en) * | 2008-01-28 | 2013-07-09 | Qualcomm Incorporated | Systems, methods, and apparatus for context processing using multiple microphones |
US8411880B2 (en) | 2008-01-29 | 2013-04-02 | Qualcomm Incorporated | Sound quality by intelligently selecting between signals from a plurality of microphones |
US8099289B2 (en) * | 2008-02-13 | 2012-01-17 | Sensory, Inc. | Voice interface and search for electronic devices including bluetooth headsets and remote systems |
CN101594410A (zh) | 2008-05-27 | 2009-12-02 | 北京爱国者存储科技有限责任公司 | 电子录音设备可自动进行电话录音的方法 |
US8805348B2 (en) | 2008-07-30 | 2014-08-12 | Qualcomm Incorporated | Diary synchronization for smart phone applications |
CN201278556Y (zh) | 2008-08-22 | 2009-07-22 | 深圳市中深瑞泰科技有限公司 | 一种具有自动应答以及录音功能的cdma手机 |
US8488799B2 (en) | 2008-09-11 | 2013-07-16 | Personics Holdings Inc. | Method and system for sound monitoring over a network |
US8401178B2 (en) * | 2008-09-30 | 2013-03-19 | Apple Inc. | Multiple microphone switching and configuration |
GB0817950D0 (en) * | 2008-10-01 | 2008-11-05 | Univ Southampton | Apparatus and method for sound reproduction |
US8676904B2 (en) * | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010054373A2 (en) * | 2008-11-10 | 2010-05-14 | Google Inc. | Multisensory speech detection |
CN101404680A (zh) | 2008-11-12 | 2009-04-08 | 深圳市杰特电信控股有限公司 | 电子文档中播入及播放媒体片段的方法 |
CN101478717A (zh) | 2009-01-19 | 2009-07-08 | 深圳市同洲电子股份有限公司 | 一种通话录音方法、系统及移动通信终端 |
US8862252B2 (en) * | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8442833B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
US7930436B1 (en) * | 2009-03-09 | 2011-04-19 | Znosko Dmitry Y | System and method for dynamically adjusting data compression parameters |
US9084070B2 (en) * | 2009-07-22 | 2015-07-14 | Dolby Laboratories Licensing Corporation | System and method for automatic selection of audio configuration settings |
WO2011101034A1 (en) * | 2010-02-19 | 2011-08-25 | Telefonaktiebolaget L M Ericsson (Publ) | Music control signal dependent activation of a voice activity detector |
CN103038765B (zh) * | 2010-07-01 | 2017-09-15 | 诺基亚技术有限公司 | 用于适配情境模型的方法和装置 |
-
2011
- 2011-03-30 US US13/076,242 patent/US9112989B2/en active Active
- 2011-04-08 ES ES15198125.5T patent/ES2688371T3/es active Active
- 2011-04-08 KR KR1020127029257A patent/KR101498347B1/ko active IP Right Grant
- 2011-04-08 DK DK15198125.5T patent/DK3035655T3/en active
- 2011-04-08 SI SI201131527T patent/SI3035655T1/en unknown
- 2011-04-08 EP EP18179847.1A patent/EP3438975B1/en active Active
- 2011-04-08 CN CN201510645020.9A patent/CN105357371B/zh active Active
- 2011-04-08 PL PL15198125T patent/PL3035655T3/pl unknown
- 2011-04-08 HU HUE18179847A patent/HUE055010T2/hu unknown
- 2011-04-08 CN CN201180025888.9A patent/CN102907077B/zh active Active
- 2011-04-08 KR KR1020147006752A patent/KR101523181B1/ko active IP Right Grant
- 2011-04-08 ES ES11717375.7T patent/ES2574680T3/es active Active
- 2011-04-08 EP EP15198125.5A patent/EP3035655B1/en active Active
- 2011-04-08 PT PT15198125T patent/PT3035655T/pt unknown
- 2011-04-08 ES ES21171952T patent/ES2963099T3/es active Active
- 2011-04-08 HU HUE15198125A patent/HUE038690T2/hu unknown
- 2011-04-08 HU HUE11717375A patent/HUE028665T2/en unknown
- 2011-04-08 ES ES18179847T patent/ES2877325T3/es active Active
- 2011-04-08 JP JP2013504014A patent/JP2013527490A/ja active Pending
- 2011-04-08 WO PCT/US2011/031859 patent/WO2011127457A1/en active Application Filing
- 2011-04-08 EP EP11717375.7A patent/EP2556652B1/en active Active
- 2011-04-08 EP EP21171952.1A patent/EP3917123B1/en active Active
-
2014
- 2014-05-07 JP JP2014096211A patent/JP2014195275A/ja active Pending
-
2015
- 2015-07-17 US US14/802,088 patent/US20150325267A1/en not_active Abandoned
-
2016
- 2016-05-06 JP JP2016093278A patent/JP6689664B2/ja active Active
-
2021
- 2021-05-11 US US17/317,702 patent/US20210264947A1/en active Pending
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2574680T3 (es) | Sistema y procedimiento de registro de audio inteligente para dispositivos móviles | |
US9992745B2 (en) | Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate | |
CN108337362A (zh) | 语音交互方法、装置、设备和存储介质 | |
US9549273B2 (en) | Selective enabling of a component by a microphone circuit | |
US9711135B2 (en) | Electronic devices and methods for compensating for environmental noise in text-to-speech applications | |
US9412373B2 (en) | Adaptive environmental context sample and update for comparing speech recognition | |
US9177546B2 (en) | Cloud based adaptive learning for distributed sensors | |
US9460720B2 (en) | Powering-up AFE and microcontroller after comparing analog and truncated sounds | |
US20150066495A1 (en) | Robust Feature Extraction Using Differential Zero-Crossing Countes | |
US20180213339A1 (en) | Adapting hearing aids to different environments | |
JP2015501450A5 (es) | ||
US11551707B2 (en) | Speech processing method, information device, and computer program product | |
JP6549009B2 (ja) | 通信端末及び音声認識システム |