ES2966500T3

ES2966500T3 - Sistema de ayuda a la conversación, método para el mismo, y programa

Info

Publication number: ES2966500T3
Application number: ES19844912T
Authority: ES
Inventors: Kazunori Kobayashi; Shoichiro Saito
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-08-02
Filing date: 2019-07-29
Publication date: 2024-04-22
Anticipated expiration: 2039-07-29
Also published as: JPWO2020027061A1; JP7020554B2; US20210314714A1; US11425517B2; CN112514414B; EP3833045B1; EP3833045A4; CN112514414A; WO2020027061A1; EP3833045A1

Abstract

Este sistema de asistencia a la conversación facilita la conversación entre los pasajeros de un automóvil. El automóvil tiene al menos dos filas de asientos. El sistema de asistencia a la conversación tiene: una unidad de control de distribución de voz que designa un área deseada de captación y amplificación de sonido basándose en una designación de un primer pasajero sentado en un primer asiento; una primera unidad de énfasis de sonido objetivo que emite una señal que enfatiza un sonido emitido desde el área designada de recolección y amplificación de sonido a un altavoz correspondiente al primer asiento; y una segunda unidad de énfasis de sonido objetivo que emite, a un altavoz correspondiente al área de recolección y amplificación de sonido, una señal que es recolectada por un micrófono correspondiente al primer asiento y enfatiza el sonido emitido desde el primer asiento. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Sistema de ayuda a la conversación, método para el mismo, y programa

[Campo técnico]

La presente invención se refiere a una tecnología de recogida y amplificación de sonido para permitir una conversación fluida dentro de un automóvil usando un micrófono y un altavoz.

[Antecedentes de la técnica]

Una función denominada ayuda a la comunicación o conversación dentro del automóvil se ha incorporado cada vez más en los automóviles (ver bibliografía no sobre patentes 1).

Esta función recoge la voz de una persona sentada en el asiento delantero y reproduce la voz en el asiento trasero para facilitar a los pasajeros mantener una conversación. Además, también se usa una función que recoge la voz en el asiento trasero y reproduce la voz en el asiento delantero.

La bibliografía de patentes 1 se refiere a un sistema de control de campo sonoro en cabina que permite mantener de manera adecuada una conversación en una cabina.

[Bibliografía de la técnica anterior]

[Bibliografía no sobre patentes]

Bibliografía no sobre patentes 1: "Technology of 'Intelligent microphone for car'", [en línea], 2018, Nippon Telegraph and Telephone Corporation, consultado el 24 de mayo de 2018, Internet, obtenido de: URL:http://www.ntt.co.jp/news2018/1802/pdf/180219c.pdf

[Bibliografía de patentes]

Bibliografía de patente 1: JP 2005 161873A.

[Sumario de la invención]

[Problemas a resolver por la invención]

Los sistemas de comunicación dentro del automóvil se centran principalmente en ayudar a la conversación entre el asiento delantero y el trasero, y no pueden producir ningún efecto en la conversación entre un pasajero en un tercer asiento y un pasajero en un segundo asiento (ver Fig. 1). Sin embargo, puede ocurrir fácilmente una situación en la que sea difícil escuchar la conversación entre el primer asiento y el segundo asiento. Ejemplos de una situación de este tipo pueden incluir, por ejemplo, en particular, un caso en donde se enciende el equipo de audio del automóvil o similar. Por lo tanto, un problema a resolver consiste en permitir que se utilice una función de amplificación de sonido en un asiento arbitrario independientemente de la posición del asiento.

Además, la función de comunicación dentro del vehículo no tiene que estar siempre activada, y es suficiente si la función permite a un pasajero mantener una conversación con otro pasajero cuando desean mantener una conversación. Por lo tanto, esta función debe configurarse de manera que pueda cambiar el funcionamiento cuando un pasajero en un asiento arbitrario desee mantener una conversación o desee detener la conversación.

El objetivo de la presente invención es dar a conocer un sistema de ayuda a la conversación que es capaz de cambiar el funcionamiento cuando un pasajero en un asiento arbitrario desea mantener una conversación o desea detener la conversación independientemente de la posición de un asiento y una fila, y un método y un programa para el sistema de ayuda a la conversación.

[Medios para resolver los problemas]

El problema descrito anteriormente se resuelve mediante las reivindicaciones adjuntas.

Según un aspecto de la presente invención, en la reivindicación 1 se describe un sistema de ayuda a la conversación; según otro aspecto de la presente invención, en la reivindicación 4 se describe un método de ayuda a la conversación.

[Efectos de la invención]

Según la presente invención, es posible obtener efectos que permitan cambiar de funcionamiento cuando un pasajero en un asiento arbitrario desea mantener una conversación o desea detener la conversación independientemente de la posición de un asiento y una fila.

[Breve descripción de los dibujos]

La Fig. 1 es una vista para explicar una comunicación dentro del automóvil;

La Fig. 2 es un diagrama de bloques funcional de un sistema de ayuda a la conversación según una primera realización;

La Fig. 3 es una vista que ilustra un ejemplo de flujo de procesamiento del sistema de ayuda a la conversación según la primera realización;

la Fig. 4 es una vista para explicar una estructura de un vehículo en donde se montará el sistema de ayuda a la conversación según la primera realización;

la Fig. 5 es una vista para explicar la estructura del vehículo en donde se montará el sistema de ayuda a la conversación según la primera realización;

la Fig. 6 es un diagrama de bloques funcional de una parte de énfasis de voz de objetivo según la primera realización; La Fig. 7 es un diagrama de bloques funcional de una parte de conmutación de voz según la primera realización; La Fig. 8 es un diagrama de bloques funcional de una parte de control de conmutación de voz según la primera realización;

La Fig. 9 es una vista que ilustra un ejemplo de visualización en una parte de visualización según la primera realización; La Fig. 10 es una vista que ilustra un ejemplo de visualización en la parte de visualización según la primera realización; y

La Fig. 11 es un diagrama de bloques funcional de un cancelador de eco según la primera realización.

[Descripción detallada de las realizaciones]

A continuación se describirá una realización de la presente invención. Debe tenerse en cuenta que se asignarán los mismos números de referencia a componentes que tengan las mismas funciones y etapas para realizar el mismo procesamiento en los dibujos usados en la siguiente descripción, y se omitirá una descripción solapada. En la siguiente descripción, el procesamiento que se realizará en una unidad de cada elemento de un vector y una matriz se aplica a todos los elementos del vector y la matriz a menos que se especifique lo contrario.

Los coeficientes de filtro correspondientes a los respectivos altavoces se preparan según rutas acústicas de los altavoces en los asientos de tres filas, y se hace que los altavoces funcionen en coordinación con el funcionamiento de la comunicación dentro del automóvil para lograr una conversación estable a través de los altavoces. Debe tenerse en cuenta que las rutas acústicas aquí descritas se refieren a rutas de sonido que se definen a partir de la relación entre la recogida de sonido y la emisión de sonido de micrófonos y altavoces correspondientes, respectivamente, a dos filas (por ejemplo, una fila delantera y una fila trasera) para las que se desea una ayuda a la comunicación dentro del automóvil.

La Fig. 2 es un diagrama de bloques funcional de un sistema de ayuda a la conversación según una primera realización, y la Fig. 3 ilustra el flujo de procesamiento del sistema de ayuda a la conversación.

El sistema de ayuda a la conversación incluye seis partes de énfasis de voz de objetivo 110-X, y una parte de conmutación de voz 120, una parte de control de conmutación de voz 130, y tres partes de adición 140-p. Sin embargo, se supone que X = A, B, C, D, E, F, y p = 1,2, 3. Debe tenerse en cuenta que A, B, C, D, E y F son índices que indican los respectivos asientos, e indican, respectivamente, un primer asiento derecho, un primer asiento izquierdo, un segundo asiento derecho, un segundo asiento izquierdo, un tercer asiento derecho y un tercer asiento izquierdo, con respecto a la dirección de desplazamiento de un automóvil, p es un índice que indica una fila de asientos.

En la presente realización, un vehículo en donde se montará el sistema de ayuda a la conversación tiene una estructura como la ilustrada en las Figs. 4 y 5, e incluye asientos de tres filas. Además, el vehículo en la presente realización incluye un asiento, cada uno a la derecha y a la izquierda de cada fila, un micrófono 91F que recoge principalmente la voz de una persona que habla en la primera fila, un micrófono 91S que recoge principalmente la voz de una persona que habla en la segunda fila, y un micrófono 91R que recoge principalmente la voz de una persona que habla en la tercera fila. Los micrófonos 91F, 91S y 91R están constituidos, respectivamente, por M micrófonos. Debe tenerse en cuenta que F, S y R son índices que indican, respectivamente, la primera fila, la segunda fila y la tercera fila del vehículo. Además, el vehículo en la presente realización incluye un altavoz, cada uno a la derecha y a la izquierda de cada asiento. Un altavoz 92F emite sonido a los altavoces de la primera fila, un altavoz 92S emite sonido a los altavoces de la segunda fila, y un altavoz 92R emite sonido a los altavoces de la tercera fila.

El sistema de ayuda a la conversación recibe señales de recogida de sonido y 1 = [y1,1, y 1,2, ..., y 1,M], y2 = [y2,1, y2,2, ..., y2,M] y y<3>= [y<3,1>, y<3,2>, ..., y<3>,M] de tres micrófonos 91F, 91S y 91R y señales de reproducción (por ejemplo, señales de audio) ml y mr a reproducir en los altavoces 92M1 y 92M2 de un aparato acústico dentro del vehículo (tal como, por ejemplo, un equipo de audio de automóvil), enfatiza la voz emitida desde un área designada (en lo sucesivo, también denominada área de recogida y reproducción de sonido), emite la voz a un altavoz correspondiente a un determinado asiento, enfatiza la voz emitida desde el asiento a partir del sonido recogido con un micrófono correspondiente al asiento, y emite la voz a un altavoz correspondiente al área de recogida y reproducción de sonido, para facilitar la conversación de los pasajeros en un automóvil. Debe tenerse en cuenta que solo es necesario usar al menos un micrófono que constituye los micrófonos 91F, 91S y 91R para cada área de recogida y reproducción de sonido.

El sistema de ayuda a la conversación es, por ejemplo, un aparato especial que está constituido por un programa especial que se carga en ordenador conocido públicamente o dedicado que incluye una unidad central de procesamiento (CPU), un aparato de almacenamiento principal (memoria de acceso aleatorio: RAM), y similares. El sistema de ayuda a la conversación ejecuta, por ejemplo, respectivos tipos de procesamiento bajo el control de la unidad central de procesamiento. Los datos ingresados al sistema de ayuda a la conversación y los datos obtenidos a través de los respectivos tipos de procesamiento se almacenan, por ejemplo, en el aparato de almacenamiento principal, y los datos almacenados en el aparato de almacenamiento principal se leen en la unidad central de procesamiento según sea necesario y se utilizan para otro procesamiento. Al menos parte de las respectivas partes de procesamiento del sistema de ayuda a la conversación pueden estar constituidas por hardware tal como un circuito integrado. Las respectivas partes de almacenamiento del sistema de ayuda a la conversación pueden constituirse, por ejemplo, con un aparato de almacenamiento principal tal como una memoria de acceso aleatorio (RAM) o un middleware tal como una base de datos relacional y un almacén de valores clave. Sin embargo, el sistema de ayuda a la conversación no tiene necesariamente que incluir las respectivas partes de almacenamiento dentro del sistema, y las respectivas partes de almacenamiento pueden estar constituidas por un aparato de almacenamiento auxiliar que está constituido por un disco duro, un disco óptico o un dispositivo de memoria semiconductor tal como una memoria flash, y pueden disponerse fuera del sistema de ayuda a la conversación.

Las partes respectivas se describirán a continuación.

La parte de énfasis de voz de objetivo 110-X en una p-ésima fila recibe M señales de recogida de sonido ypm (señales obtenidas de un m-ésimo micrófono en la p-ésima fila), señales de referencia sq y sr, señales de reproducción ml y mr a reproducir en los altavoces 92M1 y 92M2 del aparato acústico dentro del vehículo, y un valor de control de conmutación de voz c, obtiene una señal enfatizada zx al enfatizar la voz de objetivo (voz emitida desde un asiento X) de las M señales de recogida de sonido ypm, y emite la señal enfatizada zx. Sin embargo, como se describió anteriormente, X = A, B, C, D, E, F, y A y B están en la primera fila, C y D están en la segunda fila, y E y F están en la tercera fila. p = 1,2, 3, q = 1,2, 3 y r = 1,2, 3 y q t p, r t p, y q t r. Las señales de referencia s1 , s2 y s<3>son señales (una suma de señales enfatizadas de las personas que hablan en cada fila) obtenidas, respectivamente, al enfatizar la voz de las personas que hablan en la primera, segunda y tercera filas.

La Fig. 6 es un diagrama de bloques funcional de la parte de énfasis de voz de objetivo 110-X.

La parte de énfasis de voz de objetivo 110-X incluye una parte de recogida de sonido direccional 110-X-1, una parte de cancelación de eco 110-X-2 y una parte de supresión de pitidos 110-X-3. Las partes respectivas se describirán a continuación.

(Parte de recogida de sonido direccional 110-X-1)

La parte de recogida de sonido direccional 110-X-1 recibe M señales de recogida de sonido ypm, obtiene una señal enfatizada y'x al enfatizar la voz de objetivo (voz emitida desde el asiento X) de las M señales de recogida de sonido ypm (S110-X-1), y emite la señal enfatizada y'x.

Debe tenerse en cuenta que se puede usar cualquier método para obtener la señal enfatizada. Por ejemplo, se puede emplear la tecnología de énfasis de la solicitud de patente japonesa abierta No. 2004-078021.

(Parte de cancelación de eco 110-X-2)

La parte de cancelación de eco 110-X-2 recibe la señal enfatizada y'x, las señales de referencia sq y sr, las señales de reproducción ml y mr a reproducir en los altavoces 92M1 y 92M2 del aparato acústico dentro del vehículo, y el valor de control de conmutación de voz c, cancela los componentes de sonido a reproducir respectivamente en los altavoces de las filas q-ésima y r-ésima (una de 92F, 92S y 92R) incluidos en la señal enfatizada y’x y los componentes de sonido a reproducir en los altavoces 92M1 y 92M2, obtiene una señal enfatizada y"x cancelando los componentes de eco (S110-X-2) y emite las señales enfatizadas y"x. El procesamiento a realizar por la parte de cancelación de eco 110-X-2 se describirá en detalle después de la descripción con respecto a cómo se adquieren las señales de referencia s i , s2 y s<3>.

(Parte de supresión de pitidos 110-X-3)

La parte de supresión de pitidos 110-X-3 recibe la señal enfatizada y"x, suprime un componente de pitido (S110-X-3) y emite una señal después de que el componente de pitido se suprime como una señal enfatizada zx.

Debe tenerse en cuenta que se puede usar cualquier método para suprimir un componente de pitido. Por ejemplo, se puede usar la tecnología de supresión de pitidos de la solicitud de patente japonesa abierta No. 2007-221219. <Parte de conmutación de voz 120>

La parte de conmutación de voz 120 recibe seis señales enfatizadas zx y el valor de control de conmutación de voz c = (c12, c<23>, c<31>). c 12, c<23>y c<31>asumen respectivamente 0 o 1 y, por ejemplo, c12 = 1 significa que la primera fila está en una llamada con la segunda fila, y c 12 = 0 significa que la primera fila no está en una llamada con la segunda fila. La parte de conmutación de voz 120 sintetiza la señal enfatizada zx en base al valor de control de conmutación de voz c (S120), obtiene señales de reproducción z 12, z<13>, z21, z<23>, z<31>y z<32>y envía las señales de reproducción zpq y zpr a la parte de adición 140-p. Las señales de reproducción zpq y zpr son señales que corresponden, respectivamente, a la voz de los pasajeros de las q-ésima y r-ésima filas a un pasajero en la p-ésima fila.

Además, la parte de conmutación de voz 120 sintetiza la señal enfatizada zx obtenida al enfatizar la voz de la persona que habla en la p-ésima fila, obtiene una señal de referencia sp y envía la señal de referencia sp a partes de énfasis de voz distintas de la parte de énfasis de voz de objetivo 110-X correspondiente al asiento en la p-ésima fila. Por ejemplo, la señal de referencia s2 y la señal de referencia s<3>se ingresan en la parte de énfasis de voz de objetivo correspondiente a la primera fila.

La Fig. 7 es un diagrama de bloques funcional de la parte de conmutación de voz 120.

La parte de conmutación de voz 120 incluye tres partes de adición 121-p y tres partes de conmutación de voz 122-p. La parte de conmutación de voz 122-p permite el paso de señales zqr y zrq procedentes de ambas direcciones si un valor de cqr es 1, y no permite el paso de las señales si el valor de cqr es 0.

La parte de adición 121-p agrega la señal enfatizada zx correspondiente al asiento en la p-ésima fila, obtiene señales de reproducción zqp y zrp y emite las señales de reproducción zqp y zrp.

En consecuencia, las señales de reproducción son las siguientes:

[Fórmula 1]

, _ przcc+zDi / % = X

de otro modo

\zs zF i fc31 = 1

z 13 = \0de otro modo

_ f'ZzjB? >zF i f c 23= 1

23 ~ l O Ide otro modo

Además, la parte de conmutación de voz 120 emite la señal enfatizada zx a la parte de control de conmutación de voz 130.

Además, la parte de adición 121-p añade la señal enfatizada zx correspondiente al asiento en la p-ésima fila, obtiene la señal de referencia sp y envía la señal de referencia sp a partes de énfasis de voz de objetivo distintas de la parte de énfasis de voz de objetivo 110-X correspondiente al asiento en la p-ésima fila. En consecuencia, la señal de referencia es la siguiente:

[Fórmula 2]

51 = Z<a>+ Z<b>

52 = Z<c>+ Z<d>

53 =Ze+ Z<f>

Debe tenerse en cuenta que si un valor de cpq es 1, la señal de referencia sp se vuelve igual que la señal de reproducción zqp. En otras palabras, mientras que la señal de reproducción es una señal obtenida sumando la señal enfatizada zx correspondiente al asiento en la p-ésima fila sólo en el caso en donde un pasajero en el asiento en la p ésima fila está en una llamada, la señal de referencia es una señal obtenida sumando la señal enfatizada zx correspondiente al asiento en la p-ésima fila independientemente de si el pasajero está o no en una llamada. Esto se debe a que es necesario introducir la señal de referencia también en las partes de énfasis de voz de objetivo en filas que no son objetivos de salida de modo que se realiza un procesamiento adecuado en el sonido de los altavoces en otras filas. Por ejemplo, también en el caso en donde se configura una ruta entre la segunda fila y la tercera fila (en el caso en donde la segunda fila está en una llamada con la tercera fila), el sonido recogido con un micrófono en la primera fila (fila que no es un objetivo de salida) incluye sonido en la tercera fila emitido desde un altavoz en la segunda fila, y sonido en la segunda fila emitido desde el altavoz en la tercera fila y, por tanto, las partes de cancelación de eco 110-A-2, 110-B-2 de las partes de énfasis de voz de objetivo 110-A y 110-B correspondientes a la primera fila requieren cancelar el sonido recogido desde el micrófono en la primera fila usando estos tipos de sonido como señales de referencia (entrada).

La parte de control de conmutación de voz 130 designa un área de recogida y reproducción de sonido deseada en base a una designación por parte de un pasajero sentado en un asiento determinado (S130), obtiene un valor de control de conmutación de voz c que indica si el pasajero sentado en el asiento determinado está o no en una llamada con el área de recogida y reproducción de sonido deseada y emite el valor de control de conmutación de voz c. El valor de control de conmutación de voz c que conecta una ruta entre el área de recogida y reproducción de sonido deseada y el pasajero sentado en el asiento determinado si el pasajero está en una llamada, y evita la conexión de una ruta si el pasajero no está en una llamada, puede considerarse como un elemento que controla la clasificación de la voz.

En este ejemplo, el área de recogida y reproducción de sonido deseada se designa usando un conmutador dispuesto en un automóvil usando el resultado de reconocimiento de la voz emitida por el pasajero sentado en el asiento determinado. En este caso, la parte de control de conmutación de voz 130 adquiere contenido designado por el pasajero usando seis voces enfatizadas zx que se introducen, designa el área de recogida y reproducción de sonido deseada y obtiene el valor de control de conmutación de voz c.

La Fig. 8 es un diagrama de bloques funcional de la parte de control de conmutación de voz 130.

La parte de control de conmutación de voz 130 incluye seis partes de reconocimiento de voz 131 -X y una parte de determinación de llamada 132.

La parte de reconocimiento de voz 131 -X recibe la voz enfatizada zx, reconoce la voz enfatizada zx y emite un valor de determinación correspondiente fx en un caso en donde la parte de reconocimiento de voz 131 -X reconoce que se ha emitido una voz específica. Por ejemplo, el valor de determinación fx asume uno de 0, 1, 2 o 3. x del valor de determinación fx indica un altavoz (pasajero) y el valor de determinación fx por sí mismo indica un destino de llamada. Por ejemplo, en un caso en donde una palabra que indica el inicio de la conversación con una fila del destino de la llamada correspondiente al área de recogida y reproducción de sonido se incluye en el resultado del reconocimiento de voz correspondiente a una voz, se establece el valor de determinación fx que indica que la persona que habla inicia la conversación con la fila del destino de la llamada. Por ejemplo, la parte de control de conmutación de voz 130 establece fx = 1 en el caso en donde el resultado del reconocimiento de voz de la voz enfatizada zx es "conversación con la primera fila", establece fx = 2 en el caso en donde el resultado es "conversación con la segunda fila", establece fx = 3 en el caso en donde el resultado es "conversación con la tercera fila", y establece fx = 0 en caso de otros resultados de reconocimiento o en caso de silencio.

La parte de determinación de llamada 132 recibe seis valores de determinación fx y obtiene el valor de control de conmutación de voz c = (c12, c<23>, c<31>) en base a los seis valores de determinación fX mientras establece

[Fórmula 3]

y emite el valor de control de conmutación de voz c = (C12, C23, C31).

Por ejemplo, también es posible establecer 0 como valores iniciales de la totalidad de fx y realizar procesamiento de recogida y amplificación de sonido hasta que la conversación finaliza después de que un valor de fx se convierte en un valor distinto de 0 una vez. Por ejemplo, en el caso en donde una palabra que indica el final de la conversación se incluye en el resultado del reconocimiento de voz correspondiente a una voz, se establece el valor de determinación fx que indica que la persona que habla finaliza la conversación con la fila del destino de la llamada. Por ejemplo, en un caso en donde el resultado del reconocimiento de voz de la voz enfatizada zx es "fin de la conversación", fx se establece en 0 y se emite.

Debe tenerse en cuenta que, como método más sencillo, también es posible usar un método en donde el valor de control de conmutación de voz c se determina usando un conmutador físico en cada asiento sin usar reconocimiento de voz. En este ejemplo, un área de recogida y reproducción de sonido designada por un pasajero que ve una parte de visualización que puede mostrar una pluralidad de áreas de recogida y reproducción de sonido se designa como un área de recogida y reproducción de sonido deseada (inicio de una llamada). Además, la designación del área de recogida y reproducción de sonido designada como el área de recogida y reproducción de sonido deja de ser establecida por el pasajero que ve la parte de visualización (fin de una llamada). En este caso, la parte de control de conmutación de voz 130 obtiene el valor de control de conmutación de voz c en base a un valor introducido usando un conmutador, o similar, y emite el valor de control de conmutación de voz c. Por ejemplo, en cada asiento se dispone un conmutador como se ilustra en la Fig. 9 (correspondiente a la parte de visualización descrita anteriormente) y un panel táctil que muestra una figura como se ilustra en la Fig. 10 (correspondiente a la parte de visualización descrita anteriormente). Debe tenerse en cuenta que la Fig. 10 ilustra un estado en donde el inicio y el final de una llamada se controlan para cada fila, el inicio y el final de una llamada se pueden controlar para cada asiento. En la Fig. 8, una parte de entrada 133 indicada con una línea discontinua corresponde a un conmutador y un panel táctil.

Si un pasajero en un determinado asiento presiona (en el caso de un conmutador) o toca (en el caso de un panel táctil) una parte que indica otro asiento, la parte de determinación de llamada 132 puede obtener una señal que indica el asiento del pasajero y el asiento presionado, o similar, como entrada. Esta señal de entrada se usa como el valor de determinación fx que indica que el pasajero inicia una conversación con una fila de un interlocutor. Por ejemplo, fx = 1 se puede obtener como entrada en el caso en donde una parte que indica los asientos A y B en la primera fila se presiona, o similar, fx = 2 se puede obtener como entrada en el caso en donde una parte que indica los asientos C y D en la segunda fila se presiona, o similar, fx = 3 se puede obtener como entrada en el caso en donde una parte que indica los asientos E y F en la tercera fila se presiona, o similar, y fx = 0 se puede obtener como entrada en un caso en donde no se presiona ninguna parte que indica los asientos, o similar, o en un caso en donde se presiona una parte que indica un asiento para el cual se va a realizar procesamiento de recogida y amplificación de sonido, o similar, nuevamente durante el procesamiento de recogida y amplificación de sonido. Debe tenerse en cuenta que x en fx indica un asiento en donde está dispuesto un conmutador, o similar, que se presiona, o similar. Un método para obtener el valor de control de conmutación de voz c = (c12, c23, c31) de seis valores de determinación fx es similar a un caso en donde se utiliza reconocimiento de voz.

La parte de adición 140-p recibe las señales de reproducción zpq y zpr, suma las dos señales de reproducción (S140) y emite la suma como una señal de reproducción kp. La parte de adición 140-p envía señales de reproducción k1 , k2 y k3, respectivamente, a los altavoces 92F, 92S y 92R.

Con una configuración de este tipo, la parte de adición 140-p envía una señal obtenida al enfatizar la voz emitida desde el área de recogida y reproducción de sonido designada a un altavoz correspondiente a un asiento de un pasajero que ha designado el área de recogida y reproducción de sonido, y la parte de adición 140-p' emite una señal obtenida al enfatizar la voz, que se recoge con un micrófono correspondiente al asiento del pasajero que ha designado el área de recogida y reproducción de sonido y que se envía desde el asiento del pasajero que ha designado el área de recogida y reproducción de sonido, a un altavoz correspondiente al área de recogida y reproducción de sonido. Debe tenerse en cuenta que p' es un índice que indica el área de recogida y reproducción de sonido designada, y p t p'.

Además, el control mediante el uso del valor de control de conmutación de voz c permite un control de modo que el sonido recogido con los micrófonos correspondientes a asientos distintos del asiento del pasajero que ha designado el área de recogida y reproducción de sonido no se envíe a un altavoz correspondiente al área de recogida y reproducción de sonido deseada.

(Detalles de la parte de cancelación de eco 110-X-2)

La parte de cancelación de eco 110-X-2 en la p-ésima fila se describirá en detalle.

La Fig. 11 es un diagrama de bloques funcional de la parte de cancelación de eco 110-X-2. La parte de cancelación de eco 110-X-2 incluye partes de filtro adaptativo 110-X-2-1, 110-X-2-2, 110-X-2-3 y 110-X-2-4, partes de adición 110-X-2-5 y 110-X-2-6, partes de resta 110-X-2-7 y 110-X-2-8, y una parte de contención de filtro 110-X-2-9.

En primer lugar, se describirá una señal enfatizada y’x que es una señal de entrada de la parte de cancelación de eco 110-X-2. La señal enfatizada y’x de entrada a la parte de cancelación de eco 110-X-2 en la p-ésima fila se puede expresar de la siguiente manera usando el valor de control de conmutación de voz recibido c. Se supone que las señales respectivas se expresan con números complejos de componentes de frecuencia de las señales.

[Fórmula 4]

Aquí, Wxm es un coeficiente de filtro que se multiplica por la señal de recogida de sonido ypm para enfatizar la voz del x-ésimo asiento. El coeficiente de filtro se puede determinar usando, por ejemplo, un formador de haz de retardo y suma, o similar. Además, hppm, hqpm y hrpm indican, respectivamente, características de transferencia de espacio desde los altavoces en la p-ésima fila, la q-ésima fila y la r-ésima fila a un m-ésimo micrófono en la p-ésima fila. h'qp, h'rp y h'pp son caracteres, respectivamente, sustituidos por sumas de productos de los coeficientes de filtro y las características de transferencia de espacio en la expresión anterior.

[Fórmula 5]

Debe tenerse en cuenta que un término relacionado con sp se excluye de un objetivo de cancelación en la parte de cancelación de eco 110-X-2 con el fin de evitar que la voz que debería recogerse y que se desea recoger se cancele como resultado de hacer funcionar el cancelador de eco, y los términos relacionados con sq y sr se cancelan. Puede observarse en la expresión que un término relacionado con una función de transferencia de estas señales puede cambiar a tres patrones (excepto el caso de 0) según el valor del valor de control de conmutación de voz c. Así, en la parte de contención de filtro 110-X-2-9, por ejemplo, se preparan tres patrones de búferes tales como

[Fórmula 6]

Cuandocpq= 0,cqr= 1, hAq = hAq,í

Cuandocpq= 1,cqr= 0, hAq = hAq,2

Cuandocpq= 1,cqr= 1, hAq = hAq>3

como filtros que realizan una actualización usando la señal de referencia Sq para un coeficiente de filtro de la parte de filtro adaptativo 110-X-2-1 correspondiente a la q-ésima fila, y la carga y almacenamiento del filtro se implementa según el valor del valor de control de conmutación de voz c. Por ejemplo, cuando cpq = 1, cqr = 0 cambia a cpq = 1, cqr = 1, un coeficiente de filtro hAq en el instante original se contiene en la parte de contención de filtro 110-X-9 como hAq,2 y la generación y actualización de una seudo señal de eco se reinician mientras un valor hAq que se usará como el coeficiente de filtro se reemplaza por hAq,3 en la parte de contención de filtro 110-X-9 en lugar de hAq,2. En este instante, se actualiza un filtro adaptativo en la q-ésima fila en base a una función de transferencia (características de transferencia correspondientes a h’pp) entre un altavoz correspondiente a un pasajero en un asiento en la p-ésima fila y M micrófonos que recogen la voz del pasajero en un asiento en la p-ésima fila, una función de transferencia (características de transferencia correspondientes a h’rp) entre un altavoz correspondiente a un pasajero en un asiento en la r-ésima fila y M micrófonos, y una función de transferencia (características de transferencia correspondientes a h’pp h’rp) obtenida sumando ambas funciones de transferencia. El procesamiento en las partes respectivas se describirá a continuación.

La parte de contención de filtro 110-X-9 en la p-ésima fila contiene los filtros hAq,1, hAq,2 y hAq,3 para la parte de filtro adaptativo 110-X-2-1, y los filtros hAp1, hAp2 y hAp3 para la parte de filtro adaptativo 110-X-2-2. La parte de contención de filtro 110-X-9 en la p-ésima fila que recibe el valor de control de conmutación de voz c = (cpq, cqr, crp), genera los filtros hAq y hAr correspondientes al valor de control de conmutación de voz contenido c y recibe y contiene los filtros hAq y hAr que se han usado hasta ese instante. La relación de correspondencia es la siguiente.

[Fórmula 7]

Cuandocpq= 0,cqr= 1, hAq=hAq j

Cuandocpq= 1,cqr= 0, hAq = hAq^

Cuandocpq= 1,cqr= 1, hAq = hAq,3

Cuandocrq= 0, cqr = 1, hAr = hApí

Cuandocrq= 1, cqr = 0, hAr = hAr,2

Cuandocrq= 1, cqr = 1, hAr = hAp3

Debe tenerse en cuenta que se puede establecer según corresponda un instante en donde se recibe el valor de control de conmutación de voz c. Por ejemplo, el valor de control de conmutación de voz c puede recibirse cada vez que cambia el valor de control de conmutación de voz c.

En resumen, la parte de contención de filtro 110-X-9 en la p-ésima fila hace que el filtro adaptativo que se usará para cancelar eco sea diferente en un caso en donde el pasajero sentado en el asiento en la q-ésima fila mantiene una conversación solo con el pasajero sentado en el asiento en la p-ésima fila, un caso en donde el pasajero sentado en el asiento en la q-ésima fila mantiene una conversación solo con el pasajero sentado en el asiento en la r-ésima fila, y un caso en donde el pasajero sentado en el asiento en la q-ésima fila mantiene una conversación tanto con el pasajero sentado en el asiento en la p-ésima fila como con el pasajero sentado en el asiento en la r-ésima fila. Con esto se pretende resolver el siguiente problema. Mientras que, por ejemplo, el campo acústico es el mismo dentro de un automóvil, en realidad el sonido recogido es diferente según los asientos y las filas. Por ejemplo, incluso con un micrófono dispuesto para recoger fácilmente el sonido del pasajero en la primera fila, las características del sonido a recoger son diferentes según la diferencia en la posición de un altavoz que emite sonido (es decir, una ruta acústica). Por lo tanto, si se usa el mismo cancelador de eco, existe un caso en donde el eco se mantiene según "qué altavoz reproduce una señal" incluso para la misma señal y, por lo tanto, es necesario cambiar un filtro según la ruta acústica.

Las partes de filtro adaptativo 110-X-2-1 y 110-X-2-2 reciben, respectivamente, los filtros hAq y hAr y establecen los filtros a usar para filtrar.

Las partes de filtro adaptativo 110-X-2-1 y 110-X-2-2 reciben, respectivamente, las señales de referencia sq y sr, filtran las señales de referencia sq y sr usando los respectivos filtros adaptativos hAq y hAr y generan y emiten un seudo eco Yq,1 y Yr,1.

La parte de adición 110-X-2-5 recibe el seudo eco Yq,1 y Yr,1, establece una suma de estos valores como seudo eco Y1 y genera el seudo eco Y1.

La parte de resta 110-X-2-7 recibe la señal enfatizada y'x y el seudo eco Y 1, resta el seudo eco Y 1 de la señal enfatizada y'x, obtiene la señal enfatizada y'x,1 y emite la señal enfatizada y'x,1.

Las partes de filtro adaptativo 110-X-2-3 y 110-X-2-4 reciben respectivamente señales de reproducción ml y mr, filtran las señales de reproducción ml y mr usando los respectivos filtros adaptativos, generan seudo eco Y<i>,2 y Yr,2 y emiten el seudo eco Y l,2 y Yr,2.

La parte de adición 110-X-2-5 recibe el seudo eco Y i,2 y Yr,2, establece una suma de estos valores como seudo eco Y2, y genera el seudo eco Y2.

La parte de resta 110-X-2-7 recibe la señal enfatizada y'x,1 y el seudo eco Y2, resta el seudo eco Y2 de la señal enfatizada y'x,1, obtiene una señal enfatizada y"x y emite la señal enfatizada y"x.

Además, las partes de filtro adaptativo 110-X-2-1, 110-X-2-2, 110-X-2-3 y 110-X-2-4 reciben la señal enfatizada y''x (correspondiente a una señal de error) obtenida cancelando los componentes de eco y, respectivamente, actualizan los filtros adaptativos usando las señales de referencia sq y sr, las señales de reproducción mi y mr y la señal enfatizada y"x. Debe tenerse en cuenta que los filtros adaptativos que se actualizarán en las partes de filtro adaptativo 110-X-2-1 y 110-X-2-2 no son los filtros adaptativos contenidos en la parte de contención de filtro 110-X-2-9, sino los filtros adaptativos utilizados para obtener la señal enfatizada y"x.

Existen varios métodos como método para actualizar el filtro adaptativo. Por ejemplo, un filtro se puede actualizar usando un algoritmo NLMS, o similar, descrito en la bibliografía de referencia 1.

(Bibliografía de referencia 1) Juro Oga, Yoshio Yamazaki, Yutaka Kaneda, "Acoustic System and Digital Processing", editado por Institute of Electronics, Information and Communication Engineers, Corona Publishing Co., Ltd, 1995, págs.140-141.

Según la configuración descrita anteriormente, es posible cambiar el funcionamiento cuando un pasajero en un asiento arbitrario desea mantener una conversación o detener la conversación independientemente de la posición de un asiento y una fila, y ejecutar adecuadamente un procesamiento tal como cancelación de eco.

Si bien, en la presente realización, se usa una señal de dos canales como una señal de reproducción a reproducir en el altavoz del aparato acústico dentro del vehículo, se puede usar una señal de un canal o tres o más canales según el altavoz del aparato acústico dentro del vehículo.

Si bien, en la presente realización, se usa la parte de recogida de sonido direccional 110-X-1, por ejemplo, si una señal enfatizada obtenida al enfatizar el sonido de objetivo emitido desde un asiento se puede obtener usando un micrófono direccional que tiene direccionalidad con respecto al asiento que es un objetivo de recogida de sonido, se puede enviar un valor de salida del micrófono direccional a la parte de cancelación de eco 110-X-2 sin usar la parte 110-X-1 de recogida de sonido direccional.

Si bien la presente realización se ha descrito usando un automóvil que tiene asientos de tres filas, la presente realización se puede aplicar a un vehículo que tiene asientos de dos filas o que tiene asientos de cuatro o más filas, así como asientos de tres filas. La cuestión es que sólo es necesario aplicar la presente realización en el caso en donde los asientos están dispuestos de manera que las voces son difíciles de escuchar a un volumen normal de conversación en un campo acústico común dentro de un vehículo debido al sonido de conducción, el sonido reproducido del equipo de audio del automóvil, otros sonidos fuera del vehículo y similares.

Además, aunque en la presente realización se ha descrito el control entre filas de asientos dentro de un automóvil, se puede realizar un control similar entre asientos dentro de un automóvil. En este caso, un área de recogida y reproducción de sonido deseada se refiere no a una fila deseada, sino a un asiento deseado.

Además, aunque en la presente realización, un asiento en una determinada fila dentro de un automóvil se establece como el área de recogida y reproducción de sonido deseada, se puede establecer un área fuera de un automóvil como el área de recogida y reproducción de sonido deseada. Por ejemplo, en el caso en donde un pasajero realiza una llamada de manos libres con un teléfono fuera de un automóvil, se puede establecer un área definida por un altavoz y un micrófono de un destino de llamada como el área de recogida y reproducción de sonido deseada. Además, en el caso en donde un interlocutor mantiene una conversación mientras coloca su oído contra un receptor, el interlocutor también se denominará objetivo de recogida y amplificación de sonido.

Si bien, en la presente realización, seis partes de reconocimiento de voz 131 -X dentro de la parte de control de conmutación de voz 130 realizan el procesamiento de reconocimiento de voz, también es posible emplear una configuración en donde la voz enfatizada zx se transmite a una parte de reconocimiento de voz dispuesta fuera del sistema de ayuda a la conversación, esta parte de reconocimiento de voz externa realiza el procesamiento de reconocimiento de voz, y el sistema de ayuda a la conversación recibe un resultado de reconocimiento. En este caso, las seis partes de reconocimiento de voz 131 -X obtienen el valor de determinación fx usando el resultado de reconocimiento de voz y generan el valor de determinación fx.

Mientras que, en la presente realización, la parte de conmutación de voz 122-p dentro de la parte de conmutación de voz 120 realiza un control para permitir que las señales zqr y zrq procedentes de ambas direcciones pasen si el valor de cqr es 1, y no permitir que las señales zqr y zrq pasen si el valor de cqr es 0, también es posible permitir que las señales zqr y zrq pasen siempre sin usar la parte de conmutación de voz 122-p, usar las señales zqr y zrq como señales de referencia en la parte de énfasis de voz de objetivo 110-X, y controlar si se agregan o no las señales en la parte de adición 140-P en base al valor de control de conmutación de voz c inmediatamente antes de la parte de adición 140-p.

La presente invención no se limita a la realización y a los ejemplos modificados descritos anteriormente. Por ejemplo, los diversos tipos de procesamiento descritos anteriormente pueden ejecutarse en paralelo o individualmente según el rendimiento de procesamiento de los aparatos que ejecutan el procesamiento o según sea necesario, además de ejecutarse en orden cronológico según la descripción. Además, la presente invención se puede modificar según corresponda dentro del alcance de las reivindicaciones.

Además, se pueden implementar con un ordenador diversos tipos de funciones de procesamiento en los respectivos aparatos descritos en la realización y en los ejemplos modificados descritos anteriormente. En este caso, los detalles de procesamiento de las funciones a realizar por los respectivos aparatos se describen con un programa. Los diversos tipos de funciones de procesamiento descritos anteriormente en los respectivos aparatos se implementan en el ordenador mediante la ejecución de este programa en el ordenador.

El programa que describe los detalles del procesamiento puede registrarse en un medio de registro legible por ordenador. Ejemplos de medio de registro legible por ordenador pueden incluir, por ejemplo, un aparato de registro magnético, un disco óptico, un medio de registro magnetoóptico y una memoria de semiconductor.

Además, este programa se distribuye, por ejemplo, mediante un medio de registro portátil, tal como un DVD y un CD-ROM, en donde se registra el programa vendido, regalado, prestado o similar. Aún más, también es posible distribuir este programa almacenándolo en un aparato de almacenamiento de un ordenador servidor y transfiriendo el programa desde el ordenador servidor a otros ordenadores a través de una red.

Un ordenador que ejecuta un programa de este tipo, por ejemplo, almacena en primer lugar un programa registrado en el medio de registro portátil o un programa transferido desde el ordenador servidor una vez en una parte de almacenamiento del propio ordenador. Luego, tras la ejecución del procesamiento, este ordenador lee el programa almacenado en la parte de almacenamiento del propio ordenador y ejecuta el procesamiento según el programa leído. Además, como otra forma de ejecución de este programa, el ordenador puede leer directamente un programa del medio de registro portátil y ejecutar el procesamiento según el programa. Aún más, el ordenador puede ejecutar secuencialmente el procesamiento según el programa recibido cada vez que el programa se transfiere desde el ordenador servidor a este ordenador. Además, también es posible emplear una configuración en la que el procesamiento descrito anteriormente se ejecuta mediante un denominado servicio de proveedor de servicios de aplicaciones (ASP), que implementa funciones de procesamiento únicamente mediante una instrucción de ejecución y adquisición de un resultado sin que el programa se transfiera desde el ordenador servidor a este ordenador. Debe tenerse en cuenta que se supone que el programa incluye información que será usada para su procesamiento por un ordenador electrónico, y que es equivalente a un programa (no una orden directa al ordenador, sino datos o similares, con propiedades que especifican el procesamiento del ordenador).

Además, aunque los respectivos aparatos están constituidos por un programa predeterminado que se ejecuta en el ordenador, al menos parte del procesamiento puede implementarse con hardware.

Claims

REIVINDICACIONES

1. Sistema de ayuda a la conversación adecuado para su montaje en un automóvil para facilitar la conversación de los pasajeros en un automóvil, estando dispuestos asientos de al menos dos o más filas en el automóvil, en donde a cada uno de los asientos corresponde un altavoz y un micrófono, comprendiendo el sistema de ayuda a la conversación:

una parte de control de conmutación de voz (130) configurada, cuando el sistema de ayuda a la conversación está montado en el automóvil, para designar un área de recogida y reproducción de sonido deseada en base a una designación por parte de un primer pasajero sentado en un primer asiento; y

una primera parte de énfasis de voz de objetivo configurada para enviar una señal obtenida al enfatizar la voz que se recoge con un micrófono correspondiente al área de recogida y reproducción de sonido designada al altavoz correspondiente al primer asiento; y

una segunda parte de énfasis de voz de objetivo configurada para enviar una señal obtenida al enfatizar la voz, que se recoge con el micrófono correspondiente al primer asiento y que se emite desde el primer asiento, a un altavoz correspondiente al área de recogida y reproducción de sonido

caracterizado por que

en la parte de control de conmutación de voz (130), el área de recogida y reproducción de sonido se designa con un conmutador dispuesto en el automóvil usando un resultado de reconocimiento de voz emitida por el primer pasajero,

el sistema de ayuda a la conversación comprende además una parte de cancelación de eco,

la parte de cancelación de eco está configurada para actualizar un filtro diferente para cancelar el eco en cada uno de los siguientes casos: un caso en donde un segundo pasajero sentado en un segundo asiento mantiene una conversación solo con el primer pasajero sentado en el primer asiento, un caso en donde el segundo pasajero mantiene una conversación solo con un tercer pasajero sentado en un tercer asiento distinto del primer pasajero, y un caso en donde el segundo pasajero mantiene una conversación tanto con el primer pasajero como con el tercer pasajero, y

el filtro se actualiza, respectivamente, en base a una función de transferencia entre el altavoz correspondiente al primer asiento y el micrófono correspondiente al segundo asiento, una función de transferencia entre el altavoz correspondiente al tercer asiento y el micrófono correspondiente al segundo asiento, y una función de transferencia obtenida sumando ambas funciones de transferencia.

2. Sistema de ayuda a la conversación según la reivindicación 1,

en donde la segunda parte de énfasis de voz de objetivo no envía el sonido recogido por un micrófono correspondiente a un asiento distinto del primer asiento al altavoz correspondiente al área de recogida y reproducción de sonido deseada.

3. Sistema de ayuda a la conversación según una cualquiera de las reivindicaciones 1 a 2, en donde

el sistema de ayuda a la conversación está configurado para obtener un valor de control de conmutación de voz que indica si el primer pasajero sentado en el primer asiento está o no en una llamada con el área de recogida y reproducción de sonido deseada, para conectar una ruta entre el área de recogida y reproducción de sonido deseada y el primer pasajero sentado en el primer asiento si el primer pasajero está en una llamada, y para evitar la conexión de una ruta si el primer pasajero no está en una llamada en base al valor de control de conmutación de voz, y

un filtro se conmuta según la ruta.

4. Método de ayuda a la conversación que usa un sistema de ayuda a la conversación montado en un automóvil para facilitar la conversación de los pasajeros en el automóvil, estando dispuestos asientos de al menos dos o más filas en el automóvil, en donde a cada uno de los asientos corresponde un altavoz y un micrófono, comprendiendo el método de ayuda a la conversación:

una etapa de control de conmutación de voz en donde el sistema de ayuda a la conversación designa un área de recogida y reproducción de sonido deseada en base a una designación por parte de un primer pasajero sentado en un primer asiento;

una primera etapa de énfasis de voz de objetivo en donde el sistema de ayuda a la conversación envía una señal obtenida al enfatizar la voz que se recoge con un micrófono correspondiente al área de recogida y reproducción de sonido designada al altavoz correspondiente al primer asiento; y

una segunda etapa de énfasis de voz de objetivo en donde el sistema de ayuda a la conversación envía una señal obtenida al enfatizar la voz, que se recoge con el micrófono correspondiente al primer asiento y que se emite desde el primer asiento, a un altavoz correspondiente al área de recogida y reproducción de sonido

caracterizado por que

en la etapa de control de conmutación de voz, el área de recogida y reproducción de sonido se designa con un conmutador dispuesto en el automóvil usando un resultado de reconocimiento de voz emitida por el primer pasajero,

el método de ayuda a la conversación comprende además una etapa de cancelación de eco en donde el sistema de ayuda a la conversación actualiza un filtro diferente para cancelar el eco en cada uno de los siguientes casos: un caso en donde un segundo pasajero sentado en un segundo asiento mantiene una conversación solo con el primer pasajero, un caso en donde el segundo pasajero mantiene una conversación solo con un tercer pasajero sentado en un tercer asiento distinto del primer pasajero, y un caso en donde el segundo pasajero mantiene una conversación tanto con el primer pasajero como con el tercer pasajero, y

5. Programa para hacer que un ordenador funcione como el sistema de ayuda a la conversación según una cualquiera de las reivindicaciones 1 a 3.