BRPI0714736A2

BRPI0714736A2 - mÉtodo para misturar vozes para mixar uma pluralidade de informaÇÕes de voz, servidor de conferÊncia multiponto que mistura uma pluridade de informaÇÕpes de voz e programa para executar mistura de vozes

Info

Publication number: BRPI0714736A2
Application number: BRPI0714736-8A
Authority: BR
Inventors: Hironori Ito; Kazunori Ozawa
Original assignee: Nec Corp
Priority date: 2006-08-30
Filing date: 2007-08-28
Publication date: 2013-05-07
Also published as: JP4582238B2; US8255206B2; EP2068544A1; JPWO2008026754A1; RU2009111270A; US20090248402A1; KR101036965B1; EP2068544A4; CA2660007A1; KR20090035728A; MX2009002093A; CN101513030A; WO2008026754A1

Abstract

MÉTODO PARA MISTURAR VOZES PARA MIXAR UMA PLURALIDADE DE INFORMAÇÕES DE VOZ, SERVIDOR DE CONFERêNCIA MULTIPONTO QUE MISTURA UMA PLURALIDADE DE INFORMAÇÕES DE VOZ E PROGRAMA PARA EXECUTAR MISTURA DE VOZES. O método para misturar vozes inclui uma primeira etapa para selecionar informações de voz a partir de uma pluralidade de informações de voz, uma segunda etapa para somar todas as informações de voz selecionadas, uma terceira etapa para obter um sinal de voz totalizando os sinais de voz diferentes daquele sinal de voz, dos sinais de voz selecionados, uma quarta etapa para codificar as informações de voz que foram obtidas na segunda etapa, uma quinta etapa para codificar o sinal de voz que foi obtido na terceira etapa, e uma sexta etapa para copiar as informações codificadas que foram obtidas na quarta etapa nas informações codificadas para a quinta etapa.

Description

"MÉTODO PARA MISTURAR VOZES PARA MIXAR UMA PLURALIDADE DE INFORMAÇÕES DE VOZ, SERVIDOR DE CONFERÊNCIA MULTIPONTO QUE MISTURA UMA PLURALIDADE DE INFORMAÇÕES DE VOZ E PROGRAMA PARA EXECUTAR MISTURA DE VOZES".

Campo da Invenção

A invenção se relaciona a um método para misturar vozes, e a um servidor e programa de conferência multiponto, usando este método. Mais especificamente, a invenção se relaciona um método para misturar vozes de todos participantes., subtraindo a voz de um participante das vozes misturadas, e transmitindo a voz subtraída para este participante, e ademais se relaciona a um servidor e programa de conferência multiponto, usando este método. Histórico da Invenção Em um serviço de conferência multiponto, os dados de voz dos participantes, codificados por um codificador de voz, são transmitidos para um servidor de conferência multiponto. O servidor de conferência multiponto transmite a cada participante os dados de voz com as vozes dos outros participantes, além do próprio participante misturado.

Quando dados de voz são misturados, em primeiro lugar, os sinais de voz de todos participantes são calculados somando todos os sinais de voz decodificados que foram obtidos decodificando os dados de voz de cada participante. A seguir, sinais de voz podem ser obtidos subtraindo a voz de um participante dos sinais de voz de todos participantes, e os sinais de voz são codificados, e os dados de voz gerados são transmitidos aos respectivos participantes.

Como exemplo de protocolo de comunicação entre um terminal de um serviço de conferência multiponto e o servidor, utilizam-se ITU-T H.323 e H.324 em rede fixa, e 3G-324M em rede móvel, e utiliza-se o IETF RFC3550 RTP (Real-time Transport Protocol (protocolo de Transporte em tempo real)) em uma rede de pacotes IP (Internet Protocol (Protocolo Internet)). Como codificador de voz são utilizados: método ARM (Adaptive Multi-Rate (Multitaxa Adaptativa)) em G.711, G.729, e 3GPP TS26.090, método AMR-WB (Wide Band (Banda Larga)) definido em TS26.190, e método EVRC (Enhanced Variable Rate Codec (Codec de Taxa Variável Melhorado)) definido por 3GPP2, que são Padrões ITU-T.

O método G.711 consiste em comprimir cada amostra de 16 bits nos sinais de voz em 8 kHz de 8 bits, usando transformação logaritmica, e, neste método, a quantidade de cálculo é pequena, mas apresenta uma baixa razão de compressibilidade.

De outro lado, os métodos G.729, AMR, EVRC, se baseiam em um método de codificação diferencial de acordo com principio CELP (Code Excited Linear Prediction (Previsão Linear de Código Excitado)), e podem codificar o sinal de voz mais eficientemente.

No CELP, um codificador extrai um parâmetro de espectro mostrando uma característica de espectro do sinal de voz a partir do sinal de voz de cada quadro (tal como, 20 ms) com a análise de previsão linear (LPC - Linear Preditive Coding (Codificação Linear Preditiva)).

Ademais, o sinal de voz dividido em quadros ademais é dividido em sub-quadros (tal como, 5 ms), e parâmetros (parâmetro de atraso e parâmetro de ganho, que correspondem a um ciclo) em um registro de código adaptativo são extraídos com base no sinal de fonte de som anterior para cada sub-quadro, e o ciclo do sinal de voz do correspondente sub-quadro é previsto de acordo com o registro de código adaptativo. 0 vetor de código de fonte de som mais adequado é selecionado de um registro de código de fonte de som (registro de código de quantificação de vetor) que consiste de pré-determinados tipos de sinais de ruído, calculando o ganho mais adequado do sinal residual obtido a partir de previsões de ciclo, daí valorando os sinais de fonte de som.

0 vetor de código de fonte de som é selecionado para minimizar os erros de potência entre um sinal sintetizado pelo sinal de ruído selecionado e o sinal residual mencionado acima. Uma combinação de índice, ganho, parâmetro de espectro, no registro de código adaptativo indicando o vetor de código selecionado é transmitida como dado de voz.

Um decodificador calcula um sinal de fonte de som e um coeficiente de filtro sintético na análise de previsão linear a partir da comparação obtida a partir dos dados de voz, e o sinal de fonte de som é conduzido por um filtro sintético, daí obtendo um sinal de voz complexo.

0 método de mistura de voz é descrito (com referência ao Documento de Patente 1), no qual um processamento de seleção e comparação não é feito para cada amostra, e uma pluralidade de amostras, seguindo a amostra dos dados de voz selecionados, é selecionada com base no resultado do processamento de comparação e seleção por tamanho nas amostras.

A seguir, é descrito um método para misturar vozes (com referência ao Documento de Patente 2), no qual um sinal total é gerado em uma unidade misturadora. Sendo que as informações de voz de um participante são subtraídas do sinal total, e as informações de voz, diferentes daquele participante, retornam para o mesmo. Uma unidade de controle de comunicação é descrita (com referência ao Documento de Patente 3), na qual uma unidade sintetizadora de voz soma cada dado de voz convertido em dado linear por cada unidade decodificadora/ codificadora heterogênea, depois do que os dados de voz são gerados, subtraindo voz de um participante dos dados de voz somados e transmitidos à correspondente unidade codificadora/decodificadora heterogênea.

Publicação de Patente 1 Japonesa em Aberto, N°"2005- 151044 (parágrafo 0014, 0016 e 0045).

Publicação de Patente 2 Japonesa em Aberto _N° 2005- 229259 (parágrafo 0003, Figura 1). Publicação de Patente 3 Japonesa em Aberto N0 6-350724 (parágrafo 0020, Figura 2).

Em um sistema de conferência multiponto na técnica, a voz de um participante, misturada com as vozes de todos outros participantes, é codificada e transmitida a cada participante. Neste instante, em virtude de a quantidade de cálculo para codificação de voz aumentar, à medida que aumenta o número de participantes, o sistema usa um método para detectar os falantes ativos, e restringe o número de codificadores de voz em operação.

Quando se utiliza um codificador de codificação diferencial, tal como o método CELP, sempre que ocorre uma inconsistência em uma memória mostrando a condição do codificador, quando se chaveia o codificador com uma mudança de falante, surge o problema de ocorrer um som anormal em uma voz decodificada.

O meio para resolver o problema não está descrito nos Documentos de Patente 1 a 3. Sumário da Invenção Um objetivo exemplar da presente invenção é prover um método para misturar vozes que evite a ocorrência de um som anormal na voz decodificada, quando se chaveia o codificador com uma mudança de falante, e também a um programa e servidor de conferência multiponto que use tal método.

De acordo com um primeiro aspecto exemplar, provê-se um método para misturar vozes, para misturar uma pluralidade de informações de voz, que inclui uma primeira etapa para selecionar informações de voz a partir de uma pluralidade de informações de voz, uma segunda etapa para somar todas as informações de voz selecionadas, uma terceira etapa para obter as informações de voz que totalizam as informações de voz diferentes de uma informação de voz das informações de voz selecionadas, uma quarta etapa para codificar as informações de voz que foram obtidas na segunda etapa, uma quinta etapa para codificar as informações de voz que foram obtidas na terceira etapa, e uma sexta etapa para copiar as informações codificadas na quarta etapa nas informações codificadas na quinta etapa. De acordo com um segundo aspecto exemplar da invenção, provê-se um programa para misturar vozes a partir de uma pluralidade de informações de voz, que instrui um computador a cumprir uma primeira etapa para selecionar informações de voz a partir de uma pluralidade de informações de voz, uma segunda etapa para somar todas informações de voz selecionadas, uma terceira etapa para subtrair as informações de voz uma a uma das informações de voz, uma quarta etapa para codificar as informações de voz que foram obtidas na segunda etapa, uma quinta etapa para codificar as informações de voz que foram obtidas na terceira etapa, e, por fim, uma sexta etapa para copiar as informações de voz que foram obtidas na quarta etapa nas informações codificadas que foram obtidas na quinta etapa.

De acordo com um segundo aspecto exemplar da invenção, provê-se um servidor de conferência multiponto para misturar uma pluralidade de informações de voz, qual servidor inclui um seletor que seleciona as informações de voz a partir de uma pluralidade de informações de voz, e um somador de todos sinais, que soma todas as informações de voz selecionadas pelo seletor, um somador que obtém um sinal de voz somando os sinais de voz diferentes de um sinal de voz dos sinais de voz selecionados, um primeiro codificador que codifica as informações de voz somadas pelo somador de todos sinais de voz, um segundo codificador que codifica as informações de voz subtraídas pelo somador, e uma chave que faz copiar as informações codificadas obtidas pelo primeiro codificador no segundo codificador. De acordo com um terceiro aspecto exemplar da invenção, provê-se um programa para instruir a mistura de uma pluralidade de informações de voz, qual programa instrui um computador a cumprir uma primeira etapa para selecionar informações de voz a partir de uma pluralidade de informações de voz, uma segunda etapa para somar todas informações de voz selecionadas, uma terceira etapa para subtrair as informações de voz selecionadas das informações de voz somadas uma a uma, uma quarta etapa para codificar as informações de voz que foram obtidas na segunda etapa, uma quinta etapa para codificar as informações de voz que foram obtidas na terceira etapa, e uma sexta etapa para copiar as informações de voz que foram obtidas na quarta etapa nas informações de voz que foram obtidas na primeira etapa.

Outros objetos componentes e vantagens da invenção serão aparentes a partir da descrição detalhada que se segue. Descrição Resumida dos Desenhos A figura 1 mostra uma vista estrutural de um servidor de conferência multiponto, de acordo com uma primeira configuração exemplar da presente invenção;

A figura 2 mostra um fluxograma que mostra um procedimento operacional do servidor de conferência multiponto, de acordo com a primeira configuração exemplar da presente invenção; e

A figura 3 mostra uma vista estrutural de um servidor de conferência multiponto, de acordo com a segunda configuração exemplar da presente invenção. 2 5 Configuração Exemplar

A seguir, serão descritas configurações exemplares da presente invenção com referência aos desenhos anexos. (PRIMEIRA CONFIGURAÇÃO EXEMPLAR)

A figura 1 mostra uma vista estrutural de um servidor de conferência multiponto de acordo com a primeira configuração exemplar da invenção. O servidor de conferência multiponto de acordo com a primeira configuração exemplar da invenção compreende terminais de entrada de voz (ou sinal de voz de entrada) 100, 110,..., 190, calculadores de potência 101, 111,..., 191, seletor de falante 200, chaves para entrada de sinal de voz 102, 112,..., 192, somadores de todos sinais 300, somadores 103, 113,..., 193, codificadores de voz 104, 114,..., 194, chaves de memória 105, 115,..., 195, e um codificador de voz comum 400, chaves de dados de voz

106, 116, ..., 196, e falantes para terminais de saida de voz (ou falantes para saida de voz) 107, 117,..., 197.

Os terminais de entrada de voz 100, 110,..., 190 correspondem aos falantes 1, 2,..., e M, enquanto os calculadores de potência 101, 111,..., 191, as chaves de entrada de sinal de voz 102, 112,..., 192, os somadores 103, 113,..., 194, os codificadores de voz

104, 114,..., 195, as chaves de dados de voz 106, 116,..., 196, e os falantes de terminais de saida de voz

107, 117,..., 197 correspondem aos respectivos falantes, de modo similar.

A seguir, será descrita uma operação da primeira configuração exemplar com referência às figuras 1 e 2. A figura 2 mostra um fluxograma do procedimento operacional do servidor de conferência multiponto de acordo com a primeira configuração exemplar da presente invenção. A seguir, embora apenas os blocos de processamento correspondentes aos falantes 1, 2, e 3, venham a ser descritos, o mesmo processamento deve ser seguido com respeito a falantes não ilustrados. O calculador de potência 101, o calculador de potência 111, e o calculador de potência 191 calculam as potências que respectivamente correspondem ao sinal de voz de entrada 100, ao sinal de voz de entrada 110, e ao sinal de voz de entrada 190 dos falantes 1, 2, e M, respectivamente, e fornece as respectivas potências (Etapa SI, Figura 2).

O seletor de falante 200 seleciona um falante ativo, através das potências calculadas dos falantes, e emite o resultado selecionado (Etapa S2, Figura 2). A chave de entrada de sinal de voz 102, a chave de entrada de sinal de voz 112, e a chave de entrada de sinal de voz 192 são operadas para emitir sinais de voz de entrada dos respectivos falantes, com base no resultado selecionado do seletor 200 (Etapa S3-Figura 2). O somador de todos sinais 300 provê o sinal de voz obtido, totalizando todas as vozes que correspondem ao falante selecionado no seletor 200 (Etapa S4-Figura 2) .

O somador 103, o somador 113, e o somador 193 provêem os sinais de voz obtidos, subtraindo o sinal de voz do falante selecionado a partir do sinal de voz suprido pelo somador de todos sinais 300 (Etapa S5-Figura 2). Especificamente, os somadores suprem as informações de voz obtidas, subtraindo as informações de voz dos falantes que respectivamente correspondem ao codificador de voz 104, ao codificador de voz 114, ao codificador de voz 194 dos falantes selecionados a partir do sinal de voz suprido pelo somador de todos sinais 300. O codificador de voz comum 400 codifica o sinal de voz suprido pelo somador de todos sinais 300 (Etapa S6- Figura 2) .

0 codificador de voz comum 400 codifica o sinal de voz suprido pelo somador de todos sinais (Etapa S6-Figura 2). O codificador de voz 104, o codificador de voz 114, e o codificador de voz 194 codificam os sinais de voz supridos pelo somador 103, pelo somador 113, e pelo somador 193 (Etapa S7-Figura 2).

A chave de memória 105, a chave de memória 115, e a chave de memória 195 copiam o conteúdo da memória em codificação diferencial no codificador de voz comum 400 através do codificador de voz 104, através do codificador de voz 114, e através do codificador de voz 194 respectivamente, com base no resultado selecionado do seletor de falante 200 (Etapa S8-Figura 2).

Especificamente, as chaves de memória copiam respectivamente as informações codificadas que resultam da codificação diferencial armazenada na memória do codificador de voz comum 400, nas memórias do codificador de voz 104, do codificador de voz 114, e do codificador de voz 194, portanto, as memórias do codificador de voz 1104, do codificador de voz 114, e do codificador de voz 194, assumem as mesmas condições da memória que do codificador de voz comum 400.

Com base nos resultados selecionados do seletor de falante 200, a chave de dados de voz 106, a chave de dados de voz 116, e a chave de dados de voz 196, chaveiam os dados de voz de saida (Etapa S9-Figura 2). Especificamente, exemplarmente, quando se seleciona o falante 1, em detrimento dos falantes 2 e M, a chave de sinal de entrada de voz 102 do falante 1 é ligada, e as chaves 112 e 192 dos falantes 2 e M são desligadas, a chave de memória 105 do falante 1 é ligada, e as chaves de memória 115 e 195 dos falantes 2 e M são desligadas, a chave de dados de voz 106 do falante 1 é conectada para o lado do falante 1, e as chaves de dados de voz 116 e 196 dos falantes 2 e M são conectadas para o lado do codificador de voz comum 400.

0 somador de todos sinais 300 totaliza os sinais de voz do falante 1 através de chave de entrada de sinal de voz 102, e o sinal totalizado é suprido ao codificador de voz 2 0 comum 4 00.

O somador de todos sinais 300 totaliza os sinais de voz do falante 1 através de chave de entrada de sinal de voz 102, e o sinal totalizado é suprido ao codificador de voz comum 4 00.

O somador 103 subtrai o sinal de voz do falante 1 a partir do sinal de voz do falante 1, que é totalizado pelo somador de todos sinais 300, e o sinal resultante é suprido ao codificador de voz 104. O sinal de saida do codificador de voz 104 é transmitido ao falante 1 através da chave de dados de voz 106.

O sinal de voz, suprido ao codificador de voz comum 400, é transmitido aos falantes 2 e M não selecionados, através das chaves de dados de voz 116 e 196. A primeira configuração exemplar da invenção se caracteriza pelo fato de as informações armazenadas no codificador de voz comum 4000 serem copiadas no codificador de voz 104 através da chave de memória 105, no instante em que o falante 1 passa de um estado não selecionado para um estado selecionado, ou instante em que as informações armazenadas no codificador de voz comum 400 são copiadas no codificador de voz 114, através da chave de memória 115, no instante em que o falante 2 muda para selecionado.

De acordo com isto, quando se chaveia o codificador de voz com uma mudança de falante, é possível impedir que ocorra um som anormal na voz decodificada, que seria causada por uma inconsistência na memória que mostra a condição do codificador de voz.

Na primeira configuração exemplar, conquanto cada um dos somadores 103, 113, e 193 seja designado a suprir o sinal de voz obtido, subtraindo o sinal de voz do falante selecionado a partir do sinal de voz suprido pelo somador de todos sinais 300, o mesmo resultado pode ser obtido na estrutura de somar e emitir sinais de voz diferentes daqueles do falante selecionado nos sinais de voz selecionados. 2 0 (EXEMPLO OPERATIVO)

A seguir, será descrito um exemplo específico da configuração exemplar com referência à Figura 1. Em primeiro lugar, o calculador de potência 101, o calculador de potência 112, e o calculador de potência 192, calculam as potências dos sinais de voz do sinal de voz de entrada 100, do sinal de voz de entrada 110, e do sinal de voz de entrada 190, e suprem e emitem as potências calculadas ao seletor de falante 200. Por exemplo, a potência P para o sinal de voz de entrada s (n) de 8 kHz é calculada usando a Fórmula (1) a cada milisegundos (amostra 160).

n=0

Fórmula (1) onde, como exemplo, L= 160.

O seletor de falante 200 seleciona um falante ativo usando as potências de entrada dos falantes, e informa, quer selecione ou não, a chave de entrada de sinal de voz

102, a chave de entrada de sinal de voz 112, a chave de entrada de sinal de voz 192, a chave de memória 105, a chave de memória 115, e a chave de memória 195, a chave

de dados de voz 106, chave de dados de voz 116, e a chave de dados de voz 196.

Para selecionar o falante ativo, há um método para selecionar falantes graduados N (Ν < M, onde NeM são números inteiros positivos), pré-determinados em ordem decrescente de potência, e um método para selecionar um falante com uma potência maior que um certo valor. Ademais, pode ser considerado o uso do valor atenuado através da integração de escape, e não por uso direto da potência de entrada. Quando a entrada é definida como x(n) e a saída como y(n), a integração de escape é representada como: y(n) = k X y (n-1) + χ (η). Aqui, 0<k<lekum número constante.

A chave de entrada de sinal de voz 102, a chave de entrada de sinal de voz 112, e a chave de entrada de sinal de voz 192, respectivamente suprem o sinal de voz de entrada 100, o sinal de voz de entrada 110, e o sinal de voz de entrada 190, que correspondem aos falantes selecionados pelo seletor de falante 200 para o somador 103, para o somador 113, para somador 193, e para o somador de todos sinais 300.

O somador de todos sinais 300 supre o sinal de voz obtido somando todos sinais de voz de entrada para o somador

103, para o somador 113, para o somador 193, e para o codificador de voz comum 400.

O somador 103, o somador 113, e o somador 193 suprem o sinal de voz obtido, subtraindo os respectivos sinais de voz supridos pela chave de entrada de sinal de voz 102, pela chave de entrada de sinal de voz 112, e pela chave de entrada pelo somador de todos sinais de voz para o codificador de voz 104, codificador de voz 114, e codificador de voz 194, respectivamente, assim como para os falantes selecionados pelo seletor de falante 200. Na voz depois de mesma ter sido misturada, um ganho ajustável Gi indicado pela Fórmula (2) pode ser multiplicado pelo sinal de voz de entrada dos falantes i para reduzir a diferença de volume entre os falantes.

ΣΡ*'Ν

G1 =

r,

Fórmula (2)

Uma marca de referência Pi é a potência para o falante i

calculada pela fórmula (1), e N o número de sinais

misturados. Gi é calculado em um proporção inversa

à potência dos falantes, e atualizada, por exemplo,

a cada 20 milisegundos, que é um ciclo de cálculo da

potência Pi, a mesma muda muito e, portanto, pode ser

atenuada, como mostrado na fórmula (3).

G_/ = (l-a)xG_i + axG'_i Fórmula (3)

Onde, G'i mostra o ganho ajustável, que já tinha sido calculado antes. Para a, por exemplo, utiliza-se 0,9. Para evitar um ajuste excessivo do volume de som, por exemplo, a faixa de Gi pode ser limitada a 0,5 a 2. Para ajustar o volume de som do sinal de voz misturado, o ganho ajustável Ga mostrado na Fórmula (4) pode ser multiplicado pelo sinal de voz misturado. G_a = P_out/P_a Formula (4)

Onde, Pa é a potência do sinal de voz misturado calculada pela Fórmula 1, e Pout a potência do valor pretendido no instante do ajuste. Podem ser usados um valor maior do falante no sinal de voz misturado dos falantes e um valor pré-determinado de um pré-determinado nivel. A atenuação pode ser feita e a faixa pode ser limitada similarmente para o acima mencionado Gi. 0 codificador de voz comum 400 codifica o sinal de voz suprido a partir do somador de todos sinais 300 e supre os dados de voz codificados para a chave de dados de voz 106, para a chave de dados de voz 116, e para chave de dados de voz 196. O codificador de voz 104, o codificador de voz 114, e o codificador de voz 184 codificam os sinais de voz, e suprem os dados de voz codificados à chave de dados de voz 106, à chave de dados de voz 116, e à chave de dados de voz 196, quando os sinais de voz são supridos a partir do somador 103, a partir do somador 113, e a partir do somador 193.

Δ chave de memória 105, a chave de memória 115, e a chave de memória 195 suprem o conteúdo da memória na codificação diferencial do codificador de voz comum 400 respectivamente para o codificador de voz 104, para o codificador de voz 114, para o codificador de voz 194, quando o seletor de falante 200 passa para o estado de seleção de falante a partir do estado não selecionado. Devido ao processamento da chave de memória, não há nenhuma inconsistência na memória durante a codificação diferencial no instante do chaveamento da emissão dos dados de voz a partir do codificador de voz comum 400 para o codificador de voz 104, por exemplo, com respeito ao falante 1.

De outro lado, no instante do chaveamento da saida dos dados de voz de saida a partir do codificador de voz 104 para o codificador de voz comum 400, em virtude de a memória do codificador de voz comum 400 não poder ser reescrita, ocorre uma inconsistência nas memórias.

No entanto, como isto ocorre no instante em que o volume de som do falante 1 é baixo e a voz de saida do codificador de voz 104 é substancialmente igual à voz de saida para o codificador de voz comum 400, a deterioração na qualidade de som causada pela inconsistência em ambas memórias é pequena. Neste caso, para que a inconsistência nas memórias seja pequena, depois do mesmo sinal, quando a entrada do sinal de voz no codificador de voz comum 400 é suprida para o codificador de voz 104 por um breve período, a chave de dados de voz 1 pode ser chaveada para os dados de voz supridos a partir do codificador de voz comum 400. A inconsistência se torna pequena nas memórias, se usado o mesmo sinal de voz de entrada por um tempo mais longo, no entanto, ocorre um atraso necessário para chaveamento.

A chave de dados de voz 106, a chave de dados de voz 116 e a chave de dados de voz 196 suprem os dados de voz supridos a partir do codificador de voz 104, a partir do codificador de voz 114, e a partir do codificador de voz 194, quando for selecionado como falante o falante ativo no seletor de falante 200, e suprem os dados de voz a partir do codificador de voz comum 400, quando não for selecionado como falante o falante ativo no seletor de falante 200.

Nesta configuração exemplar, embora assumindo que todos codificadores de voz são iguais, vários tipos de codificadores de voz ou vários tipos de taxas de bit podem ser usados ou vários tipos de taxas de bit podem ser misturados, quando é necessário o uso de codificadores comuns para os vários tipos de codificadores ou para os vários tipos de taxas de bit. O chaveamento das memórias tem que ser feito no mesmo tipo de codificadores ou taxas de bit.

Como descrito acima, de acordo com um exemplo operativo da invenção, há a vantagem de não ocorrer nenhuma inconsistência nas memórias na codificação diferencial, no instante de chaveamento da emissão de dados de voz a partir do codificador de voz comum 400 para o codificador de voz 104, tal como, para o falante 1. SEGUNDA CONFIGURAÇÃO EXEMPLAR

A seguir, será descrita uma segunda configuração exemplar da invenção, com referência à figura 3. A figura 3 mostra vista estrutural de um servidor de conferência multiponto, de acordo com uma segunda configuração exemplar da invenção, sendo que os mesmos números de referência serão usados para os mesmos componentes da figura 1, por conseguinte omitindo sua descrição.

O decodificador de voz 501, o decodificador de voz 511, e o decodificador de voz 591 decodificam os dados de voz de entrada 500, os dados de voz de entrada 510, e os dados de voz de entrada 590, que respectivamente são codificados e suprem as vozes decodificadas para o calculador de potência 192, para a chave de entrada de sinal de voz 102, para a chave de entrada de sinal de voz 112, e para a chave de entrada de sinal de voz 192. 0 analisador de dados de voz 502, o analisador de dados de voz 512, e o analisador de dados de voz 592 suprem os resultados de análise, se os dados de voz de entrada 500, os dados de voz de entrada 510, os dados de voz de entrada 590 respectivamente são de silêncio ou ruido. Como método de análise, é usado um exemplo de um método de codificação de voz para efeito de descrição. No método de codificação de voz AMR, é realizada uma detecção de atividade de voz VAD (de Voice Activity Detection) sobre a voz de entrada para determinar se há som ou silêncio, e se for determinado silêncio, podem ser transmitidas informações cujo tipo de quadro é N0_DATA (sem dados), ou podem ser transmitidas informações do ruido de fundo como Indicação de Silêncio (SID) (de Silence Indication). Quando se determina que o tipo de quadro no cabeçalho dos dados de voz é N0_DATA ou SID, pode ser determinado como silêncio. Quando a detecção VAD não é realizada, mas cada dado de voz é codificado como tendo som, também há um método para suprir o volume de som assumido, com base em um parâmetro de ganho e de espectro incluídos nos dados de voz para o seletor de falante 201.

0 calculador de potência 101, o calculador de potência 111, e o calculador de potência 191 calculam as potências dos sinais de codificados supridos a partir do codificador de voz 501, a partir do codificador de voz 511, e a partir do codificador de voz 591, e suprem seus valores para o seletor de falante 201.

0 seletor de falante 201 seleciona o falante ativo com base no resultado da análise pelo analisador de dados de voz 502, pelo analisador de dados de voz 512, e pelo analisador de dados de voz 592, e com base nas potências supridas a partir do calculador de potência 101, a partir do calculador de potência 111, e a partir do calculador de potência 192, supre o resultado da seleção. Especificamente, há um método para selecionar N (N< M) falantes graduados em ordem decrescente de potência pré- determinada suprida a partir do calculador de potência 101, a partir do calculador de potência 111, e a partir do calculador de potência 191, e um método para selecionar os falantes tendo uma potência acima de um certo limite, quando o resultado da análise suprida a partir do analisador de dados de voz 502, a partir do analisador de dados de voz 512, e a partir do analisador de dados de voz 592 mostram que o som, ou o volume de som assumido, excede um certo limite. Como mencionado acima, de acordo com uma segunda configuração exemplar da presente invenção,

a determinação de som ou silêncio é acrescentada ao modo de seleção de falante, dai obtendo um resultado melhor que da primeira configuração exemplar. TERCEIRA CONFIGURAÇÃO EXEMPLAR

A terceira configuração exemplar se refere a um programa para instruir o computador a executar um método para misturar vozes. Referindo-se à figura 1, um controlador (não ilustrado) controla os calculadores de potência 101, 111, .·., 191, o seletor de falante 200, as chaves de entrada de sinal de voz 102, 112, .. , 192, e o somador de todos sinais 300, os somadores 103, 113, ..., 193, os codificadores de voz 104, 114, ..., 194, as chaves de memória 105, 115, ..., 195, o codificador de voz comum 400, e as chaves de dados de voz 106, 116, ..., 196, que estão incluídos no servidor de conferência multiponto. Ademais, o servidor de conferência multiponto inclui uma unidade de armazenamento (não ilustrada), e a unidade de armazenamento armazena o programa que instrui os procedimentos de processamento do método para misturar vozes, como mostrado no fluxograma da figura 2. O controlador ou computador lê o programa mencionado a partir da unidade de armazenamento, e controla os mencionados componentes com o programa. Como o conteúdo de controle já foi descrito, sua descrição é omitida. Como descrito, de acordo com a terceira configuração exemplar da invenção, pode ser obtido um programa para evitar inconsistência nas memórias na codificação diferencial no instante de chavear a emissão dos dados de voz do codificador de codificador de voz comum 400 para o codificador de voz 104, tal como, para o falante 1. Outras configurações exemplares serão descritas a seguir. Como a largura de banda de telefones celulares é muito estreita, faz-se necessário comprimir as vozes de modo eficiente com uma técnica de codificação diferencial. Quando se empregam telefones celulares em um sistema de conferência multiponto, em virtude de a capacidade dos processadores dos telefones celulares ser muito limitada, a execução da mistura de voz com telefones celulares não é possível, requerendo o uso de um servidor de conferência multiponto, em adição aos telefones celulares. A configuração exemplar da invenção é aplicável para esta situação.

Certas situações podem ser consideradas para um sistema de conferência multiponto. Uma primeira situação seria aquela em que há apenas uma pessoa em cada sala de conferência, uma segunda situação seria aquela em que há uma pluralidade de pessoas em uma pluralidade de salas de conferência e, ademais, pode ser prevista uma situação adicional em que há uma pluralidade de pares de microfones e falantes em cada sala de conferência e uma situação em que há um par de microfones e falantes em cada sala de conferência. A configuração exemplar da invenção é útil para esta situação.

De acordo com configurações exemplares da invenção, se não houver inconsistências com respeito ao conteúdo de memória na codificação, é possível evitar a ocorrência de um som anormal na voz decodificada, quando se chaveia o codificador, de acordo com uma mudança de falante. Conquanto a invenção tenha sido particularmente mostrada e descrita com referência às configurações exemplares, a mesma não será limitada por estas configurações. Ademais, deve ser entendido por aqueles habilitados na técnica que várias mudanças com respeito à forma e detalhes poderão ser feitas sem sair do espirito e escopo da invenção, como definido pelas reivindicações. INCORPORAÇÃO POR REFERÊNCIA

Este pedido de patente se baseia e reivindica os benefícios de prioridade conferidos pelo Pedido de Patente Japonês N0 20006-2322919 de 30 de Agosto de 2006, cuja descrição está incorporada nesta em sua totalidade por referência.

Claims

1.- Método para misturar vozes para mixar uma pluralidade de informações de voz, caracterizado pelo fato de incluir: - uma primeira etapa para selecionar informações de voz a partir de uma pluralidade de informações de voz; uma segunda etapa para somar todas as informações de voz selecionadas; uma terceira etapa para obter informações de voz, somando as informações de voz diferentes de uma informação de voz, das citadas informações de voz. uma quarta etapa para codificar as citadas informações de voz obtidas na citada segunda etapa; uma quinta etapa para codificar as citadas informações de voz obtidas na citada terceira etapa; e uma sexta etapa para copiar as citadas informações de voz obtidas na citada quarta etapa nas citadas informações codificadas na citada quinta etapa.

2.- Método, de acordo com a reivindicação 1, caracterizado pelo fato de: na citada sexta etapa, as informações armazenadas em uma memória de um codificador, que faz a codificação na citada quarta etapa serem copiadas em um codificador que executa a codificação na citada quinta etapa.

3.- Método, de acordo com qualquer uma das reivindicações 1 ou 2, caracterizado pelo fato de adicionalmente incluir: uma sétima etapa de chavear e suprir as citadas informações codificadas obtidas na citada quarta etapa ou as citadas informações codificadas obtidas na citada quinta etapa, de acordo com o resultado selecionado na citada primeira etapa.

4.- Método, de acordo com qualquer uma das reivindicações de 1 a 3, caracterizado pelo fato de: - as informações de voz de entrada codificadas serem decodificadas e as informações de voz decodificadas serem usadas como informações de voz na citada primeira etapa.

5.- Método, de acordo com qualquer uma das reivindicações de 1 a 4, caracterizado pelo fato de:

6. missing in file na citada primeira etapa, selecionar as informações de voz de acordo com a potência de um sinal de voz das citadas informações de voz. Método, de acordo com qualquer uma das reivindicações de 1 a 5, caracterizado pelo fato de: na citada primeira etapa, selecionar as informações de voz conforme os dados de voz das citadas informações de voz sejam sonoros ou silenciosos.

7.- Método, de acordo com qualquer uma das reivindicações de 1 a 6, caracterizado pelo fato de: na citada terceira etapa, as informações de voz, que foram obtidas somando informações de voz diferentes de uma informação de voz das citadas informações de voz, serem obtidas subtraindo as citadas informações de voz selecionadas das citadas informações de voz somadas uma a uma.

8.- Método, de acordo com qualquer uma das reivindicações de 1 a 7, caracterizado pelo fato de: as citadas informações de voz serem dados codificados de um sinal de voz; na citada primeira etapa, analisar uma pluralidade de citados dados codificados, e selecionar os dados codificados a serem misturados, decodificar os citados dados codificados selecionados, e gerar um sinal de voz decodificado.

9.- Método, de acordo com qualquer uma das reivindicações de 1 a 7, caracterizado pelo fato de: as citadas informações de voz serem dados codificados de um sinal de voz; na citada primeira etapa, analisar os citados dados codificados e sinais de voz decodificados que foram obtidos decodificando os citados dados codificados, e selecionar os sinais de voz decodificados a serem misturados.

10.- Método, de acordo com qualquer uma das reivindicações 8 ou 9, caracterizado pelo fato de: na citada segunda etapa, gerar um sinal de voz totalizando todos os citados sinais de voz decodificados; na citada terceira etapa, gerar um sinal de voz totalizando os sinais de voz decodificados diferentes de um sinal de voz decodificado dos citados sinais de voz decodificados selecionados; na citada quarta etapa, executar uma codificação diferencial nos citados sinais de voz gerados na citada segunda etapa em um primeiro codificador; na citada quinta etapa, executar uma codificação diferencial nos citados sinais de voz gerados na citada terceira etapa em um segundo codificador; - na citada sexta etapa, prover um conteúdo de memória indicando o estado do segundo codificador da citada quinta etapa igual ao conteúdo de memória que indica o estado do primeiro codificador da citada quarta etapa, quando o resultado selecionado do citados sinais de voz decodificados para mistura é alterado.

11.- Método, de acordo com qualquer uma das reivindicações de 1 a 10, caracterizado pelo fato de incluir: uma etapa para ajustar a diferença de volume entre os sinais de voz para um pequeno grau de mistura.

12.- Método, de acordo com qualquer uma das reivindicações de 1 a 10, caracterizado pelo fato de incluir: uma etapa para ajustar o volume de som das vozes misturadas, de modo que este volume seja igual ao maior volume das certo nivel.

13.- Servidor de conferência multiponto que mistura uma pluralidade de informações de voz, caracterizado pelo fato de compreender: - um meio seletor para selecionar informações de voz a partir da citada pluralidade das informações de voz; um meio somador de todos sinais para somar todas informações de voz selecionadas pelos citados meios seletores; um meio somador para obter as informações de voz somando informações de voz diferentes de uma informação de voz, das citadas informações de voz selecionadas; um primeiro meio codificador para codificar as informações de voz somadas pelo citado meio somador de todos sinais; um segundo meio codificador para codificar as informações de voz somadas pelo citado meio somador; e um meio de chaveamento para copiar as citadas informações codificadas obtidas pelo citado primeiro meio codificador no citado segundo meio codificador.

14.- Servidor, de acordo com a reivindicação 13, caracterizado pelo fato de: o citado meio de chaveamento copiar a informações codificadas armazenadas em uma memória do citado primeiro meio codificador para o citado segundo meio de chaveamento, de acordo com o resultado do citado meio seletor.

15.- Servidor, de acordo com qualquer uma das reivindicações 13 ou 14, caracterizado pelo fato de adicionalmente compreender: um meio de chaveamento emissor para chavear e emitir as informações codificadas obtidas pelo citado primeiro meio codificador ou as informações codificadas obtidas pelo citado segundo meio codificador, de acordo com o resultado selecionado pelo citado meio seletor.

16.- Servidor, de acordo com qualquer uma das reivindicações de 13 a 15, caracterizado pelo fato de compreender: um meio decodificador para decodificar uma pluralidade de informações de voz codificadas de entrada, sendo que, - o citado meio seletor selecionar as informações de voz a partir da pluralidade de informações de voz decodificada pelo citado meio decodificador.

17.- Servidor, de acordo com qualquer uma das reivindicações de 13 a 16, caracterizado pelo fato de: o citado meio seletor selecionar as informações de voz de acordo com a potência do sinal de voz das citadas informações de voz.

18.- Servidor, de acordo com qualquer uma das reivindicações de 13 a 17, caracterizado pelo fato de: o citado meio seletor selecionar as informações de voz, quer os dados de voz sejam sonoros ou silenciosos.

19.- Servidor, de acordo com qualquer uma das reivindicações de 13 a 18, caracterizado pelo fato de: o citado meio somador obter as informações de voz totalizando as informações de voz diferentes da informação de voz da citada informação de voz selecionada, subtraindo a citada informação de voz selecionada das informações de voz somadas uma a uma pelo citado meio somador de todos sinais.

20.- Programa para executar mistura de vozes, de uma pluralidade de informações de voz, caracterizado pelo fato de compreender: uma primeira função para selecionar informações de voz a partir de uma pluralidade de informações de voz; uma segunda função para somar todas as informações de voz selecionadas; - uma terceira função para subtrair as citadas informações de voz a partir da citadas informações de voz somadas uma a uma; uma quarta função para codificar as informações de voz que foram obtidas na citada segunda função; - uma quinta função para codificar as informações de voz que foram obtidas na citada terceira função; e uma sexta função para copiar as informações codificadas que foram obtidas na citada quarta função nas informações codificadas obtidas na citada quinta função.