BRPI0313706B1 - Método para processar um número de telefone dentro de um fluxo de áudio, e dispositivo de comunicação sem fio - Google Patents

Método para processar um número de telefone dentro de um fluxo de áudio, e dispositivo de comunicação sem fio Download PDF

Info

Publication number
BRPI0313706B1
BRPI0313706B1 BRPI0313706-6A BRPI0313706A BRPI0313706B1 BR PI0313706 B1 BRPI0313706 B1 BR PI0313706B1 BR PI0313706 A BRPI0313706 A BR PI0313706A BR PI0313706 B1 BRPI0313706 B1 BR PI0313706B1
Authority
BR
Brazil
Prior art keywords
numeric
numerical
detected
sayings
pattern
Prior art date
Application number
BRPI0313706-6A
Other languages
English (en)
Inventor
James T. Doble
Original Assignee
Google Technology Holdings LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google Technology Holdings LLC filed Critical Google Technology Holdings LLC
Publication of BRPI0313706B1 publication Critical patent/BRPI0313706B1/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/274Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc
    • H04M1/2745Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc using static electronic memories, e.g. chips
    • H04M1/27485Appending a prefix to or inserting a pause into a dialling sequence
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/68Details of telephonic subscriber devices with means for recording information, e.g. telephone number during a conversation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Abstract

"método para processar um número de telefone dentro de um fluxo de áudio, e dispositivo de comunicação sem fio". ocorrências de pelo menos um de uma pluralidade de padrões de fala relacionados ao número de telefone são identificadas em um fluxo de áudio utilizando técnicas de análise da fala. pelo menos um padrão numérico correspondente às ocorrências são doravante identificados e armazenados para apresentação posterior ao usuário de um dispositivo móvel. as ocorrências e os padrões numéricos correspondentes poderão ser filtrados para reduzir a probabilidade de detecções falsas. ademais, os padrões dos números detectados poderão ser aumentados para assegurar a inteireza. os usuários poderão editar e armazenar persistentemente os padrões numéricos resultantes. em uma versão, uma parcela do fluxo de áudio poderá ser armazenada e subseqüentemente submetida ao processo de análise da fala. a parcela armazenada do fluxo de áudio poderá ser reproduzida em substancialmente o mesmo tempo que o pelo menos um padrão numérico nele detectado é fornecido ao usuário. desta maneira, números de telefone em fluxos de áudio poderão ser capturados convenientemente e em segurança.

Description

MÉTODO PARA PROCESSAR UM NÚMERO DE TELEFONE DENTRO DE UM FLUXO DE ÁUDIO, E DISPOSITIVO DE COMUNICAÇÃO SEM FIO Campo Técnico [001] A presente invenção relaciona-se genericamente a sistemas de comunicação sem fio e, em particular, a uma técnica para processar ocorrências de números de telefone em fluxos de áudio.
Histórico Da Invenção [002] Sistemas de comunicação sem fio são bem conhecidos na tecnologia. Em tais sistemas, a comunicação é tipicamente suportada por uma infra-estrutura sem fio que se comunica sem fio com um ou mais dispositivos de comunicação sem fio (ou dispositivos móveis), como telefones celulares ou rádios portáteis. Ademais, conexões adequadas entre a infra-estrutura sem fio e outras redes, como o assim-chamado sistema de telefonia antiga simples (POTS) OU A Internet, permitem aos usuários de dispositivos móveis comunicarem-se com outras partes não equipadas com dispositivos móveis similares. Em geral, esses sistemas sem fio fornecem um meio conveniente para os usuários dos mesmos comunicarem-se com os demais apesar de estarem em movimento.
[003] A portabilidade desses dispositivos móveis, embora seja uma grande vantagem em alguns aspectos, deu surgimento a dificuldades anteriormente não observadas. Por exemplo, quando em um ambiente móvel (por exemplo, longe do escritório ou da residência), os usuários muitas vezes não dispõem da capacidade de registrar a informação passada durante a comunicação de voz. Esta situação muitas vezes surge quando o usuário receptor está ouvindo a sinais de
Petição 870170051476, de 21/07/2017, pág. 9/41
2/26 áudio fornecidos diretamente por outro usuário (como no caso de uma conversa de voz típica) ou de um mecanismo de armazenamento (por exemplo, um sistema de correspondência de voz, ou uma máquina de recados), e o número do telefone necessitado pelos usuários receptores ocorre dentro do fluxo de áudio. A menos que o usuário receptor tenha algum meio de registrar com rapidez o número de telefone para utilização posterior (por exemplo, caneta e papel) em mãos, o usuário receptor muitas vezes precisa tentar memorizar o número de telefone muito rapidamente. No caso do áudio gravado, o usuário poderá ser capaz de voltar e ouvir o número de telefone mais de uma vez no esforço de memorizalo, embora isto poderá representar uma inconveniência para o usuário. Adicionalmente, essas reapresentações múltiplas representam uma despesa adicional ao usuário em termos das cobranças de tempo no ar. Observe que a oportunidade de reapresentar áudio não é uma opção durante uma típica comunicação de voz ao vivo. Ademais, mesmo se o usuário tiver algum meio em mãos para transcrever o número do telefone, a natureza de muitos ambientes móveis torna proibitivo para o usuário receptor ser distraído de sua atividade atual (por exemplo, dirigir um carro, andar por uma rua apinhada de gente, etc.) para gravar o número do telefone ou desviar atenção suficiente para memorizar o número.
[004] Portanto, seria vantajoso fornecer uma técnica para dispositivos móveis detectarem e processarem números de telefone que ocorrem em fluxos de áudio para capturar esses números de telefone para utilização posterior. Tal técnica deve operar preferivelmente de maneira automática
Petição 870170051476, de 21/07/2017, pág. 10/41
3/26 ou com um mínimo de entrada de usuário, enquanto ainda permite a intervenção do usuário para assegurar a precisão dos números de telefone capturados.
Descrição Sucinta Dos Desenhos [005] A Figura 1 é um diagrama de blocos de um sistema de comunicação sem fio de acordo com uma versão da presente invenção.
[006] A Figura 2 é um diagrama de blocos de um dispositivo de comunicação sem fio de acordo com uma versão da presente invenção.
[007] A Figura 3 é um diagrama de fluxo de uma técnica para processar números de telefone dentro de fluxos de áudio de acordo com uma versão da presente invenção.
[008] A Figura 4 é um fluxograma que ilustra um método de acordo com uma versão preferida da presente invenção.
Descrição Detalhada Das Versões Preferidas [009] A presente invenção fornece uma técnica para processar números de telefone que ocorrem dentro de fluxos de áudio em um dispositivo de comunicação. Em particular, ocorrências de pelo menos um de uma pluralidade de padrões de fala relacionados ao número de telefone são identificadas em um fluxo de áudio utilizando técnicas de análise da fala. Em uma versão preferida, o fluxo de áudio inclui um fluxo de áudio recebido, embora a presente invenção poderia ser utilizada em fluxos de áudio sendo transmitidos pelo dispositivo de comunicação. Um ou mais padrões numéricos que corresponde às ocorrências do pelo menos um da pluralidade de padrões de fala relacionados ao número de telefone são doravante identificados e armazenados para apresentação posterior ao usuário do
Petição 870170051476, de 21/07/2017, pág. 11/41
4/26 dispositivo de comunicação. Em uma versão preferida, as ocorrências e correspondente um ou mais padrões numéricos são filtrados para reduzir a probabilidade de detectar falsamente números de telefone no fluxo de áudio. Ademais, os padrões numéricos detectados poderão ser aumentados ou transformados de acordo com pelo menos uma regra definida pelo usuário. O padrão numérico resultante detectado (e filtrado/aumentado) desta maneira poderá ser apresentado ao usuário, assim permitindo ao usuário editar ainda mais os padrões numéricos. Ao armazenar o(s) padrão(ões) numérico(s) em uma memória persistente, como o catálogo de telefone definido pelo usuário, os números de telefone capturados desta maneira poderão ser chamados de volta qualquer número de vezes. Ademais, o fluxo de áudio poderá ser continuamente armazenado tal que uma parcela recebida recentemente do fluxo de áudio está definida para análise ou reapresentação em resposta a uma instrução recebida do usuário. Quando qualquer um ou mais padrões numéricos são detectados na parcela do fluxo de áudio, a parcela poderá ser reproduzida (isto é, tornada audível) a substancialmente o mesmo tempo que o um ou mais padrões numéricos são fornecidos ao usuário, assim permitindo ao usuário verificar a precisão do número de telefone capturado. Desta maneira, a presente invenção fornece um mecanismo para capturar números de telefone em fluxos de áudio de maneira conveniente e segura.
[0010] Estas e outras vantagens da presente invenção são mais integralmente descritas com mais referência às Figuras 1 a 4 abaixo. Com referência agora à Figura 1, é ilustrado um diagrama de blocos de um sistema de
Petição 870170051476, de 21/07/2017, pág. 12/41
5/26 comunicação 100. Em particular, o sistema 100 inclui uma pluralidade de dispositivos de comunicação sem fio (ou dispositivos móveis) 102-104 em comunicação sem fio com a infra-estrutura sem fio 106 através de um ou mais canais sem fio 120-122. Os dispositivos móveis 102-104, ilustrados em maior detalhe abaixo com referência à Figura 2, poderão incluir quaisquer dispositivos de comunicação sem fio pelo menos capazes de receber fluxos de áudio como telefones celulares, rádios bilaterais, assistentes digitais pessoais ativados de modo sem fio, etc. Embora a presente invenção seja principalmente aplicável a dispositivos móveis, ela poderá ser aplicada beneficamente a qualquer tipo de dispositivo de comunicação, incluindo dispositivos não móveis como os tradicionais telefones de linhas terrestres, e assemelhados. A infra-estrutura sem fio 106 inclui aqueles elementos necessários para suportar essa comunicação sem fio, como é conhecido na tecnologia, os particulares de quais elementos variarão de acordo com o tipo do sistema 100 empregado. Esses elementos tipicamente incluem estações base, controladoras de recursos, transcodificadores, comutadores, e uma variedade de outros elementos conhecidos daqueles que têm habilidade ordinária na tecnologia. Os canais sem fio 120-122 são da mesma forma dependentes da natureza do sistema 100 implementado. No entanto, em geral, os canais sem fio 120-122 poderão incluir quaisquer recursos sem fio como canais de freqüência de rádio (RF), canais infravermelhos, etc., que suportam qualquer protocolo de modulação adequado (por exemplo, modulação de freqüência, modulação por amplitude, etc.) e/ou protocolo de acesso, como o protocolo
Petição 870170051476, de 21/07/2017, pág. 13/41
6/26 multiplexado de divisão por freqüência (FDM), multiplexado de divisão por tempo (TDM) ou multiplexado de divisão por código (CDM).Observe que canais sem fio adicionais 124, do tipo descrito acima, poderão ser fornecidos em suporte da comunicação móvel-a-móvel tal que os dispositivos móveis 102-104 poderão comunicar-se um com o outro sem intervenção da infra-estrutura sem fio.
[0011] Como é mostrada na Figura 1, a infra-estrutura sem fio 106 poderá suportar conexões para outras redes de comunicação 108-110 tal que outros tipos de dispositivos de comunicação 112-114 poderão comunicar-se com os dispositivos móveis 102-104. Por exemplo, como é conhecido na tecnologia, a infra-estrutura sem fio 106 poderá suportar conexões para o assim-chamado sistema de telefonia velha simples (POTS) 108 tal que os aparelhos de mão de telefonia de linha terrestre tradicional 112 poderão comunicar-se com os dispositivos móveis 102-104. Alternativamente, ou em acréscimo, a infra-estrutura sem fio 106 poderá suportar conexões com uma rede de computador 110 (por exemplo, a Internet, World Wide Web, redes privadas, combinações destas, etc.) tal que plataformas com base em computador 114 (por exemplo, computadores pessoais, computadores laptop, computadores de mão, etc.) também poderão comunicar-se com os dispositivos móveis 102-104. Técnicas para ativar essa comunicação com base em computadores com os dispositivos móveis são bem conhecidas na tecnologia. Ainda é compreendido que redes adicionais não ilustradas na Figura 1 poderiam ser acopladas à infraestrutura sem fio 106 além de, ou como alternativas, as redes ilustradas 108-110 como uma questão de opção de
Petição 870170051476, de 21/07/2017, pág. 14/41
7/26 proj eto.
[0012] O dispositivo móvel 102-104 de acordo com a presente invenção é ainda ilustrado com referência à Figura
2. Em particular, esses dispositivos móveis incluem uma controladora 202 acoplada a um dispositivo de exibição adequado 204, alto falante 206, transmissor 208, receptor 210 e outros dispositivos de entrada/saída 212. A controladora 202 poderá incluir qualquer dispositivo ou combinação de dispositivo capazes de operar sobre dados e sinais de entrada e fornecer, conforme necessário, dados e sinais de saída. Vários projetos para essas controladoras são bem conhecidos na tecnologia. Em uma versão preferida, a controladora 202 inclui um dispositivo capaz de manter informação de estado, como um microprocessador, microcontroladora, processador de sinal digital, coprocessador, lógica programável, circuito integrado específico da aplicação, etc. ou combinações destes. Em alguns casos, a controladora poderá incluir um ou mais dispositivos de armazenamento, como memória volátil (por exemplo, memória de acesso aleatório), ou não volátil (por exemplo, memória de apenas leitura programável apagável eletricamente) adequada para o armazenamento não persistente ou persistente de dados ou de instruções executáveis. As várias técnicas descritas abaixo são preferivelmente implementadas como segmentos de código de software implementados como instruções executáveis. Como é aqui utilizado, esses segmentos de código poderão incluir qualquer agrupamento (isto é, contíguo ou não contíguo) de um ou mais instruções executáveis para realizar uma operação específica. Esses segmentos de código poderão ser
Petição 870170051476, de 21/07/2017, pág. 15/41
8/26 armazenados em um único dispositivo de armazenamento ou poderão ser distribuídos entre vários dispositivos de armazenamento como uma questão de opção de projeto. Embora operações específicas descritas abaixo poderão ser atribuídas a um único segmento de código desses, aqueles com habilidade ordinária na tecnologia apreciarão que as operações específicas poderiam ser distribuídas em uma variedade de maneiras diferentes entre vários segmentos de código sem perda de sua funcionalidade.
[0013] A tela 204 poderá incluir qualquer mecanismo adequado para tornar dados visíveis ao usuário do dispositivo móvel, como uma tela de cristal líquido (LCD). O alto falante 206 poderá incluir qualquer mecanismo adequado para tornar sinais de áudio audíveis ao usuário do dispositivo móvel. Outros dispositivos em suporte da tela 204 (por exemplo, co-processadores gráficos) e do alto falante 206 (por exemplo, conversor digital-paraanalógico), embora não sejam ilustrados, poderão ser incorporados dentro do dispositivo móvel como uma questão de opção de projeto. O transmissor 208 poderá incluir qualquer dispositivo de amplificação/modulação sem fio adequado como é conhecido na tecnologia. Da mesma forma, o receptor 210 poderá incluir qualquer dispositivo de discriminação/demodulação sem fio adequado como é conhecido na tecnologia. Na prática, a configuração particular e a operação do transmissor 208 e do receptor 210 dependerá da configuração do canal sem fio e dos protocolos de comunicação suportados pelo sistema 100.
[0014] Finalmente, os outros dispositivos de entrada/saída 212 incluem todos os outros mecanismos pelos
Petição 870170051476, de 21/07/2017, pág. 16/41
9/26 quais sinais são fornecidos de/para a controladora 202. Por exemplo, o dispositivo móvel poderá incluir um microfone, uma tela de toque, um teclado alfanumérico, vários botões, teclas suaves, comutadores, diais ou outros dispositivos atuados pelo usuário, como é conhecido na tecnologia. Ainda mais, uma porta de dados poderá ser fornecida tal que vários tipos de informação, incluindo fluxos de áudio, poderão ser entrados diretamente na controladora 202. Da mesma forma, vários outros tipos de dispositivos de saída poderão ser empregados, como diodos emissores de luz (LEDs), anunciadores, vibradores e assemelhados. A natureza e a extensão dos outros dispositivos de entrada/saída 212 é uma questão de opção de projeto, e a presente invenção não precisa ser limitada neste particular. Em uma versão da presente invenção, os outros dispositivos de entrada/saída 212 incluem mecanismos para o usuário fornecer instruções para a controladora capturar partes de um fluxo de áudio, solicitar a exibição de padrões numéricos, solicitar a reapresentação de partes armazenadas dos fluxos de áudio e fornecer edições aos padrões numéricos exibidos.
[0015] Com referência agora à Figura 3, é fornecido um diagrama de fluxo de dados de acordo com uma versão da presente invenção. Cada um dos blocos funcionais 300-312 ilustrados na Figura 3, é preferivelmente implementado como um segmento de código conforme descrito acima utilizando técnicas de programação convencionais. Como é mostrado, um fluxo de áudio que recebe o segmento 300 fornece um fluxo de áudio 320 como saída, cujo fluxo de áudio poderá ser derivado de qualquer uma de um número de origens. No contexto da presente invenção, o fluxo de áudio poderá
Petição 870170051476, de 21/07/2017, pág. 17/41
10/26 incluir qualquer forma de informação representativa de um sinal de áudio recebido de qualquer fonte. Em uma versão atualmente preferida, o fluxo de áudio é recebido pelo dispositivo móvel através de um canal sem fio para apresentação posterior ao usuário do dispositivo móvel. No entanto, na prática, o fluxo de áudio poderá vir de virtualmente qualquer fonte, incluindo uma fonte de áudio (por exemplo, um microfone ou porta de dados) residente dentro do dispositivo móvel. Adicionalmente, o fluxo de áudio poderá ser representativo de dados de fala em tempo real, como no caso de uma chamada no telefone celular, ou poderá ser representativa de dados de áudio armazenados, como no caso da reapresentação de uma mensagem gravada. Independentemente, o fluxo de áudio 320 é preferivelmente em uma forma receptiva à análise da fala por um segmento de análise da fala 302. Se não estiver na forma receptiva à análise da fala, como no caso de alguns formatos de áudio comprimidos, a conversão quer pelo segmento receptor do fluxo de áudio 300 ou pelo segmento de análise da fala 302 poderá ser necessária.
[0016] O segmento de análise da fala 302 implementa técnicas de reconhecimento da fala como é conhecido na tecnologia. Em particular, o reconhecimento da fala efetuado pelo segmento de análise da fala 302 preferivelmente inclui o reconhecimento da fala independente de quem fala e específico da aplicação. Isto é, o segmento de análise da fala é especificamente talhado para reconhecer a ocorrência de padrões de fala relacionados ao número do telefone (ou dizeres numéricos) que ocorrem no fluxo de áudio fornecido por qualquer parte
Petição 870170051476, de 21/07/2017, pág. 18/41
11/26 falante. Como é aqui utilizado, o padrão de fala relacionado ao número de telefone inclui representações paramétricas ou outras dos dizeres da fala humana que ocorrem comumente quando um número de telefone é pronunciado ou de outra forma transmitido em uma forma audível. Esses padrões de fala relacionados ao número do telefone poderão ser armazenados em uma memória persistente adequada.
[0017] Por exemplo, os números de telefone são tipicamente falados em base de dígito-a-dígito. Assim, o número de telefone 555-123-4567 (utilizando a convenção de 10 dígitos comumente utilizada na América do Norte) provavelmente seria falado como cinco, cinco, cinco, um, dois, três, quatro, cinco, seis, sete e não cinco bilhões, quinhentos e cinqüenta e um milhões, duzentos e trinta e quatro mil, quinhentos e sessenta e sete ou quinhentos e cinqüenta e cinco, cento e vinte e três, quatro mil, quinhentos e sessenta e sete. No entanto, muitas vezes há exceções à regra prática de dígito-adígito. Por exemplo, o número de telefone 800-555-1000 poderia ser falado como oitocentos, cinco, cinco, cinco, mil. Como outro exemplo, os últimos quatro dígitos de um número de telefone que compreende 3452 poderá ser falado como três quatro, cinco, dois, ou trinta e quatro, cinqüenta e dois. Ainda mais, expressões alternativas de dígitos individuais poderão ser empregadas por certas pessoas que falam, por exemplo, a substituição de oh (em inglês) por zero. Em uma versão atualmente preferida, uma pluralidade de padrões de fala relacionados ao número de telefone do tipo descrito acima (por exemplo, zero, um,
Petição 870170051476, de 21/07/2017, pág. 19/41
12/26 dois, três, quatro, cinco, seis, sete, oito, nove, oh, trinta e quatro, cinqüenta e dois, oitocentos, mil, etc.) são fornecidos e utilizados como a base para o reconhecimento da ocorrência de números dentro do fluxo de áudio. Como o vocabulário de reconhecimento da fala é limitado desta maneira, é previsto que o reconhecimento da fala confiável em base independente de quem fala poderá ser efetuada.
[0018] Em uma versão da presente invenção, o segmento de análise da fala 302 opera como uma máquina de estado com dois estados. No primeiro estado, que poderá ser denominado de estado nulo, o segmento de análise da fala 302 está procurando pela ocorrência de dizeres numéricos. O segmento de análise da fala 302 permanece neste estado até um dizer numérico ser detectado, em cujo ponto ele passa para o segundo estado, que poderá ser referido como o estado em cadeia. Quando da transição para o estado em cadeia, pressupõe-se que o dizer numérico detectado é o início de uma cadeia de dizeres numéricos. Enquanto opera durante o estado em cadeia, o segmento de análise da fala tenta reconhecer a ocorrência de outros dizeres numéricos que satisfazem vários critérios para estabelecer uma cadeia de dizeres numéricos relacionados. Uma vez que vários critérios são satisfeitos, uma cadeia de padrões numéricos detectados que corresponde à cadeia de dizeres numéricos é emitida, o processamento retorna para o estado nulo. Em várias versões da presente invenção, a determinação de se a cadeia de dizeres numéricos terminou poderá ter por base, por exemplo, a passagem de um comprimento de tempo entre detecções de um dizer numérico ou um número de dizeres não
Petição 870170051476, de 21/07/2017, pág. 20/41
13/26 numéricos detectados após a detecção de um dizer numérico. Por exemplo, se mais de dois segundos passam após a detecção de um dizer numérico, poderá ser suposto que o dizer numérico terminou. O número de dizeres não numéricos poderá ser acompanhado de uma variedade de maneiras dependentes da natureza da análise de reconhecimento da fala. Em geral, isto é feito pelo reconhecimento de estruturas elementares da fala e pela contagem do número de vezes que essas estruturas ocorrem além de em dizeres numéricos. Por exemplo, as sílabas em dizeres não numéricos poderão ser determinadas, ou mesmo fonemas distintos dentro de dizeres não numéricos. De qualquer modo, observe que os valores limite descritos aqui são apenas exemplares. Ademais, aqueles dotados de habilidade ordinária na tecnologia apreciarão que outros critérios para determinar o término de uma cadeia de dizeres numéricos poderão ser utilizados, por exemplo, a ocorrência de períodos suficientemente longos de silêncio após os dizeres. Se um critério adequado é satisfeito, o segmento de análise da fala 302 retorna ao estado nulo e a cadeia anterior de dizeres numéricos supõe-se que tenha terminado. Caso contrário, os dizeres numéricos que são próximos no tempo (ou próximos pelo número de dizeres não numéricos intervenientes) supõe-se que sejam relacionados um ao outro formando uma cadeia contínua de dizeres numéricos.
[0019] Uma vez os padrões de fala relacionados a números (ou uma cadeia de dizeres numéricos) são determinados, os padrões numérico 322 que corresponde aos padrões de fala relacionados ao número de telefone são identificados e fornecidos como saída do segmento de
Petição 870170051476, de 21/07/2017, pág. 21/41
14/26
análise da fala 302. Por exemplo, como os padrões de fala
que correspondem a oitocentos, oh , um e cinco são
detectados, os números 800, 0, 1, e 5 são
fornecidos como uma cadeia de padrões numéricos detectados. As cadeias de padrões numéricos detectados 322 (uma cadeia sendo definida como um ou mais padrões numéricos) são preferivelmente fornecidas como entrada para o segmento de filtragem 304 que aplica uma série de regras ou padrões à cadeia de padrões numéricos detectados em um esforço para minimizar a probabilidade de falsamente reconhecer essa cadeia como um número de telefone. Observe que essa filtragem não é um requisito, mas é aconselhável para minimizar a ocorrência de erros.
[0020] Em uma versão atualmente preferida, a filtragem é efetuada ao submeter as cadeias de padrões numéricos detectados a um ou mais regras de filtragem, isto é, ao inspecionar várias características das cadeias de padrões numéricos detectados para ver se as cadeias satisfazem características desejadas ou indesejadas. Essas regras poderão ser pré-configuradas e estáticas, ou elas poderão ser configuradas pelo usuário e dinâmicas. Em uma versão, o comprimento (em termos numéricos de dígitos) de cada cadeia de padrões numéricos detectados é comparado com comprimentos padronizados para números de telefone. Por exemplo, nos Estados Unidos e no Canadá, os números de telefone tipicamente incluem 7 ou 10 dígitos. Em outros países, os números de telefone muitas vezes têm outros comprimentos convencionais. Adicionalmente, alguns terminais privados poderão aceitar números, por exemplo, que são de 5 dígitos de comprimento, isto é, o número de
Petição 870170051476, de 21/07/2017, pág. 22/41
15/26 telefone 576-1234 poderá ser igualmente expresso como 61234” para as pessoas que acessam internamente o terminal privado. Assim, uma cadeia dada de padrões numéricos detectados que não casa esses comprimentos convencionais provavelmente não será um número de telefone e assim é ignorada.
[0021] Em outra versão, o conteúdo de cada cadeia de padrões numéricos detectados é inspecionada e comparada com padrões predefinidos. Por exemplo, nos Estados Unidos, o número 312 é um código de área válido, enquanto o número 311 não o é. Assim, o padrão de 10 dígitos numéricos 312xxxxxxx (em que xxxxxxx é qualquer número de sete dígitos válido) possivelmente é um número de telefone válido, enquanto o padrão de 10 dígitos numéricos 311xxxxxxx não é um número de telefone válido. Essas regras com base em códigos de área poderiam dar conta de todos os códigos de área possíveis, ou poderiam ser limitadas a apenas aqueles códigos de área que determinado usuário provavelmente encontrará.
[0022] Em ainda outra versão relacionada às versões descritas acima, a localização ou a área de registro do dispositivo móvel por ocasião da análise do fluxo de áudio (ou quando a fala foi recebida) é levada em conta. Por exemplo, se o dispositivo móvel está operando nos Estados Unidos, um conjunto de regras de acordo com as versões descritas acima poderá ser utilizado. No entanto, se aquela mesma unidade estiver agora operando em um país estrangeiro, um conjunto diferente de regras de acordo com as versões descritas acima poderá ser utilizado.
[0023] O segmento de filtragem 304 também poderá
Petição 870170051476, de 21/07/2017, pág. 23/41
16/26 funcionar para resolver ambigüidades em cadeias ou padrões numéricos detectados. Por exemplo, se os dizeres trinta e cinco, quarenta e dois” é reconhecido pelo segmento de análise da fala 302, os padrões numéricos detectados provavelmente seriam 35” e 42” . Entretanto, dada a maneira em que os seres humanos às vezes expressam números, esses dizeres poderão ser igualmente interpretados como 305402” ou 3542”. Para encarar tais cenários, o segmento de filtragem 304 poderá incluir regras que tentam resolver essas ambigüidades em favor de encontrar um número de telefone. Por exemplo, se o número de telefone 800-5553542” é representado pelos dizeres oitocentos, cinco, cinco, cinco, trinta e cinco, quarenta e dois” cadeias possíveis de cadeias de padrões numéricos detectados seriam 800000305402”, 80055535402”, 80055530542” ou 8005553542”. Desses quatro possíveis cadeias de padrões numéricos detectados, apenas a última seria equivalente a um número de telefone de 10 dígitos válido. O segmento de filtragem 304 reconhece essas possibilidades e resolve automaticamente as ambigüidades em favor de selecionar o resultado ou resultados possíveis que (mais de perto) casam com um número de telefone válido.
[0024] Um segmento de detecção de dizer por palavra chave (não mostrado) também poderá ser incluído, ou existir, independentemente e trabalhar em cooperação, com o segmento de análise da fala 302 ou o segmento de filtragem 304. Palavras chaves no contexto da presente invenção são dizeres não numéricos muitas vezes associados a números de telefone ou outros tipos numéricos. Como no caso dos padrões de fala relacionados a números de telefone, os
Petição 870170051476, de 21/07/2017, pág. 24/41
17/26 dizeres de palavras chaves poderão ser representados parametricamente para utilização por um algoritmo de reconhecimento da fala. Por exemplo, a palavra extensão é muitas vezes utilizada para descrever um número de telefone. A ocorrência da palavra extensão próxima no tempo a uma pluralidade de dizeres numéricos serve, portanto, como uma indicação para o processo de análise da fala que dizeres numéricos que ocorreram antes e após a palavra extensão são relacionadas à mesma cadeia. Ademais, a cadeia de padrões numéricos resultante pode incluir um símbolo (por exemplo, uma vírgula, traço, ou outra insígnia) representativo do ponto dentro da cadeia de dizeres numéricos em que a palavra extensão ocorreu. Inversamente, outros tipos de palavras chaves são muitas vezes associadas a números que não números de telefone. Por exemplo, palavras como rua, avenida, alameda, bulevar serão mais provavelmente associados a endereços residenciais (por exemplo, rua principal três dois um) e não numéricos de telefone. Como tal, os dizeres numéricos próximos no tempo dessas palavras chaves é mais improvável que sejam parte de um número de telefone. O mesmo princípio aplica-se a nomes de estados. Por exemplo, considere um fluxo de áudio que compreende rua principal cinco dois Harvard illinois seis oh oh três três. A ocorrência das palavras rua e illinois entre os dígitos cinco dois e seis oh oh três três indica que este dizer corresponde a um endereço residencial e não ao número telefônico 5260033 .
[0025] Outras palavras chaves a serem utilizadas desta maneira poderão efetivamente corresponder a tipos
Petição 870170051476, de 21/07/2017, pág. 25/41
18/26 específicos de dizeres que são tipicamente encontrados quando uma pessoa está pausando enquanto fala, isto é, os chamados enchimentos de pausa. Por exemplo, não é incomum para uma pessoa que recita um número de telefone, introduzir sons como uhh ou ummm entre os números. Dizeres deste tipo não fornecem qualquer compreensão adicional sobre se uma cadeia dada de dizeres numéricos foi terminada e assim compreende uma categoria de dizeres que devem ser ignoradas pelo processo de análise da fala quando da tentativa de reconhecer cadeias de dizeres numéricos. Por exemplo, os critérios de terminação poderiam ser estabelecidos tal que esses dizeres não contribuem para a métrica que estiver sendo utilizada para determinar quando uma cadeia de dizeres numéricos foi terminada.
[0026] Como foi descrito acima, o segmento de filtragem 304 ajuda a assegurar que apenas números de telefone são detectados e capturados. Ainda mais processamento é possível utilizando o segmento de aumento do padrão numéricos 306. Preferivelmente operando sobre os padrões numéricos filtrados 324 fornecidos pelo segmento de filtragem 304, o segmento de aumento 306 opera para terminar números de telefones parciais que poderão surgir quando, por exemplo, a pessoa que fala omite o código de área ou fornece apenas um número de extensão. Outros cenários de aumento poderão ser possíveis. Como o segmento de filtragem 304, o segmento de aumento 306 preferivelmente opera utilizando uma série de regras pré-configuradas ou definidas pelo usuário estabelecendo vários padrões para comparação em relação aos padrões numéricos detectados (e possivelmente filtrados). Se ocorrer o casamento de um
Petição 870170051476, de 21/07/2017, pág. 26/41
19/26 padrão de regra dado, um padrão numérico adicional poderá ser acrescentado ao padrão numérico sob consideração para completar mais inteiramente o padrão numérico, resultando em um padrão numérico aumentado 326. Alternativamente, a regra definida pelo usuário poderá especificar uma transformação tal que alguma parcela do padrão numérico é retida e outra parcela do padrão numérico é desconsiderada.
[0027] Por exemplo, no caso de códigos de área, o segmento de aumento poderá comparar 7 padrões numéricos de dígitos para determinar se certos códigos de área poderiam ser pré-pendentes. Para este fim, o segmento de aumento 306 poderá incluir mapeamentos (quer pré-configurados ou definidos pelo usuário) de certos prefixos que ocorrem dentro de cadeias de comprimentos designados (isto é, os primeiros três dígitos de um número de telefone de 7 dígitos) provavelmente refere-se a códigos de área. Por exemplo, uma regra poderá ser estabelecida que padrões numéricos de sete dígitos da forma 576xxx são candidatos adequados para pré-pender o código de área 847 enquanto padrões numéricos de comprimentos diferentes mas também iniciados com 576 poderão ser aumentados de uma maneira diferente de acordo com outra regra. Como uma extensão deste conceito, é conhecido que certos prefixos de telefone poderão ser abreviados no caso de terminais privados. Por exemplo, grandes empresas poderão ter uma ou mais instalações em que todos os números telefônicos de sete dígitos começam, quer com um prefixo 576 ou 523 (em ambos os casos supondo, por exemplo, um código de área 847). Nesses casos, os usuários poderão expressar seus números de telefone utilizando um padrão de cinco dígitos,
Petição 870170051476, de 21/07/2017, pág. 27/41
20/26 isto é, 6-1234 ou 3-1000. Os padrões de cinco números de dígitos (ou outros comprimentos como uma questão de opção de projeto) poderão ser aumentados ao pré-pender o código de área e números de prefixo apropriados, isto é, 6-1234 torna-se 847-567-1234 e 3-1000 torna-se 847523-1000. A Tabela 1 a seguir fornece uma lista mais abrangente de vários exemplos de regras de mapeamento do tipo descrito acima.
Tabela 1
Padrões numéricos Aumento
6xxxxx 847-576xxxx
3xxxx 847-523xxxx
4xxxx 815-884xxxx
653xxxx 919-653xxxx
482xxxx 919-482xxxx
2xx 919-653-12xx [0028] Poderá ser o caso que, em certos casos, mais de um código de área ou outro padrão numérico adicional poderia ser apensado para um padrão numérico detectado. Uma solução para este problema é não permitir regras conflitantes que mapeiam padrões numéricos dados para resultados de aumento diferentes. Preferivelmente, quando existir mais de uma possibilidade de aumento, ambos os resultados são fornecidos e posteriormente apresentados ao usuário como opções a serem escolhidas. Esta mesma técnica também poderia ser utilizada no caso em que um padrão numérico possui múltiplas interpretações possíveis (isto é, resolver ambigüidades nos padrões numéricos detectados) que casam com regras múltiplas.
[0029] O segmento de aumento 306 também poderá levar em
Petição 870170051476, de 21/07/2017, pág. 28/41
21/26 conta a localização da operação ou a área de registro da unidade móvel quando da aplicação das regras de aumento. Por exemplo, quando nos Estados Unidos, as regras de aumento poderão incluir apensar um 1 como o primeiro dígito do padrão numérico aumentado para códigos de área fora do código de área onde o dispositivo móvel está localizado ou registrado. De modo inverso, quando operar fora dos Estados Unidos, diferentes códigos de acesso poderão ser apensados como de acordo com as convenções locais.
[0030] Os padrões numéricos detectados (e possivelmente filtrados e aumentados) são armazenados através de um segmento de armazenamento de padrões numéricos detectados 308. Em uma versão preferida, o segmento de armazenamento de padrões numéricos detectados 308 mantém uma lista dos padrões numéricos N mais recentemente detectados em um dispositivo de armazenamento adequado, em que N é configurável pelo usuário e limitado apenas pela quantidade de memória disponível. Adicionalmente, o segmento de armazenamento 308 poderá operar para armazenar partes do fluxo de áudio 330 em um dispositivo de armazenamento adequado. Como é mostrado, um segmento de captura do fluxo de áudio 312 é fornecido que roteia o fluxo de áudio 330 para uma memória provisória circular, implementada pelo segmento de armazenamento 308, que continuamente armazena os últimos M segundos do fluxo de áudio 330. Ao ouvir a ocorrência de um número de telefone (através da reapresentação do fluxo de áudio não mostrado) o usuário do dispositivo móvel fornece uma instrução ao segmento de captura do fluxo de áudio 312. Em resposta, o segmento de
Petição 870170051476, de 21/07/2017, pág. 29/41
22/26 captura do fluxo de áudio 312 instrui (não mostrado) o segmento de armazenamento 308 para congelar a memória provisória circular em seu estado atual. Ao projetar o comprimento da memória provisória para dar conta dos comprimentos médios de tempo que levaria o usuário para ouvir um número e entrar com a instrução necessária, é possível assegurar que a parte do fluxo de áudio que contém o número de telefone estará presente na memória provisória. Se desejado, o conteúdo da memória provisória agora congelada poderá ser armazenado em memória persistente em outro local tal que a memória provisória circular poderá continuar a ser atualizada. O número de partes de áudio que poderão ser capturadas desta maneira, bem como as durações individuais e as durações cumulativas de tais partes capturadas, é necessariamente limitado pela quantidade disponível de espaço de armazenamento adequado. Ademais, a maneira em que esses tipos de instruções são entrados pelo usuário é limitado apenas pela disponibilidade de dispositivos de entrada adequados (por exemplo, outros dispositivos de entrada/saída 212).
[0031] Em uma versão da presente invenção, a parte do fluxo de áudio 330 armazenada desta maneira pode ser fornecida para o segmento de análise da fala 302 pelo segmento de armazenamento 308 (indicado pela linha serrilhada) para análise conforme descrito acima. Neste caso, o fluxo de áudio 320 não tem de ser continuamente fornecido ao segmento de análise 302. Em vez disso, apenas aquelas partes do fluxo de áudio que são consideradas relevantes pelo usuário são fornecidas para o segmento de análise da fala 302 quando necessário.
Petição 870170051476, de 21/07/2017, pág. 30/41
23/26 [0032] Quando pelo menos um padrão numérico (e, opcionalmente, pelo menos uma parte correspondente de um fluxo de áudio) é armazenado, o segmento de apresentação do número detectado 310 poderá ser empregado. Em uma versão, o segmento de apresentação 310 acessa a lista numérica detectados mantidos pelo segmento de armazenamento 308 e torna os números detectados visíveis através de um dispositivo de exibição adequado (por exemplo, a tela 204). O segmento de apresentação 310 preferivelmente exibe a lista em resposta a uma instrução recebida do usuário, embora a lista poderia ser exibida automaticamente em ocasiões convenientes, por exemplo, na conclusão da chamada atualmente em andamento. Em uma veia similar, o segmento de apresentação do fluxo de áudio 316 faz com que as partes armazenadas dos fluxos de áudio 330 sejam tornadas audíveis. Em uma versão, os padrões numéricos detectados individuais a serem exibidos poderão ter um indicador (como um ícone, símbolo gráfico, etc.) nele exibido, o indicador sendo representativo de uma parte armazenada de um fluxo de áudio que corresponde àquele padrão numérico detectado. Ao selecionar o indicador (por exemplo, ao pressionar um botão, uma tecla suave, uma região da tela de toque, etc., associada aos indícios), a parte do fluxo de áudio 330 associada ao padrão numérico detectado é tornada audível pelo segmento de apresentação do fluxo de áudio 316 tal que o usuário pode rapidamente verificar a precisão do padrão numérico detectado. Ademais, a parte do fluxo de áudio 330 poderá ser reproduzida de modo em laço contínuo tal que o usuário pode ouvir a parte múltiplas vezes quando da verificação da precisão do padrão numérico detectado.
Petição 870170051476, de 21/07/2017, pág. 31/41
24/26 [0033] Se o usuário determina que há erros em um padrão numérico detectado com base na tela, um segmento de edição 314 poderá ser empregado para entrar com edições 340 nos padrões numéricos exibidos. O segmento de edição 314 permite ao usuário selecionar um determinado padrão numérico exibido (por exemplo, ao destacar um padrão numérico exibido particular) e editar o padrão numérico, cujas edições 340 são fornecidas ao segmento de armazenamento 308 para atualizar o padrão numérico armazenado correspondente. Técnicas para aceitar edições aos números exibidos em dispositivos móveis são bem conhecidas na tecnologia. Adicionalmente, o segmento de edição 314 poderá fornecer a opção para o usuário transferir um padrão numérico exibido (editado ou não) para o armazenamento persistente. Mais uma vez, qualquer mecanismo de entrada convencional poderá ser empregado (por exemplo, um botão, um menu suspenso, uma tecla suave, etc.) para permitir ao usuário indicar o desejo de transferir um padrão numérico para a memória persistente.
[0034] Com referência agora à Figura 4, é fornecido um fluxograma de acordo com uma versão preferida da presente invenção. O processo ilustrado pelo fluxograma da Figura 4 poderá ser implementado pelos segmentos de código descritos acima conforme implementados dentro de um dispositivo móvel. No bloco 402, um fluxo de áudio é varrido (através da análise da fala) para a ocorrência de padrões de fala relacionados com números de telefone. Se as ocorrências satisfazem critérios de filtragem, no bloco 404, os padrões numéricos correspondentes às ocorrências são armazenados no bloco 406. Se possível, os padrões numéricos detectados são
Petição 870170051476, de 21/07/2017, pág. 32/41
25/26 aumentados no bloco 408 e daí em diante armazenados no bloco 410. Independentemente de se os padrões numéricos detectados foram aumentados, os padrões numéricos armazenados são apresentados ao usuário do dispositivo móvel no bloco 412 quer automaticamente ou em resposta a uma instrução recebida do usuário. Daí em diante, no bloco 414, o usuário poderá opcionalmente editar qualquer um dos padrões numéricos exibidos e fazer com que os selecionados dos padrões numéricos exibidos sejam persistentemente armazenados na memória ou chamados, como no caso do usuário selecionar o botão enviar comumente encontrado nos atuais telefones celulares.
[0035] A presente invenção fornece uma técnica para processar números de telefone que ocorrem em fluxos de áudio. Ao efetuar a análise de reconhecimento da fala em fluxos de áudio, são identificadas as ocorrências de padrões de fala relacionados ao número de telefone e os padrões numéricos detectados correspondentes são identificados. Técnicas de filtragem e de aumento poderão ser aplicadas aos padrões numéricos detectados para minimizar erros e assegurar a inteireza. Operações de edição e de captura/reprodução de partes correspondentes do fluxo de áudio são fornecidas para assegurar a precisão. Desta maneira, números de telefone poderão ser capturados de modo conveniente, e em segurança, para posterior utilização pelos usuários de dispositivos móveis.
[0036] Na especificação anterior, a invenção foi descrita com referência a versões específicas. No entanto, alguém de habilidade ordinária na tecnologia aprecia que várias modificações e mudanças podem ser feitas sem desviar
Petição 870170051476, de 21/07/2017, pág. 33/41
26/26 do escopo da presente invenção conforme estabelecida nas reivindicações abaixo. Assim, a especificação e as figuras devem ser consideradas em sentido ilustrativo e não em sentido restritivo, e todas essas modificações pretendem ser incluídas dentro do escopo da presente invenção.
[0037] Benefícios, outras vantagens, e soluções para problemas foram descritos acima com relação a versões específicas. No entanto, os benefícios, as vantagens, as soluções para problemas, e quaisquer elementos que poderão causar qualquer benefício, vantagem ou solução a ocorrer ou tornar-se mais pronunciados não devem ser consideradas como recursos ou elementos críticos, necessários ou essenciais de qualquer uma ou de todas as reivindicações. Como são aqui utilizados, os termos compreende, compreendendo, ou qualquer outra variação do mesmo, pretendem abranger uma inclusão não exclusiva, tal que um processo, método, artigo ou aparelho que compreende uma lista de elementos não inclua apenas aqueles elementos mas poderá incluir outros elementos não expressamente listados ou inerentes a tal processo, método, artigo ou aparelho.

Claims (7)

1/7
REIVINDICAÇÕES
1. Método para processar um número de telefone dentro de um fluxo de áudio, em um dispositivo de comunicação (102, 104), o método caracterizado pelo fato de compreender:
procurar, através de um segmento de análise de fala (302) do dispositivo de comunicação operando em um primeiro estado, por ocorrências de dizeres numéricos em um fluxo de áudio recebido por meio sem fio durante uma ligação até que o dizer numérico seja detectado;
em resposta à detecção de um dizer numérico, mudar o segmento de análise de fala para operar em um segundo estado;
no segundo estado, reconhecer, através do segmento de análise de fala, a ocorrência dos dizeres numéricos para estabelecer uma cadeia de dizeres numéricos;
identificar (402, 404) pelo menos um padrão numérico detectado correspondente à cadeia de dizeres numéricos;
armazenar (406) o pelo menos um padrão numérico detectado; e apresentar (412) o pelo menos um padrão numérico detectado a um usuário do dispositivo de comunicação (102, 104).
2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de ainda compreender:
determinar se uma cadeia de dizeres numéricos foi terminada; e em resposta a determinação de que uma cadeia de dizeres numéricos foi terminada, retornar o segmento de análise de fala para o primeiro estado para procurar por ocorrências
Petição 870170075374, de 05/10/2017, pág. 8/14
2/7 de dizeres numéricos.
3. Método, de acordo com a reivindicação 2, caracterizado pelo fato de que determinar se uma cadeia de dizeres numéricos foi terminada é baseada em pelo menos um dentre:
uma passagem de um comprimento de tempo entre detecções de um dizer numérico; e um número de dizeres não numéricos detectados após a detecção de um dizer numérico.
4. Método, de acordo com a reivindicação 1, caracterizado pelo fato de ainda compreender:
fornecer (408) um padrão numérico aumentado ao apensar
pelo menos um padrão numérico adicional ao pelo menos um padrão numérico detectado; e apresentar o padrão numérico aumentado (326) ao usuário. 5. Método, de acordo com a reivindicação 4,
caracterizado pelo fato de ainda compreender:
determinar o pelo menos um padrão numérico adicional com base em pelo menos um dentre: uma parte do padrão numérico detectado, um comprimento do padrão numérico detectado, a localização da operação do dispositivo de comunicação (102, 104) e uma área de registro do dispositivo de comunicação (102, 104).
6. Método, de acordo com a reivindicação 1, caracterizado pelo fato de ainda compreender: desconsiderar as ocorrências de dizeres com pausa de enchimento dentro do fluxo de áudio entre quaisquer duas das ocorrências. 7. Método, de acordo com a reivindicação 1,
Petição 870170075374, de 05/10/2017, pág. 9/14
3/7 caracterizado pelo fato de ainda compreender:
identificar ocorrências de um dizer de palavra chave dentro do fluxo de áudio próximo no tempo à cadeia de dizeres numéricos; e armazenar o pelo menos um padrão numérico detectado correspondente à cadeira de dizeres numéricos quando a cadeia de dizeres numéricos for próxima no tempo à ocorrência do dizer de palavra chave.
8. Método, de acordo com a reivindicação 1, caracterizado pelo fato de ainda compreender:
tornar o fluxo de áudio audível para o usuário;
fornecer uma parte armazenada do fluxo de áudio em resposta ao recebimento de uma instrução do usuário; e identificar ocorrências de pelo menos uma da pluralidade dos padrões de fala relacionados ao número de telefone na parte armazenada do fluxo de áudio.
9. Método, de acordo com a reivindicação 8, caracterizado pelo fato de ainda compreender:
apresentar a parte armazenada do fluxo de áudio substancialmente de modo simultâneo com o padrão numérico detectado. 10. Método, de acordo com a reivindicação 1,
caracterizado pelo fato de ainda compreender: armazenar persistentemente o padrão numérico detectado em resposta ao recebimento de uma instrução do usuário.
11. Método, de acordo com a reivindicação 1, caracterizado pelo fato de ainda compreender:
fornecer um padrão numérico editado em resposta a edições no pelo menos um padrão numérico detectado recebido do usuário; e
Petição 870170075374, de 05/10/2017, pág. 10/14
4/7 armazenar persistentemente o padrão numérico editado em resposta à instrução.
12. Dispositivo de comunicação sem fio (102, 104) compreendendo:
um processador (202);
uma tela (204) acoplada ao processador (202);
um dispositivo de armazenamento acoplado ao processador (202); e instruções executadas pelo processador armazenadas no dispositivo de armazenamento;
o dispositivo de comunicação sem fio caracterizado pelo fato de compreender ainda:
um receptor sem fio (210) acoplado ao processador, o receptor sem fio (210) para recebimento de um fluxo de áudio durante uma chamada;
as instruções executadas pelo processador incluindo um segmento de análise da fala (302) que é configurado para:
em um primeiro estado, procurar por ocorrências de dizeres numéricos no fluxo de áudio recebido até que um dizer numérico seja detectado;
em resposta à detecção de um dizer numérico, mudar para operar em um segundo estado;
no segundo estado, reconhecer a ocorrência de dizeres numéricos adicionais para estabelecer uma cadeia de dizeres numéricos;
identificar pelo menos um padrão numérico detectado correspondente à cadeia de dizeres numéricos;
as instruções executadas pelo processador incluindo um segmento de armazenamento (308) do padrão numérico detectado que é configurado para armazenar pelo menos um
Petição 870170075374, de 05/10/2017, pág. 11/14
5/7 padrão numérico detectado; e as instruções executadas pelo processador incluindo um segmento de apresentação (310) do padrão numérico detectado para apresentação do pelo menos um padrão numérico detectado através da tela (204).
13. Dispositivo de comunicação sem fio, de acordo com a reivindicação 12, caracterizado pelo fato de que as instruções executadas pelo processador são configuradas para:
determinar se uma cadeia de dizeres numéricos foi terminada; e em resposta a determinação de que uma cadeia de dizeres numéricos foi terminada, retornar o segmento de análise de fala (302) para o primeiro estado para procurar por ocorrências de dizeres numéricos.
14. Dispositivo de comunicação sem fio, de acordo com a reivindicação 13, caracterizado pelo fato de que as instruções executadas pelo processador são configuradas para determinar se uma cadeia de dizeres numéricos foi terminada baseado em pelo menos um dentre:
uma passagem de um comprimento de tempo entre detecções de um dizer numérico; e um número de dizeres não numéricos detectados após a detecção de um dizer numérico.
15. Dispositivo de comunicação sem fio, de acordo com a reivindicação 12, caracterizado pelo fato das instruções executadas pelo processador incluírem um segmento de aumento do padrão numérico que é configurado para anexar pelo menos um padrão numérico adicional ao pelo menos um padrão numérico detectado;
Petição 870170075374, de 05/10/2017, pág. 12/14
6/7 em que o segmento de apresentação do padrão numérico detectado apresenta um padrão numérico aumentado (326) fornecido pelo segmento de aumento de padrão numérico.
16. Dispositivo de comunicação sem fio, de acordo com a reivindicação 12, caracterizado pelo fato das instruções executadas pelo processador incluírem um segmento de detecção de dizeres de palavra chave que é configurado para identificar as ocorrências de um dizer de palavra chave, em que o segmento de armazenamento (308) de padrão numérico detectado é configurado para armazenar o pelo menos um padrão numérico detectado que corresponde à cadeia de dizeres numéricos quando a cadeia de dizeres numéricos for próxima no tempo à ocorrência do dizer de palavra chave.
17. Dispositivo de comunicação sem fio, de acordo com a reivindicação 12, caracterizado pelo fato de ainda compreender:
um dispositivo de entrada de instrução atuado pelo usuário (212) acoplado ao processador (202);
as instruções executadas pelo processador incluindo um segmento de captura (312) do fluxo de áudio em reação a uma instrução do dispositivo de entrada de instrução atuada pelo usuário;
em que o segmento de análise da fala (302) é configurado para operar sobre uma parte do fluxo de áudio armazenado fornecido pelo segmento de captura do fluxo de áudio.
18. Dispositivo de comunicação sem fio, de acordo com a reivindicação 17, caracterizado pelo fato de ainda compreender:
um alto falante (212), acoplado ao processador (202);
Petição 870170075374, de 05/10/2017, pág. 13/14
7/7 as instruções executadas pelo processador incluindo um segmento de apresentação de parte do fluxo de áudio armazenado;
o segmento de apresentação de número detectado (316) é configurado para apresentar o pelo menos um padrão numérico detectado através da tela (204) substancialmente de modo simultâneo com o segmento de apresentação do fluxo de áudio armazenado que apresenta a parte do fluxo de áudio armazenado através do alto falante (212).
BRPI0313706-6A 2002-09-10 2003-09-03 Método para processar um número de telefone dentro de um fluxo de áudio, e dispositivo de comunicação sem fio BRPI0313706B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/238.559 2002-09-10
US10/238,559 US7174191B2 (en) 2002-09-10 2002-09-10 Processing of telephone numbers in audio streams
PCT/US2003/027783 WO2004025931A1 (en) 2002-09-10 2003-09-03 Processing of telephone numbers in audio streams

Publications (1)

Publication Number Publication Date
BRPI0313706B1 true BRPI0313706B1 (pt) 2019-10-08

Family

ID=31990999

Family Applications (2)

Application Number Title Priority Date Filing Date
BR0313706-6A BR0313706A (pt) 2002-09-10 2003-09-03 Método para processar um número de telefone dentro de um fluxo de áudio, e dispositivo de comunicação sem fio
BRPI0313706-6A BRPI0313706B1 (pt) 2002-09-10 2003-09-03 Método para processar um número de telefone dentro de um fluxo de áudio, e dispositivo de comunicação sem fio

Family Applications Before (1)

Application Number Title Priority Date Filing Date
BR0313706-6A BR0313706A (pt) 2002-09-10 2003-09-03 Método para processar um número de telefone dentro de um fluxo de áudio, e dispositivo de comunicação sem fio

Country Status (7)

Country Link
US (1) US7174191B2 (pt)
EP (2) EP1540924B1 (pt)
CN (1) CN1682518A (pt)
AU (1) AU2003263088A1 (pt)
BR (2) BR0313706A (pt)
RU (1) RU2374780C2 (pt)
WO (1) WO2004025931A1 (pt)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7979279B1 (en) * 2003-07-17 2011-07-12 At&T Intellectual Property I, Lp System and method for monitoring communications
KR100595610B1 (ko) * 2003-10-29 2006-06-30 엘지전자 주식회사 전화번호 안내 방법 및 장치
DE502004005197D1 (de) * 2004-05-11 2007-11-22 Tektronix Int Sales Gmbh Protokolltester zur Durchführung und Verfahren zur Implementierung einer Testaufgabe
JP4367233B2 (ja) * 2004-05-21 2009-11-18 株式会社日立製作所 位置検出方法、位置検出システムおよび位置検出サーバ装置
KR100605959B1 (ko) * 2004-06-21 2006-08-02 삼성전자주식회사 음성을 이용한 번호입력방법
US8135390B2 (en) * 2005-07-21 2012-03-13 Xcellasave, Inc. Method for advertising on digital cellular telephones and reducing costs to the end user
US7251476B2 (en) * 2004-11-01 2007-07-31 Xcellasave, Inc. Method for advertising on digital cellular telephones and reducing costs to the end user
US7251478B2 (en) * 2004-11-01 2007-07-31 Xcellasave, Inc. Method for advertising on digital cellular telephones and reducing costs to the end user
US20070165609A1 (en) * 2005-01-26 2007-07-19 David Corvoysier Method of establising calls between a telephone terminal and an ip terminal
JP4570509B2 (ja) * 2005-04-22 2010-10-27 富士通株式会社 読み生成装置、読み生成方法及びコンピュータプログラム
US20060270465A1 (en) * 2005-05-31 2006-11-30 Matthew Lee Wireless microphone for public safety use
US7606856B2 (en) * 2005-11-09 2009-10-20 Scenera Technologies, Llc Methods, systems, and computer program products for presenting topical information referenced during a communication
US20070112571A1 (en) * 2005-11-11 2007-05-17 Murugappan Thirugnana Speech recognition at a mobile terminal
US8374316B2 (en) * 2007-08-28 2013-02-12 International Business Machines Corporation System for recording spoken phone numbers during a voice call
WO2010111144A1 (en) * 2009-03-24 2010-09-30 Research In Motion Limited System and method for providing a circuit switched domain number
US8935737B2 (en) 2009-12-10 2015-01-13 At&T Intellectual Property I, Lp Apparatus and method for managing voice communications
US8869195B2 (en) * 2009-12-10 2014-10-21 At&T Intellectual Property I, L.P. Apparatus and method for managing voice communications
US10395672B2 (en) 2012-05-31 2019-08-27 Elwha Llc Methods and systems for managing adaptation data
US10431235B2 (en) * 2012-05-31 2019-10-01 Elwha Llc Methods and systems for speech adaptation data
JP5242856B1 (ja) * 2012-07-06 2013-07-24 株式会社メディアシーク 音楽再生プログラム及び音楽再生システム
US10163455B2 (en) * 2013-12-03 2018-12-25 Lenovo (Singapore) Pte. Ltd. Detecting pause in audible input to device
CN106303099B (zh) * 2015-05-12 2019-06-21 中国移动通信集团公司 一种验证用户通信号码有效性的方法、装置及系统

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4959850A (en) * 1987-05-29 1990-09-25 Kabushiki Kaisha Toshiba Radio telephone apparatus
JP2980420B2 (ja) * 1991-07-26 1999-11-22 富士通株式会社 動的計画法照合装置
US5504805A (en) * 1993-04-05 1996-04-02 At&T Corp. Calling number identification using speech recognition
US5651056A (en) * 1995-07-13 1997-07-22 Eting; Leon Apparatus and methods for conveying telephone numbers and other information via communication devices
US5797098A (en) * 1995-07-19 1998-08-18 Pacific Communication Sciences, Inc. User interface for cellular telephone
WO1997007498A1 (fr) * 1995-08-11 1997-02-27 Fujitsu Limited Unite de traitement des signaux vocaux
US5719921A (en) * 1996-02-29 1998-02-17 Nynex Science & Technology Methods and apparatus for activating telephone services in response to speech
US6178338B1 (en) * 1997-04-28 2001-01-23 Sony Corporation Communication terminal apparatus and method for selecting options using a dial shuttle
US6580917B1 (en) * 1997-05-27 2003-06-17 Siemens Aktiengesellschaft Mobile station for use in mobile radio systems
US6396906B1 (en) * 1997-09-25 2002-05-28 At&T Corp. Telephone answering system that automatically calls back a caller who has left a message
CA2328278C (en) * 1998-04-14 2010-11-16 Robert J. Yamartino Telephone number area code preprocessor
US6408176B1 (en) * 1998-07-13 2002-06-18 Motorola, Inc. Method and apparatus for initiating a communication in a communication system
JP2000196730A (ja) * 1998-12-25 2000-07-14 Nec Saitama Ltd 無線通信機
US6570964B1 (en) * 1999-04-16 2003-05-27 Nuance Communications Technique for recognizing telephone numbers and other spoken information embedded in voice messages stored in a voice messaging system
US6567506B1 (en) * 1999-12-02 2003-05-20 Agere Systems Inc. Telephone number recognition of spoken telephone number in a voice message stored in a voice messaging system
US6735457B1 (en) * 1999-12-23 2004-05-11 Bellsouth Intellectual Property Corporation Automatic number capture
GB0008383D0 (en) * 2000-04-05 2000-05-24 Sontora Limited System and method for providing an internet audio stream to a wap mobile telephone or the like over a computer nrework
US6954657B2 (en) * 2000-06-30 2005-10-11 Texas Instruments Incorporated Wireless communication device having intelligent alerting system
US6529586B1 (en) * 2000-08-31 2003-03-04 Oracle Cable, Inc. System and method for gathering, personalized rendering, and secure telephonic transmission of audio data
AU2002215971A1 (en) * 2000-10-28 2002-05-06 Web.De Ag Computerised device, method for operating a computerised device and computer program product
US20020076009A1 (en) * 2000-12-15 2002-06-20 Denenberg Lawrence A. International dialing using spoken commands
US7386000B2 (en) * 2001-04-17 2008-06-10 Nokia Corporation Packet mode speech communication
US6801604B2 (en) * 2001-06-25 2004-10-05 International Business Machines Corporation Universal IP-based and scalable architectures across conversational applications using web services for speech and audio processing resources
US7012999B2 (en) * 2001-06-25 2006-03-14 Bellsouth Intellectual Property Corporation Audio caller identification
US20030078081A1 (en) * 2001-10-19 2003-04-24 Schmier Kenneth J. Call announcement system and method
US6950799B2 (en) * 2002-02-19 2005-09-27 Qualcomm Inc. Speech converter utilizing preprogrammed voice profiles
US8170197B2 (en) * 2002-03-15 2012-05-01 Intellisist, Inc. System and method for providing automated call center post-call processing

Also Published As

Publication number Publication date
US7174191B2 (en) 2007-02-06
EP1540924A1 (en) 2005-06-15
WO2004025931A1 (en) 2004-03-25
CN1682518A (zh) 2005-10-12
RU2374780C2 (ru) 2009-11-27
EP2383963A1 (en) 2011-11-02
EP1540924B1 (en) 2017-06-14
EP1540924A4 (en) 2009-04-01
EP2383963B1 (en) 2018-11-14
US20040048636A1 (en) 2004-03-11
RU2005110662A (ru) 2005-09-10
BR0313706A (pt) 2005-06-28
AU2003263088A1 (en) 2004-04-30

Similar Documents

Publication Publication Date Title
BRPI0313706B1 (pt) Método para processar um número de telefone dentro de um fluxo de áudio, e dispositivo de comunicação sem fio
KR100232873B1 (ko) 음성인식처리용 메모리를 가지는 휴대용 전화기
US7980465B2 (en) Hands free contact database information entry at a communication device
JP3168033B2 (ja) 音声テレフォン・ダイヤリング
GB2353887A (en) Speech recognition system
BR0005535A (pt) Método e sistema de operação de telefoneportátil por reconhecimento de voz
JP2008015439A (ja) 音声認識システム
CN111325039B (zh) 基于实时通话的语言翻译方法、系统、程序和手持终端
US20010049599A1 (en) Tone and speech recognition in communications systems
WO2001008384A1 (fr) Telephone cellulaire
CN102651784A (zh) 联系人身份验证系统及方法
EP1315146A2 (en) Method and apparatus for improving access to numerical information in voice messages
Johnston Telephony based speech technology—From laboratory visions to customer applications
KR100724848B1 (ko) 휴대 단말에서 입력 문자 실시간 낭독방법
JPH11261683A (ja) 電話装置、プログラムを記録した記録媒体及びデータを記録した記録媒体
KR100462042B1 (ko) 이동 통신망을 이용한 메시지를 전송하는 방법 및 시스템
KR100260752B1 (ko) 그룹별 음성 등록 및 인식이 가능한 휴대용전화기 및 그 제어방법
KR100842599B1 (ko) 휴대단말기의 발신 방법
CN111274828A (zh) 基于留言的语言翻译方法、系统、计算机程序和手持终端
KR20010008753A (ko) 음성인식을 통한 휴대폰의 비밀번호 인식방법
JP2002290536A (ja) 携帯端末での電話番号登録方法
KR20000018942A (ko) 음성인식 디지털 휴대용 전화기에서 폰북 검색 방법
KR100277066B1 (ko) 음성인식기능을가지는통신단말기에서기능음성제어방법
TWI492604B (zh) 具有來電提示功能的通訊裝置及其來電提示方法
JPH04951A (ja) 音声ダイヤル装置