BRPI0713987A2

BRPI0713987A2 - processo e dispositivo para o reconhecimento da voz natural em uma manifestaÇço de voz

Info

Publication number: BRPI0713987A2
Application number: BRPI0713987-0A
Authority: BR
Inventors: Ekkhard Hayn
Original assignee: Deutsche Telekom Ag
Priority date: 2006-06-27
Filing date: 2007-06-14
Publication date: 2012-11-20
Also published as: CA2656114C; WO2008000353A1; US9208787B2; CA2656114A1; CN101484934A; EP2036078A1; RU2009102507A; KR20090033459A; CN101484934B; US20100114577A1; RU2432623C2; DE102006029755A1

Abstract

PROCESSO E DISPOSITIVO PARA O RECONHECIMENTO DA VOZ NATURAL EM UMA MANIFESTAÇçO DE VOZ. A presente invenção refere-se a um processo e um dispositivo para o reconhecimento da voz natural e uma manifestação de voz. Uma manifestação de voz de uma pessoa é captada e transformada em um sinal de voz a ser processado por um dispositivo de reconhecimento de voz. Depois, é feita a análise do sinal de voz, de modo paralelo ou sequencial, em vários ramos de reconhecimento de voz do dispositivo de reconhecimento de voz, sob o uso de várias gramáticas, sendo que o processo de reconhecimento é terminado com êxito caso a análise do sinal de voz em pelo menos um ramo de reconhecimento de voz fornece um resultado de reconhecimento positivo.

Description

Relatório Descritivo da Patente de Invenção para "PROCESSO E DISPOSITIVO PARA O RECONHECIMENTO DA VOZ NATURAL EM UMA MANIFESTAÇÃO DE VOZ".

A presente invenção refere-se a um processo e a um dispositivo para o reconhecimento da voz natural em uma manifestação de voz, especi- almente na base de um sistema de reconhecimento de voz que pode ser executado, por exemplo, em um sistema de processamento de dados eletrô- nico.

Sistemas de reconhecimento de voz são previstos para serem usados em diversas áreas de aplicação. Por exemplo, sistemas de reconhe- cimento de voz são usados no contexto de aplicações de escritórios para a captação de textos ou junto com equipamentos técnicos, para seu controle e entrada de comandos. Sistemas de reconhecimento de voz também são u- sados para controlar equipamentos de informações e comunicação, tais co- mo por exemplo, rádio, telefone celular e sistemas de navegação. As firmas usam os sistemas de diálogo de voz também para atendimento e informação de clientes que também são baseados em sistemas de reconhecimento de voz. O presente pedido de patente refere-se a estes últimos.

Nisso, no reconhecimento de voz automático para a avaliação de seqüências de palavras, são usados os chamados modelos de voz que se baseiam em regras gramaticais, também denominado de gramática. As gramáticas definem regras de sintaxe claras. Sistemas de reconhecimento de voz baseados em gramáticas possuem uma alta segurança de reconhe- cimento.

Especialmente no atendimento aos clientes na área técnica, por

exemplo, no contexto de telefones celulares e tarifas, são exigidos sistemas de reconhecimento de voz cada vez mais eficientes. A fim de entender as numerosas manifestações dos clientes, são necessárias gramáticas muito complexas, cuja extensão se torna um prejuízo para a segurança de reco- nhecimento.

Cada processo de reconhecimento de voz automatizado é base- ado na comparação de uma manifestação de chamada concreta com pala- vras ou expressões depositadas. Somente em caso de uma coincidência, uma manifestação vale como sendo reconhecida e pode disparar uma de- terminada ação. Porém, disso resulta um "dilema de gramática". Gramáticas pequenas possuem um escopo de reconhecimento pequeno, mas em con- trapartida, uma segurança de reconhecimento maior. Gramáticas grandes, por outro lado, cobrem um grande espectro de manifestações, a etapa que a segurança de reconhecimento diminui.

A presente invenção tem a tarefa de realizar um processo de reconhecimento de voz e um sistema de reconhecimento de voz com um grande escopo de reconhecimento e com um escopo pequeno de gramática. Isto significa, procura-se um modelo de gramática que aproveita os aspectos positivos de gramáticas grandes e pequenas, sem ter seus aspectos negati- vos.

De acordo com a presente invenção, esta tarefa é solucionada com a ajuda de um processo e um dispositivo com as características das reivindicações independentes.

Realizações preferidas e outras características vantajosas da presente invenção são evidentes das sub-reivindicações.

O processo de acordo com a presente invenção baseia-se na determinação de uma manifestação de voz de uma pessoa e transformação em um sinal de voz a ser processado por um dispositivo de reconhecimento de voz, na análise do sinal de voz, paralela ou seqüencial em vários ramos de reconhecimento de voz, sob o uso de várias gramáticas, e no término bem-sucedido do processo de reconhecimento, caso a análise do sinal de voz em pelo menos um ramo de reconhecimento de voz fornece um resulta- do de reconhecimento positivo.

Em uma primeira realização da presente invenção ocorre uma análise simultânea da manifestação de voz através de duas ou várias gra- máticas independentes. Neste caso, através da manifestação de voz de uma pessoa, são disparados dois ou vários processos de reconhecimento simul- tâneos que analisam e avaliam a manifestação de voz independentemente um do outro. Por exemplo, no caso, uma gramática principal relativamente pequena com um pequeno escopo de reconhecimento é colocada lado a lado com uma gramática secundária mais ampla, com um escopo de reco- nhecimento ampliado. Ambas as gramáticas estão sem uma interseção co- mum.

Uma segunda realização da presente invenção refere-se a uma cascada de gramáticas. No caso deste modelo, diferentes gramáticas são usadas sucessivamente, isto é, seqüencialmente. No momento em que uma gramática fornece um resultado de reconhecimento, a cascada é deixada e o processo de reconhecimento começa. Neste processo, 100 % de todas as manifestações a serem reconhecidas são comparadas com a primeira gra- mática. Dependendo da capacidade e configuração dessa gramática, uma fração de, por exemplo, 20 % de manifestações não reconhecidas são trans- feridas para uma segunda fase de reconhecimento. Caso seja feita uma ter- ceira fase de reconhecimento, pode se partir do fato de que uma fração de, por exemplo, 5 % de todas as manifestações que entram alcançam esta ter- ceira fase de reconhecimento.

Em ambos os processos de reconhecimento pretende-se cobrir um espectro amplo de manifestações com várias gramáticas "menores", que em combinação garantem assim mesmo uma grande segurança de reco- nhecimento. Isto pode acontecer, conforme é descrito acima, na forma de um processo de reconhecimento simultâneo ou sucessivo.

Os dois exemplos de execução preferidos da presente invenção serão descritos a seguir com a ajuda dos desenhos.

A figura 1 mostra de modo esquemático uma primeira realização do sistema de reconhecimento de voz com ramos de reconhecimento de voz trabalhando paralelamente.

A figura 2 mostra de modo esquemático uma segunda realização do sistema de reconhecimento de voz com ramos de reconhecimento de voz trabalhando em seqüência, em cascada.

De acordo com a figura 1, uma manifestação de voz de uma pessoa que está disponível como sinal de voz 10 é levada simultaneamente a dois ramos de reconhecimento de voz e analisada por duas gramáticas 12 e 14 (Gramática A e gramática B). As duas gramáticas 12, 14 não têm ne- nhuma interseção comum, isto é, elas se baseiam em regras diferentes. De- vido ao processamento paralelo do sinal de voz aumenta o dispêndio de análise e, com isso, a carga de computador necessária na aplicação do pro- cesso em um computador. Porém, esta circunstância é compensada pelo reconhecimento mais rápido e pela segurança de reconhecimento conside- ravelmente melhor.

Uma comparação 16 do sinal de voz com a gramática (A) 12 ou produz um resultado de reconhecimento positivo (sim) ou um resultado de reconhecimento negativo (não). Do mesmo modo, uma comparação 18 do sinal de voz com a gramática (B) 14 ou produz um resultado de reconheci- mento positivo (sim) ou um resultado de reconhecimento negativo (não).

No escopo do processo de reconhecimento com as gramáticas .12, 14 trabalhando simultaneamente, resultam quatro casos de reconheci- mento possíveis que podem ser avaliados com processos diferentes por meio de uma lógica 20.

<table>table see original document page 5</column></row><table>

Os casos de reconhecimento 1 a 3 não são problemáticos, pois eles fornecem resultados claros: o caso 1 força um não-reconhecimento do sinal de voz e, portanto, uma recusa, posição 24. Os casos 2 e 3 indicam apenas cada vez um resultado positivo e com isso mostram claramente um reconhecimento do sinal de voz, posição 22.

Para o caso 4, onde as duas gramáticas 12, 14 reconheceram o sinal de voz 10, em contrapartida, precisa ser implementada uma lógica de processo especial, já que o resultado não é claro. Esta pode decidir rigida- mente em favor da gramática 12, ser orientada na segurança de reconheci- mento (nível de confiança), ou ser uma forma mista dos dois (por exemplo, resultado de gramática 14 somente é usada quando a segurança de reco- nhecimento é maior por um determinado valor predefinido do que na gramá- tica 12).

No lugar de dois ramos de reconhecimento de voz paralelos, de acordo com a presente invenção, também podem ser previstos três ou mais ramos de reconhecimento de voz trabalhando paralelamente.

A figura 2 mostra uma outra configuração preferida da presente invenção. Aqui, várias gramáticas 12, 14 e 26 (gramáticas A, B e C) são li- gadas entre si seqüencialmente na forma de uma cascada. Isto é, na casca- da de gramática, as diversas gramáticas 12, 14 e 26 não são ativadas simul- taneamente, e sim sucessivamente. De modo esquemático, o processo de reconhecimento pode ser apresentado como segue: no momento quando uma gramática fornece um resultado de reconhecimento positivo, a cascada é abandonada e o processo de reconhecimento terminou, posição 22.

O sinal de voz 10 é primeiro conduzido para uma primeira gra- mática (A) 12 e lá é analisado. Uma comparação 16 do sinal de voz com a gramática (A) 12, ou produz um resultado de reconhecimento positivo (sim), quando o processo de reconhecimento é terminado com sucesso, ou um resultado de reconhecimento negativo (não), onde o sinal de voz segue para uma outra análise, é conduzido a uma segunda gramática (B) 14. Uma com- paração 18 do sinal de voz 10 com a segunda gramática (B) 14 ou produz um resultado de reconhecimento positivo (sim), onde o processo de reco- nhecimento termina com sucesso, ou um resultado de reconhecimento nega- tivo (não), onde o sinal de voz vai para uma outra análise e é conduzido a uma terceira gramática (C) 26. Uma comparação 28 do sinal de voz com a terceira gramática (C) 26, ou produz um resultado de reconhecimento positi- vo (sim) onde o processo de reconhecimento termina com sucesso, ou um resultado de reconhecimento negativo (não), onde o sinal de voz é recusado como não reconhecido, posição 24.

Neste processo, primeiro 100 % de todos os sinais de voz 10 que entram são comparados com a primeira gramática 12. Dependendo da capacidade e configuração dessa gramática, uma parte das manifestações de voz não é reconhecida. Estes sinais de voz não reconhecidos são então conduzidos à segunda fase de reconhecimento. Dependendo da capacidade e configuração da segunda fase de reconhecimento, outra vez uma parte das manifestações de voz não é reconhecida. Estes sinais de voz não reco- nhecidos são transferidos para a terceira fase de reconhecimento.

A preferência da cascada de gramáticas em relação ao processo do reconhecimento simulado através de várias gramáticas está no fato de que não há nenhuma carga adicional para o computador, já que o sinal de voz 10 a qualquer momento somente é comparado com uma gramática. De- vido ao reconhecimento sucessivo, porém, necessariamente ocorrerá um aumento dos tempos latentes no sistema.

No lugar de três ramos de reconhecimento de voz em cascada, de acordo com a presente invenção, também podem ser previstos quatro ou mais ramos de reconhecimento de voz que trabalham seqüencialmente.

LISTAGEM DE REFERÊNCIAS

10 Sinal de voz

12 Gramática A

20 14 Gramática B

18 Ramo A

20 Ramo B

22 Reconhecimento bem-sucedido

24 Reconhecimento sem sucesso

25 26 Gramática C

28 Ramo C

Claims

1. Processo para o reconhecimento da voz natural em uma ma- nifestação de voz, com as etapas: - captação da manifestação de voz e transformação em um sinal de voz (10) a ser processado por um dispositivo de reconhecimento de voz; - análise do sinal de voz (10), de modo paralelo ou seqüencial, em vários ramos de reconhecimento de voz do dispositivo de reconhecimen- to de voz sob o uso de várias gramáticas (12, 14, 26); e - término bem-sucedido do processo de reconhecimento da ma- nifestação de voz, caso a análise do sinal de voz forneça um resultado posi- tivo em pelo menos um ramo de reconhecimento de voz.

2. Processo, de acordo com a reivindicação 1, caracterizado pe- las etapas: (a) levar o sinal de voz (10) a pelo menos um primeiro ramo de reconhecimento de voz compreendendo uma primeira gramática (12) para a análise do sinal de voz, e ao mesmo tempo para um segundo ramo de reco- nhecimento de voz, compreendendo uma segunda gramática (14), para a análise do sinal de voz; (b) análise do sinal de voz por uma primeira gramática (12), sen- do que em caso de reconhecimento da manifestação de voz é gerado um primeiro resultado de reconhecimento positivo, e no caso de não- reconhecimento da manifestação de voz, é gerado um primeiro resultado de reconhecimento negativo; (c) análise do sinal de voz pela segunda gramática (14), sendo que em caso de um reconhecimento da manifestação de voz é gerado um segundo resultado de reconhecimento positivo, e no caso de um não- reconhecimento da manifestação de voz, é gerado um segundo resultado de reconhecimento negativo; (d) decisão sobre o reconhecimento bem-sucedido da manifes- tação de voz com a ajuda de uma avaliação do primeiro e do segundo resul- tado de reconhecimento.

3. Processo, de acordo com a reivindicação 1, caracterizado pe- las etapas: (a) levar o sinal de voz (10) a um primeiro ramo de reconheci- mento de voz compreendendo uma primeira gramática (12), para a análise do sinal de voz; (b) análise do sinal de voz (10) pela primeira gramática (12), sendo que em caso de reconhecimento da manifestação de voz é gerado um primeiro resultado de reconhecimento positivo, e o processo de reconheci- mento é terminado, e em caso de um não reconhecimento da manifestação de voz é gerado um primeiro resultado de reconhecimento negativo, (c) sendo que em caso de um resultado de reconhecimento ne- gativo o sinal de voz é conduzido para um outro ramo de reconhecimento de voz compreendendo uma outra gramática (14); (d) Análise do sinal de voz (10) pela outra gramática (14), sendo que em caso de um reconhecimento da manifestação de voz é gerado um resultado de reconhecimento positivo, e o processo de reconhecimento é terminado, e em caso de um não-reconhecimento da manifestação da voz é gerado um resultado de reconhecimento negativo; e (e) sendo que em caso de um resultado de reconhecimento ne- gativo é continuado com a etapa (c) até que as gramáticas (26) de todos os ramos de reconhecimento de voz tenham sido consultadas.

4. Processo, de acordo com uma das reivindicações 1 a 3, ca- racterizado pelo fato de que as regras das gramáticas (12, 14, 26) não pos- suem nenhuma interseção comum.

5. Processo, de acordo com uma das reivindicações 1 a 3, ca- racterizado pelo fato de que as regras das gramáticas (12, 14, 26) não pos- suem nenhuma interseção comum.

6. Processo, de acordo com uma das reivindicações 1 a 5, ca- racterizado pelo fato de que uma primeira gramática (12) analisa manifesta- ções de voz que ocorrem freqüentemente, uma segunda gramática (14) ana- lisa manifestações de voz menos freqüentes, e cada outra gramática (26) analisa manifestações de voz menos freqüentes ainda.

7. Processo, de acordo com uma das reivindicações 1 a 6, ca- racterizado pelo fato de que, quando tanto o primeiro como também o se- gundo resultado de reconhecimento estiver positivo, é usado o resultado de reconhecimento fornecido pela primeira gramática (12).

8. Processo, de acordo com uma das reivindicações 1 a 6, ca- racterizado pelo fato de que, quando tanto o primeiro como também o se- gundo resultado de reconhecimento for positivo, é usado aquele resultado de reconhecimento, cuja confiabilidade de reconhecimento é maior.

9. Dispositivo para o reconhecimento da voz natural de uma ma- nifestação de voz, que compreende: - meios (10) para a captação da manifestação de voz e para transformar em um sinal de voz a ser processado por um dispositivo de re- conhecimento de voz; - um dispositivo de reconhecimento de voz com vários ramos de reconhecimento de voz, sendo que cada ramo de reconhecimento de voz possui uma gramática (12; 14; 26) para analisar o sinal de voz (10), sendo que o sinal de voz é levado aos ramos de reconhecimento de voz de modo paralelo ou seqüencial; e - meios (20; 22, 24) para o controle e a avaliação do processo de reconhecimento em dependência do resultado de reconhecimento de pelo menos um ramo de reconhecimento de voz.

10. Programa de computador com um código de programa que, executado em um computador, executa um processo como definido em uma das reivindicações 1 a 8.

11. Produto de programa de computador que compreende um código de computador executável em um computador para a execução do processo como definido em uma das reivindicações 1 a 8.