BR112015003830B1 - Método e sistema para prever o desempenho de reconhecimento de discurso - Google Patents

Método e sistema para prever o desempenho de reconhecimento de discurso Download PDF

Info

Publication number
BR112015003830B1
BR112015003830B1 BR112015003830-1A BR112015003830A BR112015003830B1 BR 112015003830 B1 BR112015003830 B1 BR 112015003830B1 BR 112015003830 A BR112015003830 A BR 112015003830A BR 112015003830 B1 BR112015003830 B1 BR 112015003830B1
Authority
BR
Brazil
Prior art keywords
feature vector
speech recognition
merit
keyword
performance
Prior art date
Application number
BR112015003830-1A
Other languages
English (en)
Other versions
BR112015003830A2 (pt
Inventor
Aravind Ganapathiraju
Yingyi Tan
Felix Immanuel Wyss
Scott Allen Randal
Original Assignee
Interactive Intelligence, Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Interactive Intelligence, Inc filed Critical Interactive Intelligence, Inc
Publication of BR112015003830A2 publication Critical patent/BR112015003830A2/pt
Publication of BR112015003830B1 publication Critical patent/BR112015003830B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

método e sistema implementado por computador para prever o desempenho de reconhecimento de discurso e método de uso do mesmo são apresentados método e sistema para prever desempenho de reconhecimento de discurso usando escores precisos em sistemas de reconhecimento de discurso dentro do campo de análise de discurso. um conjunto de palavra-chave é selecionado. figura de mérito (fom) é computada para o conjunto de palavra-chave. características relevantes que descrevem a palavra individualmente e em relação a outras palavras da língua são computadas. um mapeamento a partir dessas características para fom é aprendido. este mapeamento pode ser generalizado através de uma máquina adequada aprendendo algoritmo e ser usado para prever fom para uma nova palavra-chave. em pelo menos uma modalidade, o fom previsto pode ser usado para ajustar componentes internos do mecanismo de reconhecimento de discurso para alcançar um comportamento consistente para todas as entradas para várias configurações de valores de confiança.

Description

[0001] A presente invenção refere-se geralmente a sistemas e métodos de telecomunicações, bem como sistemas de reconhecimento de fala automáticos. Mais particularmente, a presente invenção pertence a aprendizado de máquina dentro de sistemas de reconhecimento de discurso automáticos.
[0002] É conhecido na técnica que o reconhecimento de discurso pode ser realizado ao medir a capacidade de um sistema de reconhecer uma palavra alvo, analisando o seu arquivo de áudio com referência a outro(s) arquivo(s) de áudio de um conjunto de palavras. A palavra destino então pode ser separada a partir do conjunto de palavras, se não satisfaz um certo limiar de reconhecimento. Ao separar palavras alvo abaixo do limiar a partir do conjunto de palavras, o conjunto pode ser limitado a palavras facilmente identificadas. As palavras, portanto, podem ser usadas em um aplicativo de reconhecimento de discurso com um certo grau de confiança. No entanto, esse processo pode ser demorado e impraticável em muitas aplicações. Ter um sistema que pode prever reconhecimento com precisão de uma palavra alvo, sem a necessidade de processamento de um grande conjunto de arquivos de áudio para medir a taxa de reconhecimento, permite que um usuário entenda como o sistema irá realizar no mundo real, sem ter de esperar para uma implantação completa, poupando assim, dinheiro, esforço e recursos.
RESUMO
[0003] Método e sistema são apresentados para prever desempenho de reconhecimento de disperso usando os escores precisos em sistemas de reconhecimento de discurso dentro do campo de análise de discurso. O mesmo conjunto de palavras-chave é usado até o final. Figura de Mérito (FOM) é uma medida utilizada para descrever precisão de sistemas de reconhecimento de discurso e sistemas de marcação de palavra-chave em particular. É definida como a taxa de detecção para uma média de 5 alarmes falsos por palavra-chave por hora (FA/KW/h). Em pelo menos uma modalidade, FOM está previsto através de um algoritmo o qual é discutido mais detalhadamente abaixo. O FOM usa várias características de uma palavra-chave a fim de prever a precisão com a qual um sistema pode determinar uma correspondência de palavra. Para cada palavra-chave dentro do conjunto, o observador de palavra-chave é executado em um corpo grande de discurso gravado para determinar o FOM. Características relevantes que descrevem a palavra individualmente e em relação a outras palavras da língua são computadas. Um mapeamento a partir dessas características para FOM é aprendido. Este mapeamento pode então ser generalizado através de uma máquina adequada aprendendo algoritmo e ser usado para prever FOM para uma nova palavra-chave. O FOM previsto pode ser usado para ajustar componentes internos de mecanismo de reconhecimento de discurso para alcançar um comportamento consistente para todas as entradas para várias configurações de valores de confiança.
[0004] Em uma modalidade, é divulgado um método implementado por computador para prever o desempenho de reconhecimento de discurso, compreendendo as etapas de: aceitar uma entrada; computar pelo menos um vetor de característica para dita entrada; inserir dito pelo menos um vetor de característica em um modelo de previsão; e obter uma previsão para a entrada a partir do modelo de previsão.
[0005] Em outra modalidade, um sistema para prever desempenho de reconhecimento de discurso é divulgado, compreendendo: meios para aceitar uma entrada; meios para computar pelo menos um vetor de característica para entrada de dito usuário; meios para inserir dito pelo menos um vetor de característica em um modelo de previsão; e meios para obter uma previsão da figura de mérito para a entrada a partir do modelo de previsão.
[0006] Em outra modalidade um método implementado por computador para usar desempenho de reconhecimento de discurso previsto para ajustar escores internos de um mecanismo de reconhecimento de discurso é divulgado, o método compreendendo as etapas de: aceitar uma entrada; computar pelo menos um vetor de característica para dita entrada; inserir dito pelo menos um vetor de característica em um modelo de previsão; obter uma previsão para figura de mérito para a palavra-chave; e um mapeamento de ditos escores internos para valores de confiança com base em dita previsão.
BREVE DESCRIÇÃO DAS FIGURAS
[0007] Figura 1 é um diagrama ilustrando um sistema exemplar por marcação de palavra-chave.
[0008] Figura 2 é um fluxograma ilustrando um processo de previsão de FOM.
[0009] Figura 3 é uma ilustração de uma interface de usuário.
[0010] Figura 4 é um fluxograma ilustrando um sistema de aprendizagem de modelo.
[0011] Figura 5 é um fluxograma ilustrando um processo para escolher o conjunto de palavras-chave de treinamento.
[0012] Figura 6 é um diagrama ilustrando a relação entre a compatibilidade interna "Pontuação" e valores externos de "Certeza".
[0013] Figura 7 é uma ilustração de FOM em relação à precisão de detecção e falsos alarmes por hora de discurso
[0014] Figura 8 é uma tabela ilustrando exemplos de palavra-chave.
[0015] Figura 9 é uma tabela ilustrando a expressão de modelo FOM. DESCRIÇÃO DETALHADA
[0016] Com a finalidade de promover uma compreensão dos princípios da invenção, agora será feita referência às modalidades ilustradas nas figuras e linguagem específica será usada para descrever as mesmas. Não obstante, será compreendido que nenhuma limitação do escopo da invenção é, desse modo, pretendida. Quaisquer alterações e modificações adicionais nas modalidades descritas e quaisquer outras aplicações dos princípios da invenção conforme descrito neste documento são contempladas, como normalmente ocorreria a um versado na técnica à qual se refere a invenção.
[0017] Sistemas de reconhecimento automático de discurso (ASR) analisam discurso humano e traduzem o discurso em texto ou palavras. O desempenho destes sistemas é comumente avaliado com base na exatidão, confiabilidade, suporte de idioma e a velocidade com a qual o discurso pode ser reconhecido. O desempenho do sistema deve ser muito alto. Desempenho superior, muitas vezes é quantificado por uma taxa de detecção alta e uma taxa baixa de alarme falso. O padrão da indústria é considerado sendo em torno de uma taxa de detecção de 70% em 5 alarmes falsos por palavra-chave por hora de discurso, ou 5 FA/kw/hr. Isso pode ser lido com um FOM de 70. Fatores tais como sotaque, articulação, taxa de discurso, pronúncia, ruído de fundo, etc., podem ter um efeito negativo sobre a precisão do sistema. Velocidade de processamento é necessária para analisar várias centenas de conversas telefônicas ao mesmo tempo e em tempo real. Também espera-se do sistema que ele execute consistentemente e confiantemente, independentemente de condições de canal e vários artefatos introduzidos por canais de telefonia modernos, especialmente voz sobre VoIP. Palavras-chave de vários idiomas também precisam ser detectadas na mesma fonte de áudio.
[0018] Aprendizado de máquina pode ser usado para prever o desempenho de um mecanismo em uma determinada palavra-chave. Aprendizado supervisionado pode ser referido como tarefa de aprendizado de máquina inferir uma função de dados de treinamento, supervisionados ou rotulados. Tais dados de treinamento podem consistir em um conjunto de exemplos de treinamento, os quais representam valores de precisão para um grande conjunto de palavras-chave. No aprendizado supervisionado, cada exemplo de treinamento é um par consistindo em um vetor de característica de entrada e um valor de precisão de saída desejado. Um algoritmo de aprendizado supervisionado analisa os dados de treinamento e produz uma função inferida, ou função de regressão. Tal função deve prever o valor de saída correto para qualquer objeto de entrada válido. Isso requer o algoritmo de aprendizagem para generalizar a partir dos dados de treinamento para situações invisíveis de uma forma "razoável". A função de regressão pode ser modelada usando uma variedade de formas, tais como uma linha reta simples para uma rede neural complexa.
[0019] Aqueles versados na técnica vão reconhecer da divulgação presente que as várias metodologias divulgadas neste documento podem ser implementadas em computador usando muitas formas diferentes de equipamentos de processamento de dados, tais como microprocessadores digitas e memória associada executando programas de software apropriados, para citar apenas um exemplo de não-limitação. A forma específica do hardware, firmware e software usados para implementar as modalidades atualmente divulgadas não é crítica para a presente invenção.
[0020] Um sistema e método é definido para prever o desempenho de reconhecimento de discurso usando escores de precisão. O mesmo conjunto de palavras-chave é usado até o final. FOM é calculado para cada palavra-chave no conjunto de palavras-chave. Um FOM é determinado através de um algoritmo o qual é discutido mais detalhadamente abaixo. O FOM usa várias características a fim de prever a precisão com que dentro de um sistema pode determinar uma correspondência de palavra. Para cada palavra-chave dentro do conjunto, o observador de palavra-chave é executado em um corpo grande de discurso gravado para determinar o FOM. Características relevantes que descrevem a palavra individualmente e em relação a outras palavras da língua são computadas. Um mapeamento a partir dessas características para FOM é aprendido. Este mapeamento pode então ser generalizado através de uma máquina adequada aprendendo algoritmo e ser usado para prever FOM para uma nova palavra-chave.
[0021] Figura 1 é um diagrama ilustrando um sistema exemplar por marcação de palavra-chave, 100. Os componentes básicos de um observador de palavra-chave 100 podem incluir: Dados/palavras-chave de usuário 105, modelo de palavra-chave 110, fontes de conhecimento 115, as quais incluem um modelo acústico 120 e um Previsor de Pronúncia/Léxico 125, um fluxo de áudio 130, uma calculadora de característica de front end 135, um mecanismo de reconhecimento (compatibilidade de padrões) 140 e o relato de palavras-chave encontradas em tempo real 145.
[0022] Palavras-chave 105 pode ser definida pelo usuário do sistema de acordo com a preferência do usuário. O modelo de palavra-chave 110 pode ser formado por concatenação de modelos de Markov oculto de fonema (HMMs) ou qualquer outra representação estatística de unidades lexicais que compreendem uma palavra. O modelo de palavra-chave 110, pode ser composto com base em palavras-chave que são definidas pelo usuário e a entrada para o modelo de palavra-chave 110 com base em fontes de conhecimento 115. Tais fontes de conhecimento podem incluir um modelo acústico 120 e um Previsor de pronúncia/Léxico 125.
[0023] As fontes de conhecimento 115 podem armazenar modelos probabilísticos das relações entre os eventos acústicos e pronúncias. As fontes de conhecimento 115 podem ser desenvolvidas através da análise de grandes quantidades de dados de áudio. O modelo acústico 120 e o Previsor de pronúncia/Léxico 125 são feitos, por exemplo, olhando para uma palavra como "olá" e examinando os fonemas que compreendem a palavra. Cada palavra-chave no sistema é representada por um modelo estatístico de suas unidades de sub-palavra constituintes chamado os fonemas. Os fonemas de "hello", conforme definido em um dicionário de fonema padrão são: "hh", "eh", "I" e "ow". Modelos dos quatro fonemas são então amarrados combinados juntos em um modelo composto que então se torna o modelo de palavra-chave para a palavra "hello". Estes modelos são dependentes de idioma. Para também oferecer suporte a vários idiomas, podem prever-se várias fontes de conhecimento.
[0024] O modelo acústico 120 pode ser formado por modelagem estatística dos vários sons que ocorrem em um determinado idioma. Um fonema é considerado a unidade básica de som. Presume-se um conjunto predefinido de tais fonemas para descrever completamente todos os sons de uma língua particular. Um HMM, que codifica a relação entre o sinal de áudio observado e os fonemas não observados, forma a teoria fundamental para a maioria dos sistemas de reconhecimento de discurso modernos. Um fonema é considerado composto de três estados, que representam as porções iniciais, centrais e posterior do som. Um HMM é construído pela concatenação desses três estados. Um processo de formação estuda as propriedades estatísticas de cada um desses estados para todos os fonemas sobre uma grande coleção de áudio transcrito. Uma relação entre as propriedades textuais e as propriedades faladas é então formada. Normalmente, as estatísticas dos estados podem ser codificadas usando um modelo de mistura gaussiano (GMM). Um conjunto destes GMMs é denominado como um modelo acústico. Especificamente, o descrito nesta aplicação é referido como um modelo monófono, ou independente de contexto. Muitos outros tipos de modelo também podem ser usados. Por exemplo, muitos sistemas de reconhecimento de discurso modernos podem utilizar um modelo acústico mais avançado, que pode ser dependente de contexto e capturar as variações complexas criadas devido à posição dos fonemas no discurso conversacional. Cada estado de um fonema é especializado para seus fonemas vizinhos esquerdo e direito.
[0025] O Previsor de Pronúncia/Léxico 125, pode ser responsável pela decomposição de uma palavra em uma sequência de fonemas. Palavras-chave apresentadas do usuário pode ser na forma legível por humanos, como grafemas/alfabetos de uma linguagem específica. No entanto, o algoritmo de correspondência de padrão pode contar com uma sequência de fonemas que representam a pronúncia da palavra. Um Previsor de pronúncia que pode armazenar um mapeamento entre palavras comumente faladas e suas pronúncias. Uma vez obtida a sequência de fonemas, o modelo estatístico correspondente para cada um dos fonemas no modelo acústico 120 pode ser examinado. Uma concatenação destes modelos estatísticos pode ser usada para executar a detecção de palavra- chave para a palavra de interesse.
[0026] O fluxo de áudio (ou seja, o que é falado no sistema pelo usuário) 130, pode ser alimentado na calculadora de característica frontend 135, a qual pode converter o fluxo de áudio 130 em uma representação do fluxo de áudio, ou uma sequência de características espectrais. Análise de áudio pode ser realizada ao se segmentar o sinal de áudio como uma sequência de janelas curtas (tipicamente de 10 ms) e extrair características de domínio espectral.
[0027] O modelo de palavra-chave 110, o qual pode ser formado pelos fonemas de concatenação HMMs, e as características extraídas a partir do fluxo de áudio 135, ambos podem então ser alimentados em um mecanismo de reconhecimento para compatibilidade de padrões 140. A tarefa do mecanismo de reconhecimento 140 pode ser tomar um conjunto de modelos de palavras-chave e pesquisa através de fluxo de áudio apresentado para determinar se as palavras foram faladas. No espaço multidimensional construído pela calculadora de característica, uma palavra falada pode tornar-se uma sequência de vetores de característica de domínio espectral formando uma trajetória no espaço acústico. Marcação de palavra-chave pode agora simplesmente tornar-se um problema de computar a probabilidade de gerar a trajetória de acordo com o modelo de palavra-chave. Esta operação pode ser alcançada usando o princípio bem conhecido de programação dinâmica, especificamente o algoritmo de Viterbi, que alinha o modelo de palavra-chave para o melhor segmento do sinal de áudio e resulta em uma pontuação de compatibilidade. Se a pontuação de compatibilidade é significativa, o algoritmo de detecção de palavra-chave infere que a palavra-chave foi falada e relata um evento de palavra-chave detectada.
[0028] As palavras-chave resultantes podem ser relatadas, então, em tempo real, 145. O relatório pode ser apresentado como um tempo de início e de fim da palavra-chave no fluxo de áudio 130 com um valor de confiança que a palavra-chave foi encontrada. O valor primário de certeza pode ser uma função de como a palavra-chave é falada. Por exemplo, no caso de várias pronúncias de uma única palavra, a palavra-chave "tomato" pode ser falada como "tuh-mah-toh" e "tuh-may-toh". O valor primário de certeza pode ser menor quando a palavra é falada em uma pronúncia menos comum ou quando a palavra não é bem enunciada. A variante específica da pronúncia que faz parte de um reconhecimento específico também é exibida no relatório.
[0029] Como ilustrado na Figura 2 é um processo 200 para previsão de FOM é provido. O processo 200 pode ser operativo em qualquer ou todos os elementos do sistema 100 (Figura 1).
[0030] Entrada é inserida em uma Interface de usuário na etapa 205. Entrada de usuário pode ser em forma de palavras ou pronúncia fonética. Uma Interface de usuário é descrita em maiores detalhes na Figura 3, como segue. O controle é passado à operação 210 e o processo 200 continua.
[0031] Na etapa 210, o vetor de característica é computado para a entrada de usuário. O vetor de característica pode incluir características tais como o número de fonemas, o número de sílabas e o número de vogais tônicas. O controle é passado à operação 215 e o processo 200 continua.
[0032] Em operação 215, o vetor de característica é passado através do modelo de previsão aprendido. Um modelo de previsão instruídos para FOM pode ser criado usando um reconhecedor de fonema, um léxico, um analisador morfológico, estatísticas de duração e um conjunto de palavra- chave contendo, por exemplo, 500 palavras-chave. O léxico pode ser uma pesquisa ou módulo preditivo que pode converter a entrada de palavras em uma sequência de fonemas constituintes. O analisador morfológico pode ser outra pesquisa ou módulo preditivo que contém entradas para codificar as regras de morfologia em uma linguagem. Afixos comuns numa língua são usados. Por exemplo, afixos comuns na língua inglesa podem incluir: "ment", "ing", "tion" e "non". A matriz de confusão do fonema pode ser calculada através da criação de um reconhecedor de fonema. A matriz quantitativamente descreve como o mecanismo de discurso geralmente confunde sons na língua. Esta matriz pode mais tarde ser usada como a fonte para computação de distâncias entre palavras. Com a criação da matriz, é possível determinar como o mecanismo de discurso vê o espaço fonético, mas não necessariamente o que a teoria da fonologia espera que confusabilidade seja. Estatísticas de duração para fonemas são baseadas na análise de fonemas em um corpus de discurso grande usando o reconhecedor de fonema criado. O conjunto de palavras-chave de palavra 500 é cuidadosamente escolhido para abranger o intervalo de valores que as características de modelagem podem tomar. Figura 5 abaixo descreve o processo para a escolha do conjunto de palavras-chave em maiores detalhes.
[0033] Em operação 220, o FOM previsto é obtido e o processo termina. Por exemplo, o resultado pode ser uma saída número FOM com uma faixa de 0-100. Um valor igual ou próximo de 0 pode indicar baixa precisão ou taxa alta de falso alarme enquanto um valor próximo ou igual a 100 pode indicar alta precisão ou confiança.
[0034] Operações, 205, 210 e 215 podem ser realizadas de forma interativa em tempo real à medida que um usuário adiciona mais entrada.
[0035] Figura 3 é uma ilustração de um exemplo de Interface de usuário guiada 300 que pode ser usada para entrada de dados no processo 200. A Interface de usuário 300 pode conter: um campo de palavra-chave 305 e um campo FOM 310, barras FOM 315 e exemplos de palavra-chave 320. Palavras curtas podem ter baixo FOM e possivelmente maiores taxas de alarme falso. Mais palavras podem ter maior FOM. Uma palavra-chave como "Jerk" 320 c pode ser mais propensa a erros do que a palavra-chave "Screw You" 320b porque a palavra-chave "Jerk" é usada em muitos outros contextos e tem um contexto acústico curto para ajudar a desambiguação. Por exemplo, "jerk" pode parecer semelhante às partes de "manager", "integer" ou "german". Por outro lado, "screw" é um som muito característico e é facilmente reconhecido. O comprimento da barra 315 é indicativo do grau de FOM para cada palavra-chave 305. Por exemplo, a palavra-chave "We Appreciate Your Business" 320d tem uma barra de comprimento 98, 315d. Isso pode indicar que há uma maior FOM previsto para "We Appreciate Your Business" do que uma palavra como "Jerk" 320c com um comprimento de barra FOM de 20, 315 c. Em pelo menos uma modalidade, a cor da barra pode mudar baseada no FOM previsto a fim de prover mais feedback visual.
[0036] Como ilustrado na Figura 4, uma modalidade de um sistema de aprendizagem do modelo é provido e indicado geralmente em 400. O sistema 400 pode ser operativo em qualquer ou todos os elementos do sistema 100 (Figura 1). Os componentes básicos do sistema 400 podem incluir: um conjunto de palavra-chave no banco de dados 405; um módulo de computação de vetor de característica 410; Dados de reconhecedor 415, os quais podem consistir de uma Matriz de confusão de fonema 420 e estatísticas de duração 425; um léxico 430 e um analisador morfológico 435; um modelo de aprendizagem módulo 440; e um modelo FOM 445.
[0037] O conjunto de palavra-chave a partir do banco de dados 405 pode ser composto de palavras para as quais gravações de áudio suficientes existem para computar números de precisão estatisticamente significativa. O Conjunto de palavra-chave pode ser composto de 500 palavras-chave, por exemplo, que é alimentado para o módulo de computação de Vector de característica 410.
[0038] O Módulo de Computação de Vetor de Característica 410 pode utilizar entrada de dados a partir do reconhecedor, o qual pode consistir em uma Matriz de Confusão de Fonema 420 e estatísticas de duração 425, e a partir do léxico 430 e analisador morfológico 435, para determinar o vetor de característica de cada palavra-chave.
[0039] O reconhecedor de dados 415 é provido pelo mecanismo de reconhecimento 140 (Fig. 1) e é a partir da saída de reconhecedor. Estes dados podem incluir uma Matrix de Confusão de Fonema 420 e estatísticas de duração 425. A matriz de confusão do fonema 420 é computada através da criação de um reconhecedor de fonema. A matriz quantitativamente descreve como o mecanismo de discurso geralmente confunde sons na língua. As Estatísticas de duração 425 podem ser baseadas na análise de fonemas em um corpus de discurso grande usando o reconhecedor de fonema criado.
[0040] O léxico 430 e analisador morfológico 435 são dependentes de idioma. O léxico 430 pode compreender um módulo preditivo ou de pesquisa que pode converter a entrada de palavras em uma sequência de fonemas constituintes. O analisador morfológico 435 é também um módulo preditivo ou de pesquisa que pode conter entradas para os mais comuns de prefixos e sufixos em uma língua.
[0041] O módulo de aprendizagem de modelo 440 pode usar a saída a partir do Módulo de Computação de Vetor de Característica 410 para inferir uma função de regressão a partir dos dados. O módulo também pode ajustar parâmetros para otimizar uma função de custo, a qual, em pelo menos uma modalidade é a minimização do valor absoluto do erro de previsão.
[0042] O modelo FOM 445 podem compreender o resultado da saída do módulo de aprendizagem de modelo 440 a qual é salva pelo sistema para uso em tempo de execução para prever o FOM em palavras de entrada de usuário. Isto é descrito em maiores detalhes na Fig. 7 como segue.
[0043] Referindo-se agora a Figura 5, uma modalidade de um processo 500 para escolher a palavra-chave de treinamento definida como usada na etapa 405 da Figura 4 é ilustrada. Em pelo menos uma modalidade, isto forma uma parte fundamental do processo de aprendizagem como um conjunto de palavras-chave bem escolhido ajuda o modelo aprendido a generalizar bem para palavras não vistas durante o processo de aprendizado supervisionado.
[0044] Um conjunto de palavra-chave grande é selecionado na etapa 505. Por exemplo, um conjunto de palavra-chave contendo um grande número de palavras (por exemplo, 200 palavras em uma modalidade) é escolhida ao examinar os valores de palavras de dicionário similares e averiguar que palavras cobrem o intervalo de valores aceitáveis para essa característica. Por exemplo, valores baixos, médios e altos devem ser representados neste conjunto de palavras-chave. O controle é passado à operação 510 e o processo 500 continua.
[0045] Em operação 510, uma característica é extraída. Como descrito anteriormente, vetores de característica podem incluir características tais como o número de fonemas, o número de sílabas e número de vogais tônicas, etc. Esta informação pode ser derivada a partir do léxico, analisador morfológico, estatísticas de duração e matriz de confusão 515. O controle é passado à operação 520 e o processo 500 continua.
[0046] Em operação 520, o intervalo do valor de característica está marcado. O intervalo de valores para cada recurso pode variar e assim, valores são examinados para determinar se eles são valores inferiores, médios ou superiores.
[0047] Como definido acima, o conjunto de palavras-chave de palavra 500 é cuidadosamente escolhido para abranger o intervalo de valores que as características de modelagem podem tomar. Portanto, na operação 525, é determinado ou não a característica é bem representada dentro do conjunto de palavras-chave. Se for determinado que a característica está bem representada, então o controle é passado para a etapa 510 e processo 500 continua. Se for determinado que a característica não é bem representada, então o controle de sistema é passado para a etapa 530 e processo 500 continua.
[0048] A determinação na operação 525 pode ser feita com base em quaisquer critérios adequados. Por exemplo, se o intervalo do valor de característica é muito alto ou muito baixo, palavras inadequadas podem ter sido escolhidas no conjunto de palavras-chave. Um conjunto de palavras- chave definido com palavras que são muito semelhantes terá um intervalo distorcido. Onde o controle é passado para a etapa 510, no algoritmo FOM mais tarde aqui descrito, o valor de / é definido igual a / + 1, o qual é indicativo da próxima característica.
[0049] Em operação 530, o número de palavras-chave pode ser ajustado ao adicionar mais palavras-chave ao conjunto. No algoritmo FOM mais tarde aqui descrito, o valor de i é definido igual a 0, o qual é indicativo da primeira característica. O controle é passado a operação 510 e o processo 500 continua.
[0050] Em pelo menos uma modalidade, esta medida é usada para orientar os usuários na determinação de um bom conjunto de palavras- chave. Outros usos podem incluir feedback para o mecanismo de reconhecimento e controlar a taxa de alarme falso. O diagrama na Figura 6 exibe a relação entre a probabilidade de correspondência, ou o "escore", conforme determinado pelo mecanismo de reconhecimento e os valores de confiança, conforme relatado pelo sistema. Por padrão, a curva 605 pode ser usada se nenhuma informação sobre a palavra-chave for conhecida. Se FOM é conhecido, a relação pode ser modificada, alterando-se a faixa operacional de pontuação da palavra-chave, conforme ilustrado pelas linhas 610 e 615. A linha 610 apresenta uma palavra-chave FOM inferior, enquanto a linha 615 exibe uma palavra-chave FOM elevada. À medida que aumenta o valor de escores, também aumenta a confiança na correspondência onde 0.0 pode ser indicativo de correspondência altamente confiante e um grande valor negativo pode indicar muito baixa confiança na correspondência, por exemplo. À medida que o escore torna- se mais negativo, também a probabilidade de uma incompatibilidade aumenta. Por exemplo, à medida que a pontuação se aproxima de 0.0, há uma maior probabilidade de uma compatibilidade. Assim, um escore de 0 e uma confiança de 1,0 indica uma correspondência perfeita nesta ilustração. Em pelo menos uma modalidade, se é desejado alterar o intervalo de pontuação, de tal forma que um valor de confiança escolhido representa um valor de escore similar para palavras com baixo ou alto FOM.
[0051] A Figura 7 é um diagrama ilustrando o comportamento do sistema com configurações variadas de certeza. O resultado de mudança do intervalo operacional com base em FOM pode ser um comportamento mais controlado do sistema. Por exemplo, quando um usuário registra uma palavra-chave a ser marcada, uma medida FOM associada é apresentada, tal como 70. Por definição, isso significa que o sistema resulta em 70% de precisão com uma taxa de alarme falso de 5 por hora. Para obter esse comportamento do sistema, a faixa de pontuação interna é modificada conforme mostrado na Figura 7, tal que na configuração de confiança padrão (0,5) o sistema produz 5 alarmes falsos por hora e uma taxa de detecção de 70%. Se o usuário deseja uma precisão mais elevada, a configuração de confiança pode ser reduzida, a qual por sua vez possivelmente poderia criar uma maior taxa de alarme falso. Se o usuário deseja menor taxa de alarme falso, a configuração de confiança pode ser aumentada, possivelmente resultando em menor taxa de detecção. Ao alterar a taxa de escore interno com base no FOM, esse comportamento torna-se consistente para todas as palavras, independentemente da seus FOMs.
[0052] O diagrama 700 ilustra o comportamento do sistema conforme alteradas as configurações de certeza. Por exemplo, à medida que configuração de confiança se aproxima a 0,0 e a taxa de alarmes falsos (FA/Hr) aumenta e taxa de detecção aumenta também. Por outro lado, à medida que a configuração de confiança se aproxima 1,0, a taxa de falsos alarmes diminui até atingir um valor 0,0 enquanto a taxa de detecções também diminui e se aproxima de 0,0.
[0053] Figura 8 é uma tabela ilustrando exemplos de palavra-chave 800. Registros 800a e 800b podem conter um campo de palavra-chave 805, campo de FOM previsto 810, número de campo de fonemas 815, número de campo de vogais tônicas 820, número de campo de sílabas 825, campo de meio de duração 830, campo de desvio padrão de duração 835, campo de palavras de dicionário parcial 840, campo de palavras de dicionário similares 845, campo de prefixo semelhante 850, campo de sufixo Similar 855 e campo de índice de confusão 860.
[0054] O campo de palavra-chave 805 pode conter o exemplo de palavra-chave. Por exemplo, registro 800a contém a palavra "debug" e registro 800b contém a palavra "interativa".
[0055] Em pelo menos uma modalidade, o campo FOM previsto 810 contém o valor previsto pela equação de expressão FOM:
[0056]
Figure img0001
onde / representa o índice de características, x representa a característica /-th e os parâmetros de equação a e b são valores aprendidos, os valores dos quais são exibidos na Figura 9. N representa um limite superior sobre uma série de características utilizadas para aprender a previsão. Por exemplo, N = 10 pode ser usado.
[0057] Por exemplo, registro 800a contém um valor de FOM de 29,6971 para palavra-chave 'debug' enquanto registro 800b contém um valor de FOM de 78,5823 para palavra-chave 'Interativa'.
[0058] O número de campo de vogais tônicas 820 pode exibir o número de vogais de cada palavra-chave que é dada ênfase quando a palavra é falada. Por exemplo, quanto mais as vogais em uma palavra são tônicas, melhor pronunciada elas são e têm maior precisão em geral. A palavra-chave 'debug' contém 1 vogal tônica enquanto 'Interativo' contém 2 vogais tônicas, como ilustrado na Figura 8.
[0059] O número de campo de sílabas 825 pode conter o número de sílabas dentro de cada palavra-chave. Por exemplo, a palavra-chave 'debug' tem 2 sílabas, enquanto a palavra-chave 'Interativa' contém 4 sílabas.
[0060] O campo de médio de duração 830 pode conter o valor médio de duração a partir da característica. Por exemplo, a palavra-chave 'debug' tem uma média de duração de 36,6276 enquanto a palavra-chave 'Interativo' tem uma média de duração de 61,9474.
[0061] O campo de desvio padrão de duração 835 pode conter o desvio-padrão da duração da palavra-chave. Por exemplo, a palavra-chave 'debug' tem um valor de desvio-padrão de duração de 8,96752, enquanto a palavra-chave 'Interativo' tem um valor de desvio-padrão de duração de 10,5293.
[0062] O campo de palavras de dicionário 840 poderá conter uma medida de quantas palavras do vocabulário típico da língua de interesse do qual a palavra-chave é uma parte. Quanto maior esse número, menos o número de palavras do qual a palavra-chave é uma parte da qual normalmente resulta em maior precisão de uma correspondência. Por exemplo, a palavra-chave 'debug' tem um valor de 33,3333 no campo de palavras de dicionário parcial 840, enquanto a palavra-chave 'Interativo' tem um valor de 50.
[0063] O campo de palavras de dicionário similar 845 pode conter uma medida de quantas palavras do vocabulário típico da língua de interesse do qual a palavra-chave é similar. Por exemplo, o quão menor esse número é, maior o número de palavras que a palavra-chave é semelhante e, portanto, com que podem ser confundidas. Em geral, uma precisão inferior pode resultar. Semelhança é medida usando uma métrica de distância. Um exemplo de uma métrica de distância pode ser visto com as palavras "cat" e "bat", as quais têm o mesmo número de fonemas. Dividido em fonemas, "cat" e "bat" tornam-se o seguinte:
[0064] CAT-> k ae t
[0065] BAT-> b ae t
[0066] Uma comparação das palavras mostra que elas têm um fonema que difere. Um simples escore de distância de edição de 1 resultado. A distância de edição de baseada em confusão de Matrix pode ser 0,2 se o reconhecedor está confuso entre os sons "k" e "b".
[0067] As palavras "cat" e "vacate" podem ser usadas como um exemplo de palavras que contêm números diferentes de fonemas. As palavras "cat" e "vacate" tornam-se:
[0068] CAT->**kaet
[0069] VACATE-> v ey k ey t
[0070] Se presume-se que a inserção de um fonema custa 1 e a distância entre "ae" e "ey" é 0,3, então a distância total entre as palavras é 2,3.
[0071] Em outro exemplo, a distância entre as palavras que possuem erros pode ser mostrada abaixo com as palavras "cat" e "aft":
[0072] CAT -> k ae t *
[0073] AFT -> * ae f t
[0074] Erros podem incluir inserções, exclusões e substituições de fonemas. Presume-se que a inserção de um fonema custa 1, exclusão custa 2 e distância entre fonemas "t" e "f" é de 0,7, se a distância total de "cat" para "aft" é 3,7. Isto representa uma inserção, uma exclusão e uma substituição dos fonemas.
[0075] Na Figura 8, por exemplo, palavra-chave 'debug' contém um valor de 5 no campo de palavras do dicionário semelhantes 845 enquanto a palavra-chave 'interactive' contém um valor de 33,3333.
[0076] O campo de prefixo semelhante 850 poderá conter uma medida de quantos prefixos típicos são passíveis de se confundir com a palavra-chave. Esse número é provido pelo analisador morfológico. Um valor mais alto neste campo indica menor semelhança com prefixos comuns e, portanto, maior precisão típica para a palavra. Um prefixo é um afixo o qual é colocado antes da raiz de uma palavra. Exemplos são "pre" e "non". Por exemplo, a palavra-chave 'debug' contém um valor de prefixo semelhante de 20, enquanto a palavra-chave 'interactive' contém um valor de prefixo semelhante de 100.
[0077] O campo de sufixo semelhante 855 poderá conter uma medida de quantos sufixos típicos são passíveis de se confundir com a palavra-chave. Esse número é provido pelo analisador morfológico. Um valor mais alto neste campo indica menor semelhança com prefixos comuns e, portanto, maior precisão típica para a palavra. Em linguística, um sufixo (o qual também pode ser referido como um sufixo ou final) é um afixo o qual é colocado após o tronco de uma palavra. Dois exemplos de sufixos são "tion" e "ous". Como ilustrado em figura 8, a palavra-chave 'debug' contém um valor de sufixo semelhante de 25, enquanto a palavra-chave 'interactive' contém um valor de sufixo semelhante de 100.
[0078] O campo de índice de confusão 860 pode conter uma medida da soma total da confusibilidade dos fonemas compreendendo a palavra. Se uma palavra é composta de vários fonemas, muitas vezes confundidos como plosivas e nasais, é suscetível a ter uma baixa precisão. Por exemplo, a palavra-chave 'debug' contém um valor de índice de confusão de 38,85, enquanto a palavra-chave 'interactive' contém um valor de índice de confusão de 61,65.
[0079] Figura 9 é uma tabela ilustrando a expressão de modelo FOM. Esta tabela ilustra exemplos de valores aprendidos através dos processos anteriormente descritos que podem ser utilizados para computar os valores descritos para registros 800a e 800b na Figura 8. Esses valores são inseridos no algoritmo FOM acima:
[0080]
Figure img0002
[0081] Figura 9 pode conter os seguintes campos: Nome de Característica 905, número de polinómio de fonemas 910, número de polinómio de vogais tônicas 915, número de polinómio de sílabas 920, polinómio médio de duração 925, polinómio de desvio padrão de duração 930, polinómio de palavras de dicionário parcial 935, polinómio de palavras de dicionário similar 940, polinómio de prefixo similar 945, polinómio de sufixo similar 950 e polinómio índice de confusão 955.
[0082] O campo de nome de característica contém o índice de características indo conforme representado por /, e os parâmetros de equação a e b. Campos 910 através de 955 mostram os valores instruídos para cada campo. Por exemplo, o número de polinómio de fonemas 910 tem valores de /= 1, a= 0,1499 e b =-32,2629.
[0083] Embora a invenção tenha sido ilustrada e descrita em detalhes nas figuras e descrição acima, a mesma é para ser considerada como ilustrativa e não restritiva em caráter, subentendendo-se que somente a modalidade preferencial foi mostrada e descrita e que todas as equivalentes, alterações e modificações que vêm dentro do espírito das invenções conforme descritas neste documento e/ou pelas seguintes reivindicações que deseja-se que sejam protegidas.
[0084] Portanto, o escopo apropriado da presente invenção deve ser determinado apenas pela interpretação mais ampla das reivindicações anexas de modo a abranger todas as tais modificações, bem como todas as relações equivalentes àquelas ilustradas nas figuras e descritas na especificação.

Claims (18)

1. Método para prever o desempenho de reconhecimento de discurso em um sistema de reconhecimento de discurso, o sistema compreendendo um mecanismo de reconhecimento, um banco de dados, um módulo de aprendizagem de modelo e um módulo de previsão de desempenho, o método caracterizado pelo fato de que compreende as etapas de: a) determinar, pelo módulo de previsão de desempenho, pelo menos um vetor de característica para uma entrada no sistema de reconhecimento de discurso, em que o pelo menos um vetor de característica inclui características que compreendem pelo menos duas características selecionadas a partir do grupo compreendendo: o número de fonemas, o número de sílabas e o número de vogais tônicas; b) criar um modelo de previsão por meio de: i. selecionar um conjunto de palavras-chave; ii. computar outro vetor de característica de características desejadas para cada uma das palavras-chave; iii. inserir o outro vetor de característica no módulo de aprendizagem de modelo, em que o módulo de aprendizagem de modelo ajusta parâmetros para minimizar uma função de custo; e iv. salvar os resultados a partir do módulo de aprendizagem de modelo como o modelo de previsão para previsão de uma figura de mérito da entrada; c) passar o pelo menos um vetor de característica em um modelo de previsão; d) aplicar, pelo módulo de previsão de desempenho, o modelo de previsão para prever uma figura de mérito para o sistema de reconhecimento de discurso, em que a figura de mérito é indicativa da precisão de desempenho do sistema de reconhecimento de discurso, em que a figura de mérito (fom) é prevista usando uma equação matemática
Figure img0003
em que N representa um limite superior sobre uma série de características baseadas no vetor de característica determinado utilizado para aprender a previsão, i representa o índice de características, x representa a característica i-th no vetor de característica determinado e os parâmetros de equação a e b são valores aprendidos; e) relatar, pelo módulo de previsão de desempenho, a figura de mérito prevista para o desempenho do sistema de reconhecimento de discurso; e f) ajustar o mecanismo de reconhecimento baseado na figura de mérito prevista.
2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a referida entrada compreende pelo menos uma palavra.
3. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a referida figura de mérito tem uma taxa de detecção média de 5 FA/KW/Hr.
4. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a referida entrada compreende uma pronunciação fonética.
5. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que é desempenhado em tempo real à medida que entrada adicional é fornecida.
6. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a etapa de ajustar automaticamente as contagens internas do mecanismo de reconhecimento é baseada na previsão relatada pelo módulo de previsão de desempenho.
7. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que pelo menos um vetor de característica é determinado compreendendo as etapas de: converter a referida entrada em uma sequência de fonemas; e realizar análise morfológica de palavras em um idioma.
8. Método, de acordo com a reivindicação 7, caracterizado pelo fato de que a cobertura é desempenhada usando estatísticas para fonemas e uma matriz de confusão de fonema.
9. Método, de acordo com a reivindicação 8, caracterizado pelo fato de que compreende, adicionalmente, a etapa de computar a matriz de confusão de fonema usando um reconhecedor de fonema.
10. Sistema de computação com um microprocessador digital e memória associada configurados para executar programas de software, o sistema sendo configurado para previsão de desempenho de reconhecimento de discurso, caracterizado pelo fato de que compreende: usar um módulo de previsão de desempenho para determinar pelo menos um vetor de característica para uma entrada no sistema de reconhecimento de discurso, em que o pelo menos um vetor de característica inclui características que compreendem pelo menos duas características selecionadas a partir do grupo compreendendo: o número de fonemas, o número de sílabas e o número de vogais tônicas; criar um modelo de previsão por meio de: selecionar um conjunto de palavras-chave;computar outro vetor de característica de características desejadas para cada uma das palavras-chave; inserir o outro vetor de característica no módulo de aprendizagem de modelo, em que o módulo de aprendizagem de modelo ajusta parâmetros para minimizar uma função de custo; e salvar os resultados a partir do módulo de aprendizagem de modelo como o modelo de previsão para previsão de uma figura de mérito da entrada; passar o pelo menos um vetor de característica no modelo de previsão; usar o módulo de previsão de desempenho para aplicar o modelo de previsão para prever uma figura de mérito para o sistema de reconhecimento de discurso, em que a figura de mérito é indicativa da precisão de desempenho do sistema de reconhecimento de discurso, em que a figura de mérito (fom) é prevista usando uma equação matemática
Figure img0004
em que N representa um limite superior sobre uma série de características baseadas no vetor de característica determinado utilizado para aprender a previsão, i representa o índice de características, x representa a característica i-th no vetor de característica determinado e os parâmetros de equação a e b são valores aprendidos; usar o módulo de previsão de desempenho para relatar a figura de mérito prevista para o desempenho do sistema de reconhecimento de discurso; e ajustar o mecanismo de reconhecimento baseado na figura de mérito prevista.
11. Sistema, de acordo com a reivindicação 10, caracterizado pelo fato de que compreende, adicionalmente, um reconhecedor de fonema para computar a referida matriz de confusão de fonema.
12. Sistema, de acordo com a reivindicação 10, caracterizado pelo fato de que a referida figura de mérito tem uma taxa de detecção média de 5 FA/KW/Hr.
13. Sistema, de acordo com a reivindicação 10, caracterizado pelo fato de que a referida entrada compreende pelo menos uma palavra.
14. Sistema, de acordo com a reivindicação 10, caracterizado pelo fato de que a referida entrada compreende uma pronunciação fonética.
15. Sistema, de acordo com a reivindicação 10, caracterizado pelo fato de que compreende, adicionalmente, ajustar automaticamente as contagens internas do mecanismo de reconhecimento baseado na previsão relatada pelo módulo de previsão de desempenho.
16. Sistema, de acordo com a reivindicação 10, caracterizado pelo fato de que pelo menos um vetor de característica é determinado compreendendo converter a referida entrada em uma sequência de fonemas; e desempenhar uma análise morfológica das palavras em um idioma.
17. Sistema, de acordo com a reivindicação 16, caracterizado pelo fato de que a referida conversão é desempenhada usando estatísticas para fonemas e matriz de confusão de fonema.
18. Sistema, de acordo com a reivindicação 17, caracterizado pelo fato de que compreende a etapa de computar a matriz de confusão de fonema usando um reconhecedor de fonema.
BR112015003830-1A 2012-08-30 2012-08-30 Método e sistema para prever o desempenho de reconhecimento de discurso BR112015003830B1 (pt)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2012/053061 WO2014035394A1 (en) 2012-08-30 2012-08-30 Method and system for predicting speech recognition performance using accuracy scores

Publications (2)

Publication Number Publication Date
BR112015003830A2 BR112015003830A2 (pt) 2017-07-04
BR112015003830B1 true BR112015003830B1 (pt) 2021-06-01

Family

ID=50184032

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112015003830-1A BR112015003830B1 (pt) 2012-08-30 2012-08-30 Método e sistema para prever o desempenho de reconhecimento de discurso

Country Status (6)

Country Link
EP (1) EP2891147B1 (pt)
JP (1) JP6230606B2 (pt)
AU (1) AU2012388796B2 (pt)
BR (1) BR112015003830B1 (pt)
CA (1) CA2883076C (pt)
WO (1) WO2014035394A1 (pt)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9613619B2 (en) * 2013-10-30 2017-04-04 Genesys Telecommunications Laboratories, Inc. Predicting recognition quality of a phrase in automatic speech recognition systems
JP6473112B2 (ja) * 2016-08-12 2019-02-20 日本電信電話株式会社 音声認識精度推定装置、音声認識精度推定方法及び音声認識精度推定プログラム
CN107464559B (zh) * 2017-07-11 2020-12-15 中国科学院自动化研究所 基于汉语韵律结构和重音的联合预测模型构建方法及系统
US11132992B2 (en) 2019-05-05 2021-09-28 Microsoft Technology Licensing, Llc On-device custom wake word detection
US11158305B2 (en) 2019-05-05 2021-10-26 Microsoft Technology Licensing, Llc Online verification of custom wake word
US11222622B2 (en) * 2019-05-05 2022-01-11 Microsoft Technology Licensing, Llc Wake word selection assistance architectures and methods
KR20220137437A (ko) * 2021-04-02 2022-10-12 삼성전자주식회사 전자 장치 및 전자 장치의 동작 방법
US12118983B2 (en) 2021-04-02 2024-10-15 Samsung Electronics Co., Ltd. Electronic device and operation method thereof

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5842163A (en) * 1995-06-21 1998-11-24 Sri International Method and apparatus for computing likelihood and hypothesizing keyword appearance in speech
EP0907258B1 (en) * 1997-10-03 2007-01-03 Matsushita Electric Industrial Co., Ltd. Audio signal compression, speech signal compression and speech recognition
US7117153B2 (en) * 2003-02-13 2006-10-03 Microsoft Corporation Method and apparatus for predicting word error rates from text
JP2005017603A (ja) * 2003-06-25 2005-01-20 Nippon Telegr & Teleph Corp <Ntt> 音声認識率推定方法及び音声認識率推定プログラム
US7716226B2 (en) * 2005-09-27 2010-05-11 Patentratings, Llc Method and system for probabilistically quantifying and visualizing relevance between two or more citationally or contextually related data objects
US8140336B2 (en) * 2005-12-08 2012-03-20 Nuance Communications Austria Gmbh Speech recognition system with huge vocabulary
JP4825014B2 (ja) * 2006-01-24 2011-11-30 旭化成株式会社 評価用データ生成装置、認識性能分布情報生成装置およびシステム
CA2690174C (en) * 2009-01-13 2014-10-14 Crim (Centre De Recherche Informatique De Montreal) Identifying keyword occurrences in audio data

Also Published As

Publication number Publication date
CA2883076A1 (en) 2014-03-06
AU2012388796B2 (en) 2018-10-18
JP6230606B2 (ja) 2017-11-15
NZ705071A (en) 2017-01-27
CA2883076C (en) 2019-06-11
BR112015003830A2 (pt) 2017-07-04
JP2015530614A (ja) 2015-10-15
EP2891147B1 (en) 2020-08-12
WO2014035394A1 (en) 2014-03-06
EP2891147A4 (en) 2016-07-13
AU2012388796A1 (en) 2015-03-05
EP2891147A1 (en) 2015-07-08

Similar Documents

Publication Publication Date Title
US10360898B2 (en) Method and system for predicting speech recognition performance using accuracy scores
BR112015003830B1 (pt) Método e sistema para prever o desempenho de reconhecimento de discurso
EP2888669B1 (en) Method and system for selectively biased linear discriminant analysis in automatic speech recognition systems
JP6031316B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
Savargiv et al. Persian speech emotion recognition
Rogova et al. Automatic syllabification using segmental conditional random fields
Metze Articulatory features for conversational speech recognition
Fernandez et al. Discriminative training and unsupervised adaptation for labeling prosodic events with limited training data.
BR112015017106B1 (pt) Método implementado por computador para detectar palavras-chave predeterminadas
Tarján et al. A bilingual study on the prediction of morph-based improvement.
Dou An SVM ranking approach to stress assignment
NZ705071B2 (en) Method and system for predicting speech recognition performance using accuracy scores
Matayoshi Pronunciation Assessment at Phone Level for Second Language Learning
Van Niekerk Tone realisation for speech synthesis of Yorubá
De Pauw et al. A comparison of two different approaches to morphological analysis of Dutch
Marin Effective use of cross-domain parsing in automatic speech recognition and error detection
Sazhok et al. Lexical Stress-Based Morphological Decomposition and Its Application for Ukrainian Speech Recognition
Siu et al. Improved named entity extraction from conversational speech with language model adaptation
Waters Speech Processing and Machine Learning Basics
Grover Goodness of Pronunciation Pipelines for OOV Problem
Yan-qiu et al. Comparison of approaches for predicting break indices in mandarin speech synthesis
Truyen Deep Acoustic Models for Speech Quality Assessment in Children
Dev et al. CTC-Based End-to-End Speech Recognition for Low Resource Language Sanskrit
Luu et al. Automatic Clinical Speech Recognition for CLEF 2015 eHealth Challenge.
JPS63236098A (ja) ラベリングシステム

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 30/08/2012, OBSERVADAS AS CONDICOES LEGAIS.