BR112015018205B1 - Método e sistema para a formação de modelo de linguagem acústica, e meio de armazenamento legível por computador. - Google Patents

Método e sistema para a formação de modelo de linguagem acústica, e meio de armazenamento legível por computador. Download PDF

Info

Publication number
BR112015018205B1
BR112015018205B1 BR112015018205-4A BR112015018205A BR112015018205B1 BR 112015018205 B1 BR112015018205 B1 BR 112015018205B1 BR 112015018205 A BR112015018205 A BR 112015018205A BR 112015018205 B1 BR112015018205 B1 BR 112015018205B1
Authority
BR
Brazil
Prior art keywords
word
class labels
segmentation data
word segmentation
language model
Prior art date
Application number
BR112015018205-4A
Other languages
English (en)
Other versions
BR112015018205A2 (pt
Inventor
Duling Lu
Lu Li
Feng Rao
Bo Chen
Li Lu
Xiang Zhang
Eryu Wang
Shuai Yue
Original Assignee
Tencent Technology (Shenzhen) Company Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology (Shenzhen) Company Limited filed Critical Tencent Technology (Shenzhen) Company Limited
Publication of BR112015018205A2 publication Critical patent/BR112015018205A2/pt
Publication of BR112015018205B1 publication Critical patent/BR112015018205B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Abstract

método e dispositivo para a formação de modelo de linguagem acústica. a presente invenção refere-se ao método e ao dispositivo para formar um modelo de linguagem acústica, que inclui: a realização de segmentação de palavra para as amostras de formação em um corpo de formação com o uso de um modelo de linguagem inicial que não contém os rótulos de classe de palavra para obter os dados de segmentação de palavra inicial que não contêm os rótulos de classe de palavra; realizar a substituição de classe de palavra para os dados de segmentação de palavra inicial que não contêm os rótulos de classe de palavra para obter os primeiros dados de segmentação de palavra que contêm os rótulos de classe de palavra, com o uso dos primeiros dados de segmentação de palavra que contêm os rótulos de classe de palavra para formar um primeiro modelo de linguagem que contêm os rótulos de classe de palavra; utilizar o primeiro modelo de linguagem que contêm os rótulos de classe de palavra para realizar a segmentação de palavra para as amostras de formação no corpo de formação para obter o segundo dado de segmentação de palavra que contêm os rótulos de classe de palavra; e em conformidade com o segundo dado de segmentação de palavra que corresponde a um ou mais critérios predeterminados, utilizar o segundo dado de segmentação de palavra que contêm os rótulos de classe de palavra para formar o modelo de linguagem acústica.

Description

PEDIDOS RELACIONADOS
[001] Esse pedido reivindica a prioridade ao Pedido de Patentechinesa N° CN201310040085.1, intitulado "Method and Device for Training Acoustic Language Models", depositado no dia 1° de fevereiro de 2013, cuja totalidade é aqui incorporada a título de referência.
CAMPO DA INVENÇÃO
[002] A presente invenção refere-se ao campo da tecnologia deprocessamento de linguagem natural, refere-se, especialmente, a um método e dispositivo para a formação de modelos de linguagem acústica.
ANTECEDENTES DA INVENÇÃO
[003] Uma vez que os aplicativos de computador se tornam maise mais populares, há uma crescente expectativa do usuário para a comunicação de linguagem natural direta com os computadores, pois a linguagem natural é a forma mais conveniente, eficaz e rápida do método de comunicação para os seres humanos. A tecnologia de reconhecimento de discurso é uma tecnologia para mudar os sinais de discurso humano em texto correspondente através de processos de reconhecimento e compreensão com base em computador. Os modelos de linguagem desempenham um papel importante para melhorar a precisão do reconhecimento de discurso.
[004] Devido à limitação do desempenho de hardware e algoritmos de software, os sistemas de reconhecimento de discurso atuais impõem limites estritos com relação ao tamanho dos modelos de linguagem. De modo correspondente, o tamanho de um modelo de linguagem cresce exponencialmente com o aumento do tamanho do vo- cabulário abrangido pelo modelo de linguagem. Devido a essas duas razões, o tamanho do vocabulário disponível de um sistema de reconhecimento de discurso não pode ser expandido de forma indefinida. Sob a condição de tecnologia atual, o limite superior da capacidade de glossário de um sistema de reconhecimento de discurso é um pouco mais de cem mil. Para as palavras fora do glossário, a precisão de reconhecimento do sistema de reconhecimento de discurso irá diminuir de forma significativa.
[005] Além disso, existem milhões de palavras com baixa frequência de utilização no ambiente de discurso normal. Por exemplo, essas podem ser palavras que são relevantes apenas por um curto período de tempo (por exemplo, nomes de programas de TV ou filmes); palavras que são relevantes apenas para uma determinada região geográfica (por exemplo, nomes de restaurantes locais), ou palavras que apenas aparecem em um determinado campo profissional (por exemplo, termos ou jargões técnicos), e assim por diante. Por essas e outras razões, existe o fenômeno de que há um grande corpo de palavras de baixa frequência em que cada palavra tem um significado estatístico muito baixo.
[006] Portanto, existe uma necessidade urgente de resolver oproblema de como expandir a cobertura de vocabulário de um modelo de linguagem sem aumentar de maneira significativa o tamanho do modelo de linguagem ou comprometer a sua precisão de cálculo. SUMÁRIO
[007] A presente descrição propõe um método e um dispositivopara a formação de um modelo de linguagem acústica para o reconhecimento de discurso, que expande a cobertura de vocabulário do modelo de linguagem e, assim, melhora a precisão de reconhecimento do sistema de reconhecimento de discurso.
[008] Em um aspecto, um método para a formação de um modelo de linguagem acústica inclui: em um dispositivo que tem um ou mais processadores e memória: conduzir a segmentação de palavra para as amostras de formação em um corpo de formação com o uso de um modelo de linguagem inicial que não contém os rótulos de classe de palavra para obter os dados de segmentação de palavra inicial que não contêm rótulos de classe de palavra; realizar a substituição de classe de palavra para os dados de segmentação de palavra inicial que não contém os rótulos de classe de palavra para obter os primei-ros dados de segmentação de palavra que contêm os rótulos de classe de palavra; usar os primeiros dados de segmentação de palavra que contêm os rótulos de classe de palavra para formar um primeiro modelo de linguagem que contêm os rótulos de classe de palavra; usar o primeiro modelo de linguagem que contêm os rótulos de classe de palavra para realizar a segmentação de palavra para as amostras de formação no corpo de formação para obter o segundo dado de segmentação de palavra que contêm os rótulos de classe de palavra; e em conformidade com o segundo dado de segmentação de palavra que corresponde a um ou mais critérios predeterminados, usar o segundo dado de segmentação de palavra que contêm os rótulos de classe de palavra para formar o modelo de linguagem acústica.
[009] Em algumas modalidades, um sistema para a formação deum modelo de linguagem acústica inclui: um ou mais processadores e a memória que tem as instruções armazenadas nos mesmos, as instruções, quando executadas por um ou mais processadores, fazem com que os processadores executem o método referido acima.
[0010] De acordo com as soluções técnicas acima, algumas modalidades incluem a utilização de um modelo de linguagem inicial que não contém os rótulos de classe de palavra para realizar a segmentação de palavra em amostras de linguagem em um corpo de formação e, assim, a obtenção de dados de segmentação de palavra inicial que não contém rótulos de classe de palavra; fazer a substituição de classe de palavra para pelo menos algumas palavras nos dados de segmentação de palavra inicial, e obter assim os primeiros dados de segmentação de palavra que contêm os rótulos de classe de palavra; formar um primeiro modelo de linguagem que contêm os rótulos de classe de palavra com o uso dos primeiros dados de segmentação de palavra, e utilizar o primeiro modelo de linguagem para executar a segmentação de palavra nas amostras de formação no corpo de formação, obtendo assim o segundo dado de segmentação de palavra que contêm os rótulos de classe de palavra; e utilizar o segundo dado de segmentação de palavra que contêm os rótulos de classe de palavra para formar o modelo de linguagem acústica. Por conseguinte, as modalidades das soluções acima realizam a formação de um modelo de linguagem acústica com base nos dados de segmentação de palavra que contêm os rótulos de classe de palavra. Os rótulos de classe de palavra podem ser usados para substituir todas as palavras (por exemplo, nomes de entidade) pertencentes a essa classe nas amostras de linguagem de formação, e reduzindo assim, a contagem de vocabulário total no modelo de linguagem. Ao cálculo a probabilidade associada às palavras específicas (por exemplo, nomes de entidades específicas) de uma determinada classe de palavra, os parâmetros associados a essa determinada classe de palavra no modelo de linguagem são utilizados no cálculo. As soluções atuais podem ampliar a cobertura vocabulário do modelo de linguagem e assim, melhorar a precisão do reconhecimento do modelo de linguagem. Além disso, as soluções presentes resolvem o problema de maus resultados de reco-nhecimento de palavras fora de glossário devido à capacidade limitada de glossário do sistema de reconhecimento de discurso.
BREVE DESCRIÇÃO DOS DESENHOS
[0011] As características e vantagens da invenção mencionadas acima, bem como as características adicionais e as vantagens da mesma serão mais claramente compreendidas daqui em diante como um resultado de uma descrição detalhada das modalidades preferidas, quando consideradas em conjunto com os desenhos.
[0012] A figura 1A é um diagrama de fluxo de um método de formação de modelo de linguagem acústica de acordo com algumas mo-dalidades;as figuras 1B-1C é um fluxograma de um método de formação modelo de linguagem acústica de acordo com algumas modalidades;a figura 2 é um diagrama de fluxo de processamento esquemático geral de formação de modelo de linguagem acústica, de acordo com algumas modalidades;a figura 3 é um diagrama de blocos de um aparelho para a formação modelo de linguagem acústica de acordo com algumas mo-dalidades.
[0013] A figura 4 é um diagrama de bloco de um aparelho para aformação de modelo de linguagem acústica de acordo com algumas modalidades.
[0014] Os números de referência iguais se referem a partes correspondentes em todas as diversas vistas dos desenhos.
DESCRIÇÃO DE MODALIDADES
[0015] A referência será feita agora em detalhe às modalidades,os exemplos das quais são ilustrados nos desenhos anexos. Na descrição detalhada a seguir, inúmeros detalhes específicos são apresentados a fim de proporcionar um entendimento exaustivo do assunto aqui apresentado. Mas será evidente para um versado na técnica que o objeto pode ser praticado sem esses detalhes específicos. Em outros casos, os métodos, procedimentos, componentes e circuitos bem conhecidos não foram descritos em detalhes de modo a não obscure- cer de maneira desnecessária os aspectos das modalidades.
[0016] A fim de tornar mais clara a compreensão da finalidade, oesquema da técnica e as vantagens da presente invenção, a presente descrição é descrita em detalhes a seguir em conjunto com os desenhos anexos.
[0017] Em algumas modalidades, o conhecimento das características de vocabulário a seguir é considerado:(1) Um grande número de palavras de baixa frequência é os nomes de entidades, tais como: os nomes de pessoas, livros, filmes, lugares e outras entidades nomeadas.(2) As informações de contexto de nomes de entidades da mesma classe de palavra apresentam semelhanças, por exemplo, se diferentes nomes de entidades da mesma classe de palavra forem colocados no mesmo contexto textual (por exemplo, texto circundante em uma frase), a capacidade ideográfica da frase dificilmente é afetada. Por exemplo: a frase "Eu gosto de ver o desenho ‘Crayon ShinChan’" e a frase "Eu gosto de ver o desenho ‘Chibi Maruko Chan'" têm habilidades ideográficas bastante semelhantes.
[0018] De acordo com as características referidas acima, as modalidades da presente divulgação propõem uma estratégia para a formação de um modelo de linguagem acústica com base na segmentação de palavra de acordo com as classes de palavras.
[0019] Tal como aqui descrito, uma classe de palavra refere-se aum conjunto que contém palavras (por exemplo, nomes de entidades) que são semelhantes de acordo com as características estatísticas do seu contexto textual (por exemplo, a probabilidade de ocorrências da palavra em todos os determinados contextos textuais).
[0020] Tal como aqui descrito, a segmentação de palavra refere-seao processo de dividir uma amostra de linguagem contínua (por exemplo, uma sequência de texto) em uma sequência de unidades semânti- cas inequívocas (por exemplo, palavras). Por exemplo, na língua chinesa, uma sequência textual que contém caracteres chineses ou Pinyin não incluem delimitadores naturais entre as palavras, e as divisões entre as unidades semânticas dentro da sequência textual não são aparentes. Portanto, a fim de interpretar o significado da sequência textual, a sequência é segmentada em uma sequência de pedaços, cada um representando uma respectiva palavra.
[0021] Como aqui descrito, a rotulagem de classe de palavra ou asubstituição de classe de palavra refere-se a um processo de substituição ou troca de uma palavra (por exemplo, um nome de entidade) em uma amostra de linguagem (por exemplo, uma amostra de linguagem de formação) com o seu rótulo de classe de palavra correspondente. Por exemplo, a frase "Eu gosto de ver o desenho 'Crayon ShinChan’" pode ser convertida em outra frase "Eu gosto de assistir o desenho <nome dos desenhos>" através da substituição da classe de palavra, em que a expressão "Crayon Shin-Chan" é substituída pelo seu rótulo de classe "<nome do desenho>". A substituição de classe de palavra pode ser realizada em várias palavras de uma frase. O resultado da substituição de classe de palavra é uma frase mais genérica, e as estatísticas associadas às amostras de formação que resultam na mesma frase genérica através da substituição de classe de palavra podem ser combinadas para gerar estatísticas associadas à frase genérica. Quando a sentença genérica é usada na formação de um modelo de linguagem, o modelo de linguagem resultante é um modelo de linguagem que contêm os rótulos de classe de palavra. A formação com o uso de frases genéricas que contêm os rótulos de classe de palavra aborda o problema da escassez de dados para as amostras de formação que contêm as palavras específicas de baixa frequência (por exemplo, as palavras que foram substituídas por seus rótulos de classe correspondentes).
[0022] Tal como aqui descrito, a segmentação de palavra com base nos rótulos de classe de palavra refere-se a uma forma de segmentar uma amostra de linguagem na qual os rótulos de classe de palavra são representados nos caminhos de probabilidade dos resultados de segmentação candidata, e se uma classe de palavra aparecer no melhor caminho, em seguida, o rótulo de classe de palavra de palavras específicas (por exemplo, nomes de entidade) aparece na posição correspondente no resultado da segmentação. Por exemplo, se o caminho que tem a maior probabilidade entre uma pluralidade de caminhos possíveis de segmentação é "[palavra i] [palavra j] [<classe de palavra p>] [palavra k]", então, o resultado da segmentação é "[palavra i] [palavra j] [<classe de palavra p>] [palavra k] ". Esse resultado de segmentação seria válido para todas as sentenças da forma "[palavra i] [palavra j] [sequência x] [palavra k]", em que [sequência x] é uma palavra na classe de palavra <classe de palavra p>.
[0023] Tal como aqui descrito, um modelo de linguagem refere-sea um modelo de probabilidade que, para uma determinada sequência de palavra de histórico, fornece as probabilidades de ocorrências para as palavras sucessivas à determinada sequência de palavra de histórico, por exemplo, com base nas estatísticas de n-gramas e um algoritmo de suavização.
[0024] Os modelos de linguagem são muitas vezes utilizados emmuitos aspectos de processamento de linguagem natural, tais como o reconhecimento de voz, tradução automática, marcação de parte do discurso, análise sintática, recuperação de informação e assim por diante. Uma vez que os comprimentos de palavras e frases podem ser arbitrários, pode haver sequências raras ou não vistos não cobertas de maneira adequada por um modelo de linguagem formado (por exemplo, devido ao problema da escassez de dados durante a formação do modelo de linguagem). Isto dificultará a probabilidade das sequências no corpo, e é também uma das razões para a utilização de um valor aproximado do modelo de N-grama suave.
[0025] De acordo com algumas modalidades da presente descrição, os rótulos de classe de palavra são usados para substituir todas as palavras (por exemplo, nomes de entidade) das classes de palavras correspondentes em amostras de formação (por exemplo, amostras de texto) do corpo de formação. Por conseguinte, uma vez que um grande número de palavras (por exemplo, nomes de entidade) da mesma classe de palavra é expresso como o mesmo rótulo de classe de palavra no modelo de linguagem, o tamanho do vocabulário do modelo de linguagem pode ser reduzido sem comprometer a cobertura vocabulário do modelo de linguagem. Ao calcular as probabilidades para as palavras (por exemplo, nomes de entidade) da mesma classe de palavra, os parâmetros do rótulo da classe de palavra no modelo de linguagem são usados. Para as palavras (por exemplo, nomes de entidade) que não aparecem no texto de formação, desde que o rótulo de classe de palavra que representa esse tipo de palavras (por exemplo, nomes de entidade) exista no modelo de linguagem, as distribuições de probabilidade associadas com o rótulo da classe de palavra podem ser consideradas para aproximar as distribuições de probabilidade associadas a essas palavras não vistas (por exemplo, nomes de entidades não vistos). Com efeito, através do modelo de linguagem que contêm os rótulos de classe de palavra, a cobertura de vocabulário do modelo de linguagem (por exemplo, medido pelo número total de palavras para as quais as probabilidades de ocorrência podem ser calculadas) pode ser muito maior do que o tamanho do vocabulário e as quantidades de classe de palavra realmente contidas no modelo de linguagem. Como tal, os problemas da pobre desempenho de reconhecimento de voca-bulário para além do âmbito do glossário, que são causados pela capacidade limitada do glossário do sistema de reconhecimento de dis- curso, podem ser resolvidos.
[0026] A figura 1 é um fluxograma de um método de formação demodelo de linguagem acústica de acordo com algumas modalidades.
[0027] Como é mostrado na figura 1, o método inclui:
[0028] Etapa 101: realizar a segmentação de palavra para asamostras de linguagem (por exemplo, frases textuais) no corpo de formação com o uso de um modelo de linguagem que não contém os rótulos de classe de palavra para obter os dados de segmentação de palavra que não contêm os rótulos de classe de palavra.
[0029] Aqui, antes de realizar a segmentação de palavra do corpode formação com o uso de um modelo de linguagem que não contêm os rótulos de classe de palavra, em algumas modalidades preferenciais, o processamento de normalização do corpo de formação é realizado. O processamento de normalização inclui opcionalmente: a conversão de casos (por exemplo, entre maiúsculas e minúsculas), conversões de codificação (por exemplo, entre Unicode e outras codificações), formato de hora unificador, etc.
[0030] Especificamente, vários tipos de "tokenizers" (por exemplo,modelos de linguagem convencionais formados apenas em amostras de linguagem que contêm as palavras puras e sem os rótulos de classe de palavra) podem ser utilizados como o modelo de linguagem inicial, ou seja, o modelo de linguagem que não contém os rótulos de classe de palavra para realizar a segmentação de palavra para o corpo de formação obter os resultados de segmentação de palavra sem os rótulos de classe de palavra.
[0031] Em algumas modalidades, o modelo de linguagem sem osrótulos de classe de palavra pode ser um modelo matemático com base na teoria de estatísticas de probabilidade, e para calcular as distribuições de probabilidade associadas com as frases chinesas. O modelo de linguagem é configurado para tornar a probabilidade de produzir uma sentença correta (por exemplo, uma frase com a segmentação correta das palavras) maior do que a probabilidade de produzir frases erradas. Por exemplo, para a frase chinesa em um modelo de linguagem de estatística, a frase chinesa pode ser decomposta ou segmentada em várias palavras discretas, tais como:
[0032] Para uma frase chinesa que contém m (m é um número natural) palavras, por exemplo,
Figure img0001
, de acordo com a teoria de Bayes, a probabilidade dessa expressão chinesa (probabi- lidade dessa expressão ser um resultado correto) pode ser decompos- ta no produto aritmético de probabilidades condicionais que contêm mais do que uma palavra, isto é:
Figure img0002
[0033] Na fórmula acima, w i é a i-ésima palavra contida na frasechinesa S; e
Figure img0003
é a probabilidade condicional da palavra w i aparecer na frase
Figure img0004
[0034] A partir da fórmula acima, pode ser visto que o espaço paramétrico da probabilidade condicional
Figure img0005
assume um crescimento exponencial com o aumento da variável i. Quando a variável i é grande, com o tamanho limitado do corpo de formação disponível, o valor de probabilidade
Figure img0006
não pode ser calculado de maneira correta.
[0035] O corpo de formação é um conjunto que contém as amostras textuais ordenadas que foram organizadas e formadas de acordo com determinadas categorias de uma grande quantidade de texto de formação com o uso de métodos estatísticos. O corpo de formação pode ser processado por computadores em lotes. Portanto, nos métodos de modelagem de modelos atuais de linguagem prática, a probabi- lidade condicional
Figure img0007
é simplificada para vários graus. Emergindo desses métodos de modelagem é o método de modelagem do modelo de linguagem padrão Ngram.
[0036] O modelo de linguagem padrão Ngram é um dos modelosde linguagem estatísticos mais utilizados na atualidade. Em algumas modalidades, o modelo de linguagem padrão Ngram com relação a uma sentença chinesa como uma sequência de Markov, satisfazendo a propriedade de Markov. Especificamente, o modelo de linguagem padrão Ngram faz as seguintes hipóteses básicas para a probabilidade condicional
Figure img0008
no modelo de linguagem de estatística:(1) A hipótese de histórico limitado: a probabilidade condicional de uma palavra na frase de entrada atual estar apenas relacionada com as n-1 palavras anteriores à palavra, em vez de toda a frase chinesa, em que n é um número natural predefinido;(2) A hipótese de homogeneidade de tempo: a probabilidade condicional da palavra atual não estar relacionada com a sua posição na frase chinesa.
[0037] Com base nas duas hipóteses acima, a fórmula de cálculode probabilidade para uma sentença sob o modelo de linguagem padrão Ngram pode ser simplificada como:
Figure img0009
[0038] Desse modo, com base nas duas hipóteses acima, a probabilidade condicional
Figure img0010
em um modelo de linguagem de estatística padrão é simplificada para a probabilidade condicional no modelo de linguagem padrão Ngram
Figure img0011
. Nessaúltima fórmula de cálculo de probabilidade, o número de palavras de histórico relacionadas com as palavras atuais é fixo em uma constante n-1, em vez de uma variável i-1 no modelo de linguagem de estatística padrão. Assim, o tamanho do espaço de parâmetro para o modelo de linguagem inteira é reduzido, e o valor da probabilidade Ngram pode ser avaliado de maneira correta com base no corpo de formação atualmente disponível. Consequentemente, o modelo de linguagem padrão Ngram pode ser praticado de maneira razoável.
[0039] No modelo de linguagem padrão Ngram, a estimativa dovalor de probabilidade condicional
Figure img0012
adota o método de estimativa de probabilidade máxima, a fórmula de cálculo é a seguinte:
Figure img0013
[0040] Na fórmula acima,
Figure img0014
representa a frequênciada sequência de palavra
Figure img0015
(uma subsequência de palavras na frase) que aparece no corpo de formação do modelo de linguagem padrão Ngram.
[0041] Em algumas modalidades, a palavra de segmentação éconduzida com o uso de um modelo de linguagem padrão Ngram para obter os dados de segmentação de palavra que não contêm os rótulos de classe de palavra.
[0042] Etapa 102: realizar uma substituição de classe de palavrapara os dados de segmentação de palavra que não contêm os rótulos de classe de palavra para obter os primeiros dados de segmentação de palavra que contêm os rótulos de classe de palavra.
[0043] Aqui, um glossário de classificação pode ser pré-estabelecido, onde o vocabulário nesse glossário de classificação é classificado de acordo com as classes de palavras. Em algumas modalidades, para uma palavra identificada wi nos dados de segmentação de palavra (por exemplo, w1 / w2 / ... / wi / ... / wm) que não contêm os rótulos de classe de palavra, uma palavra idêntica (por exemplo, wi) pode ser recuperada do glossário de classificação pré-estabelecido e o respectivo rótulo de classe de palavra (por exemplo, < rótulox>) da palavra recuperada é definido como o respectivo rótulo de classe de palavra para a palavra nos dados de segmentação de palavra (por exemplo, que resultam nos dados de segmentação de palavra modificada w1 / w2 / ... / <label x> / ... / Wm).
[0044] Por exemplo, em algumas modalidades, supondo que oglossário de classificação contém o rótulo de classe de palavra (que significa <mobiliário> em Inglês). No glossário, as palavras que correspondem ao rótulo de classe de palavra incluem: (que significa "janela" em Inglês), (que significa "mesa", em Inglês), (que significa "cadeira", em Inglês), (que significa "porta" em Inglês), etc. Além disso, o rótulo da classe de palavra comum para essas palavras de móveis é Quando o corpo de formação contém a frase chinesa (que significa "eu abro a janela", em Inglês), a sentença é segmentada como. Ao comparar as palavras segmentadas nos dados de segmentação de palavra com as palavras conhecidas no glossário de classificação, pode ser determinado que a palavra segmentada no corpo de formação pertence à classe de palavra, e tem um rótulo de classe de palavra de no glossário de classificação. Assim, a palavra segmentada nos dados de segmentação é substituída pelo rótulo de classe de palavra encontrado no glossário de classificação, e os dados de segmentação que não contêm os rótulos de classe de palavra (por exemplo, são convertidos nos dados de segmentação de palavra que contêm os rótulos de classe de palavra (por exemplo.
[0045] Da mesma forma, quando o corpo de formação contém afrase chinesa (que significa "eu abro a porta", em Inglês), a sentença é segmentada como. Ao comparar as palavras segmentadas nos dados de segmentação de palavra com as palavras conhecidas no glossário de classificação, pode ser determinado que a palavra segmentada no corpo de formação também pertence à classe de palavra e tem um rótulo de classe de palavra de no glossário de classificação. Assim, a palavra segmentada nos dados de segmentação de palavra frJP é substituída pelo rótulo da classe de palavra, resultando nos dados de segmentação de palavra que contêm os rótulos de classe de palavra (por exemplo,).
[0046] Da mesma forma, quando o corpo de formação contém afrase chinesa (que significa "eu chuto a mesa", em Inglês), a sentença é segmentada como. Ao comparar as palavras segmentadas nos dados de segmentação de palavra com as palavras conhecidas no glossário de classificação, pode ser determinado que a palavra segmentada no corpo de formação também pertence à classe de palavra , e tem um rótulo de classe de palavra de no glossário de classificação. Assim, a palavra segmentada "Mí" nos dados de segmentação é substituída pelo rótulo da classe de palavra, resultando em dados de segmentação de palavra que contêm os rótulos de classe de palavra (por exemplo,).
[0047] Em algumas modalidades, depois de uma palavra conhecida que é a mesma que uma palavra segmentada nos dados de segmentação de palavra que não contêm os rótulos de classe de palavra é identificada e obtida a partir do glossário de classificação pré- estabelecido, o método inclui ainda:
[0048] Determinar se o comprimento de palavra da palavra conhe- cida recuperada a partir do glossário de classificação excede um valor limite predeterminado do comprimento de palavra correspondente, e se assim for, definir o rótulo da classe de palavra da palavra conhecida recuperada como o rótulo de classe de palavra da palavra segmentada nos dados de segmentação de palavra que não contêm os rótulos de classe de palavra. Por exemplo, em algumas modalidades, o comprimento de palavra limite predefinido é dois caracteres. Em algumas modalidades, o comprimento de palavra limite predefinido é um caractere. Em algumas modalidades, o comprimento de palavra limite pre- definido é três caracteres. Se o comprimento de palavra da palavra conhecida recuperada do glossário de classificação não exceder o valor limite predefinido de comprimento de palavra correspondente, o rótulo de classe de palavra da palavra conhecida recuperada não é utilizado para substituir a palavra segmentada nos dados de segmentação de palavra. Em algumas modalidades, duas ou mais palavras conse-cutivas segmentadas são combinadas como uma única palavra segmentada na busca por uma palavra de correspondência conhecida de comprimento suficiente no glossário de classificação, e se for encontrada uma correspondência, o rótulo da classe de palavra da palavra conhecida recuperada é usado para substituir as duas ou mais palavras segmentadas consecutivas como um todo nos dados de segmen-tação de palavra. Em algumas modalidades, em vez de verificar o comprimento da palavra de uma palavra recuperada, o comprimento da palavra é uma palavra segmentada é verificado antes de ser usado para procurar o glossário de classificação, e apenas as palavras segmentados que são mais longas do que o comprimento limite predefini- do são utilizadas para procurar o glossário de classificação.
[0049] Etapa 103: utilizar os primeiros dados de segmentação depalavra que contêm os rótulos de classe de palavra para formar um modelo de linguagem que contêm os rótulos de classe de palavra e usar o modelo de linguagem que contêm os rótulos de classe de palavra para realizar a segmentação de palavra do corpo de formação, a fim de obter o segundo dado de segmentação de palavra que contêm os rótulos de classe de palavra.
[0050] Em algumas modalidades, os primeiros dados de segmentação de palavra que contêm os rótulos de classe de palavra incluem as amostras de formação segmentadas (por exemplo, frases chinesas) em que pelo menos uma palavra segmentada foi substituída pelo seu rótulo de classe de palavra correspondente. Em algumas modalidades, algumas amostras de formação segmentadas nos primeiros dados de segmentação de palavra podem incluir um ou mais rótulos de classe de palavra entre uma ou mais palavras segmentadas originais. Em algumas modalidades, a substituição de classe de palavra na Etapa 102 é executada em vários estágios diferentes e de acordo com um ou mais critérios predeterminados. Em algumas modalidades, em cada etapa do processo de substituição de classe de palavra, apenas certas palavras (por exemplo, palavras que cumprem certos requisitos de comprimento, com uma pontuação de segmentação de palavras acima de um certo valor de limite, palavras de uma certa classe de palavra, etc.) são substituídas por seus rótulos de classe de palavra correspondentes.
[0051] Em algumas modalidades, os primeiros dados de segmentação de palavra que contêm os rótulos de classe de palavra são usados como as amostras de formação para um modelo de linguagem Ngram, de tal modo que cada rótulo classe de palavra em uma respectiva amostra de formação é tratado da mesma forma que uma palavra na amostra de formação. Uma vez que muitas palavras nas amostras de formação do corpo de formação original são agora substituídas por seus rótulos de classe de palavra correspondentes, o número de amostras de formação única no corpo de formação é reduzido e as frequências de uso das palavras substituídas agora contribuem para as frequências de uso de seus respectivos rótulos da classe de palavra. Assim, o modelo de linguagem resultante formados nos primeiros dados de segmentação de palavra que contêm os rótulos de classe de palavra é menor do que o modelo de linguagem inicial utilizado na etapa 101, e tem uma melhor cobertura e precisão de vocabulário. Em algumas modalidades, vários métodos de formação do modelo de linguagem podem ser utilizados.
[0052] Em algumas modalidades, uma vez que o modelo de linguagem tem sido formado com o uso dos primeiros dados de segmentação de palavra que contêm os rótulos de classe de palavra, o modelo de linguagem pode ser utilizado para segmentar as frases que incluem os rótulos de classe de palavra. Em algumas modalidades, a substituição de classe de palavra é realizada nas amostras de formação no corpo de formação original, de tal modo que pelo menos algumas palavras do corpo de formação são substituídas por seus rótulos de classe de palavras correspondentes encontrados no glossário de classificação. Em algumas modalidades, os mesmos critérios usados para determinar se substitui ou não certas palavras pelos seus rótulos de classe de palavra correspondentes utilizados na etapa 102 são usados aqui para determinar quais as palavras que devem ser substi-tuída por seus rótulos de classe de palavra. Em algumas modalidades, a substituição de classe de palavra não precisa ser realizada nas amostras de formação do corpo de formação original que não contém rótulos de classe de palavra nessa etapa; em vez disso, os primeiros dados de segmentação de palavra (isto é, amostras de formação segmentadas em que algumas palavras segmentadas foram substituídas por seus rótulos de classe de palavra correspondentes por meio do processo de substituição de classe de palavra na Etapa 102) são fornecidos como entradas de teste para o modelo de linguagem que con- tém os rótulos de classe de palavra para obter o segundo dado de segmentação de palavra que contêm os rótulos de classe de palavra.
[0053] Etapa 104: usar o segundo dado de segmentação de palavra que contêm os rótulos de classe de palavra para obter o modelo de linguagem acústica.
[0054] Os segundo dado de segmentação de palavra que contêmos rótulos de classe de palavra é provável que seja diferente dos primeiros dados de segmentação que contêm os rótulos de classe de palavra, porque o modelo de linguagem que contêm os rótulos de classe de palavra obtidos na Etapa 103 é um resumo estatístico dos primeiros dados de segmentação que contêm os rótulos de classe de palavra. O segundo dado de segmentação de palavra que contêm os rótulos de classe de palavra é susceptível de aproximar cada vez mais os primeiros dados de segmentação que contêm os rótulos de classe de palavra, se o modelo de linguagem, obtido na Etapa 103, torna-se cada vez mais preciso. Como será descrito abaixo, o processo de obtenção de um modo de linguagem que contêm os rótulos de classe de pala-vra, que executa a segmentação no corpo de formação para a obtenção de novos dados de segmentação que contêm os rótulos de classe de palavra, e formar o modelo de linguagem que contêm os rótulos de classe de palavra com os novos dados de segmentação que contêm os rótulos de classe de palavra para obter um novo modelo de linguagem pode ser repetido por uma ou mais iterações até que uma condição de convergência predeterminada seja atendida. Em algumas modalidades, a condição convergência predeterminada é que os dados de segmentação obtidos com o uso do novo modelo de linguagem seja suficientemente semelhante aos dados de segmentação utilizados para formar o novo modelo de linguagem. Em algumas modalidades, o critério para medir a semelhança entre os dados de segmentação obtidos com o uso do novo modelo de linguagem e os dados de segmen- tação usados para formar o novo modelo de linguagem é se os rótulos de classe de palavra nos dois conjuntos de dados de segmentação de palavra têm os mesmos locais.
[0055] Em algumas modalidades, depois de o modelo de linguagem acústica ser obtido com base nos segundo dado de segmentação de palavra que contêm os rótulos de classe de palavra, o modelo de linguagem acústica está pronto para receber a entrada e fornecer os resultados de reconhecimento, incluindo: recepção de discurso de entrada e executar o processamento de reconhecimento de discurso objetivado no discurso de entrada através da utilização do modelo de linguagem acústica.
[0056] Em algumas modalidades, depois que o segundo dado depalavra de que contêm os rótulos de classe de segmentação de palavra é obtido, o método inclui ainda:
[0057] Determinar se os primeiros dados de segmentação de palavra que contêm o rótulo de classe de palavra têm a(s) mesma(s) po- sição(s) de substituição do(s) rótulo(s) de classe de palavra com o segundo dado de segmentação de palavra que contêm os rótulos de classe de palavra, e em caso afirmativo, em seguida, usar o segundo dado de segmentação de palavra que contêm o(s) rótulo(s) de classe de palavra para obter o modelo de linguagem acústica, se não, realizar a substituição de classe de palavra para o segundo dado segundo de segmentação de palavra que contêm os rótulos de classe de palavra.
[0058] Em algumas modalidades preferidas da presente invenção,o fluxo do processo é iterativo, ou seja, o modelo de linguagem, que contêm os rótulos de classe de palavra atravessa um processo de otimização iterativo. Em algumas modalidades, o processo inclui:(1) no início, executar o processamento de normalização do corpo de formação;(2) em seguida, um tokenizer usa um modelo de linguagem inicial (por exemplo, um modelo de linguagem que não contém os rótulos de classe de palavra) para realizar a segmentação de palavra em amostras de formação no corpo de formação, e obter os resultados de segmentação de palavra (por exemplo, dados de segmentação de palavra que não contém os rótulos de classe de palavra);(3) conduzir a substituição de classe de palavra para os resultados de segmentação de palavra com base em um conjunto de regras de acionamento de condição para obter os resultados de segmentação de palavra que contêm os rótulos de classe de palavra. Nesse momento, a fim de garantir a taxa de precisão, as regras de acionamento de condição podem executar a substituição de classe de palavra pelos nomes das entidades que atendem a limites claros pre- definidos. Se o resultado da segmentação de palavra que contém os rótulos de classe de palavra obtidos em uma iteração atual for o mesmo que o resultado de segmentação de palavra que contém os rótulos de classe de palavra obtidos na iteração anterior, o processo iterativo pode ser encerrado e o pós-processamento pode ser iniciado;(4) usar a palavra de dados de segmentação que contêm os rótulos de classe de palavra para formar um modelo de linguagem e obter um modelo de linguagem que contêm os rótulos de classe de palavra;(5) o tokenizer usa o modelo de linguagem que contêm os rótulos de classe de palavra para realizar a segmentação de palavra do corpo de formação de acordo com os rótulos de classe de palavra das palavras do corpo de formação obtidas na etapa (1), obter os dados de segmentação de palavra que contêm os rótulos de classe de palavra, e retornar para realizar a etapa (3) em uma iteração a seguir. Nesse momento, dado que a utilização de um modelo de linguagem de estatística pode criar a substituição de classe de palavra que as regras de acionamento falham em cominar, e em virtude das mudanças no resultado da segmentação de palavra, a posição original, que pode combinar com as regras de acionamento, pode não ser mais válida. Como tal, a decisão sobre se deve ou não continuar o processo iterativo das etapas (3) a (5) pode resultar na continuação do processo iterativo até que o modelo de linguagem seja suficientemente preciso e os resultados de segmentação de duas iterações sofram uma conversão.
[0059] Depois disso, o pós-processamento adequado para o reconhecimento de fala pode ser executado no resultado da segmentação de palavra que contêm os rótulos de classe de palavra; e o resultado de segmentação de palavra pode ser usado para formar o modelo de linguagem acústica que contêm os rótulos de classe de palavra.
[0060] As figuras 1B-1C são um diagrama de fluxo do métodoacima de formação de um modelo de linguagem acústica de acordo com algumas modalidades.
[0061] Em algumas modalidades, em um dispositivo que tem umou mais processadores e memória: a segmentação de palavra é realizada (112) para as amostras de formação em um corpo de formação com o uso de um modelo de linguagem inicial que não contém os rótulos de classe de palavra para obter os dados de segmentação de palavra inicial que não contêm os rótulos de classe de palavra.
[0062] Em seguida, a substituição de classe de palavra pelos dados de segmentação de palavra inicial que não contêm os rótulos de classe de palavra é realizada (114) para obter os primeiros dados de segmentação de palavra que contêm os rótulos de classe de palavra.
[0063] Em algumas modalidades, ao realizar a substituição declasse de palavra para os dados de segmentação de palavra inicial que não contém os rótulos de classe de palavra para obter os primeiros dados de segmentação de palavra que contêm os rótulos de classe de palavra: os respectivos rótulos de classe de palavra para uma ou mais das respectivas palavras nos dados de segmentação de palavra inicial que não contêm os rótulos de classe de palavra são identificados (116) em um glossário de classificação. Uma ou mais das respectivas palavras nos dados de segmentação de palavra inicial que não contêm os rótulos de classe de palavra são então substituídos (118) pelos respectivos rótulos de classe de palavra identificadas para obter os primeiros dados de segmentação de palavra que contêm os rótulos de classe de palavra.
[0064] Em algumas modalidades, os primeiros dados de segmentação de palavra que contêm os rótulos de classe de palavra (120) são usados para formar um primeiro modelo de linguagem que contêm os rótulos de classe de palavra.
[0065] Em algumas modalidades, após a formação, o primeiromodelo de linguagem que contêm os rótulos de classe de palavra é (122) utilizado para realizar a segmentação de palavra para as amostras de formação no corpo de formação para obter o segundo dado de segmentação de palavra que contêm os rótulos de classe de palavra.
[0066] Em algumas modalidades, quando se utiliza o primeiro modelo de linguagem que contêm os rótulos de classe de palavra para realizar a segmentação de palavra para as amostras de formação no corpo de formação para obter o segundo dado de segmentação de palavra que contêm os rótulos de classe de palavra: os respectivos rótulos de classe de palavra para uma ou mais das respectivas palavras nas amostras de formação no corpo de formação são identificados (124) em um glossário de classificação; uma ou mais das respectivas palavras nas amostras de formação são substituídas (126) pelos respectivos rótulos de classe de palavra identificados para obter novas amostras de formação que contêm os rótulos de classe de palavra; e a segmentação de palavra para as novas amostras de formação é conduzida (128) com o uso do primeiro modelo de linguagem que contêm os rótulos de classe de palavra para obter os segundo dado de seg- mentação de palavra que contêm os rótulos de classe de palavra.
[0067] Em algumas modalidades, de acordo com o segundo dadode segmentação de palavra correspondente de uma ou mais condições predeterminadas, o segundo dado de segmentação de palavra que contêm os rótulos de classe de palavra é usado (130) para formar o modelo de linguagem acústica.
[0068] Em algumas modalidades, após a obtenção do segundodado de segmentação de palavra que contêm os rótulos de classe de palavra: os resultados de segmentação de amostras correspondentes de formação nos primeiro e segundo dados de segmentação de palavra são comparados (132). De acordo com uma determinação de que os primeiros dados de segmentação de palavra são consistentes com p segundo dado de segmentação de palavra, o segundo dado de segmentação de palavra é aprovado (134) para a utilização na formação do modelo de linguagem acústica. Em algumas modalidades, após a obtenção do segundo dado de segmentação de palavra que contêm os rótulos de classe de palavra: em conformidade com a determinação de que os primeiros dados de segmentação de palavra são inconsistentes com o segundo dado de segmentação de palavra, o primeiro modelo de linguagem é formado novamente (136), por exemplo, com o uso do segundo dado de segmentação de palavra.
[0069] Em algumas modalidades, depois que o primeiro modelo delinguagem é formado novamente, a palavra de segmentação para a segunda amostra de formação é repetido, com o uso do primeiro modelo de linguagem, que contêm os rótulos de classe de palavra para obter segundo dado de segmentação de palavra revisado. Em algumas modalidades, em conformidade com uma determinação de que o segundo dado de segmentação de palavra revisado é consistente com o segundo dado de segmentação de palavra, o segundo dado de segmentação de palavra revisado é aprovado para o uso na formação do modelo de linguagem acústica.
[0070] Em algumas modalidades, após a obtenção do segundodado de segmentação de palavra que contêm os rótulos de classe de palavra: em conformidade com a determinação de que os primeiros dados de segmentação de palavra são inconsistentes com o segundo dado de segmentação de palavra, os primeiros dados de segmentação de palavra que contêm os rótulos de classe de palavra são revisados com diferente substituição de classe de palavra de antes. O primeiro modelo de linguagem é formado novamente com o uso dos primeiros dados de segmentação de palavra revisados para obter um modelo de linguagem revisado pela primeira vez. O modelo de linguagem revisado pela primeira vez é usado para executar a segmentação do corpo de formação para obter o segundo dado de segmentação de palavra revisado. Em algumas modalidades, em conformidade com uma determinação de que o segundo dado de segmentação de palavra é consistente com os primeiros dados de segmentação de palavra revisados, os segundo dado de segmentação de palavra revisado foi aprovado para o uso na formação do modelo de linguagem acústica.
[0071] Em algumas modalidades, a determinação de que os primeiros dados de segmentação de palavra são consistentes com o segundo dado de segmentação de palavra compreende ainda uma determinação de que as respectivas substituições de rótulo de classe de palavra nos primeiros dados de segmentação de palavra são idênticas a as respectivas substituições de rótulo classe de palavra no segundo dado de segmentação de palavra.
[0072] A figura 2 é o diagrama esquemático global do método deformação de modelo de linguagem acústica com base na modalidade da presente divulgação. Como descrito nas figuras 1A-C, em algumas modalidades, o processo mostrado na figura 2 inclui: (1) o pré- processamento do corpo de formação seguido pela (2) segmentação de palavra com base na classe de palavras (por exemplo, com o uso de um modelo de linguagem, que contêm os rótulos de classe de palavra), seguida pela (3) substituição de classe de palavra (por exemplo, a substituição adicional ou de classe de palavra revisada), seguida pela (4) formação de um modelo de linguagem melhorada com o uso dos novos dados de formação (por exemplo, os dados de segmentação de palavra obtido a partir de modelo de linguagem anterior, modificados com substituição adicional ou revisada de classe de palavra), (5) o processo de (2) a (4) pode repetir várias iterações para melhorar o modelo de linguagem em cada iteração adicional; uma vez que um conjunto de critérios predeterminados (por exemplo, os dados de seg-mentação de palavra usados para formar o modelo de linguagem atual, e os dados de segmentação de palavra obtidos a partir do modelo de linguagem corrente são consistentes entre si) e, em seguida, o ciclo de (2) a (4) pode ser quebrado, e (6) a segmentação dos dados obtidos a partir do último modelo de linguagem é pós-processada, e (7) utilizada na formação de um modelo de linguagem (um modelo de linguagem acústica) que é utilizado no reconhecimento de discurso.
[0073] Como mostrado na figura 2, de acordo com a análise específica mencionada acima, em algumas modalidades, para a fase de segmentação de palavra, a otimização não corresponde apenas às palavras padrão, às palavras de dicionário, mas também realiza a substituição de rótulos de classe de palavra para as palavras correspondentes com base em recurso de classe de palavra (por exemplo, glossário de classificação) durante o processo completo de segmentação. Para a fase de segmentação de palavra, durante o processo de seleção de otimização com base no caminho de probabilidade do modelo de Markov oculto, os parâmetros de classe de palavras em um modelo de linguagem podem ser utilizados para calcular a probabilidade de uma classe de palavra. Se o caminho ideal incluir um rótulo de classe de palavra, então, o rótulo de classe de palavra será emitido diretamente como o resultado da segmentação de palavra. Na fase de substituição de classe de palavra com base no recurso, os dados de substituição de classe de palavra serão os dados de recursos confiáveis, em vez de palavras não cotadas originárias do reconhecimento automático. Ele mostra que o método de substituição de classe de palavra do vocabulário é uma combinação dos dois métodos, incluindo as regras de acionamento e o modelo de linguagem de estatística.
[0074] Na modalidade da presente divulgação, as regras de acionamento realizam apenas a substituição de classe de palavra para as partes garantidas, e através da iteração do modelo de linguagem com base na classe de palavra, o percentual de cobertura de substituição de classe de palavra pode ser melhorar gradualmente. Na modalidade da presente descrição, o vocabulário de classificação que serve como fonte de segmentação participa no processamento de correspondência de segmentação de palavra, e está envolvido no cálculo do caminho de probabilidade máxima, utilizando o parâmetro de probabilidade de classe de palavra, e permite que o ganho de vocabulário de classe de palavra seja mostrado no resultado de segmentação de palavra na forma de rótulos de classificação.
[0075] Com base na análise específica acima referida, a modalidade da presente divulgação também invoca um tipo de dispositivo de formação do modelo de linguagem acústica.
[0076] A figura 3 é a diagrama estrutural do dispositivo do métodode formação de modelo de linguagem acústica de acordo com algumas modalidades.
[0077] Esse dispositivo inclui a unidade de segmentação de palavra 301, a unidade de substituição de classe de palavra 302, a unidade de formação de modelo de linguagem 303 e a unidade de obtenção de modelo de linguagem acústica 304, em que: a unidade de segmentação de palavra 301 utiliza um modelo de linguagem, sem os rótulos de classe de palavra para realizar a segmentação de palavra para um corpo de formação , a fim de obter os dados de segmentação de palavra sem os rótulos de classe de palavra;a unidade de substituição de classe de palavra 302 é usada para executar a substituição de classe de palavra para os dados de segmentação de palavra sem os rótulos de classe de palavra para obter os primeiros dados de segmentação de palavra com os rótulos de classe de palavra;a unidade de formação de modelo de linguagem 303 é usada para formar um modelo de linguagem que contêm os rótulos de classe de palavra com o uso dos primeiros dados de segmentação de palavra com os rótulos de classe de palavra, e usa o modelo de linguagem que contêm os rótulos de classe de palavra para realizar a segmentação de palavra do corpo de formação, a fim de obter o segundo dado de segmentação de palavra que contêm os rótulos de classe de palavra;a unidade de obtenção de modelo de linguagem acústica 304 utiliza o segundo dado de segmentação de palavra que contêm os rótulos de classe de palavra para obter um modelo de linguagem acústica.
[0078] Em algumas modalidades, a unidade de substituição declasse de palavra 302 é usada para recuperar, a partir de um glossário de classificação pré-estabelecido, as palavras conhecidas que são idênticas às palavras segmentadas nos dados de segmentação de palavra sem os rótulos de classe de palavra, e definir os respectivos rótulos de classe de palavra das palavras conhecidas recuperadas como os respectivos rótulos de classe de palavra das palavras segmentadas nos dados de segmentação de palavra sem os rótulos de classe de palavra.
[0079] Em algumas modalidades, a unidade de formação de modelo de linguagem 303 é usada ainda para determinar se os primeiros dados de segmentação de palavra com os rótulos de classe de palavra têm as mesmas posições de substituição de rótulos de classe de palavra com o segundo dado de segmentação de palavra com os rótulos de classe de palavra, depois que o segundo dado de segmentação de palavra com os rótulos de classe de palavra é obtido. Se assim for, a unidade de obtenção de modelo de linguagem acústica está ativada, se não, a unidade de substituição de classe de palavra é habilitada para realizar a substituição de classe de palavra para o segundo dado de segmentação de palavra com os rótulos de classe de palavra.
[0080] Em algumas modalidades, a unidade de substituição declasse de palavra 302 é usada para determinar ainda se o comprimento vocabulário recuperado do glossário de classificação excede um valor limite predefinido de comprimento de palavra correspondente depois que o mesmo vocabulário com os dados de segmentação de palavra sem os rótulos de classificação de palavra são recuperados a partir do glossário de classificação pré-estabelecido. Se assim for, os rótulos de classe de palavra do vocabulário recuperado são definidos como os rótulos de classe de palavra de palavras recuperadas nos dados de segmentação de palavra sem os rótulos de classe de palavra.
[0081] Em uma modalidade, a unidade de substituição de classede palavra 302 é usada para determinar ainda se o comprimento vocabulário recuperado do glossário de classificação excede um valor limite predefinido de frequência de palavra depois que uma palavra conhecida que é idêntica a uma palavra segmentada nos dados de segmentação de palavra sem os rótulos de classificação de palavra é recuperada a partir do glossário de classificação pré-estabelecido. Se assim for, o rótulos de classe de palavra da palavra conhecida recuperada é definido como o rótulo de classe de palavra da palavra segmentada nos dados de segmentação de palavra sem os rótulos de classe de palavra.
[0082] De preferência, esse aparelho inclui ainda a unidade de reconhecimento de voz 305;a unidade de reconhecimento de voz 305 é utilizada para receber a fala de entrada, e executa o processamento de reconhecimento de fala objetivado na voz de entrada, ao usar o modelo de linguagem acústica.
[0083] De preferência, esse dispositivo inclui ainda a unidade denormalização 306;
[0084] A unidade de normalização 306 é usada para realizar oprocessamento de normalização para o corpo de formação antes de realizar a segmentação de palavra para o corpo de formação ao usar o modelo de linguagem sem os rótulos de classe de palavra.
[0085] É aceitável integrar o dispositivo mostrado na figura 3 ementidades de uma variedade de redes de hardware. Por exemplo, o dispositivo de formação de modelo de linguagem acústica pode ser integrado em: dispositivos como os telefones de recurso, smartphones, computadores palmtop, computador pessoal (PC), computador tablet, ou assistente pessoal digital (PDA), etc.
[0086] Na verdade, existem várias formas de implementar o especificamente o dispositivo de formação de modelo de linguagem acústica mencionado nas modalidades da presente divulgação. Por exemplo, através da interface da aplicação que segue determinadas especificações, o dispositivo de formação de modelo de linguagem acústica pode ser gravado como um plug-in instalado em um navegador, e empacotado como um aplicativo usado para fazer o download pelos próprios usuários também. Quando gravado como um plug-in, ele pode ser implementado em vários formatos de plug-in, incluindo ocx, dll, cab, etc. É também aceitável implementar o dispositivo de formação de modelo de linguagem acústica mencionado nas modalidades da presente invenção através de tecnologias específica, incluindo plug-in Flash, plug-in RealPlayer, plug-in MMS, plug-in MI stave, plug-in ActiveX, etc.
[0087] Através de métodos de armazenamento de instrução ouconjunto de instruções, o método de formação de modelo de linguagem acústica mencionado nas modalidades da presente invenção pode ser armazenado em meios de armazenamento diferentes. Esses meios de armazenamento incluem, mas não se limitando a: disquete, CD, DVD, disco rígido, flash Nand, disco flash USB, cartão CF, cartão SD, MMC, cartão de SM, cartão de memória (cartão de memória), cartão xD, etc.
[0088] Além disso, o método de formação de modelo de linguagemacústica indicado nas modalidades da presente divulgação pode também ser aplicado à meio de armazenamento com base em flash NAND, por exemplo, disco flash USB, CF, cartão SD, SDHC, MMC, cartão SM, cartão de memória, cartão xD e assim por diante.
[0089] Em resumo, algumas modalidades da presente invençãoincluem: a realização de segmentação de palavra para o corpo de formação, com o uso de um modelo de linguagem sem os rótulos de classe de palavra para obter os dados de segmentação de palavra sem os rótulos de classe de palavra; fazer a substituição de classe de palavra para os dados de segmentação de palavra sem os rótulos de classe de palavra para obter os primeiros dados de segmentação de palavra com os rótulos de classe de palavra; a formação de um modelo de linguagem com os rótulos de classe de palavra com o uso dos primeiros dados de segmentação de palavra com os rótulos de classe de palavra, e com o uso do modelo de linguagem com os rótulos de classe de palavra para realizar a segmentação de palavra do corpo de formação, a fim de obter o segundo dado de segmentação de palavra com os rótulos de classe de palavra; o uso do segundo dado de segmentação de palavra com os rótulos de classe de palavra para obter um modelo de linguagem acústica. Assim, pode ser visto que a formação do modelo de linguagem acústica com base na segmentação de palavra da classe de palavras pode ser realizada após a aplicação das modalidades da presente divulgação. As modalidades da presente divulgação podem usar os rótulos de classe de palavra para substituir todos os nomes de entidades da mesma classe em um corpo de formação de modelo de linguagem, consequentemente, reduzir o número de vocabulário no modelo de linguagem. Além disso, ao calcular a probabilidade associada com os nomes da entidade da mesma classe de palavra, os mesmos parâmetros correspondentes ao rótulo de classe de palavra no modelo de linguagem podes ser utilizados. A modalidade da presente divulgação expande a cobertura de vocabulário do modelo de linguagem, portanto, melhora a taxa de precisão de reconhecimento do sistema de reconhecimento de discurso.
[0090] Além disso, as modalidades da presente divulgação abordam os problemas de maus resultados de reconhecimento de palavras fora de vocabulário causados pela capacidade limitada do glossário de um sistema de reconhecimento de discurso.
[0091] A figura 4 é um diagrama de blocos de um sistema 400 queimplementa a presente divulgação de acordo com algumas modalidades. Em algumas modalidades, o sistema 400 é um dos múltiplos aparelhos de processamento que participam na segmentação, e nos processos de reconhecimento de formação descritos acima. Em algumas modalidades, o sistema 400 representa uma única máquina, que tem várias unidades de processamento para realizar as funções e os processos descritos acima.
[0092] Como mostrado na figura 4, o sistema 400 inclui uma oumais unidades de processamento (ou "processadores") 402, a memória 404, uma interface de entrada/saída (I/O) 406, e uma interface de comunicações de rede 408. Esses componentes se comunicam um com o outro ao longo de um ou mais barramentos de comunicação ou linhas de sinal 410. Em algumas modalidades, a memória 404, ou o meio de armazenamento legível por computador de memória 404, os programas de armazenamento, módulos, instruções e estruturas de dados, incluindo todos ou um subconjunto de: um sistema operacional 412, um módulo I/O 414, um módulo de comunicação 416, e um módulo de controle 418. Um ou mais processadores 402 são acoplados à memória 404 e operáveis para executar esses programas, módulos e instruções, e lê/grava a partir de/para as estruturas de dados.
[0093] Em algumas modalidades, as unidades de processamento402 incluem um ou mais processadores ou microprocessadores, tais como um microprocessador de único núcleo, ou vários núcleos. Em algumas modalidades, as unidades de processamento 402 incluem um ou mais processadores de propósito geral. Em algumas modalidades, as unidades de processamento 402 incluem um ou mais processadores para fins especiais. Em algumas modalidades, as unidades de processamento 402 incluem um ou mais computadores pessoais, aparelhos móveis, computadores portáteis, computadores tablet, ou uma grande variedade de plataformas de hardware que contêm uma ou mais unidades de processamento e executadas em vários sistemas operacionais.
[0094] Em algumas modalidades, a memória 404 inclui a memóriade acesso aleatório de alta velocidade, tal como DRAM, SRAM, DDR RAM ou outros dispositivos de memória de estado sólido de acesso aleatório. Em algumas modalidades da memória 404 inclui a memória não volátil, como um ou mais dispositivos magnéticos de armazena- mento em disco, os dispositivos de armazenamento de disco óptico, os dispositivos de memória flash, ou outros dispositivos não voláteis de armazenamento de estado sólido. Em algumas modalidades, a memória 404 inclui um ou mais dispositivos de armazenamento localizados remotamente a partir das unidades de processamento 402. A memória 404 ou, em alternativa, o(s) dispositivo(s) de memória não volátil no interior da memória 404, compreende(m) um meio de armazenamento legível por computador não transitório.
[0095] Em algumas modalidades, a interface I/O acopla os dispositivos de entrada/saída 406, como monitores, um teclado, telas de toque, alto-falantes e microfones, para o módulo I/O 414 do sistema 400. A interface I/O 406, em conjunto com o módulo I/O 414, recebe as entradas do usuário (por exemplo, entrada de voz, entradas de teclado, entradas de toque, etc.) e as processa em conformidade. A interface de I/O 406 e o módulo de interface do usuário 414 também apresentam as saídas (por exemplo, sons, imagens, textos, etc.) para o usuário de acordo com várias instruções de programa implementadas no sistema 400.
[0096] Em algumas modalidades, a interface de comunicações derede 408 inclui a(s) porta(s) de comunicação com fio e/ou a transmissão sem fio e o conjunto de circuitos de recepção. A(s) porta(s) de comunicação com fio recebe(m) e envia(m) os sinais de comunicação através de uma ou mais interfaces com fio, por exemplo, Ethernet, bar- ramento serial universal (USB), FireWire, etc. O circuito sem fio recebe e envia sinais de RF e/ou sinais ópticos de/para as redes de comunicação e outros dispositivos de comunicação. As comunicações sem fio podem usar qualquer um de uma pluralidade de padrões de comunicação, protocolos e tecnologias, tais como GSM, EDGE, CDMA, TDMA, Bluetooth, Wi-Fi, VoIP, Wi-MAX, ou qualquer outro protocolo de comunicação adequado. A interface de rede de comunicações 608 permite a comunicação entre o sistema 600 com redes, tais como a Internet, uma intranet e/ou uma rede sem fios, tal como um telefone de rede celular, uma rede de área local (LAN) e/ou uma rede de área metropolitana (MAN), e outros dispositivos. O módulo de comunicações 616 facilita as comunicações entre o sistema 400 e outros dispositivos (por exemplo, outros dispositivos que participam na formação paralela e/ou processos de descodificação) através da interface de comunicações de rede 608.
[0097] Em algumas modalidades, o sistema operacional 402 (porexemplo, Darwin, RTXC, Linux, Unix, Mac OS X, Windows ou um sistema operacional embutido, como VxWorks) inclui vários componentes e/ou drivers para controlar e gerenciar as tarefas gerais do sistema de software (por exemplo, gerenciamento de memória, controle de dispositivo de armazenamento, gerenciamento de energia, etc.) e facilita a comunicação entre vários dispositivos de hardware, firmware e componentes de software.
[0098] Como mostrado na figura 4, o sistema 400 armazena o módulo de controle de operação 418 na memória 404. Em algumas modalidades, o módulo de controle de operação 418 inclui ainda os seguintes submódulos, ou um subconjunto ou superconjunto do mesmo: um módulo de pré-processamento 420, um módulo de formação de modelo de linguagem 422, um módulo de substituição de classe de palavra 424, um módulo de segmentação de palavra 426, um módulo de pós-processamento 428, e um módulo de reconhecimento de discurso 430. Além disso, cada um desses módulos tem acesso a uma ou mais das seguintes estruturas de dados e fontes de dados do módulo de controle de operação 418, ou a um subconjunto ou superconjunto do mesmo: um corpo de formação 432, um glossário de classificação 434, um modelo de linguagem inicial sem rótulos de classe de palavra 436, e um modelo de linguagem com os rótulos de classe de palavra 438. Em algumas modalidades, o módulo de controle de operação 418 inclui, opcionalmente, um ou mais outros módulos para fornecer outras funcionalidades relacionadas aqui descritas. Mais detalhes sobre as estruturas, funções e interações dos submódulos e estruturas de dados do módulo de controle de operação 418 são fornecidos com relação às figuras 1A-3 e as descrições anexas.
[0099] Embora as modalidades específicas sejam descritos acima,será entendido que não se pretende limitar a invenção a estas modalidades específicas. Pelo contrário, a invenção inclui alternativas, modificações e equivalentes que estão dentro do espírito e âmbito das reivindicações anexas. Numerosos detalhes específicos são estabelecidos de modo a proporcionar um entendimento exaustivo do assunto aqui apresentado. Mas será evidente para um versado na técnica que o objeto pode ser praticado sem esses detalhes específicos. Em outros casos, os métodos, procedimentos, componentes e circuitos bem conhecidos não foram descritos em detalhes de modo a não obscurecer de maneira desnecessária os aspectos das modalidades.

Claims (20)

1. Método para a formação de um modelo de linguagem acústica, que compreende:um dispositivo que tem um ou mais processadores e memória:caracterizado pelo fato de que compreende as etapas de:conduzir (112) a segmentação de palavra para as amostras de formação em um corpo de formação com o uso de um modelo de linguagem inicial que não contém os rótulos de classe de palavra para obter os dados de segmentação de palavra inicial que não contêm os rótulos de classe de palavra;realizar (114) a substituição de classe de palavra para os dados de segmentação de palavra inicial que não contêm os rótulos de classe de palavra para obter os primeiros dados de segmentação de palavra que contêm os rótulos de classe de palavra;utilizar (120) os primeiros dados de segmentação de palavra que contêm os rótulos de classe de palavra para formar um primeiro de modelo de linguagem que contêm os rótulos de classe de palavra;utilizar (122) o primeiro modelo de linguagem que contêm os rótulos de classe de palavra para realizar a segmentação de palavra para as amostras de formação no corpo de formação para obter o segundo dado de segmentação de palavra que contêm os rótulos de classe de palavra; eem conformidade com o segundo dado de segmentação de palavra que corresponde a um ou mais critérios predeterminados, utilizar (130) o segundo dado de segmentação de palavra que contêm os rótulos de classe de palavra para formar o modelo de linguagem acústica.
2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a realização (114) da substituição de classe de palavra para os dados de segmentação de palavra inicial que não contêm os rótulos de classe de palavra para obter os primeiros dados de segmentação de palavra que contêm os rótulos de classe de palavra, compreende:identificar (112), em um glossário de classificação, os respectivos rótulos de classe de palavra para uma ou mais das respectivas palavras nos dados de segmentação de palavra inicial que não contêm os rótulos de classe de palavra; esubstituir (118) uma ou mais das respectivas palavras nos dados de segmentação de palavra inicial que não contêm os rótulos de classe de palavra com os respectivos rótulos de classe de palavra identificadas para obter os primeiros dados de segmentação de palavra que contêm os rótulos de classe de palavra.
3. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o uso (122) do primeiro modelo de linguagem, que contêm os rótulos de classe de palavra para conduzir a segmentação de palavra para as amostras de formação no corpo de formação para obter o segundo dado de segmentação de palavra que contêm os rótulos de classe de palavra, compreende:identificar (124), em um glossário de classificação, os respectivos rótulos de classe de palavra para uma ou mais das respectivas palavras nas amostras de formação no corpo de formação;substituir (126) uma ou mais das respectivas palavras nas amostras de formação com os respectivos rótulos de classe de palavra identificados para obter novas amostras de formação que contêm os rótulos de classe de palavra; econduzir (128) a segmentação de palavra para as novas amostras de formação com o uso do primeiro modelo de linguagem que contêm os rótulos de classe de palavra para obter o segundo dado de segmentação de palavra que contêm os rótulos de classe de palavra.
4. Método, de acordo com a reivindicação 3, caracterizado pelo fato de que ainda compreende:após a obtenção do segundo dado de segmentação de pa-lavra que contêm os rótulos de classe de palavra:comparar (132) os resultados de segmentação das amostras de formação correspondentes nos primeiro e segundo dados de segmentação de palavra; ede acordo com uma determinação de que os primeiros dados de segmentação de palavra são consistentes com o segundo dado de segmentação de palavra, aprovar (134) o segundo dado de segmentação de palavra para o uso na formação do modelo de linguagem acústica.
5. Método, de acordo com a reivindicação 4, caracterizado pelo fato de que ainda compreende:após a obtenção do segundo dado de segmentação de pa-lavra que contêm os rótulos de classe de palavra:de acordo com uma determinação de que os primeiros dados de segmentação de palavra são inconsistentes com o segundo dado de segmentação de palavra, voltar a formar (136) o primeiro modelo de linguagem com o uso do segundo dado de segmentação de palavra.
6. Método, de acordo com a reivindicação 5, caracterizado pelo fato de que ainda compreende:depois que o primeiro modelo de linguagem é formado no-vamente, repetir a segmentação de palavra para a segunda amostra de formação com o uso do primeiro modelo de linguagem que contêm os rótulos de classe de palavra para obter o segundo dado de segmentação de palavra revisado; e de acordo com uma determinação de que o segundo dado de segmentação de palavra revisado é consistente com o segundo dado de segmentação de palavra, aprovar o segundo dado de segmentação de palavra revisado para a utilização na formação do modelo de linguagem acústica.
7. Método, de acordo com a reivindicação 4, caracterizado pelo fato de que uma determinação de que os primeiros dados de segmentação de palavra são consistentes com o segundo dado de segmentação de palavra compreende ainda uma determinação de que as respectivas substituições do rótulo de classe de palavra nos primeiros dados de segmentação de palavra são idênticos as respectivas substituições do rótulo de classe de palavra no segundo dado de segmentação de palavra.
8. Sistema para a formação de um modelo de linguagem acústica, que compreende:um ou mais processadores (402); ea memória (404) com as instruções armazenadas nela, as instruções, quando executadas por um ou mais processadores, faz com que os processadores executem as operações, caracterizado pelo fato de que as operações compreendem:conduzir (112) a segmentação de palavra para as amostras de formação em um corpo de formação com o uso de um modelo de linguagem inicial que não contêm os rótulos de classe de palavra para obter os dados de segmentação de palavra inicial que não contêm os rótulos de classe de palavra;realizar (114) a substituição de classe de palavra para os dados de segmentação de palavra inicial que não contêm os rótulos de classe de palavra para obter os primeiros dados de segmentação de palavra que contêm os rótulos de classe de palavra;usar (120) os primeiros dados de segmentação de palavra que contêm os rótulos de classe de palavra para formar um primeiro modelo de linguagem que contêm os rótulos de classe de palavra;utilizar (122) o primeiro modelo de linguagem que contêm os rótulos de classe de palavra para realizar a segmentação de palavra para as amostras de formação no corpo de formação para obter o segundo dado de segmentação de palavra que contêm os rótulos de classe de palavra; eem conformidade com o segundo dado de segmentação de palavra que corresponde a um ou mais critérios predeterminados, usar (130) o segundo dado de segmentação de palavra que contêm os rótulos de classe de palavra para formar o modelo de linguagem acústica.
9. Sistema, de acordo com a reivindicação 8, caracterizado pelo fato de que a realização (114) da substituição de classe de palavra para os dados de segmentação de palavra inicial que não contêm os rótulos de classe de palavra para obter os primeiros dados de segmentação de palavra que contêm os rótulos de classe de palavra, compreende:Identificar (116), em um glossário de classificação, os respectivos rótulos de classe de palavra para uma ou mais das respectivas palavras nos dados de segmentação de palavra inicial que não contêm os rótulos de classe de palavra; esubstituir (118) uma ou mais das respectivas palavras nos dados de segmentação de palavra inicial que não contêm os rótulos de classe de palavra com os respectivos rótulos de classe de palavra identificados para obter os primeiros dados de segmentação de palavra que contêm os rótulos de classe de palavra.
10. Sistema, de acordo com a reivindicação 8, caracterizado pelo fato de que o uso (122) do primeiro modelo de linguagem que contém os rótulos de classe de palavra para realizar a segmentação de palavra para as amostras de formação no corpo de formação para obter o segundo dado de segmentação de palavra que contêm os rótulos de classe de palavra, compreende:identificar (124), em um glossário de classificação, os respectivos rótulos de classe de palavra para uma ou mais das respectivas palavras nas amostras de formação no corpo de formação;substituir (126) uma ou mais das respectivas palavras nas amostras de formação com os respectivos rótulos de classe de palavra identificados para obter novas amostras de formação que contêm os rótulos de classe de palavra; econduzir (128) a segmentação de palavra para as novas amostras de formação com o uso do primeiro modelo de linguagem que contêm os rótulos de classe de palavra para obter o segundo dado de segmentação de palavra que contém os rótulos de classe de palavra.
11. Sistema, de acordo com a reivindicação 10, caracterizado pelo fato de que as operações ainda compreendem:após a obtenção do segundo dado de segmentação de palavra que contêm os rótulos de classe de palavra:comparar (132) os resultados de segmentação das amostras de formação correspondentes nos primeiro e segundo dados de segmentação de palavra; ede acordo com uma determinação de que os primeiros dados de segmentação de palavra são consistentes com o segundo dado de segmentação de palavra, aprovar (134) o segundo dado de segmentação de palavra para o uso na formação do modelo de linguagem acústica.
12. Sistema, de acordo com a reivindicação 11, caracterizado pelo fato de que as operações ainda compreendem:após a obtenção do segundo dado de segmentação de palavra que contêm os rótulos de classe de palavra: de acordo com uma determinação de que os primeiros dados de segmentação de palavra são inconsistentes com o segundo dado de segmentação de palavra, formar novamente (136) o primeiro modelo de linguagem com o uso do segundo dado de segmentação de palavra.
13. Sistema, de acordo com a reivindicação 12, caracterizado pelo fato de que as operações ainda compreendem:depois que o primeiro modelo de linguagem é formado novamente, repetir a segmentação de palavra para a segunda amostra de formação com o uso do primeiro modelo de linguagem que contém os rótulos de classe de palavra para obter o segundo dado de segmentação de palavra revisado; ede acordo com uma determinação de que o segundo dado de segmentação de palavra revisado é consistente com o segundo dado de segmentação de palavra, aprovar o segundo dado de segmentação de palavra revisado para a utilização na formação do modelo de linguagem acústica.
14. Sistema, de acordo com a reivindicação 11, caracterizado pelo fato de que uma determinação de que os primeiros dados de segmentação de palavra são consistentes com o segundo dado de segmentação de palavra compreende ainda uma determinação de que as respectivas substituições de rótulo de classe de palavra nos primeiros dados de segmentação de palavra são idênticas às respectivas substituições de rótulo de classe de palavra no segundo dado de segmentação de palavra.
15. Meio de armazenamento legível por computador não transitório caracterizado pelo fato de que formar um modelo de linguagem acústica, que tem instruções armazenadas nele, as instruções, quando executadas por um ou mais processadores, fazem com que os processadores executem as operações, caracterizado pelo fato de que as operações compreendem:conduzir (112) a segmentação de palavra para as amostras de formação em um corpo de formação com o uso de um modelo de linguagem inicial que não contêm os rótulos de classe de palavra para obter os dados de segmentação de palavra inicial que não contêm os rótulos de classe de palavra;realizar (114) a substituição de classe de palavra para os dados de segmentação de palavra inicial que não contêm os rótulos de classe de palavra para obter os primeiros dados de segmentação de palavra que contêm os rótulos de classe de palavra;usar (120) os primeiros dados de segmentação de palavra que contêm os rótulos de classe de palavra para formar um primeiro modelo de linguagem que contêm os rótulos de classe de palavra;utilizar (122) o primeiro modelo de linguagem que contêm os rótulos de classe de palavra para realizar a segmentação de palavra para as amostras de formação no corpo de formação para obter o segundo dado de segmentação de palavra que contêm os rótulos de classe de palavra; eem conformidade com o segundo dado de segmentação de palavra que corresponde com um ou mais critérios predeterminados, utilizar (130) o segundo dado de segmentação de palavra que contêm os rótulos de classe de palavra para formar o modelo de linguagem acústica.
16. Meio de armazenamento legível por computador, de acordo com a reivindicação 15, caracterizado pelo fato de que a realização da substituição de classe de palavra para os dados de segmentação de palavra inicial que não contêm os rótulos de classe de palavra para obter os primeiros dados de segmentação de palavra que contêm os rótulos de classe de palavra, compreende:identificar (116), em um glossário de classificação, os res- pectivos rótulos de classe de palavra para uma ou mais das respectivas palavras nos dados de segmentação de palavra inicial que não contêm os rótulos de classe de palavra; esubstituir (118) uma ou mais das respectivas palavras nos dados de segmentação de palavra inicial que não contêm os rótulos de classe de palavra com os respectivos rótulos de classe de palavra identificados para obter os primeiros dados de segmentação de palavra que contêm os rótulos de classe de palavra.
17. Meio de armazenamento legível por computador, de acordo com a reivindicação 15, caracterizado pelo fato de que o uso (122) do primeiro modelo de linguagem que contêm os rótulos de classe de palavra para conduzir a segmentação de palavra para as amostras de formação no corpo de formação para obter o segundo dado de segmentação de palavra que contêm os rótulos de classe de palavra, compreende:identificar (124), em um glossário de classificação, os respectivos rótulos de classe de palavra para uma ou mais das respectivas palavras nas amostras de formação no corpo de formação;substituir (126) uma ou mais das respectivas palavras nas amostras de formação com os respectivos rótulos de classe de palavra identificados para obter novas amostras de formação que contêm os rótulos de classe de palavra; econduzir (128) a segmentação de palavra para as novas amostras de formação com o uso do primeiro modelo de linguagem que contêm os rótulos de classe de palavra para obter o segundo dado de segmentação de palavra que contêm os rótulos de classe de palavra.
18. Meio de armazenamento legível por computador, de acordo com a reivindicação 17, caracterizado pelo fato de que as operações ainda compreendem: após a obtenção do segundo dado de segmentação de palavra que contêm os rótulos de classe de palavra:comparar (132) os resultados de segmentação de amostras de formação correspondentes nos primeiro e segundo dados de segmentação de palavra; ede acordo com uma determinação de que os primeiros dados de segmentação de palavra são consistentes com o segundo dado de segmentação de palavra, aprovar (134) o segundo dado de segmentação de palavra para o uso na formação do modelo de linguagem acústica.
19. Meio de armazenamento legível por computador, de acordo com a reivindicação 18, caracterizado pelo fato de que as operações ainda compreendem:após a obtenção do segundo dado de segmentação de palavra que contêm os rótulos de classe de palavra:de acordo com uma determinação de que os primeiros dados de segmentação de palavra são inconsistentes com o segundo dado de segmentação de palavra, formar novamente (136) o primeiro modelo de linguagem com o uso do segundo dado de segmentação de palavra.
20. Meio de armazenamento legível por computador, de acordo com a reivindicação 19, caracterizado pelo fato de que as operações ainda compreendem:depois que o primeiro modelo de linguagem é formado novamente, repetir a segmentação de palavra para a segunda amostra de formação com o uso do primeiro modelo de linguagem que contêm os rótulos de classe de palavra para obter o segundo dado de segmentação de palavra revisado; ede acordo com uma determinação de que o segundo dado de segmentação de palavra revisado é consistente com o segundo dado de segmentação de palavra, aprovar o segundo dado de segmentação de palavra revisado para a utilização na formação do modelo de linguagem acústica.
BR112015018205-4A 2013-02-01 2013-10-25 Método e sistema para a formação de modelo de linguagem acústica, e meio de armazenamento legível por computador. BR112015018205B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201310040085.1A CN103971677B (zh) 2013-02-01 2013-02-01 一种声学语言模型训练方法和装置
CN201310040085.1 2013-02-01
PCT/CN2013/085948 WO2014117548A1 (en) 2013-02-01 2013-10-25 Method and device for acoustic language model training

Publications (2)

Publication Number Publication Date
BR112015018205A2 BR112015018205A2 (pt) 2017-07-18
BR112015018205B1 true BR112015018205B1 (pt) 2022-02-15

Family

ID=51241096

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112015018205-4A BR112015018205B1 (pt) 2013-02-01 2013-10-25 Método e sistema para a formação de modelo de linguagem acústica, e meio de armazenamento legível por computador.

Country Status (6)

Country Link
JP (1) JP5901001B1 (pt)
CN (1) CN103971677B (pt)
BR (1) BR112015018205B1 (pt)
CA (1) CA2899532C (pt)
TW (1) TWI512719B (pt)
WO (1) WO2014117548A1 (pt)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106486114A (zh) * 2015-08-28 2017-03-08 株式会社东芝 改进语言模型的方法和装置以及语音识别方法和装置
EP3349125B1 (en) * 2015-10-09 2019-11-20 Mitsubishi Electric Corporation Language model generation device, language model generation method, and recording medium
CN105654945B (zh) * 2015-10-29 2020-03-06 乐融致新电子科技(天津)有限公司 一种语言模型的训练方法及装置、设备
CN107204184B (zh) * 2017-05-10 2018-08-03 平安科技(深圳)有限公司 语音识别方法及系统
CN109427330B (zh) * 2017-09-05 2023-04-07 中国科学院声学研究所 一种基于统计语言模型得分规整的语音识别方法及系统
TWI639997B (zh) * 2017-09-28 2018-11-01 大仁科技大學 基於機率規則之對話理解方法
CN110019305B (zh) * 2017-12-18 2024-03-15 上海智臻智能网络科技股份有限公司 知识库扩展方法及存储介质、终端
CN110083820B (zh) * 2018-01-26 2023-06-27 普天信息技术有限公司 一种基准分词模型的改进方法及装置
CN108197116B (zh) * 2018-01-31 2021-05-28 天闻数媒科技(北京)有限公司 一种中文文本分词的方法、装置、分词设备及存储介质
CN110648657B (zh) * 2018-06-27 2024-02-02 北京搜狗科技发展有限公司 一种语言模型训练方法、构建方法和装置
CN109616121A (zh) * 2018-11-28 2019-04-12 北京捷通华声科技股份有限公司 一种数字转换方法和装置
CN109949797B (zh) * 2019-03-11 2021-11-12 北京百度网讯科技有限公司 一种训练语料的生成方法、装置、设备及存储介质
CN110110041B (zh) * 2019-03-15 2022-02-15 平安科技(深圳)有限公司 错词纠正方法、装置、计算机装置及存储介质
CN111694962A (zh) * 2019-03-15 2020-09-22 阿里巴巴集团控股有限公司 数据处理方法和装置
US11417313B2 (en) 2019-04-23 2022-08-16 Lg Electronics Inc. Speech synthesizer using artificial intelligence, method of operating speech synthesizer and computer-readable recording medium
US11393447B2 (en) 2019-06-18 2022-07-19 Lg Electronics Inc. Speech synthesizer using artificial intelligence, method of operating speech synthesizer and computer-readable recording medium
CN110442859B (zh) * 2019-06-28 2023-05-26 中国人民解放军国防科技大学 标注语料生成方法、装置、设备及存储介质
CN111143521B (zh) * 2019-10-28 2023-08-15 广州恒巨信息科技有限公司 基于知识图谱的法条检索方法、系统、装置及存储介质
CN110992939B (zh) * 2019-12-18 2023-06-27 广州市百果园信息技术有限公司 语言模型训练方法、解码方法、装置、存储介质及设备
CN111125360B (zh) * 2019-12-19 2023-10-20 网易(杭州)网络有限公司 游戏领域的情感分析方法、装置及其模型训练方法、装置
CN111291560B (zh) * 2020-03-06 2023-05-23 深圳前海微众银行股份有限公司 样本扩充方法、终端、装置及可读存储介质
CN111507104B (zh) 2020-03-19 2022-03-25 北京百度网讯科技有限公司 建立标签标注模型的方法、装置、电子设备和可读存储介质
CN112397054B (zh) * 2020-12-17 2023-11-24 北京中电飞华通信有限公司 一种电力调度语音识别方法
CN112735380B (zh) * 2020-12-28 2022-05-13 思必驰科技股份有限公司 重打分语言模型的打分方法及语音识别方法
CN113177109A (zh) * 2021-05-27 2021-07-27 中国平安人寿保险股份有限公司 文本的弱标注方法、装置、设备以及存储介质
CN116612750A (zh) * 2023-05-23 2023-08-18 苏州科帕特信息科技有限公司 一种语言模型自动训练方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6404925B1 (en) * 1999-03-11 2002-06-11 Fuji Xerox Co., Ltd. Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition
JP4590692B2 (ja) * 2000-06-28 2010-12-01 パナソニック株式会社 音響モデル作成装置及びその方法
CN1141697C (zh) * 2000-09-27 2004-03-10 中国科学院自动化研究所 一种带调三音子模型及训练方法
JP3696231B2 (ja) * 2002-10-08 2005-09-14 松下電器産業株式会社 言語モデル生成蓄積装置、音声認識装置、言語モデル生成方法および音声認識方法
DE10350652B3 (de) * 2003-10-29 2005-06-30 Yazaki Europe Ltd., Hemel Hempstead Steckverbindergehäuse mit Kurzschlußbrücke
US7684987B2 (en) * 2004-01-21 2010-03-23 Microsoft Corporation Segmental tonal modeling for tonal languages
FR2892846A1 (fr) * 2005-11-03 2007-05-04 France Telecom Procede et dispositif de calcul de mesure de similarite entre une representation d'un segment audio de reference et une representation d'un segment audio a tester et procede et dispositif de suivi d'un locuteur de reference
TWI297487B (en) * 2005-11-18 2008-06-01 Tze Fen Li A method for speech recognition
WO2007138875A1 (ja) * 2006-05-31 2007-12-06 Nec Corporation 音声認識用単語辞書・言語モデル作成システム、方法、プログラムおよび音声認識システム
JP4085130B2 (ja) * 2006-06-23 2008-05-14 松下電器産業株式会社 感情認識装置
US7617103B2 (en) * 2006-08-25 2009-11-10 Microsoft Corporation Incrementally regulated discriminative margins in MCE training for speech recognition
CN101261832B (zh) * 2008-04-21 2011-05-25 北京航空航天大学 汉语语音情感信息的提取及建模方法
TWI389100B (zh) * 2008-11-19 2013-03-11 Inst Information Industry 語音情緒的分類方法及其情緒語意模型的建立方法
CN102568477A (zh) * 2010-12-29 2012-07-11 盛乐信息技术(上海)有限公司 一种半监督的发音模型建模系统及方法
CN102651217A (zh) * 2011-02-25 2012-08-29 株式会社东芝 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法

Also Published As

Publication number Publication date
CN103971677A (zh) 2014-08-06
JP5901001B1 (ja) 2016-04-06
CN103971677B (zh) 2015-08-12
JP2016513269A (ja) 2016-05-12
CA2899532C (en) 2017-09-19
TWI512719B (zh) 2015-12-11
WO2014117548A1 (en) 2014-08-07
BR112015018205A2 (pt) 2017-07-18
TW201432669A (zh) 2014-08-16
CA2899532A1 (en) 2014-08-07

Similar Documents

Publication Publication Date Title
BR112015018205B1 (pt) Método e sistema para a formação de modelo de linguagem acústica, e meio de armazenamento legível por computador.
US9396723B2 (en) Method and device for acoustic language model training
US10255275B2 (en) Method and system for generation of candidate translations
WO2023092961A1 (zh) 一种用于舆情文本分析的半监督方法和装置
TWI543148B (zh) 一種關鍵字檢測方法和裝置
US9123333B2 (en) Minimum bayesian risk methods for automatic speech recognition
WO2019154210A1 (zh) 机器翻译的方法、设备以及计算机可读存储介质
WO2015169134A1 (en) Method and apparatus for phonetically annotating text
US20140136198A1 (en) Correcting text with voice processing
TWI484476B (zh) 電腦實作的語音系統及方法
JP2005293580A (ja) Arpa標準フォーマットによる、削除補間nグラム言語モデルの表現
EP3598321A1 (en) Method for parsing natural language text with constituent construction links
US10810368B2 (en) Method for parsing natural language text with constituent construction links
WO2020052060A1 (zh) 用于生成修正语句的方法和装置
CN112232057B (zh) 基于文本扩展的对抗样本生成方法、装置、介质和设备
JP5770753B2 (ja) Cjk名前検出
JP6261669B2 (ja) クエリ校正システムおよび方法
CN115858776A (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN110929749B (zh) 文本识别方法、装置、介质及电子设备
US20230214597A1 (en) Clause based semantic parsing
Santos-Pérez et al. Topic-dependent language model switching for embedded automatic speech recognition
US11604931B2 (en) Electronic device and controlling method of electronic device
US20220215185A1 (en) Method and system for facilitating sequence-to-sequence translation
Dong et al. Chinese NER by Span-Level Self-Attention
US20230032372A1 (en) Generation device, generation method, and generation program

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 25/10/2013, OBSERVADAS AS CONDICOES LEGAIS.