FR2685529A1 - Circuit de reconnaissance de la parole. - Google Patents

Circuit de reconnaissance de la parole. Download PDF

Info

Publication number
FR2685529A1
FR2685529A1 FR9214943A FR9214943A FR2685529A1 FR 2685529 A1 FR2685529 A1 FR 2685529A1 FR 9214943 A FR9214943 A FR 9214943A FR 9214943 A FR9214943 A FR 9214943A FR 2685529 A1 FR2685529 A1 FR 2685529A1
Authority
FR
France
Prior art keywords
memory
speech recognition
speech
dtwc
mpu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR9214943A
Other languages
English (en)
Other versions
FR2685529B1 (fr
Inventor
Mariani Claudio
De Santis Gerardo
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alcatel Lucent NV
Original Assignee
Alcatel NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alcatel NV filed Critical Alcatel NV
Publication of FR2685529A1 publication Critical patent/FR2685529A1/fr
Application granted granted Critical
Publication of FR2685529B1 publication Critical patent/FR2685529B1/fr
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stored Programmes (AREA)
  • Image Input (AREA)
  • Image Processing (AREA)
  • Interface Circuits In Exchanges (AREA)

Abstract

Circuit de reconnaissance de la parole comprenant une unité de traitement à commande par programme (DTWC, MPU), une mémoire de programme (PM) et une mémoire de données (DM). La mémoire de données est une mémoire ayant l'architecture d'une mémoire (RAM) vidéo ayant au moins deux ports indépendants à partir desquels la même mémoire peut être accédée et au moins un d'entre eux qui permet une sortie série très rapide d'enregistrements de données complets.

Description

Circuit de reconnaissance de la parole
La présente invention concerne un circuit de reconnaissance de la parole tel que défini dans le préambule de la revendication principale.
Un tel circuit est connu, par exemple, par l'article "Recent achievements in speech processing technologies and their applications" de M. Immendoerfer et E. Mumolo, publié dans "Electrical communication"; vol. 62, No 3/4, 1988.
Fondamentalement, la reconnaissance de la parole est accomplie en comparant la configuration de parole particulière à reconnaître à des configurations de paroles connues. La complexité de la comparaison peut être réduite en prenant des extraits des configurations de parole (c'està-dire en obtenant des vecteurs caractéristiques). En même temps, on peut prendre en compte les variantes de prononciation. Le but est de réaliser une sélection aussi fiable que possible à partir d'autant de mots de référence que possible dans une période de temps prédéterminée.
L'article d'Electrical Communication" précédemment mentionné comprend une courte introduction théorique. Des améliorations dans la reconnaissance de la parole peuvent être obtenus par des perfectionnements méthodologiques, tels qu'une statégie de comparaison mieux appropriée, et par l'utilisation de dispositifs matériels plus rapides.
La présente invention conduit à un matériel plus rapide en fournissant un circuit de reconnaissance de la parole selon la conception revendiquée aux revendications 1 ou 2. Elle est basée sur la constatation que l'accès à la mémoire de données, particulièrement aux données de mots de référence, limite la vitesse du système. Même l'utilisation de RAM dynamiques (DRAM) à très grande vitesse ne permet pas d'éviter que l'unité de traitement à commande par programme ait à attendre, en tenant compte de ce que des améliorations futures résultant du progrès technologique influenceront de la même façon toutes les composantes de circuit.
Les RAM vidéo (VRAM) sont conçues pour enregistrer temporairement le contenu d'un écran sous forme numérique.
L'accès en entrée et l'accès en sortie sont possibles indépendamment l'un de l'autre, usuellement via au moins deux ports indépendants. En un port au moins, le signal devant être transféré à l'écran sans rester plus longtemps en enregistrement temporaire peut être transféré à l'extérieur. A cette fin, les groupes de données de, par exemple, 16 éléments d'image successifs sont lus dans la mémoire en parallèle et transférés usuellement à quatre registres tampons pour être fournis en sortie à partir de ces derniers sous forme série, au rythme d'horloge élevé nécessaire. Au moins dans ce mode de sortie rapide, l'accès aux emplacements de mémoire individuels est imposssible.
Ceci constitue l'une des différences essentielles entre les
DRAM et les VRAM. Une autre différence essentielle réside dans les deux ports indépendants au moins des VRAM. Ceux-ci sont nécessaires non seulement pour séparer dans le temps les accès d'entrée et de sortie, mais aussi pour écrire l'image dans la mémoire dans un format complètement différent, éventuellement même élément d'image par élément d'image et à un rythme complètement différent.
Les RAM vidéo sont décrites, par exemple, dans un article de M. Bromba et al, publié dans "Funkschau",
No 22/1991, pages 75-79.
La reconnaissance de parole nécessite aussi un accès rapide, non pas à des éléments de données individuels, mais à des enregistrements de données entiers, c'est-à-dire à toutes les données associées à un mot de référence. En outre, il est souhaitable que la sortie des données des mots de référence ne soit pas perturbée par des entrées, c'est-àdire que deux ports séparés doivent être disponibles.
Dans un mode de réalisation préféré de l'invention, l'unité de traitement est divisée en deux parties, un microprocesseur et un processeur de parole, et le processeur de parole est connecté directement à un port de la RAM vidéo.
La division d'unités de traitement à commande par programme en deux parties, une partie non spécifique de l'application, c'est-à-dire un microprocesseur pour la commande de séquence, et une partie spécifique de l'application, c'est-à-dire un processeur de parole pour accomplir les fonctions spécifiques de la reconnaissance de la parole, obéit à une pratique courante, y compris dans les systèmes de reconnaissance de la parole, comme représenté à la figure 3 de l'article d'"Electrical Communication". Dans celui-ci, il est prévu un microprocesseur et une puce de gauchissement temporel dynamique qui effectuent ensemble la reconnaissance de la parole. Un important aspect du mode de réalisation préféré de l'invention est la liaison de données directe entre la mémoire de données et le processeur de parole.
L'invention apparaîtra plus clairement à la lecture de la description suivante d'un mode de réalisation en se référant aux figures annexées qui représentent:
- la figure 1, un système de traitement de la parole, et
- la figure 2, un circuit de traitement de la parole conforme à l'invention pour le système de traitement de la parole de la figure 1.
Le système de traitement de la parole de la figure 1, qui correspond à celui que représente la figure 1 de l'article d"'Electrical Communication", comprend une unité de processeur de signal SPU, un circuit de reconnaissance de la parole DTWU employant la méthode DTW (Dynamic Time
Warping, c'est-à-dire gauchissement temporel dynamique), une unité de microprocesseur MPU, ainsi qu'un calculateur personnel PC. Une unité de processeur de signal SPU, un circuit de reconnaissance de la parole DTWU, et une unité de microprocesseur MPU sont interconnectées par un bus de traitement de la parole SPB. L'unité de microprocesseur MPU est connectée au calculateur personnel PC via un bus de calculateur personnel PCB. Sont connectés à l'unité de processeur de signal, un microphone Mic, un haut-parleur LS, et une ligne PCM bidirectionnelle pour l'entrée et la sortie de parole.
Dans le circuit de reconnaissance de la parole DTWU, un signal de parole entré par le microphone Mic ou via la ligne PCM est soumis à un processus de reconnaissance de la parole sous la commande de l'unité de microprocesseur MPU et le résultat est transféré via l'unité de microprocesseur MPU au calculateur personnel PC.
Le PC engendre une réponse à cette entrée de parole.
Cela peut être une sortie sous la forme de caractères graphiques via une imprimante ou un écran, une sortie en
Braille, la reproduction symbolique de signes du langage des sourds-muets ou une réponse en mots parlés au moyen de MPU,
SPU et du haut parleur LS ou de la ligne PCM. La réponse en mots parlés peut être une traduction, une réponse, ou une question qui nécessite une réponse avant que le logiciel puisse continuer. Elle peut être aussi le démarrage de tout processus, tel que la numérotation d'un numéro dans un téléphone.
La figure 2 représente la construction interne du circuit de reconnaissance de la parole DTWU conforme à l'invention.
Le circuit de reconnaissance de la parole DTWU contient un processeur de parole DTWC, une mémoire de données DM et une mémoire de programme PM. Strictement, il comprend aussi le MPU (non représenté à la figure 2), puisque le processeur de parole DTWC ne peut accomplir la reconnaissance de parole qu'avec le MPU. Le processeur de parole DTWC et le MPU forment une unité de traitement à commande par programme dans laquelle le MPU est responsable de la commande de séquence, tandis que le processeur de parole DTWC se charge des fonctions spécifiques de reconnaisance de la parole.
La mémoire de programme PM n'est pas spécifiquement conçue pour l'invention. Les mémoires de programme ont fréquemment une zone de bootstrap (démarrage), mise en oeuvre dans une ROM, une PROM ou une EPROM, et une zone de
RAM qui doit être chargée à l'aide de la zone de bootstrap.
La mémoire de données DM et une RAM vidéo ou au moins une mémoire ayant l'architecture d'une RAM vidéo. Des exemples de telles RAM vidéo sont le modèle TMS 44C251 de Texas
Instruments et le modèle SDA 9251X de Siemens. Ce qui est typique des RAM vidéo est la présence de deux ports indépendants au moins, PA et PB, par lesquels la même mémoire peut être accédée. Un de ces ports au moins, PA, permet une sortie série très rapide. Pour multiplier le nombre de bits par mot de données ou le nombre de mots de données adressables, ces RAM vidéo, telles que d'autres mémoires, peuvent être montées en cascade selon les besoins.
Le port PA est connecté directement au processeur de parole DTWC via des lignes de données Data. Le port PB, de même que les entrées et sorties de la mémoire de programme
PM sont connectées par des lignes de données additionnelles
Data à un port de données additionnel du processeur de parole DTWC et, via le bus de traitement de parole SPB, au
MPU. Sont également prévues des lignes d'adresse Addr et des lignes de commande Contr. du processeur de parole DTWC et du
MPU, via le bus de traitement de parole SPB au processeur de parole DTWC.
Par le remplacement de la mémoire RAM dynamique (DRAM) couramment utilisée par une mémoire RAM vidéo et par l'utilisation des sorties série à très grande vitesse du port PA de celle-ci, on obtient un système de reconnaissance de la parole fonctionnant sans temps d'attente. Le deuxième port PB sert à l'entrée de résultats intermédiaires dans la mémoire de données et à charger celle-ci au démarrage.

Claims (3)

REVENDICATIONS
1/ Circuit de reconnaissance de la parole comprenant une unité de traitement à commande par programme (DTWC, MPU), une mémoire de programme (PM) et une mémoire de données (DM) caractérisé en ce que la mémoire de données est une mémoire ayant l'architecture d'une mémoire (RAM) vidéo.
2/ Circuit de reconnaissance de la parole comprenant une unité de traitement à commande par programme (DTWC, MPU), une mémoire de programme (PM) et une mémoire de données (DM, caractérisé en ce que la mémoire de données est une mémoire ayant au moins deux ports indépendants (PA, PB) à partir desquels la même mémoire peut être accédée et au moins un (PA) d'entre eux qui permet une sortie série très rapide d'enregistrements de données complets.
3/ Circuit de reconnaissance de la parole conforme à la revendications 1 ou 2, caractérisé en ce que l'unité de traitement (DTWC, MPU) consiste en un microprocesseur (MPU) pour la commande séquentielle et un processeur de parole (DTWC) pour l'accomplissement des fonctions spécifiques de reconnaissance de la parole et en ce que le processeur de parole (DTWC) est connecté directement à un port (PA) de la mémoire de données (DM).
FR9214943A 1991-12-19 1992-12-11 Circuit de reconnaissance de la parole. Expired - Fee Related FR2685529B1 (fr)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
ITMI913415A IT1252551B (it) 1991-12-19 1991-12-19 Circuito per il riconoscimento del parlato

Publications (2)

Publication Number Publication Date
FR2685529A1 true FR2685529A1 (fr) 1993-06-25
FR2685529B1 FR2685529B1 (fr) 1995-03-10

Family

ID=11361381

Family Applications (1)

Application Number Title Priority Date Filing Date
FR9214943A Expired - Fee Related FR2685529B1 (fr) 1991-12-19 1992-12-11 Circuit de reconnaissance de la parole.

Country Status (5)

Country Link
AU (1) AU664217B2 (fr)
DE (1) DE9215044U1 (fr)
ES (1) ES2042427B1 (fr)
FR (1) FR2685529B1 (fr)
IT (1) IT1252551B (fr)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0414566A2 (fr) * 1989-08-25 1991-02-27 Sony Corporation Ordinateur graphique portable
EP0454363A2 (fr) * 1990-04-25 1991-10-30 AT&T Corp. Système de sécurité pour ordinateur commandé par mot de passe vocal

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1229782B (it) * 1989-05-22 1991-09-11 Face Standard Ind Metodo ed apparato per riconoscere parole verbali sconosciute mediante estrazione dei parametri e confronto con parole di riferimento
CA2042926C (fr) * 1990-05-22 1997-02-25 Ryuhei Fujiwara Methode et systeme de reconnaissance vocale a reduction du bruit
JP2002517175A (ja) * 1991-02-22 2002-06-11 シーウェイ テクノロジーズ インコーポレイテッド 人間の音源を識別するための手段および装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0414566A2 (fr) * 1989-08-25 1991-02-27 Sony Corporation Ordinateur graphique portable
EP0454363A2 (fr) * 1990-04-25 1991-10-30 AT&T Corp. Système de sécurité pour ordinateur commandé par mot de passe vocal

Also Published As

Publication number Publication date
ES2042427R (fr) 1996-04-01
DE9215044U1 (fr) 1993-02-18
IT1252551B (it) 1995-06-19
ITMI913415A1 (it) 1993-06-19
ES2042427A2 (es) 1993-12-01
FR2685529B1 (fr) 1995-03-10
ES2042427B1 (es) 1996-11-16
AU3000092A (en) 1993-06-24
ITMI913415A0 (it) 1991-12-19
AU664217B2 (en) 1995-11-09

Similar Documents

Publication Publication Date Title
EP0112761B1 (fr) Dispositif de création sonore
FR2606903A1 (fr) Procede et dispositif de gestion de points d'arret dans un moniteur de logiciel
EP0154341A1 (fr) Processeur de calcul d'une transformée discrète du cosinus
JPH06282612A (ja) 画像音声処理装置と画像音声処理方法
EP0027851A1 (fr) Système pour commander la durée de l'intervalle de temps entre blocs de données dans un système de communication calculateur à calculateur
FR2685529A1 (fr) Circuit de reconnaissance de la parole.
JP4429081B2 (ja) 情報処理装置及び情報処理方法
US6542429B2 (en) Method of controlling line memory
US5671187A (en) Storage circuit
US6307588B1 (en) Method and apparatus for address expansion in a parallel image processing memory
US5428801A (en) Data array conversion control system for controlling conversion of data arrays being transferred between two processing systems
US5579273A (en) Storage circuitry using sense amplifier shared between memories of differing number of rows
FR2770661A1 (fr) Microprocesseur comprenant des moyens de concatenation de bits
JPS58169264A (ja) メモリアクセス方式
JPH01245361A (ja) 画像処理装置
JP2586074B2 (ja) データ処理装置
JPH01243182A (ja) 画像処理装置
JPS60235274A (ja) 画像信号処理装置
JPH01119872A (ja) 変換回路
EP0489885A1 (fr) Systeme de calcul neuronal
US20050270597A1 (en) Image processing system for an image capturing device
EP1249760A1 (fr) Dispositif de traitement de données par plusieurs processeurs
KR930007009B1 (ko) 퍼스날 컴퓨터용 영상신호 입력보드
JPH01205279A (ja) 信号処理回路
JP2003058516A (ja) 信号処理装置及び方法

Legal Events

Date Code Title Description
ST Notification of lapse