CZ307393B6

CZ307393B6 - A device for real time speech to text conversion

Info

Publication number: CZ307393B6
Application number: CZ2013-497A
Authority: CZ
Inventors: Aleš Pražák; Zdeněk Loose; Jan Vaněk; Luděk Müller; Josef Psutka; Josef V. Psutka
Original assignee: Speechtech, S.R.O.; Západočeská Univerzita V Plzni
Priority date: 2013-06-26
Filing date: 2013-06-26
Publication date: 2018-07-25
Also published as: CZ2013497A3

Abstract

A device for speech to text conversion comprises a control module (1) and an evaluation module (2) which is connected to the storage unit (3) in the form of a central language module. It also contains a set of interconnected modules (acoustic (5), input (6), output (7), display (8) and audio (9)). The control module (1) is connected to the communication module (10) and to the operating module (11), which is connected to the learning module (12). It also contains at least one storage unit (4to 4) as an expert language module. The storage unit (4to 4) contains words and/or their forms and different pronunciations from a group that has not been observed in the training texts and which are not contained in the central language module storage unit (3). The words are assigned with sorting statistics in sentences in the form of attributes. The storage unit (4to 4) in the form of an expert language module is connected to the control module (1) and to the evaluation module (2) parallel with the storage unit (3) in the form of a central language module. The device may include a hardware accelerator module (13) connected to the evaluation module (2), the acoustic module (5) and the control module (1). In addition, it may include a standardizing module (14) connected to at least one expert language module (4to 4) and to the central language module storage unit (3).

Description

Oblast technikyTechnical field

Vynález se týká zařízení pro převod řeči do textu v reálném čase, tzn. převádějící řeč do textové podoby průběžně tak, jak jsou slova vyřčena, s prodlevou maximálně jednoho slova.The invention relates to a device for real-time speech-to-text conversion, i. converting speech to text continuously as words are spoken, with a maximum of one word delay.

Dosavadní stav technikyBACKGROUND OF THE INVENTION

Současná zařízení pro převod řeči do textu v reálném čase obsahují předem daná slova a slovní tvary, na které mohou převést lidskou řeč. Všechna tato slova jsou nejprve získána z velkého množství „zdrojových“ textů a uložena do tzv. jazykového modulu včetně jejich výslovností a statistik jejich řazení ve větách. Pro odlišení bude takto získaný jazykový modul dále označován jako „ústřední jazykový modul“. Protože ale ve zdrojových textech (tj. textech dostupných z libovolných zdrojů - veřejných i neveřejných, knih, publikací, přepisů lidské řeči, elektronických textových záznamů apod.) nikdy nejsou přítomna všechna možná slova a slovní tvary daného jazyka (pro češtinu minimálně 5 milionů běžných slov a jejich slovních tvarů), některá málo častá slova a slovní tvary není možno současnými zařízeními do textu převést. Častými chybějícími slovy jsou například jména a příjmení osob, názvy měst nebo ulic, názvy firem atd. Ačkoliv se některá z těchto slov ve zdrojových textech vyskytla, málokdy jsou v zařízení pro převod řeči do textu přítomny všechny jejich slovní tvary. Důsledkem je schopnost převodu slova např. v prvním pádu, ale nemožnost převodu v některých dalších slovních tvarech.Current real-time speech-to-text devices contain predetermined words and word forms to which they can convert human speech. All these words are first extracted from a large number of "source" texts and stored in the so-called language module, including their pronunciations and statistics of their order in sentences. For differentiation, the language module thus obtained will be referred to as the "central language module". However, because the source texts (ie texts available from any sources - public and non-public, books, publications, transcripts of human speech, electronic text records, etc.) never contain all possible words and word forms of the language (at least 5 million words and word forms), some infrequent words and word forms cannot be converted into text by current devices. Frequent missing words are for example names and surnames, city or street names, company names, etc. Although some of these words appear in the source texts, all their verbal forms are seldom present in the speech-to-text device. The consequence is the ability to translate a word eg in the first case, but the impossibility to translate in some other word forms.

Další omezení počtu slov a slovních tvarů, které současná zařízení mohou převést, vyplývá z požadavku na převod v reálném čase, a tedy z požadavku na výkon takového zařízení. Z tohoto důvodu současná zařízení pro převod řeči do textu v reálném čase pracují ve svém ústředním jazykovém modulu s maximálně několika sty tisíci slov a slovních tvarů, protože jejich výkon neumožňuje použít větší objem dat. To má za následek chybu převodu při vyslovení málo častého, pro zařízení neznámého, slova či slovního tvaru.A further limitation on the number of words and word forms that current devices can translate results from the requirement for real-time conversion and hence the performance requirement of such a device. For this reason, real-time speech-to-text devices work in their central language module with a maximum of several hundred thousand words and word forms because their performance does not allow the use of more data. This results in a conversion error when you say a rare word or word that is unknown to the device.

Pro dosažení vysoké přesnosti převodu řeči do textu současná zařízení využívají statistiky řazení slov ve větě (tzv. jazykový model). Tyto statistiky jsou získány spolu s jednotlivými slovy a slovními tvary z velkého množství zdrojových textů. Ačkoliv většina zařízení pro převod řeči do textu umožňuje uživateli přidávání malého množství slov, k těmto slovům nejsou k dispozici statistiky jejich řazení ve větě (protože tato slova nebyla přítomna ve zdrojových textech), což snižuje úspěšnost jejich převodu.To achieve high accuracy of speech-to-text conversion, current devices use sentence-word sorting statistics (the language model). These statistics are obtained along with individual words and word forms from a large number of source texts. Although most speech-to-text devices allow the user to add a small number of words, the sentence statistics are not available to those words (because these words were not present in the source texts), which reduces the success of their conversion.

Jsou však k dispozici veřejně dostupné seznamy slov, jako například jmen, příjmení, názvů obcí, institucí apod. Tyto seznamy je možné využít jako doplňující slova, která nebyla přítomna ve zdrojových textech při vytváření ústředního jazykového modulu. Slova v těchto seznamech však nemají přiřazeny statistiky řazení ve větách, ani neobsahují všechny jejich slovní tvary.However, publicly available lists of words are available, such as names, surnames, names of municipalities, institutions, etc. These lists can be used as additional words that were not present in the source texts when creating the central language module. However, the words in these lists do not have sentence sorting statistics, nor do they contain all of their word forms.

Známým stavem techniky v této oblasti je například řešení popsané ve spise EP1475779A1. Podstatou technického řešení zde popsaného systému je kombinace statistického jazykového modelu a jazykového modelu založeného na gramatice, a to zejména s ohledem na úlohu porozumění přirozené řeči.A known prior art is, for example, the solution described in EP1475779A1. The essence of the technical solution of the system described here is a combination of a statistical language model and a grammar-based language model, especially with regard to the task of understanding natural speech.

Jiným stavem techniky je pak například dokument EP0917129A2. Zde popsaná metoda a zařízení se zabývají adaptací rozpoznávače řeči na specifickou výslovnost nerodilých mluvčích. Technické řešení spočívá v iterativní úpravě parametrů akustického modelu, potřebného pro převod řeči do textu, na základě vzorků slov vyslovených nerodilými mluvčími.Another prior art is, for example, document EP0917129A2. The method and devices described herein address the adaptation of the speech recognizer to the specific pronunciation of non-native speakers. The technical solution consists of an iterative modification of the acoustic model parameters required for speech-to-text conversion based on samples of words spoken by non-native speakers.

- 1 CZ 307393 B6- 1 GB 307393 B6

Doposud není známo zařízení pro převod řeči do textu pracující v reálném čase, které by umožnilo převádět i slova, která nebyla přítomna ve zdrojových textech při vytváření ústředního jazykového modulu, a to ve všech slovních tvarech včetně využití statistik jejich řazení ve větě.To date, a real-time speech-to-text device that would allow the conversion of words that were not present in the source texts when creating the central language module in all word forms, including the use of sentence sorting statistics, is not known.

Podstata vynálezuSUMMARY OF THE INVENTION

Podstatou vynálezu je zařízení pro převod řeči do textu v reálném čase. Zařízení obsahuje řídicí modul propojený s vyhodnocovacím modulem, který je propojen s úložištěm ve formě ústředního jazykového modulu. Ústřední jazykový modul je sestaven na základě trénovacích textů. Zařízení dále obsahuje akustický modul propojený se vstupním modulem, výstupní modul propojený se zobrazovacím modulem a zvukovým modulem. Řídicí modul je dále propojen s komunikačním modulem a ovládacím modulem, který je propojený s výukovým modulem. Dále obsahuje nejméně jedno úložiště ve formě expertního jazykového modulu, které obsahuje slova a/nebo jejich tvary a různé výslovnosti ze skupiny, která nebyla pozorována v trénovacích textech, a která nejsou obsažena v úložišti ve formě ústředního jazykového modulu. Tato slova mají ve formě atributů přiřazenou statistiku řazení ve větách. Úložiště ve formě expertního jazykového modulu je připojeno k řídicímu modulu a k vyhodnocovacímu modulu paralelně s úložištěm ve formě ústředního jazykového modulu.The present invention is based on a real-time speech-to-text device. The device comprises a control module connected to an evaluation module which is connected to a repository in the form of a central language module. The central language module is based on training texts. The apparatus further comprises an acoustic module coupled to the input module, an output module coupled to the display module, and the audio module. The control module is further connected to the communication module and the control module, which is interconnected with the learning module. It further comprises at least one repository in the form of an expert language module which comprises words and / or their forms and various pronunciations from a group not observed in the training texts and which are not contained in the repository in the form of a central language module. These words are assigned sentence statistics in the form of attributes. The repository in the form of an expert language module is connected to the control module and the evaluation module in parallel with the repository in the form of a central language module.

Ve variantním provedení může zařízení dále obsahovat hardwarový urychlovací modul. Urychlovací modul je v takovém případě připojený k vyhodnocovacímu modulu, akustickému modulu a řídicímu modulu.In a variant embodiment, the device may further comprise a hardware acceleration module. In this case, the acceleration module is connected to the evaluation module, the acoustic module and the control module.

V dalším variantním provedení může dále obsahovat modul zespisovnění. Modul zespisovnění je v takovém případě připojený k nejméně jednomu úložišti ve formě expertního jazykového modulu a k úložišti ve formě ústředního jazykového modulu.In another variant embodiment, it may further comprise a biasing module. In this case, the inventory module is connected to at least one repository in the form of an expert language module and to the repository in the form of a central language module.

Zařízení podle předkládaného vynálezu díky svému konstrukčnímu řešení umožňuje převod řeči do textu v reálném čase, tzn., převádí řeč do textové podoby průběžně tak, jak jsou slova vyřčena, s prodlevou maximálně jednoho slova. Zařízení má k dispozici ústřední jazykový modul obsahující až několik milionů slov a slovních tvarů včetně statistik jejich řazení ve větě. Inovativně zařízení obsahuje jeden nebo více expertních jazykových modulů, přičemž každý jeden může obsahovat dalších až několik milionů slov a slovních tvarů včetně statistik jejich řazení ve větách.Thanks to its design, the device according to the present invention allows real-time speech-to-text conversion, i.e., converts speech to text continuously as words are spoken, with a maximum of one word delay. The device has a central language module containing up to several million words and word forms, including statistics of their order in a sentence. Innovatively, the device includes one or more expert language modules, each of which can contain up to several million words and word forms, including sentence statistics.

Jednotlivé expertní jazykové moduly je vhodné, ne však nezbytné, vytvářet pro ucelené kategorie slov (například jména osob, ulic, názvy měst apod.). Každý expertní jazykový modul obsahuje úplný výčet slov a všech jejich slovních tvarů v dané kategorii, tedy i těch, která nebyla přítomna ve zdrojových textech. Pro všechny slovní tvary jsou ručně expertně (nikoliv automaticky) definovány výslovnostní odchylky. Příkladem může být expertní jazykový modul obsahující všechna mužská příjmení osob s českou národností. Pro každé příjmení jsou obsaženy slovní tvary v sedmi gramatických pádech základních a šesti pádech přivlastňovacích (celkem přes dva miliony slovních tvarů). Pro příjmení, která se nevystavují stejně, jako se píší (např. příjmení s cizím původem), jsou definovány možné výstavnosti. Expertní jazykový modul dále obsahuje statistiky řazení každého slova a slovního tvaru ve větě, a to na základě expertně definovaných morfologických značek.It is advisable, but not necessary, to create individual expert language modules for complete categories of words (eg names of people, streets, city names, etc.). Each expert language module contains a complete list of words and all their word forms in a given category, including those that were not present in the source texts. For all word forms, pronunciation deviations are manually defined expertly (not automatically). An example could be an expert language module containing all male surnames of persons with Czech nationality. For each surname, the word forms are contained in the seven basic grammatical cases and the six possessive cases (over two million word forms in total). Possible exhibitions are defined for surnames that are not issued in the same way as they are written (eg surnames with a foreign origin). The expert language module also contains statistics of the sorting of each word and word form in the sentence, based on expertly defined morphological tags.

Z omezení množství stav v současných zařízeních, popsaného v kapitole Dosavadní stav techniky, vyplývá, že není možno všechna slova a slovní tvary z expertních jazykových modulů přidat do ústředního jazykového modulu a využít je tak při převodu řeči do textu v reálném čase. Tím spíše není možno využít ani statistiky jejich řazení ve větě. Využitím masivní paralelizace ve vyhodnocovacím modulu (který má na starosti určení nejpravděpodobněji vyřčených stav) a retrospektivních technik rozhodování lze kombinovat informace z ústředního jazykového modulu a expertních jazykových modulů již na úrovni slovních hypotéz. Retrospektivní technikou jeThe limitations in the state of the art in the prior art described in the prior art imply that it is not possible to add all words and word forms from expert language modules to the central language module and to use them in real-time speech-to-text conversion. This makes it even more impossible to use statistics of their sorting in a sentence. By using massive parallelization in the evaluation module (responsible for determining the most likely spoken states) and retrospective decision-making techniques, information from the central language module and expert language modules can be combined at the level of verbal hypotheses. The retrospective technique is

-2 CZ 307393 B6 například zpětné reskórování hypotéz. S využitím expertních statistik řazení přidaných slov a slovních tvarů je tak dosaženo vyšší úspěšnosti převodu řeči do textu, než poskytují současná zařízení. Zařízení umožňuje slova z expertního jazykového modulu převést i s využitím zmíněných statistik řazení slov ve větě, což zvyšuje úspěšnost převodu řeči do textu. Toho je dosaženo paralelním využitím expertních jazykových modulů až ve chvíli, kdy jsou vyslovena slova, která nejsou obsažena v ústředním jazykovém modulu.For example, backscoring hypotheses. Using expert statistics for sorting added words and word forms, speech-to-text conversion is more successful than current devices provide. The device allows to convert words from the expert language module using the above mentioned word sorting statistics in sentence, which increases the success of speech to text conversion. This is achieved by the parallel use of expert language modules only when words that are not contained in the central language module are spoken.

Tímto způsobem je několikanásobně navýšeno množství slov, která mohou být zařízením podle vynálezu převedena z řeči do textu.In this way, the number of words that can be converted from speech to text is increased by a factor of several.

V zařízení pro převod řeči do textu v reálném čase jsou použity následující moduly:The following modules are used in real-time speech-to-text devices:

- Řídicí modul - na základě vstupů uživatele přes ovládací modul řídí vyhodnocovací modul a využití expertních jazykových modulů. Zároveň je řízen zvukový vstupní modul a výstupní modul v podobě obrazového nebo zvukového výstupu. Dále je řízen případně užitý urychlovací modul nebo další hardware přes komunikační modul.- Control module - based on user input via the control module, it controls the evaluation module and the use of expert language modules. At the same time, the audio input module and the output module are controlled in the form of video or audio output. Furthermore, any used acceleration module or other hardware is controlled via the communication module.

- Vyhodnocovací modul - na základě pravděpodobností akustického modulu, ústředního jazykového modulu a expertních jazykových modulů určuje slova, která byla řečena. Kvyhodnocení je využit tzv. Viterbiho algoritmus a retrospektivní techniky rozhodování. Pro zvýšení výkonu může být využit urychlovací modul.- Evaluation module - determines words based on the probabilities of the acoustic module, the central language module and the expert language modules. Viterbi algorithm and retrospective decision-making techniques are used. An accelerator module can be used to increase performance.

- Ústřední jazykový modul - obsahuje slova a slovní tvary, včetně statistik jejich řazení ve větě.- Central language module - contains words and word forms, including statistics of their order in the sentence.

- Expertní jazykové moduly 1 až N - obsahují úplný výčet slov a všech jejich slovních tvarů v daných kategoriích, a to včetně statistik jejich řazení ve větě a případně i různých výslovností.- Expert language modules 1 to N - contain a complete list of words and all their word forms in the given categories, including statistics of their order in the sentence and possibly of different pronunciations.

- Akustický modul - na základě vstupního řečového signálu ze vstupního modulu určuje pravděpodobnost shody s předem vytvořenými modely fonémů použitého jazyka (Skryté Markovovy modely). Pro zvýšení výkonu může být využit urychlovací modul.- Acoustic module - based on the input speech signal from the input module, it determines the probability of matching with pre-created phoneme models of the language used (Hidden Markov Models). An accelerator module can be used to increase performance.

-Vstupní modul - obstarává vstupní řečový signál z mikrofonu nebo z předem vytvořené nahrávky.-Input module - provides input speech signal from microphone or from pre-made recording.

- Výstupní modul - zajišťuje data pro zobrazovací modul nebo zvukový modul a další funkce týkající se formátování přepsaného textu.- Output module - provides data for the display module or sound module and other functions related to formatting of the transcribed text.

- Zobrazovací modul - zajišťuje zobrazení přepsaného textu, případně včetně dalších informací o přepsaném textu.- Display module - ensures the display of the overwritten text, possibly including other information about the overwritten text.

- Zvukový modul - zajišťuje přehrávání vstupního řečového signálu korespondujícího přepsanému textu.- Sound module - plays the input speech signal corresponding to the transcribed text.

- Komunikační modul - přes speciální komunikační protokol zajišťuje komunikaci s dalšími zařízeními, která mohou nahradit funkci vyhodnocovacího modulu. Tímto způsobem mohou být hardwarové nároky na výpočetní funkce zařízení alespoň částečně přesunuty na jiné obdobné zařízení.- Communication module - through a special communication protocol provides communication with other devices that can replace the function of the evaluation module. In this way, the hardware requirements for the computing functions of the device can be at least partially transferred to another similar device.

- Ovládací modul - umožňuje ovládání zařízení uživatelem.- Control module - allows user control of the device.

- Výukový modul - zprostředkovává výuku ovládání zařízení ve formě manuálu nebo výukových videí.- Learning Module - Provides instruction in device control in the form of manuals or training videos.

- Urychlovací modul — ve variantním řešení může být využit pro zvýšení výkonu vyhodnocovacího modulu nebo akustického modulu paralelním zpracováním jejich výpočtů na urychlovacím HW.- Acceleration module - in a variant solution it can be used to increase the performance of the evaluation module or acoustic module by parallel processing of their calculations on the acceleration HW.

- Modul zespisovnění - ve variantním provedení může provádět automatické zespisovnění (přiřazení spisovného výrazu k nespisovnému slovu) či znespisovnění (generování nespisovných variant spisovných slov) slov a slovních tvarů obsažených v ústředním jazykovém modulu a v expertních jazykových modulech.- Rewriting module - in a variant, it can perform automatic rewriting (assigning a standard expression to a non-standard word) or misrepresenting (generating non-standard variant verbal words) of words and word forms contained in the central language module and expert language modules.

Popsané zařízení díky svému konstrukčnímu vytvoření pracuje na obvyklých dostupných technických prostředcích a převádí lidskou řeč na text v reálném čase. To znamená, že je schopno v reálném čase v řeči poznat a převést na text kromě slov obsažených v ústředním jazykovém modulu i slova z expertních jazykových modulů. Zařízení má v součtu ve všech jazykových modulech — tj. v ústředním jazykovém modulu a všech expertních jazykových modulech, při zachování schopnosti převodu v reálném čase, více než 2 miliony slov a slovních spojení, kteráThanks to its design, the described device works on the usual technical means available and converts human speech into text in real time. This means that it is able to recognize and translate text into words in expert language modules in addition to the words contained in the central language module in real time. In total, the device has more than 2 million words and phrases in all language modules - ie the central language module and all expert language modules, while maintaining real-time conversion capability.

-3 CZ 307393 B6 dokáže v řeči poznat a zapsat je do výsledné textové podoby. Díky tomu poskytuje vysoký výkon (tj. rychlost) a přesnost přepisu, čehož není dosahováno žádným jiným známým zařízením.Is able to recognize in speech and write them into the final text form. As a result, it provides high performance (i.e. speed) and transcription accuracy, which is not achieved by any other known device.

Objasnění výkresuClarification of the drawing

Příkladné provedení navrhovaného řešení je popsáno s odkazem na výkres, kde je na obr. 1 schéma zařízení.An exemplary embodiment of the proposed solution is described with reference to the drawing, in which Fig. 1 is a diagram of the apparatus.

Příklad uskutečnění vynálezuDETAILED DESCRIPTION OF THE INVENTION

Příkladné provedení zařízení podle vynálezu, umožňující převod řeči do textu v reálném čase, je realizováno tak, že obsahuje řídicí modul 1 propojený s vyhodnocovacím modulem 2, který je propojený s úložištěm 3 ve formě ústředního jazykového modulu. Dále obsahuje akustický modul 5, propojený se vstupním modulem 6, výstupní modul 7, propojený se zobrazovacím modulem 8 a zvukovým modulem 9. Řídicí modul 1 je dále propojen s komunikačním modulem 10 a ovládacím modulem 11, který je propojen s výukovým modulem 12. Dále obsahuje soustavu úložišť 4¹ až 4ⁿ ve formě expertních jazykových modulů. Expertní jazykové moduly 4¹ až 4^Nobsahují slova a jejich tvary z objemné skupiny, která nebyla pozorována v trénovacích textech a nejsou obsažena v úložišti 3 ve formě ústředního jazykového modulu. Tato slova a jejich slovní tvary mají ve formě atributů přiřazenou statistiku řazení ve větách. Úložiště 4¹ až 4^N ve formě expertních jazykových modulů dále obsahují různé výslovnosti slov v nich obsažených.An exemplary embodiment of the device according to the invention enabling real-time speech-to-text conversion is realized by comprising a control module 1 connected to an evaluation module 2, which is connected to a storage 3 in the form of a central language module. It further comprises an acoustic module 5, connected to the input module 6, an output module 7, connected to the display module 8 and the sound module 9. The control module 1 is further connected to the communication module 10 and the control module 11, which is connected to the learning module 12. it contains a set of repositories 4 ¹ to 4 ⁿ in the form of expert language modules. Expert language modules 4 ¹ to 4 ^N contain words and their shapes from a large group that has not been observed in training texts and is not contained in repository 3 in the form of a central language module. These words and their word forms have attribute-related sorting statistics in the form of attributes. The repositories 4 ¹ to 4 ^N in the form of expert language modules further contain different pronunciations of the words contained therein.

Úložiště 4¹ až 4^N ve formě expertních jazykových modulů jsou připojena k řídicímu modulu 1 a k vyhodnocovacímu modulu 2 paralelně s úložištěm 3 ve formě ústředního jazykového modulu.The repositories 4 ¹ to 4 ^N in the form of expert language modules are connected to the control module 1 and the evaluation module 2 in parallel with the repository 3 in the form of a central language module.

Zařízení v tomto případě obsahuje i modul zespisovnění 14, který je připojen k úložištím 4¹ až 4^Nve formě expertních jazykových modulů a k úložišti 3 ve formě ústředního jazykového modulu.In this case, the device also includes a rewriting module 14, which is connected to the repositories 4 ¹ to 4 ^N in the form of expert language modules and to the repository 3 in the form of a central language module.

Zařízení dále obsahuje hardwarový urychlovací modul 13, připojený k vyhodnocovacímu modulu 2, akustickému modulu 5 a řídicímu modulu EThe device further comprises a hardware acceleration module 13 connected to the evaluation module 2, the acoustic module 5 and the control module E

Konkrétně je příkladné provedení zařízení provedeno tak, že využívá hardware ve formě 15 notebooku s čtyřjádrovým procesorem (CPU) a 8 GB paměti (RAM). Jako urychlovací modul 13 je využit grafický procesor (GPU). Jako vyhodnocovací modul 2 je využit vysoce paralelizovaný dekodér. Úložiště 3 ve formě ústředního jazykového modulu obsahuje 1033551 slov a slovních tvarů včetně statistik jejich řazení ve větě. Realizováno je osm úložišť 4¹ až 4⁸ ve formě expertních jazykových modulů, a to expertní jazykový modul českých mužských příjmení, českých mužských jmen, českých ženských příjmení, českých ženských jmen, názvů českých obcí, názvů českých ulic a názvů českých firem. Tímto způsobem je množství slov, která mohou být zařízením podle vynálezu přepsána, navýšeno na více než 4 miliony slov a slovních tvarů. Akustický modul 5 využívá 14766 Skrytých Markovových modelů pro 49 fonémů českého jazyka. Vstupní modul 6 obstarává vstupní řečový signál z externího mikrofonu se vzorkovací frekvencí 22 kHz. Výstupní modul 7 je realizován prostřednictvím prostředku Microsoft .NET Framework 2.0 včetně zobrazovacího modulu 8 ve formě uživatelského interface a zvukového modulu 9 prostřednictvím zvukové karty a reproduktoru notebooku. Ovládací modul 11 využívá klávesnici notebooku. Výukový modul 12 je realizován ve formě manuálu. Příkladné provedení je patrné z obr. 1.In particular, an exemplary embodiment of the device is designed to utilize hardware in the form of a 15 notebook computer with a quad-core processor (CPU) and 8 GB of memory (RAM). The GPU is used as the accelerator module 13. A highly parallelized decoder is used as the evaluation module. Storage 3 in the form of a central language module contains 1033551 words and word forms including statistics of their sorting in the sentence. Realized eight stores 4 ^1-4 ⁸ as an expert linguistic modules and expert language module Czech male surnames, Czech male names, surnames Czech women, Czech women's names, names of Czech municipalities, Czech street names and names of Czech companies. In this way, the amount of words that can be transcribed by the device according to the invention is increased to more than 4 million words and word forms. Acoustic Module 5 uses 14766 Hidden Markov Models for 49 Czech phonemes. The input module 6 provides an input speech signal from an external microphone with a sampling frequency of 22 kHz. The output module 7 is implemented through the Microsoft .NET Framework 2.0, including a display module 8 in the form of a user interface and a sound module 9 via a sound card and a notebook speaker. The control module 11 utilizes a laptop keyboard. The learning module 12 is implemented in the form of a manual. An exemplary embodiment is shown in FIG. 1.

Claims

PATENT CLAIMS

A real-time speech-to-text device, comprising a control module (1) connected to an evaluation module (2), which is connected to a repository (3) in the form of a central language module, further comprising an acoustic module (5) an input module (6), an output module (7) connected to a display module (8) and a sound module (9), the control module (1) being further coupled to a communication module (10) and a control module (11) which is interconnected with a learning module (12), characterized in that it further comprises at least one repository (4 ¹ to 4 ^N ) in the form of an expert language module, the repository (4 ¹ to 4 ^N ) comprising words and / or their forms and various pronunciations a group which was not observed in the training texts and which is not contained in the repository (3) in the form of a central language module, the words having the attribute ranking statistics in At least one repository (4 ¹ to 4 ^N ) in the form of an expert language module is connected to the control module (1) and the evaluation module (2) in parallel with the repository (3) in the form of a central language module.

The apparatus of claim 1, further comprising a hardware acceleration module (13) connected to the evaluation module (2), the acoustic module (5), and the control module (1).

Device according to claim 1 or 2, characterized in that it further comprises an inventory module (14) connected to the at least one expert language module (4 ¹ to 4 ^N ) and to the storage (3) in the form of a central language module.