CZ27055U1

CZ27055U1 - Zařízení a systém pro převod řeči do textu v reálném čase

Info

Publication number: CZ27055U1
Application number: CZ2013-28130U
Authority: CZ
Inventors: Aleš Pražák; Zdeněk Loose; Jan Vaněk; Luděk Müller; Josef Psutka; Josef V. Psutka
Original assignee: Speechtech, S.R.O.; Západočeská Univerzita V Plzni
Priority date: 2013-06-26
Filing date: 2013-06-26
Publication date: 2014-06-16

Description

Zařízení a systém pro převod řeči do textu v reálném čase

Oblast techniky

Technické řešení se týká zařízení a systému pro převod řeči do textu v reálném čase, tzn. převádějící řeč do textové podoby průběžně tak, jak jsou slova vyřčena, s prodlevou maximálně jednoho slova.

Dosavadní stav techniky

Současná zařízení pro převod řeči do textu v reálném čase obsahují předem daná slova a slovní tvary, na které mohou převést lidskou řeč. Všechna tato slova jsou nejprve získána z velkého množství „zdrojových“ textů a uložena do tzv. jazykového modulu včetně jejich výslovností a statistik jejich řazení ve větách. Pro odlišení bude takto získaný jazykový modul dále označován jako „ústřední jazykový modul“. Protože ale ve zdrojových textech (tj. textech dostupných z libovolných zdrojů - veřejných i neveřejných, knih, publikací, přepisů lidské řeči, elektronických textových záznamů apod.) nikdy nejsou přítomna všechna možná slova a slovní tvary daného jazyka (pro češtinu minimálně 5 milionů běžných slov a jejich slovních tvarů), některá málo častá slova a slovní tvary není možno současnými zařízeními do textu převést. Častými chybějícími slovy jsou například jména a příjmení osob, názvy měst nebo ulic, názvy firem atd. Ačkoliv se některá z těchto slov ve zdrojových textech vyskytla, málokdy jsou v zařízení pro převod řeči do textu přítomny všechny jejich slovní tvary. Důsledkem je schopnost převodu slova např. v prvním pádu, ale nemožnost převodu v některých dalších slovních tvarech.

Další omezení počtu slov a slovních tvarů, které současná zařízení mohou převést, vyplývá z požadavku na převod v reálném čase, a tedy z požadavku na výkon takového zařízení. Z tohoto důvodu současná zařízení pro převod řeči do textu v reálném čase pracují ve svém ústředním jazykovém modulu s maximálně několika sty tisíci slov a slovních tvarů, protože jejich výkon neumožňuje použít větší objem dat. To má za následek chybu převodu při vyslovení málo častého, pro zařízení neznámého, slova či slovního tvaru.

Pro dosažení vysoké přesnosti převodu řeči do textu současná zařízení využívají statistiky řazení slov ve větě (tzv. jazykový model). Tyto statistiky jsou získány spolu s jednotlivými slovy a slovními tvary z velkého množství zdrojových textů. Ačkoliv většina zařízení pro převod řeči do textu umožňuje uživateli přidávání malého množství slov, k těmto slovům nejsou k dispozici statistiky jejich řazení ve větě (protože tato slova nebyla přítomna ve zdrojových textech), což snižuje úspěšnost jejich převodu.

Doposud není známo zařízení pro převod řeči do textu pracující v reálném čase, které by umožnilo převádět i slova, která nebyla přítomna ve zdrojových textech při vytváření ústředního jazykového modulu, a to ve všech slovních tvarech včetně využití statistik jejich řazení ve větě.

Podstata technického řešení

Podstatou technického řešení je zařízení pro převod řeči do textu v reálném čase. Zařízení obsahuje hardwarovou výpočetní jednotku a úložiště ve formě ústředního jazykového modulu. Výpočetní jednotkou může být například PC, mobilní telefon nebo tablet. Ústřední jazykový modul je sestaven na základě trénovacích textů. Dále obsahuje nejméně jedno úložiště ve formě expertního jazykového modulu, které obsahuje slova a/nebo jejich tvary ze skupiny, která nebyla pozorována v trénovacích textech a nejsou obsažena v úložišti ve formě ústředního jazykového modulu. Tato slova mají ve formě atributů přiřazenou statistiku řazení ve větách.

Je výhodné, pokud úložiště ve formě expertního jazykového modulu obsahuje různé alternativní výslovnosti slov v něm obsažených.

Systém pro převod řeči do textu v reálném čase, obsahující shora popsaného zařízení, obsahuje řídicí modul, vyhodnocovací modul, úložiště ve formě ústředního jazykového modulu, akustický modul, vstupní modul, výstupní modul, zobrazovací modul, zvukový modul, komunikační mo-1 CZ 27055 Ul dul, ovládací modul a výukový modul. Dále obsahuje nejméně jedno úložiště ve formě expertního jazykového modulu. Úložiště ve formě expertního jazykového moduluje připojeno k řídicímu modulu a k vyhodnocovacímu modulu.

Ve variantním provedení systém dále může obsahovat hardwarový urychlovací modul. Urychlovací modul je v takovém případě připojený k vyhodnocovacímu modulu, akustickému modulu a řídicímu modulu.

V dalším variantním provedení může dále obsahovat modul zespisovnění. Modul zespisovnění je v takovém případě připojený k nejméně jednomu úložišti ve formě expertního jazykového modulu a k úložišti ve formě ústředního jazykového modulu.

Zařízení podle předkládaného technického řešení díky svému konstrukčnímu řešení umožňuje převod řeči do textu v reálném čase, tzn., převádí řeč do textové podoby průběžně tak, jak jsou slova vyřčena, s prodlevou maximálně jednoho slova. Zařízení má k dispozici ústřední jazykový modul obsahující až několik milionů slov a slovních tvarů včetně statistik jejich řazení ve větě. Inovativně zařízení obsahuje jeden nebo více expertních jazykových modulů, přičemž každý jeden může obsahovat dalších až několik milionů slov a slovních tvarů včetně statistik jejich řazení ve větách.

Jednotlivé expertní jazykové moduly je vhodné, ne však nezbytné, vytvářet pro ucelené kategorie slov (například jména osob, ulic, názvy měst apod.). Každý expertní jazykový modul obsahuje úplný výčet slov a všech jejich slovních tvarů v dané kategorii, tedy i těch, která nebyla přítomna ve zdrojových textech. Pro všechny slovní tvary jsou ručně expertně (nikoliv automaticky) definovány výslovnostní odchylky. Příkladem může být expertní jazykový modul obsahující všechna mužská příjmení osob s českou národností. Pro každé příjmení jsou obsaženy slovní tvary v sedmi gramatických pádech základních a šesti pádech přivlastňovacích (celkem přes dva miliony slovních tvarů). Pro příjmení, která se nevyslovují stejně, jako se píší (např. příjmení s cizím původem), jsou definovány možné výslovnosti. Expertní jazykový modul dále obsahuje statistiky řazení každého slova a slovního tvaru ve větě, a to na základě expertně definovaných morfologických značek.

Z omezení množství slov v současných zařízeních, popsaného v kapitole Dosavadní stav techniky, vyplývá, že není možno všechna slova a slovní tvary z expertních jazykových modulů přidat do ústředního jazykového modulu a využít je tak při převodu řeči do textu v reálném čase. Tím spíše není možno využít ani statistiky jejich řazení ve větě. Využitím masivní paralelizace ve vyhodnocovacím modulu (který má na starosti určení nejpravděpodobněji vyřčených slov) a retrospektivních technik rozhodování lze kombinovat informace z ústředního jazykového modulu a expertních jazykových modulů již na úrovni slovních hypotéz. Retrospektivní technikou je například zpětné reskórování hypotéz. S využitím expertních statistik řazení přidaných slov a slovních tvarů je tak dosaženo vyšší úspěšnosti převodu řeči do textu, než poskytují současná zařízení. Zařízení umožňuje slova z expertního jazykového modulu převést i s využitím zmíněných statistik řazení slov ve větě, což zvyšuje úspěšnost převodu řeči do textu. Toho je dosaženo paralelním využitím expertních jazykových modulů až ve chvíli, kdy jsou vyslovena slova, která nejsou obsažena v ústředním jazykovém modulu.

Tímto způsobem je několikanásobně navýšeno množství slov, která mohou být předmětným zařízením převedena z řeči do textu.

V systému pro převod řeči do textu v reálném čase, s výhodou zařízení podle shora uvedeného popisu, jsou použity následující moduly:

- Řídicí modul - na základě vstupů uživatele přes ovládací modul řídí vyhodnocovací modul a využití expertních jazykových modulů. Zároveň je řízen zvukový vstupní modul a výstupní modul v podobě obrazového nebo zvukového výstupu. Dále je řízen případně užitý urychlovací modul nebo další hardware přes komunikační modul.

- Vyhodnocovací modul - na základě pravděpodobností akustického modulu, ústředního jazykového modulu a expertních jazykových modulů určuje slova, která byla řečena. K vyhodnocení

-2CZ 27055 Ul je využit tzv. Viterbiho algoritmus a retrospektivní techniky rozhodování. Pro zvýšení výkonu může být využit urychlovací modul.

- Ústřední jazykový modul - obsahuje slova a slovní tvary, včetně statistik jejich řazení ve větě.

- Expertní jazykové moduly 1 až N - obsahují úplný výčet slov a všech jejich slovních tvarů v daných kategoriích, a to včetně statistik jejich řazení ve větě a případně i různých výslovností.

- Akustický modul - na základě vstupního řečového signálu ze vstupního modulu určuje pravděpodobnost shody s předem vytvořenými modely fonémů použitého jazyka (Skryté Markovovy modely). Pro zvýšení výkonu může být využit urychlovací modul.

- Vstupní modul - obstarává vstupní řečový signál z mikrofonu nebo z předem vytvořené nahrávky.

- Výstupní modul - zajišťuje data pro zobrazovací modul nebo zvukový modul a další funkce týkající se formátování přepsaného textu.

- Zobrazovací modul - zajišťuje zobrazení přepsaného textu, případně včetně dalších informací o přepsaném textu.

- Zvukový modul - zajišťuje přehrávání vstupního řečového signálu korespondujícího přepsanému textu.

- Komunikační modul - přes speciální komunikační protokol zajišťuje komunikaci s dalšími zařízeními, která mohou nahradit funkci vyhodnocovacího modulu. Tímto způsobem mohou být hardwarové nároky na výpočetní funkce zařízení alespoň částečně přesunuty na jiné obdobné zařízení.

- Ovládací modul - umožňuje ovládání zařízení uživatelem.

- Výukový modul - zprostředkovává výuku ovládání zařízení ve formě manuálu nebo výukových videí.

- Urychlovací modul - ve variantním řešení může být využit pro zvýšení výkonu vyhodnocovacího modulu nebo akustického modulu paralelním zpracováním jejich výpočtů na urychlovacím HW.

- Modul zespisovnění - ve variantním provedení může provádět automatické zespisovnění (přiřazení spisovného výrazu k nespisovnému slovu) či znespisovnění (generování nespisovných variant spisovných slov) slov a slovních tvarů obsažených v ústředním jazykovém modulu a v expertních jazykových modulech.

Popsané zařízení díky svému konstrukčnímu vytvoření pracuje na obvyklých dostupných technických prostředcích a převádí lidskou řeč na text v reálném čase. To znamená, že je schopno v reálném čase v řeči poznat a převést na text kromě slov obsažených v ústředním jazykovém modulu i slova z expertních jazykových modulů. Zařízení má v součtu ve všech jazykových modulech - tj. v ústředním jazykovém modulu a všech expertních jazykových modulech, při zachování schopnosti převodu v reálném čase, více než 2 miliony slov a slovních spojení, která dokáže v řeči poznat a zapsat je do výsledné textové podoby. Díky tomu poskytuje vysoký výkon (tj. rychlost) a přesnost přepisu, čehož není dosahováno žádným jiným známým zařízením.

Přehled obrázků na výkresech

Příkladné provedení navrhovaného řešení je popsáno s odkazem na výkres, kde je na obr. 1 schéma systému.

Příklad provedení

Příkladné provedení zařízení, umožňující převod řeči do textu v reálném čase, je realizováno tak, že obsahuje výpočetní zařízení a úložiště 3 ve formě ústředního jazykového modulu. Dále obsahuje soustavu úložišť 4Í až ve formě expertních jazykových modulů. Expertní jazykové moduly Ú až 4^ obsahují slova a jejich tvary z objemné skupiny, která nebyla pozorována v trénovacích textech a nejsou obsažena v úložišti 3 ve formě ústředního jazykového modulu. Tato slova a jejich slovní tvary mají ve formě atributů přiřazenou statistiku řazení ve větách. Úložiště 4^ až 4^ ve formě expertních jazykových modulů dále obsahují různé výslovnosti slov v nich obsažených.

-3CZ 27055 Ul

Příkladný systém pro převod řeči do textu v reálném čase, s výhodou podle shora uvedeného příkladu, obsahuje řídicí modul I, vyhodnocovací modul 2, úložiště 3 ve formě ústředního jazykového modulu, akustický modul 5, vstupní modul 6, výstupní modul 7, zobrazovací modul 8, zvukový modul 9, komunikační modul 10, ovládací modul 11 a výukový modul 12. Dále obsahuje soustavu úložišť Á až 4^ ve formě expertních jazykových modulů, připojených k řídicímu modulu I, k vyhodnocovacímu modulu 2 a v tomto případě i k modulu zespisovnění 14. Modul zespisovnění 14 je dále připojený k úložišti 3 ve formě ústředního jazykového modulu.

Systém pro převod řeči do textu v reálném čase dále obsahuje urychlovací modul 13, připojený k vyhodnocovacímu modulu 2, akustickému modulu 5 a řídicímu modulu 1.

Konkrétně je příkladné provedení zařízení provedeno tak, že využívá hardware ve formě 15 notebooku s čtyřjádrovým procesorem (CPU) a 8 GB paměti (RAM). Jako urychlovací modul 13 je využit grafický procesor (GPU). Jako vyhodnocovací modul 2 je využit vysoce paralelizovaný dekodér. Úložiště ve formě ústředního jazykového modulu 3 obsahuje 1033551 slov a slovních tvarů včetně statistik jejich řazení ve větě. Realizováno je osm úložišť Á až 4* ve formě expertních jazykových modulů, a to expertní jazykový modul českých mužských příjmení, českých mužských jmen, českých ženských příjmení, českých ženských jmen, názvů českých obcí, názvů českých ulic a názvů českých firem. Tímto způsobem je množství slov, která mohou být zařízením přepsána, navýšeno na více než 4 miliony slov a slovních tvarů. Akustický modul 5 využívá 14766 skrytých Markovových modelů pro 49 fonémů českého jazyka. Vstupní modul 6 obstarává vstupní řečový signál z externího mikrofonu se vzorkovací frekvencí 22 kHz. Výstupní modul 7 je realizován prostřednictvím prostředku Microsoft .NET Framework 2.0 včetně zobrazovacího modulu 8 ve formě uživatelského interface a zvukového modulu 9 prostřednictvím zvukové karty a reproduktoru notebooku. Ovládací modul 11 využívá klávesnici notebooku. Výukový modul 12 je realizován ve formě manuálu.

Příkladné provedení je patrné z obr. 1.

Claims

NÁROKY NA OCHRANU

1. Zařízení pro převod řeči do textu v reálném čase, vyznačující se tím, že obsahuje hardwarovou výpočetní jednotku a úložiště (3) ve formě ústředního jazykového modulu a dále obsahuje nejméně jedno úložiště (4¹ až 4^N) ve formě expertního jazykového modulu, přičemž úložiště (4¹ až 4^N) obsahuje slova a/nebo jejich tvary ze skupiny, která nebyla pozorována v trénovacích textech a nejsou obsažena v úložišti (3) ústředního jazykového modulu, přičemž slova mají ve formě atributů přiřazenou statistiku řazení ve větách.
2. Zařízení podle nároku 1, vyznačující se tím, že úložiště (4¹ až 4^N) ve formě expertního jazykového modulu obsahuje různé výslovnosti slov v něm obsažených.
3. Systém pro převod řeči do textu v reálném čase, obsahující zařízení podle nároku 1 nebo 2, a dále obsahující řídicí modul (1), propojený s vyhodnocovacím modulem (2), který je propojený s úložištěm (3) ve formě ústředního jazykového modulu, dále obsahující akustický modul (5), propojený se vstupním modulem (6), výstupní modul (7) propojený se zobrazovacím modulem (8) a zvukovým modulem (9), přičemž řídicí modul (1) je dále propojený s komunikačním modulem (10) a ovládacím modulem (11), který je propojený s výukovým modulem (12), vyznačující se tím, že nejméně jedno úložiště (4¹ až 4^N) ve formě expertního jazykového moduluje připojené k řídicímu modulu (1) a k vyhodnocovacímu modulu (2).
4. Systém podle nároku 3, vyznačující se tím, že dále obsahuje hardwarový urychlovací modul (13), připojený k vyhodnocovacímu modulu (2), akustickému modulu (5) a řídicímu modulu (1).

-4CZ 27055 Ul
5. Systém podle nároku 3 nebo 4, vyznačující se tím, že dále obsahuje modul zespisovnění (14), připojený k nejméně jednomu expertnímu jazykovému modulu (4¹ až 4^N) a k ústřednímu jazykovému modulu (3).

1 výkres

Seznam vztahových značek:

ίο 1 - řídicí modul

2 - vyhodnocovací modul

3 - úložiště ve formě ústředního jazykového modulu

4 - úložiště ve formě expertního jazykového modulu

5 - akustický modul

15
6 - vstupní modul
7 - výstupní modul
8 - zobrazovací modul
9 - zvukový modul
10 - komunikační modul

20
11 - ovládací modul
12 - výukový modul
13 - urychlovací modul
14 - modul zespisovnění.