CZ304917B6

CZ304917B6 - Systém pro převod řeči do textu pro nevidomé a slabozraké uživatele

Info

Publication number: CZ304917B6
Application number: CZ2013-475A
Authority: CZ
Inventors: Aleš Pražák; Zdeněk Loose; Luděk Müller; Zbyněk Tychlt
Original assignee: Speechtech, S.R.O.
Priority date: 2013-06-20
Filing date: 2013-06-20
Publication date: 2015-01-21
Also published as: CZ2013475A3

Abstract

Systém pro převod řeči do textu pro nevidomé a slabozraké uživatele obsahuje počítačovou jednotku s hlasovým syntetizátorem a/nebo tónovým syntetizátorem. Na počítačovou jednotku je připojeno vstupní audiozařízení, ovládací prvky, výstupní audiozařízení a zobrazovací výstupní zařízení. Systém je uzpůsoben k signalizaci zobrazených textových a/nebo netextových stavů systému a/nebo nezobrazených stavů systému do zvukové podoby. Zvuková podoba stavu je ve formě předem dané zvukové stopy a/nebo psaného textu textového stavu převedeného hlasovým syntetizátorem do zvukové podoby a/nebo parametrického popisu zvuku převedeného tónovým syntetizátorem do zvukové podoby.

Description

Vynález se týká oblastí techniky informačních a komunikačních technologií a pomůcek pro zrakově znevýhodněné uživatele.

Dosavadní stav techniky

Rozvoj techniky v současné době významně napomohl širšímu využívání moderních technologií pro převod přirozené řeči do textové podoby. Technologie je stále častěji využívána v různých úlohách. Může být koncovému uživateli skryta jako například v telefonních dialogových systémech, automatických přepisech do textu pořadů vysílaných v médiích, jako při rádiovém nebo televizním vysílání, nebo například ve službách bezpečnostních složek státu. Stále častěji je však technologie pro převod řečí do textu využívána i přímo uživateli v běžném životě, ať již pro osobní nebo pracovní účely, především pro přímý přepis mluvené řeči do textu, tj. v podstatě diktován. To je umožněno dostupným dostatečně vysokým výkonem techniky a dosahováním vysoké úspěšnosti systémů při převodu řeči na text. V současné době je již známa a dostupná řada systémů převádějících diktovanou řeč do textu, které jsou vhodné pro běžné osobní použití. Tyto systémy umožňují na dostupných technických prostředcích každému uživateli, který je obeznámen s ovládáním a schopen tak systém ovládat, diktovat a okamžitě získat psanou, tedy textovou, podobu toho, co ústně diktoval. Textový výsledek je možné například vytisknout nebo uložit do běžného souboru, a dále jej libovolně zpracovávat jako jiný text.

Technologie pro převod řeči na text by mohla být významnou pomocí znakově postiženým lidem, především při komunikaci psanou formou. Avšak, podobně jako v řadě jiných situací, nejsou v současnosti používané systémy uzpůsobené pro snadné použití zrakově postiženými uživateli. To sice zcela nevylučuje zrakově postiženým tyto systémy využívat, např. s použitím univerzálních pomůcek, které jim zprostředkují informace o stavech systému a umožní ho i ovládat. Takové univerzální nástroje se většinou označují jako „screenreadeiy“, tedy „čtecky obrazu“. Vzhledem k jejich univerzálnosti je však práce s nimi nepraktická a v některých klíčových situacích (z pohledu diktovacích systémů) i nemožná. „Screenreadery“ jsou schopné upozornit, pokud se na displeji něco změní a přečíst novou informaci, a umožňují naučenými úkony uživateli ovládání nástrojů, jakým může být i zmíněný nespecializovaný systém pro převod řeči na text. Tyto screenreadery pracují tak, že „čekají“ na nově zobrazené informace na displejích a ty předčítají uživateli. To však v případě použití spolu se systémem pro diktování (tj. pro převod řeči do textu) bývá problém hned ve dvou situacích:

1) předčítaná hlášení mohou být zachycena mikrofonem, do kterého uživatel právě diktuje svůj text, a tím poškozují výsledek práce systému - tedy vlastní textový přepis. Tento nežádoucí jev lze sice do jisté míry ovlivnit správnou volbou mikrofonu a jeho směrováním, ale stále představuje závažný problém při práci se systémem;

2) „screenreader“ předčítá i text, který je výsledkem přepisu diktátu. Diktovací systém obvykle text, který získal převodem mluvené řeči na textu, průběžně při diktování slovo za slovem zobrazuje na displeji. Tuto „změnu“ obsahu displeje detekuje univerzální „screenreader“ a nově přibyvší text přečte. To působí extrémně rušivě pro diktujícího uživatele a většině uživatelů to v podstatě znemožní systém využívat.

Problematické pro zrakově postižené uživatele je, že nevidí, co se na monitoru zařízení aktuálně děje, tedy například zdaje systém připraven k zápisu řeči do textu, nebo zda například čeká nejprve na potvrzení nebo zda zobrazuje chybovou hlášku.

-1 CZ 304917 B6

Univerzální nástroje pro komunikaci a zprostředkování ovládání nevidomým uživatelům jsou realizovány tak, aby poskytly svoji funkčnost ve spolupráci se širokou škálou nástrojů a systémů, což na úkor jejich univerzálnosti snižuje kvalitu jejich použitelnosti v každém jednom speciálním případě, tedy i v případě současného používání spolu s univerzálním systémem pro převod řeči na text. Nadto je velmi nežádoucí, aby během uživatelova diktování pomocný nástroj (screenreader) zároveň četl výsledek převodu na text. To doposud známými systémy není splněno.

Podstata vynálezu

Podstatou vynálezu je vytvoření systému pro převod řeči do textu pro nevidomé a slabozraké uživatele. Systém obsahuje počítačovou jednotku s hlasovým syntetizátorem a/nebo tónovým syntetizátorem, na kterou je připojeno vstupní audiozařízení, ovládací prvky, výstupní audiozařízení a zobrazovací výstupní zařízení. Systém je uzpůsoben k signalizaci zobrazených textových a/nebo netextových stavů systému a/nebo nezobrazených stavů systému do zvukové podoby tak, že zvuková podoba stavuje ve formě:

- předem dané zvukové stopy a/nebo

- psaného textu textového stavu převedeného hlasovým syntetizátorem do zvukové podoby a/nebo

- parametrického popisu zvuku převedeného tónovým syntetizátorem do zvukové podoby.

Ve výhodném provedení je signalizovaným stavem zejména:

- připravenost systému k přijetí povelu a/nebo

- potvrzení přijetí nebo nepřijetí povelu a/nebo

- připravenost nebo nepřipravenost systému k převodu řeči do textu.

V jiném výhodném provedení je text vzniklý převodem řeči převoditelný na pokyn uživatele hlasovým syntetizátorem systému do zvukové podoby.

V praxi je výhodné, pokud je vstupním zařízením mikrofon, ovládacími prvky jsou PC klávesnice a/nebo PC myš, výstupním audiozařízením je reproduktor a výstupním zobrazovacím zařízením je monitor.

Předkládané řešení odstraňuje, na rozdíl od stávajících známých řešení, nutnost používání dodatečného univerzálního nástroje pro zprostředkování komunikace a ovládání nevidomým uživatelem. Toho je dosaženo nově tak, že schopnost komunikace se zrakově postiženým uživatelem je zabudována do samotného systému pro převod řeči na text. Odstraňuje tedy nutnost komunikačně neefektivního a zdlouhavého způsobu předávání informace uživateli čtením obrazovky a do značné míry zlepšuje i komfort při ovládání systému.

Toho je docíleno především tak, že je uživatel průběžně informován zvukovými signály, tzv. zvukovými značkami, o všech stavech, do kterých se systém pro převod řeči na text dostane. Staven je míněna každá situace významná pro uživatele. Nejdůležitější stavy, specifické pro používání systému pro převod řeči na text, jsou: „start systému“, „začátek naslouchání diktování“, „vznik chyby“, „konec naslouchání diktování“, „začátek naslouchání povelu“, „konec naslouchání povelu“, „přijetí povelu“, „oznámení o nesrozumitelnosti povelu“. Dále pak může být systém vybaven celou řadou užitečných zvukových značek oznamujících obvyklé operace - stejné či podobné jaké jsou vykonávány i jinými systémy a nástroji, jako je například výzva a potvrzení provedení každé požadované akce - např. uložení výsledku do souboru, odstranění části nebo celého vý-2CZ 304917 B6 sledku, otevření nové nebo existující úlohy (souboru), tisk, odeslání emailem, exporty, importy, používání šablon, formátování textu atd.

Druhou významnou novou funkčností vynálezu je spojení hlavní funkce, tj. přepisu řeči na text, s možností přímého ovládání fungování systému hlasovými povely. Tato vlastnost není sama o sobě novinkou. Nicméně není znám jiným systém pro převod řeči na textu, který by byl vybaven možností být ovládán řečovými povely. Využití obou zmíněných nových vlastností systému je úzce provázáno, přičemž je důležité spolehlivě oznámit nevidomému uživateli stavy systémů, aby rozlišil, kdy systém očekává diktování textu a kdy ovládací povel. Této funkčnosti může být v realizaci podobného systému dosaženo různými postupy. Například lze využít dále zmíněnou interní komponentu pro rozpoznávání řeči nebo může být systém vybaven speciálním dalším rozpoznávačem pouze pro povely. Využití hlasového ovládání není nezbytnou podmínkou pohodlného používání systému zrakově postiženým uživatelem. Ovládání lze alternativně plnohodnotně realizovat i prostřednictvím obvyklých vstupních ovládacích zařízení jako je klávesnice, myš nebo i méně obvyklých jako například nožním pedálem.

Integrace obou zmíněných nových rozšíření, tj. zvukové oznamování stavů systému a ovládání mluvenými povely, do systému převodu řeči na text musí být důkladná, protože je důležité spolehlivě oznámit nevidomému uživateli stavy systému, aby rozlišil, kdy systém očekává diktování textu, kdy ovládací povel, a když je vjiném stavu a neočekává žádnou promluvu. Toto provázání je klíčové a nelze ho efektivně dosáhnout kombinací samostatných dosud používaných technik a nástrojů. Naopak používání popsaného systému zrakově postiženými jim natolik zvýší komfort, že se technologie stane běžně používanou i jimi.

Zařízení podle vynálezu může v zásadě obsahovat několik velmi úzce provázaných funkčních celků systému. Základní komponentou, která plní základní funkci, tedy převod řeči na text, je rozpoznávač řeči. V roli této komponenty je v zásadě možné využít řady dostupných rozpoznávačů různých dodavatelů. Liší se obvykle jak úspěšností rozpoznávání, velikostmi slovníků (tj. seznamy slov, které jsou schopné rozpoznat), tak licenčními podmínkami a cenou. Komponenta dostává od centrální řídicí komponenty příkazy ke spuštění či zastavení rozpoznávání. Disponuje vstupem, který je propojen s komponentou vstupu zvuku, která získává obvykle z mikrofonu diktovaný hlas, převádí jej do číselné reprezentace a předává ho na vstup komponenty rozpoznávače. Výstupem komponenty je proud rozpoznaného textu, který je předáván řídicí jednotce. Řídicí komponenta na základě požadavků uživatele a stavů systému řídí ostatní komponenty. Především reaguje na vstupy uživatele získané buď od komponenty obvyklého grafického uživatelského rozhraní, nebo od komponenty rozpoznávače řeči v situaci, kdy se rozpoznává ovládací příkaz. Pak může buď přebírat rozpoznaný text a dál ho zpracovávat, nebo iniciuje jeho přímé předávání jiné komponentě jako například komponentě zobrazování a/nebo ukládání. Důležitou funkcí řídicí jednotky je kolekce a vyhodnocování stavů.

Na základě stavů, ve kterých se systém nachází, a aktuálních uživatelských požadavků, řídí řídicí komponenta ostatní komponenty, ale současně určuje, je-li potřeba informovat zrakově postiženého uživatele o současném stavu nebo jeho změně. Je-li tomu tak, vydá pokyn pro komponentu zvukového upozorňování k přehrání vybrané specifické zvukové značky. Komponenta přehrávání zvukových značek požadovanou zvukovou značku přehraje. Zvukové značky mohou být třech typů. Může se jednat o uložený předem připravený zvuk, a to i například nahrávku lidské promluvy. Nebo může být zvuk syntetizován na základě uloženého parametrického popisu pomocí frekvenční syntézy. Lze však jako zvukové značky i přímo syntetizovat umělou promluvu využitím komponenty převodu textu na řeč, tj. systémů známých jako text-to-speech, neboli TTS. V takovém případě má systém uloženy texty, které pak v jednotlivých situacích přemlouvá. Výhodou využití TTS je schopnost systému uživateli sdělit i podrobnosti o neočekávaných chybových stavech, kdy bývá k dispozici jejich textový popis. Nicméně popisovaný systém je plně využitelný zrakově postiženými uživateli s libovolným vybraným typem zvukových značek. Další komponenta systému označená jako obslužná komponenta zajišťuje obvykle operace jako například

-3CZ 304917 B6 ukládání nadiktovaného textu, jeho načtení pokud si uživatel přeje v diktování pokračovat, různé převody formátů textu, udržování informací o uživatelském nastavení systému apod.

Popisovaný systém převodu řeči na text pro slabozraké a nevidomé eliminuje nutnost použití jakéhokoli dodatečného nástroje pro své používání slabozrakými a nevidomými uživateli. Systém je realizován tak, aby efektivním a nenásilným způsobem zprostředkoval zrakově postiženému uživateli potřebné informace o stavech systému, ale aby přitom uživatele nerušil, a zároveň nabízí účinné asistenční prostředky pro pohodlné a spolehlivé ovládání systému.

Příklad uskutečnění vynálezu

Příkladné provedení systému pro převod řeči do textu pro nevidomé a slabozraké uživatele je uzpůsobeno k signalizaci zobrazených textových a netextových stavů systému a zároveň nezobrazených stavů systému do zvukové podoby.

Základní komponentou systému je řečový rozpoznávač. Dále systém využívá komponentu pro řízení chování systému a pro komunikaci s ostatními komponentami jako jsou komponenta rozpoznávače, komponenta uživatelského rozhraní nebo komponenty audio vstupu a výstupu. Řídicí komponenta provádí oznamování stavů systému zvukovými značkami a dále je její funkcí přijímání a reagování na hlasové povely uživatele. Řídicí komponenta je navržena tak, aby neustále sledovala stavy systému a jeho komponent, a aby vždy patřičnou zvukovou značkou signalizovala změny stavů nevidomému uživateli.

Textovými stavy, které jsou signalizovány, jsou v tomto případě: výzva k zadání jména souboru před jeho uložením, oznámení o neuloženém souboru při pokusu o ukončení práce systému, zvolený název a cesta souboru pro uložení, odpověď systému na dotaz na jméno vybraného slovníku a výskyt neočekávané textově popsané chyby.

Netextovými stavy, které jsou signalizovány, jsou v tomto případě: ukončení inicializace po startu systému, začátek očekávání diktování a konec možnosti diktovat.

Nezobrazenými stavy, které jsou signalizovány, jsou v tomto případě: potvrzení přijetí nebo oznámení nepřijetí povelu, dokončení převodu zvuku do textu, potvrzení nalezení dalšího textového pole pro vyplnění a dosažení konce souboru při hledání.

Zvuková podoba stavů je zde, v závislosti na konkrétním signalizovaném stavu, ve formě předem dané zvukové stopy nebo psaného textu textového stavu převedeného hlasovým syntetizátorem do zvukové podoby nebo parametrického popisu zvuku převedeného tónovým syntetizátorem do zvukové podoby.

Uživatelským nastavením je pak možné ovlivnit, která forma bude použita pro signalizace včetně výběru a přiřazení konkrétních zvuků jednotlivým značkám. Výjimkou jsou textové stavy, které jsou přehrávány pomocí syntetizovaných promluv získaných pomocí komponenty TTS.

Text vzniklý převodem řeči je v příkladné realizaci zařízení taktéž převoditelný hlasovým syntetizátorem systému (TTS) do zvukové podoby, a to pouze na pokyn uživatele.

Příkladné provedení zařízení je v podobě běžného PC, opatřeného vstupním audiozařízením v podobě mikrofonu, ovládacími prvky v podobě PC klávesnice a PC myši, výstupním audiozařízením v podobě reproduktoru a zobrazovacím výstupním zařízením v podobě monitoru. Dále je opatřené systémem pro převod řeči podle shora uvedeného příkladu.

Claims

1. Systém pro převod řeči do textu pro nevidomé a slabozraké uživatele, který obsahuje počítačovou jednotku s hlasovým syntetizátorem a/nebo tónovým syntetizátorem, na kterou je připojeno vstupní audiozařízení, ovládací prvky, výstupní audiozařízení a zobrazovací výstupní zařízení, vyznačující se tím, že systém je uzpůsoben k signalizaci zobrazených textových a/nebo netextových stavů systému a/nebo nezobrazených stavů systému do zvukové podoby tak, že zvuková podoba stavu je ve formě předem dané zvukové stopy a/nebo psaného textu textového stavu převedeného hlasovým syntetizátorem do zvukové podoby a/nebo parametrického popisu zvuku převedeného tónovým syntetizátorem do zvukové podoby.

2. Systém podle nároku 1, vyznačující se tím, že signalizovaným stavem je zejména připravenost systému k přijetí povelu a/nebo potvrzení přijetí nebo nepřijetí povelu a/nebo připravenost nebo nepřipravenost systému k převodu řeči do textu.

3. Systém podle nároku 1 nebo 2, vyznačující se tím, že text vzniklý převodem řeči je hlasovým syntetizátorem systému převoditelný na pokyn uživatele do zvukové podoby.

4. Systém podle některého z předchozích nároků, vyznačující se tím, že vstupním zařízením je mikrofon, ovládacími prvky jsou PC klávesnice a/nebo PC myš, výstupním audiozařízením je reproduktor a výstupním zobrazovacím zařízením je monitor.