CZ27002U1 - Systém pro převod řeči do textu pro nevidomé a slabozraké uživatele - Google Patents

Systém pro převod řeči do textu pro nevidomé a slabozraké uživatele Download PDF

Info

Publication number
CZ27002U1
CZ27002U1 CZ2013-28088U CZ201328088U CZ27002U1 CZ 27002 U1 CZ27002 U1 CZ 27002U1 CZ 201328088 U CZ201328088 U CZ 201328088U CZ 27002 U1 CZ27002 U1 CZ 27002U1
Authority
CZ
Czechia
Prior art keywords
text
speech
audio
user
blind
Prior art date
Application number
CZ2013-28088U
Other languages
English (en)
Inventor
Aleš Pražák
Zdeněk Loose
Luděk Müller
Zbyněk Tychtl
Original Assignee
Speechtech, S.R.O.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Speechtech, S.R.O. filed Critical Speechtech, S.R.O.
Priority to CZ2013-28088U priority Critical patent/CZ27002U1/cs
Publication of CZ27002U1 publication Critical patent/CZ27002U1/cs

Links

Landscapes

  • User Interface Of Digital Computer (AREA)

Description

Oblast techniky
Technické řešení se týká oblastí techniky informačních a komunikačních technologií a pomůcek pro zrakově znevýhodněné uživatele.
Dosavadní stav techniky
Rozvoj techniky v současné době významně napomohl širšímu využívání moderních technologií pro převod přirozené řeči do textové podoby. Technologie je stále častěji využívána v různých úlohách. Může být koncovému uživateli skryta jako například v telefonních dialogových systémech, automatických přepisech do textu pořadů vysílaných v médiích, jako při rádiovém nebo televizním vysílání, nebo například ve službách bezpečnostních složek státu. Stále častěji je však technologie pro převod řeči do textu využívána i přímo uživateli v běžném životě, ať již pro osobní nebo pracovní účely, především pro přímý přepis mluvené řeči do textu, tj. v podstatě diktování. To je umožněno dostupným dostatečně vysokým výkonem techniky a dosahováním vysoké úspěšnosti systémů při převodu řeči na text. V současné době je již známa a dostupná řada systémů převádějících diktovanou řeč do textu, které jsou vhodné pro běžné osobní použití. Tyto systémy umožňují na dostupných technických prostředcích každému uživateli, který je obeznámen s ovládáním a schopen tak systém ovládat, diktovat a okamžitě získat psanou, tedy textovou, podobu toho, co ústně diktoval. Textový výsledek je možné například vytisknout nebo uložit do běžného souboru, a dále jej libovolně zpracovávat jako jiný text.
Technologie pro převod řeči na text by mohla být významnou pomocí zrakově postiženým lidem, především při komunikaci psanou formou. Avšak, podobně jako v řadě jiných situací, nejsou v současnosti používané systémy uzpůsobené pro snadné použití zrakově postiženými uživateli. To sice zcela nevylučuje zrakově postiženým tyto systémy využívat, např. s použitím univerzálních pomůcek, které jim zprostředkují informace o stavech systému a umožní ho i ovládat. Takové univerzální nástroje se většinou označují jako „screenreadery“, tedy „čtečky obrazu“. Vzhledem k jejich univerzálnosti je však práce s nimi nepraktická a v některých klíčových situacích (z pohledu diktovacích systémů) i nemožná. Screenreadery jsou schopné upozornit, pokud se na displeji něco změní a přečíst novou informaci, a umožňují naučenými úkony uživateli ovládání nástrojů, jakým může být i zmíněný nespecializovaný systém pro převod řeči na text. Tyto screenreadery pracují tak, že „čekají“ na nově zobrazené informace na displejích a ty předčítají uživateli. To však v případě použití spolu se systémem pro diktování (tj. pro převod řeči do textu) bývá problém hned ve dvou situacích:
1) předčítaná hlášení mohou být zachycena mikrofonem, do kterého uživatel právě diktuje svůj text, a tím poškozují výsledek práce systému - tedy vlastní textový přepis. Tento nežádoucí jev lze sice do jisté míry ovlivnit správnou volbou mikrofonu a jeho směrováním, ale stále představuje závažný problém při práci se systémem;
2) screenreader předčítá i text, který je výsledkem přepisu diktátu. Diktovací systém obvykle text, který získal převodem mluvené řeči na text, průběžně při diktování slovo za slovem zobrazuje na displeji. Tuto „změnu“ obsahu displeje detekuje univerzální screenreader a nově přibyvší text přečte. To působí extrémně rušivě pro diktujícího uživatele a většině uživatelů to v podstatě znemožní systém využívat.
Problematické pro zrakově postižené uživatele je, že nevidí, co se na monitoru zařízení aktuálně děje, tedy například zda je systém připraven k zápisu řeči do textu, nebo zda například čeká nejprve na potvrzení nebo zda zobrazuje chybovou hlášku.
Univerzální nástroje pro komunikaci a zprostředkování ovládání nevidomým uživatelům jsou realizovány tak, aby poskytly svoji funkčnost ve spolupráci se širokou škálou nástrojů a systémů, což na úkor jejich univerzálnosti snižuje kvalitu jejích použitelnosti v každém jednom speciálním případě, tedy i v případě současného používání spolu s univerzálním systémem pro převod řeči
-1 CZ 27002 Ul na text. Nadto je velmi nežádoucí, aby během uživatelova diktování pomocný nástroj (screenreader) zároveň četl výsledek převodu na text. To doposud známými systémy není splněno.
Podstata technického řešení
Podstatou technického řešení je vytvoření systému pro převod řeči do textu pro nevidomé a slabozraké uživatele. Systém obsahuje vstupní audiozařízení (např. mikrofon), ovládací prvky (např. tlačítka, PC klávesnici, PC myš), výstupní audiozařízení (např. reproduktor) a zobrazovací výstupní zařízení (např. monitor, displej). Tato zařízení mohou být ve formě běžného PC.
Systém je uzpůsoben k signalizaci zobrazených textových a/nebo netextových stavů systému a/nebo nezobrazených stavů systému do zvukové podoby tak, že:
zvuková podoba stavu je ve formě předem dané zvukové stopy, a/nebo je zvuková podoba stavu ve formě psaného textu textového stavu převedeného hlasovým syntetizátorem do zvukové podoby, a/nebo je zvuková podoba stavu ve formě parametrického popisu zvuku převedeného tónovým syntetizátorem do zvukové podoby.
Signalizovaným stavem je zejména:
připravenost systému k přijetí povelu, a/nebo potvrzení přijetí, resp. nepřijetí povelu, a/nebo připravenost, resp. nepřipravenost systému k převodu řeči do textu.
Ve variantním řešení je výhodné, pokud je text vzniklý převodem řeči převoditelný hlasovým syntetizátorem systému do zvukové podoby, a to na pokyn uživatele.
Předkládané řešení odstraňuje, na rozdíl od stávajících známých řešení, nutnost používání dodatečného univerzálního nástroje pro zprostředkování komunikace a ovládání nevidomým uživatelem. Toho je dosaženo nově tak, že schopnost komunikace se zrakově postiženým uživatelem je zabudována do samotného systému pro převod řeči na text. Odstraňuje tedy nutnost komunikačně neefektivního a zdlouhavého způsobu předávání informace uživateli čtením obrazovky a do značné míry zlepšuje i komfort při ovládání systému.
Toho je docíleno především tak, že je uživatel průběžně informován zvukovými signály, tzv. zvukovými značkami, o všech stavech, do kterých se systém pro převod řeči na text dostane. Stavem je míněna každá situace významná pro uživatele. Nej důležitější stavy, specifické pro používání systému pro převod řeči na text, jsou: „start systému“, „začátek naslouchání diktování“, „vznik chyby“, „konec naslouchání diktování“, „začátek naslouchání povelu“, „konec naslouchání povelu“, „přijetí povelu“, „oznámení o nesrozumitelnosti povelu“. Dále pak může být systém vybaven celou řadou užitečných zvukových značek oznamujících obvyklé operace stejné či podobné jaké jsou vykonávány i jinými systémy a nástroji, jako je například výzva a potvrzení provedení každé požadované akce - např. uložení výsledku do souboru, odstranění části nebo celého výsledku, otevření nové nebo existující úlohy (souboru), tisk, odeslání emailem, exporty, importy, používání šablon, formátování textu atd.
Druhou významnou novou funkčností navrhovaného technického řešení je spojení hlavní funkce, tj. přepisu řeči na text, s možností přímého ovládání fungovaní systému hlasovými povely. Tato vlastnost není sama o sobě novinkou. Nicméně není znám jiný systém pro převod řeči na text, který by byl vybaven možností být ovládán řečovými povely. Využití obou zmíněných nových vlastností systému je úzce provázáno, přičemž je důležité spolehlivě oznámit nevidomému uživateli stavy systému, aby rozlišil, kdy systém očekává diktování textu a kdy ovládací povel. Této funkčnosti může být v realizaci podobného systému dosaženo různými postupy. Například lze využít dále zmíněnou interní komponentu pro rozpoznávání řeči nebo může být systém vybaven speciálním dalším rozpoznávačem pouze pro povely. Využití hlasového ovládání není nezbytnou podmínkou pohodlného používání systému zrakově postiženým uživatelem. Ovládání lze alter-2CZ 27002 Ul nativně plnohodnotně realizovat i prostřednictvím obvyklých vstupních ovládacích zařízení jako je klávesnice, myš nebo i méně obvyklých jako například nožním pedálem.
Integrace obou zmíněných nových rozšíření, tj. zvukové oznamování stavů systému a ovládání mluvenými povely, do systému převodu řeči na text musí být důkladná, protože je důležité spolehlivě oznámit nevidomému uživateli stavy systému, aby rozlišil, kdy systém očekává diktování textu, kdy ovládací povel, a kdy je v jiném stavu a neočekává žádnou promluvu. Toto provázání je klíčové a nelze ho efektivně dosáhnout kombinací samostatných dosud používaných technik a nástrojů. Naopak používání popsaného systému zrakově postiženými jim natolik zvýší komfort, že se technologie stane běžně používanou i jimi.
Zařízení podle navrhovaného technického řešení může v zásadě obsahovat několik velmi úzce provázaných funkčních celků systému. Základní komponentou, která plní základní funkci, tedy převod řeči na text, je rozpoznávač řeči. V roli této komponenty je v zásadě možné využít řady dostupných rozpoznávačů různých dodavatelů. Liší se obvykle jak úspěšností rozpoznávání, velikostmi slovníků (tj. seznamy slov, které jsou schopné rozpoznat), tak licenčními podmínkami a cenou. Komponenta dostává od centrální řídicí komponenty příkazy ke spuštění či zastavení rozpoznávání. Disponuje vstupem, který je propojen s komponentou vstupu zvuku, která získává obvykle z mikrofonu diktovaný hlas, převádí jej do číselné reprezentace a předává ho na vstup komponenty rozpoznávače. Výstupem komponenty je proud rozpoznaného textu, který je předáván řídicí jednotce. Řídicí komponenta na základě požadavků uživatele a stavů systému řídí ostatní komponenty. Především reaguje na vstupy uživatele získané buď od komponenty obvyklého grafického uživatelského rozhraní, nebo od komponenty rozpoznávače řeči v situaci, kdy se rozpoznává ovládací příkaz. Pak může buď přebírat rozpoznaný text a dál ho zpracovávat nebo iniciuje jeho přímé předávání jiné komponentě jako například komponentě zobrazování a/nebo ukládání. Důležitou funkcí řídicí jednotky je kolekce a vyhodnocování stavů.
Na základě stavů, ve kterých se systém nachází, a aktuálních uživatelských požadavků, řídí řídící komponenta ostatní komponenty, ale současně určuje, je-li potřeba informovat zrakově postiženého uživatele o současném stavu nebo jeho změně. Je-li tomu tak, vydá pokyn pro komponentu zvukového upozorňování k přehrání vybrané specifické zvukové značky. Komponenta přehrávání zvukových značek požadovanou zvukovou značku přehraje. Zvukové značky mohou být třech typů. Může se jednat o uložený předem připravený zvuk, a to i například nahrávku lidské promluvy. Nebo může být zvuk syntetizován na základě uloženého parametrického popisu pomocí frekvenční syntézy. Lze však jako zvukové značky i přímo syntetizovat umělou promluvu využitím komponenty převodu textu na řeč, tj. systémů známých jako text-to-speech, neboli TTS. V takovém případě má systém uloženy texty, které pak v jednotlivých situacích přemlouvá. Výhodou využití TTS je schopnost systému uživateli sdělit i podrobnosti o neočekávaných chybových stavech, kdy bývá k dispozici jejich textový popis. Nicméně popisovaný systém je plně využitelný zrakově postiženými uživateli s libovolným vybraným typem zvukových značek. Další komponenta systému označená jako obslužná komponenta zajišťuje obvyklé operace jako například ukládání nadiktovaného textu, jeho načtení pokud si uživatel přeje v diktování pokračovat, různé převody formátů textu, udržování informací o uživatelském nastavení systému apod.
Popisovaný systém převodu řeči na text pro slabozraké a nevidomé eliminuje nutnost použití jakéhokoli dodatečného nástroje pro své používání slabozrakými a nevidomými uživateli. Systém je realizován tak, aby efektivním a nenásilným způsobem zprostředkoval zrakově postiženému uživateli potřebné informace o stavech systému, ale aby přitom uživatele nerušil, a zároveň nabízí účinné asistenční prostředky pro pohodlné a spolehlivé ovládání systému.
Příklad provedení technického řešení
Příkladné provedení systému pro převod řeči do textu pro nevidomé a slabozraké uživatele obsahuje běžné PC, opatřené vstupním audiozařízením v podobě mikrofonu, ovládacími prvky v podobě PC klávesnice a PC myši, výstupním audiozařízením v podobě reproduktoru a zobrazovacím výstupním zařízením v podobě monitoru. Systém je uzpůsoben k signalizaci zobraze-3CZ 27002 Ul ných textových a netextových stavů systému a zároveň nezobrazených stavů systému do zvukové podoby.
Základní komponentou systému je řečový rozpoznávač. Dále systém využívá komponentu pro řízení chování systému a pro komunikaci s ostatními komponentami jako jsou komponenta rozpoznávače, komponenta uživatelského rozhraní nebo komponenty audio vstupu a výstupu. Řídící komponenta provádí oznamování stavů systému zvukovými značkami a dále je její funkcí přijímání a reagování na hlasové povely uživatele. Řídící komponenta je navržena tak, aby neustále sledovala stavy systému a jeho komponent, a aby vždy patřičnou zvukovou značkou signalizovala změny stavů nevidomému uživateli.
Textovými stavy, které jsou signalizovány, jsou v tomto případě: výzva k zadání jména souboru před jeho uložením, oznámení o neuloženém souboru při pokusu o ukončení práce systému, zvolený název a cesta souboru pro uložení, odpověď systému na dotaz na jméno vybraného slovníku a výskyt neočekávané textově popsané chyby.
Netextovými stavy, které jsou signalizovány, jsou v tomto případě: ukončení inicializace po startu systému, začátek očekávání diktování a konec možnosti diktovat.
Nezobrazenými stavy, které jsou signalizovány, jsou v tomto případě: potvrzení přijetí nebo oznámení nepřijeti povelu, dokončení převodu zvuku do textu, potvrzení nalezení dalšího textového pole pro vyplnění a dosažení konce souboru při hledání.
Zvukové podoba stavů je zde, v závislosti na konkrétním signalizovaném stavu, ve formě předem dané zvukové stopy nebo psaného textu textového stavu převedeného hlasovým syntetizátorem do zvukové podoby nebo parametrického popisu zvuku převedeného tónovým syntetizátorem do zvukové podoby.
Uživatelským nastavením je pak možné ovlivnit, která forma bude použita pro signalizace včetně výběru a přiřazení konkrétnách zvuků jednotlivým značkám. Výjimkou jsou textové stavy, které jsou přehrávány pomocí syntetizovaných promluv získaných pomocí komponenty TTS.
Text vzniklý převodem řeči je v příkladné realizaci zařízení taktéž převoditelný hlasovým syntetizátorem systému (TTS) do zvukové podoby, a to pouze na pokyn uživatele.

Claims (4)

  1. NÁROKY NA OCHRANU
    1. Systém pro převod řeči do textu pro nevidomé a slabozraké uživatele, vyznačující se tím, že obsahuje počítačovou jednotku shlasovým syntetizátorem a/nebo tónovým syntetizátorem, na kterou je připojeno vstupní audiozařízení, ovládací prvky, výstupní audiozařízení a zobrazovací výstupní zařízení, přičemž systém je uzpůsoben k signalizaci zobrazených textových a/nebo netextových stavů systému a/nebo nezobrazených stavů systému do zvukové podoby tak, že zvuková podoba stavu je ve formě předem dané zvukové stopy a/nebo psaného textu textového stavu převedeného hlasovým syntetizátorem do zvukové podoby a/nebo parametrického popisu zvuku převedeného tónovým syntetizátorem do zvukové podoby.
  2. 2. Systém podle nároku 1, vyznačující se tím, že signalizovaným stavem je zejména připravenost systému k přijetí povelu a/nebo potvrzení přijetí nebo nepřijetí povelu a/nebo připravenost nebo nepřipravenost systému k převodu řeči do textu.
  3. 3. Systém podle nároku 1 nebo 2, vyznačující se tím, že text vzniklý převodem řeči je hlasovým syntetizátorem systému převoditelný na pokyn uživatele do zvukové podoby.
  4. 4. Systém podle některého z předchozích nároků, vyznačující se tím, že vstupním zařízením je mikrofon, ovládacími prvky jsou PC klávesnice a/nebo PC myš, výstupním audiozařízením je reproduktor a výstupním zobrazovacím zařízením je monitor.
CZ2013-28088U 2013-06-20 2013-06-20 Systém pro převod řeči do textu pro nevidomé a slabozraké uživatele CZ27002U1 (cs)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CZ2013-28088U CZ27002U1 (cs) 2013-06-20 2013-06-20 Systém pro převod řeči do textu pro nevidomé a slabozraké uživatele

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CZ2013-28088U CZ27002U1 (cs) 2013-06-20 2013-06-20 Systém pro převod řeči do textu pro nevidomé a slabozraké uživatele

Publications (1)

Publication Number Publication Date
CZ27002U1 true CZ27002U1 (cs) 2014-06-10

Family

ID=50977259

Family Applications (1)

Application Number Title Priority Date Filing Date
CZ2013-28088U CZ27002U1 (cs) 2013-06-20 2013-06-20 Systém pro převod řeči do textu pro nevidomé a slabozraké uživatele

Country Status (1)

Country Link
CZ (1) CZ27002U1 (cs)

Similar Documents

Publication Publication Date Title
EP2126900B1 (en) Method and system for creating entries in a speech recognition lexicon
JP5750380B2 (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
US6775651B1 (en) Method of transcribing text from computer voice mail
TW503388B (en) Speech recognition enrollment for non-readers and display less devices
US7792673B2 (en) Method of generating a prosodic model for adjusting speech style and apparatus and method of synthesizing conversational speech using the same
US8606560B2 (en) Automatic simultaneous interpertation system
US20100178956A1 (en) Method and apparatus for mobile voice recognition training
WO2018100743A1 (ja) 制御装置および機器制御システム
JP2007133033A (ja) 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム
US20090222269A1 (en) Sentence reading aloud apparatus, control method for controlling the same, and control program for controlling the same
JP2006517037A (ja) 韻律的模擬語合成方法および装置
JP2014048506A (ja) 単語登録装置及びそのためのコンピュータプログラム
US20030216915A1 (en) Voice command and voice recognition for hand-held devices
JP7200533B2 (ja) 情報処理装置およびプログラム
JP2006301223A (ja) 音声認識システム及び音声認識プログラム
JP2007249653A (ja) マークアップ言語情報の処理装置、情報処理方法、およびプログラム
JPH10326176A (ja) 音声対話制御方法
JP2006251545A (ja) 音声対話システム及びコンピュータプログラム
JP2010128766A (ja) 情報処理装置、情報処理方法、プログラム及び記憶媒体
JP2003271182A (ja) 音響モデル作成装置及び音響モデル作成方法
WO2019187543A1 (ja) 情報処理装置および情報処理方法
JP2015187738A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
CZ304917B6 (cs) Systém pro převod řeči do textu pro nevidomé a slabozraké uživatele
CZ27002U1 (cs) Systém pro převod řeči do textu pro nevidomé a slabozraké uživatele
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法

Legal Events

Date Code Title Description
FG1K Utility model registered

Effective date: 20140610

MK1K Utility model expired

Effective date: 20170620