CZ304917B6 - Systém pro převod řeči do textu pro nevidomé a slabozraké uživatele - Google Patents
Systém pro převod řeči do textu pro nevidomé a slabozraké uživatele Download PDFInfo
- Publication number
- CZ304917B6 CZ304917B6 CZ2013-475A CZ2013475A CZ304917B6 CZ 304917 B6 CZ304917 B6 CZ 304917B6 CZ 2013475 A CZ2013475 A CZ 2013475A CZ 304917 B6 CZ304917 B6 CZ 304917B6
- Authority
- CZ
- Czechia
- Prior art keywords
- text
- speech
- audio
- states
- user
- Prior art date
Links
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
Systém pro převod řeči do textu pro nevidomé a slabozraké uživatele obsahuje počítačovou jednotku s hlasovým syntetizátorem a/nebo tónovým syntetizátorem. Na počítačovou jednotku je připojeno vstupní audiozařízení, ovládací prvky, výstupní audiozařízení a zobrazovací výstupní zařízení. Systém je uzpůsoben k signalizaci zobrazených textových a/nebo netextových stavů systému a/nebo nezobrazených stavů systému do zvukové podoby. Zvuková podoba stavu je ve formě předem dané zvukové stopy a/nebo psaného textu textového stavu převedeného hlasovým syntetizátorem do zvukové podoby a/nebo parametrického popisu zvuku převedeného tónovým syntetizátorem do zvukové podoby.
Description
Vynález se týká oblastí techniky informačních a komunikačních technologií a pomůcek pro zrakově znevýhodněné uživatele.
Dosavadní stav techniky
Rozvoj techniky v současné době významně napomohl širšímu využívání moderních technologií pro převod přirozené řeči do textové podoby. Technologie je stále častěji využívána v různých úlohách. Může být koncovému uživateli skryta jako například v telefonních dialogových systémech, automatických přepisech do textu pořadů vysílaných v médiích, jako při rádiovém nebo televizním vysílání, nebo například ve službách bezpečnostních složek státu. Stále častěji je však technologie pro převod řečí do textu využívána i přímo uživateli v běžném životě, ať již pro osobní nebo pracovní účely, především pro přímý přepis mluvené řeči do textu, tj. v podstatě diktován. To je umožněno dostupným dostatečně vysokým výkonem techniky a dosahováním vysoké úspěšnosti systémů při převodu řeči na text. V současné době je již známa a dostupná řada systémů převádějících diktovanou řeč do textu, které jsou vhodné pro běžné osobní použití. Tyto systémy umožňují na dostupných technických prostředcích každému uživateli, který je obeznámen s ovládáním a schopen tak systém ovládat, diktovat a okamžitě získat psanou, tedy textovou, podobu toho, co ústně diktoval. Textový výsledek je možné například vytisknout nebo uložit do běžného souboru, a dále jej libovolně zpracovávat jako jiný text.
Technologie pro převod řeči na text by mohla být významnou pomocí znakově postiženým lidem, především při komunikaci psanou formou. Avšak, podobně jako v řadě jiných situací, nejsou v současnosti používané systémy uzpůsobené pro snadné použití zrakově postiženými uživateli. To sice zcela nevylučuje zrakově postiženým tyto systémy využívat, např. s použitím univerzálních pomůcek, které jim zprostředkují informace o stavech systému a umožní ho i ovládat. Takové univerzální nástroje se většinou označují jako „screenreadeiy“, tedy „čtecky obrazu“. Vzhledem k jejich univerzálnosti je však práce s nimi nepraktická a v některých klíčových situacích (z pohledu diktovacích systémů) i nemožná. „Screenreadery“ jsou schopné upozornit, pokud se na displeji něco změní a přečíst novou informaci, a umožňují naučenými úkony uživateli ovládání nástrojů, jakým může být i zmíněný nespecializovaný systém pro převod řeči na text. Tyto screenreadery pracují tak, že „čekají“ na nově zobrazené informace na displejích a ty předčítají uživateli. To však v případě použití spolu se systémem pro diktování (tj. pro převod řeči do textu) bývá problém hned ve dvou situacích:
1) předčítaná hlášení mohou být zachycena mikrofonem, do kterého uživatel právě diktuje svůj text, a tím poškozují výsledek práce systému - tedy vlastní textový přepis. Tento nežádoucí jev lze sice do jisté míry ovlivnit správnou volbou mikrofonu a jeho směrováním, ale stále představuje závažný problém při práci se systémem;
2) „screenreader“ předčítá i text, který je výsledkem přepisu diktátu. Diktovací systém obvykle text, který získal převodem mluvené řeči na textu, průběžně při diktování slovo za slovem zobrazuje na displeji. Tuto „změnu“ obsahu displeje detekuje univerzální „screenreader“ a nově přibyvší text přečte. To působí extrémně rušivě pro diktujícího uživatele a většině uživatelů to v podstatě znemožní systém využívat.
Problematické pro zrakově postižené uživatele je, že nevidí, co se na monitoru zařízení aktuálně děje, tedy například zdaje systém připraven k zápisu řeči do textu, nebo zda například čeká nejprve na potvrzení nebo zda zobrazuje chybovou hlášku.
-1 CZ 304917 B6
Univerzální nástroje pro komunikaci a zprostředkování ovládání nevidomým uživatelům jsou realizovány tak, aby poskytly svoji funkčnost ve spolupráci se širokou škálou nástrojů a systémů, což na úkor jejich univerzálnosti snižuje kvalitu jejich použitelnosti v každém jednom speciálním případě, tedy i v případě současného používání spolu s univerzálním systémem pro převod řeči na text. Nadto je velmi nežádoucí, aby během uživatelova diktování pomocný nástroj (screenreader) zároveň četl výsledek převodu na text. To doposud známými systémy není splněno.
Podstata vynálezu
Podstatou vynálezu je vytvoření systému pro převod řeči do textu pro nevidomé a slabozraké uživatele. Systém obsahuje počítačovou jednotku s hlasovým syntetizátorem a/nebo tónovým syntetizátorem, na kterou je připojeno vstupní audiozařízení, ovládací prvky, výstupní audiozařízení a zobrazovací výstupní zařízení. Systém je uzpůsoben k signalizaci zobrazených textových a/nebo netextových stavů systému a/nebo nezobrazených stavů systému do zvukové podoby tak, že zvuková podoba stavuje ve formě:
- předem dané zvukové stopy a/nebo
- psaného textu textového stavu převedeného hlasovým syntetizátorem do zvukové podoby a/nebo
- parametrického popisu zvuku převedeného tónovým syntetizátorem do zvukové podoby.
Ve výhodném provedení je signalizovaným stavem zejména:
- připravenost systému k přijetí povelu a/nebo
- potvrzení přijetí nebo nepřijetí povelu a/nebo
- připravenost nebo nepřipravenost systému k převodu řeči do textu.
V jiném výhodném provedení je text vzniklý převodem řeči převoditelný na pokyn uživatele hlasovým syntetizátorem systému do zvukové podoby.
V praxi je výhodné, pokud je vstupním zařízením mikrofon, ovládacími prvky jsou PC klávesnice a/nebo PC myš, výstupním audiozařízením je reproduktor a výstupním zobrazovacím zařízením je monitor.
Předkládané řešení odstraňuje, na rozdíl od stávajících známých řešení, nutnost používání dodatečného univerzálního nástroje pro zprostředkování komunikace a ovládání nevidomým uživatelem. Toho je dosaženo nově tak, že schopnost komunikace se zrakově postiženým uživatelem je zabudována do samotného systému pro převod řeči na text. Odstraňuje tedy nutnost komunikačně neefektivního a zdlouhavého způsobu předávání informace uživateli čtením obrazovky a do značné míry zlepšuje i komfort při ovládání systému.
Toho je docíleno především tak, že je uživatel průběžně informován zvukovými signály, tzv. zvukovými značkami, o všech stavech, do kterých se systém pro převod řeči na text dostane. Staven je míněna každá situace významná pro uživatele. Nejdůležitější stavy, specifické pro používání systému pro převod řeči na text, jsou: „start systému“, „začátek naslouchání diktování“, „vznik chyby“, „konec naslouchání diktování“, „začátek naslouchání povelu“, „konec naslouchání povelu“, „přijetí povelu“, „oznámení o nesrozumitelnosti povelu“. Dále pak může být systém vybaven celou řadou užitečných zvukových značek oznamujících obvyklé operace - stejné či podobné jaké jsou vykonávány i jinými systémy a nástroji, jako je například výzva a potvrzení provedení každé požadované akce - např. uložení výsledku do souboru, odstranění části nebo celého vý-2CZ 304917 B6 sledku, otevření nové nebo existující úlohy (souboru), tisk, odeslání emailem, exporty, importy, používání šablon, formátování textu atd.
Druhou významnou novou funkčností vynálezu je spojení hlavní funkce, tj. přepisu řeči na text, s možností přímého ovládání fungování systému hlasovými povely. Tato vlastnost není sama o sobě novinkou. Nicméně není znám jiným systém pro převod řeči na textu, který by byl vybaven možností být ovládán řečovými povely. Využití obou zmíněných nových vlastností systému je úzce provázáno, přičemž je důležité spolehlivě oznámit nevidomému uživateli stavy systémů, aby rozlišil, kdy systém očekává diktování textu a kdy ovládací povel. Této funkčnosti může být v realizaci podobného systému dosaženo různými postupy. Například lze využít dále zmíněnou interní komponentu pro rozpoznávání řeči nebo může být systém vybaven speciálním dalším rozpoznávačem pouze pro povely. Využití hlasového ovládání není nezbytnou podmínkou pohodlného používání systému zrakově postiženým uživatelem. Ovládání lze alternativně plnohodnotně realizovat i prostřednictvím obvyklých vstupních ovládacích zařízení jako je klávesnice, myš nebo i méně obvyklých jako například nožním pedálem.
Integrace obou zmíněných nových rozšíření, tj. zvukové oznamování stavů systému a ovládání mluvenými povely, do systému převodu řeči na text musí být důkladná, protože je důležité spolehlivě oznámit nevidomému uživateli stavy systému, aby rozlišil, kdy systém očekává diktování textu, kdy ovládací povel, a když je vjiném stavu a neočekává žádnou promluvu. Toto provázání je klíčové a nelze ho efektivně dosáhnout kombinací samostatných dosud používaných technik a nástrojů. Naopak používání popsaného systému zrakově postiženými jim natolik zvýší komfort, že se technologie stane běžně používanou i jimi.
Zařízení podle vynálezu může v zásadě obsahovat několik velmi úzce provázaných funkčních celků systému. Základní komponentou, která plní základní funkci, tedy převod řeči na text, je rozpoznávač řeči. V roli této komponenty je v zásadě možné využít řady dostupných rozpoznávačů různých dodavatelů. Liší se obvykle jak úspěšností rozpoznávání, velikostmi slovníků (tj. seznamy slov, které jsou schopné rozpoznat), tak licenčními podmínkami a cenou. Komponenta dostává od centrální řídicí komponenty příkazy ke spuštění či zastavení rozpoznávání. Disponuje vstupem, který je propojen s komponentou vstupu zvuku, která získává obvykle z mikrofonu diktovaný hlas, převádí jej do číselné reprezentace a předává ho na vstup komponenty rozpoznávače. Výstupem komponenty je proud rozpoznaného textu, který je předáván řídicí jednotce. Řídicí komponenta na základě požadavků uživatele a stavů systému řídí ostatní komponenty. Především reaguje na vstupy uživatele získané buď od komponenty obvyklého grafického uživatelského rozhraní, nebo od komponenty rozpoznávače řeči v situaci, kdy se rozpoznává ovládací příkaz. Pak může buď přebírat rozpoznaný text a dál ho zpracovávat, nebo iniciuje jeho přímé předávání jiné komponentě jako například komponentě zobrazování a/nebo ukládání. Důležitou funkcí řídicí jednotky je kolekce a vyhodnocování stavů.
Na základě stavů, ve kterých se systém nachází, a aktuálních uživatelských požadavků, řídí řídicí komponenta ostatní komponenty, ale současně určuje, je-li potřeba informovat zrakově postiženého uživatele o současném stavu nebo jeho změně. Je-li tomu tak, vydá pokyn pro komponentu zvukového upozorňování k přehrání vybrané specifické zvukové značky. Komponenta přehrávání zvukových značek požadovanou zvukovou značku přehraje. Zvukové značky mohou být třech typů. Může se jednat o uložený předem připravený zvuk, a to i například nahrávku lidské promluvy. Nebo může být zvuk syntetizován na základě uloženého parametrického popisu pomocí frekvenční syntézy. Lze však jako zvukové značky i přímo syntetizovat umělou promluvu využitím komponenty převodu textu na řeč, tj. systémů známých jako text-to-speech, neboli TTS. V takovém případě má systém uloženy texty, které pak v jednotlivých situacích přemlouvá. Výhodou využití TTS je schopnost systému uživateli sdělit i podrobnosti o neočekávaných chybových stavech, kdy bývá k dispozici jejich textový popis. Nicméně popisovaný systém je plně využitelný zrakově postiženými uživateli s libovolným vybraným typem zvukových značek. Další komponenta systému označená jako obslužná komponenta zajišťuje obvykle operace jako například
-3CZ 304917 B6 ukládání nadiktovaného textu, jeho načtení pokud si uživatel přeje v diktování pokračovat, různé převody formátů textu, udržování informací o uživatelském nastavení systému apod.
Popisovaný systém převodu řeči na text pro slabozraké a nevidomé eliminuje nutnost použití jakéhokoli dodatečného nástroje pro své používání slabozrakými a nevidomými uživateli. Systém je realizován tak, aby efektivním a nenásilným způsobem zprostředkoval zrakově postiženému uživateli potřebné informace o stavech systému, ale aby přitom uživatele nerušil, a zároveň nabízí účinné asistenční prostředky pro pohodlné a spolehlivé ovládání systému.
Příklad uskutečnění vynálezu
Příkladné provedení systému pro převod řeči do textu pro nevidomé a slabozraké uživatele je uzpůsobeno k signalizaci zobrazených textových a netextových stavů systému a zároveň nezobrazených stavů systému do zvukové podoby.
Základní komponentou systému je řečový rozpoznávač. Dále systém využívá komponentu pro řízení chování systému a pro komunikaci s ostatními komponentami jako jsou komponenta rozpoznávače, komponenta uživatelského rozhraní nebo komponenty audio vstupu a výstupu. Řídicí komponenta provádí oznamování stavů systému zvukovými značkami a dále je její funkcí přijímání a reagování na hlasové povely uživatele. Řídicí komponenta je navržena tak, aby neustále sledovala stavy systému a jeho komponent, a aby vždy patřičnou zvukovou značkou signalizovala změny stavů nevidomému uživateli.
Textovými stavy, které jsou signalizovány, jsou v tomto případě: výzva k zadání jména souboru před jeho uložením, oznámení o neuloženém souboru při pokusu o ukončení práce systému, zvolený název a cesta souboru pro uložení, odpověď systému na dotaz na jméno vybraného slovníku a výskyt neočekávané textově popsané chyby.
Netextovými stavy, které jsou signalizovány, jsou v tomto případě: ukončení inicializace po startu systému, začátek očekávání diktování a konec možnosti diktovat.
Nezobrazenými stavy, které jsou signalizovány, jsou v tomto případě: potvrzení přijetí nebo oznámení nepřijetí povelu, dokončení převodu zvuku do textu, potvrzení nalezení dalšího textového pole pro vyplnění a dosažení konce souboru při hledání.
Zvuková podoba stavů je zde, v závislosti na konkrétním signalizovaném stavu, ve formě předem dané zvukové stopy nebo psaného textu textového stavu převedeného hlasovým syntetizátorem do zvukové podoby nebo parametrického popisu zvuku převedeného tónovým syntetizátorem do zvukové podoby.
Uživatelským nastavením je pak možné ovlivnit, která forma bude použita pro signalizace včetně výběru a přiřazení konkrétních zvuků jednotlivým značkám. Výjimkou jsou textové stavy, které jsou přehrávány pomocí syntetizovaných promluv získaných pomocí komponenty TTS.
Text vzniklý převodem řeči je v příkladné realizaci zařízení taktéž převoditelný hlasovým syntetizátorem systému (TTS) do zvukové podoby, a to pouze na pokyn uživatele.
Příkladné provedení zařízení je v podobě běžného PC, opatřeného vstupním audiozařízením v podobě mikrofonu, ovládacími prvky v podobě PC klávesnice a PC myši, výstupním audiozařízením v podobě reproduktoru a zobrazovacím výstupním zařízením v podobě monitoru. Dále je opatřené systémem pro převod řeči podle shora uvedeného příkladu.
Claims (4)
1. Systém pro převod řeči do textu pro nevidomé a slabozraké uživatele, který obsahuje počítačovou jednotku s hlasovým syntetizátorem a/nebo tónovým syntetizátorem, na kterou je připojeno vstupní audiozařízení, ovládací prvky, výstupní audiozařízení a zobrazovací výstupní zařízení, vyznačující se tím, že systém je uzpůsoben k signalizaci zobrazených textových a/nebo netextových stavů systému a/nebo nezobrazených stavů systému do zvukové podoby tak, že zvuková podoba stavu je ve formě předem dané zvukové stopy a/nebo psaného textu textového stavu převedeného hlasovým syntetizátorem do zvukové podoby a/nebo parametrického popisu zvuku převedeného tónovým syntetizátorem do zvukové podoby.
2. Systém podle nároku 1, vyznačující se tím, že signalizovaným stavem je zejména připravenost systému k přijetí povelu a/nebo potvrzení přijetí nebo nepřijetí povelu a/nebo připravenost nebo nepřipravenost systému k převodu řeči do textu.
3. Systém podle nároku 1 nebo 2, vyznačující se tím, že text vzniklý převodem řeči je hlasovým syntetizátorem systému převoditelný na pokyn uživatele do zvukové podoby.
4. Systém podle některého z předchozích nároků, vyznačující se tím, že vstupním zařízením je mikrofon, ovládacími prvky jsou PC klávesnice a/nebo PC myš, výstupním audiozařízením je reproduktor a výstupním zobrazovacím zařízením je monitor.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CZ2013-475A CZ304917B6 (cs) | 2013-06-20 | 2013-06-20 | Systém pro převod řeči do textu pro nevidomé a slabozraké uživatele |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CZ2013-475A CZ304917B6 (cs) | 2013-06-20 | 2013-06-20 | Systém pro převod řeči do textu pro nevidomé a slabozraké uživatele |
Publications (2)
Publication Number | Publication Date |
---|---|
CZ2013475A3 CZ2013475A3 (cs) | 2013-12-11 |
CZ304917B6 true CZ304917B6 (cs) | 2015-01-21 |
Family
ID=49713508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CZ2013-475A CZ304917B6 (cs) | 2013-06-20 | 2013-06-20 | Systém pro převod řeči do textu pro nevidomé a slabozraké uživatele |
Country Status (1)
Country | Link |
---|---|
CZ (1) | CZ304917B6 (cs) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220100959A1 (en) * | 2020-09-30 | 2022-03-31 | Honda Motor Co., Ltd. | Conversation support device, conversation support system, conversation support method, and storage medium |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4400787A (en) * | 1980-12-12 | 1983-08-23 | Westinghouse Electric Corp. | Elevator system with speech synthesizer for repetition of messages |
-
2013
- 2013-06-20 CZ CZ2013-475A patent/CZ304917B6/cs not_active IP Right Cessation
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4400787A (en) * | 1980-12-12 | 1983-08-23 | Westinghouse Electric Corp. | Elevator system with speech synthesizer for repetition of messages |
Non-Patent Citations (3)
Title |
---|
(Audiovisual Interface for Czech Spoken Dialogue System, Pavel Ircing, Jan Romportl, Zdenek Loose, 2010 IEEE 10th International Conference on Signal Processing Proceedings, p. 526-529, Institute of Electrical and Electronics), 2010Engineers, Inc., 2010. * |
(Generátor zvukové signalizace pro mikropocítacové systémy, [on/line]:http://www.hw.cz/navrh-obvodu/generator-zvukove-signalizace-pro-mikropocitacove-systemy.html), 26.9.2002 * |
(SW Newton Dictate 3, clánek [on/line]:http://www.zive.cz/clanky/vyzkouseli-jsme-profesionalni-prevod-hlasu-na-text-video/sc-3-a-165750/default.aspx), 8.10.2012 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220100959A1 (en) * | 2020-09-30 | 2022-03-31 | Honda Motor Co., Ltd. | Conversation support device, conversation support system, conversation support method, and storage medium |
Also Published As
Publication number | Publication date |
---|---|
CZ2013475A3 (cs) | 2013-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5750380B2 (ja) | 音声翻訳装置、音声翻訳方法および音声翻訳プログラム | |
US7376560B2 (en) | Speech recognition device to mark parts of a recognized text | |
EP1096472B1 (en) | Audio playback of a multi-source written document | |
EP1430474B1 (en) | Correcting a text recognized by speech recognition through comparison of phonetic sequences in the recognized text with a phonetic transcription of a manually input correction word | |
EP1442452B1 (en) | Correction device marking parts of a recognized text | |
WO2018100743A1 (ja) | 制御装置および機器制御システム | |
US8606560B2 (en) | Automatic simultaneous interpertation system | |
JP2007133033A (ja) | 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム | |
GB2423403A (en) | Distributed language processing system and method of outputting an intermediary signal | |
JP2013152365A (ja) | 書き起こし支援システムおよび書き起こし支援方法 | |
US20030216915A1 (en) | Voice command and voice recognition for hand-held devices | |
JP7200533B2 (ja) | 情報処理装置およびプログラム | |
JP2006301223A (ja) | 音声認識システム及び音声認識プログラム | |
JP2013025299A (ja) | 書き起こし支援システムおよび書き起こし支援方法 | |
JP2007249653A (ja) | マークアップ言語情報の処理装置、情報処理方法、およびプログラム | |
JP2006251545A (ja) | 音声対話システム及びコンピュータプログラム | |
CZ304917B6 (cs) | Systém pro převod řeči do textu pro nevidomé a slabozraké uživatele | |
JP2010128766A (ja) | 情報処理装置、情報処理方法、プログラム及び記憶媒体 | |
JP2015187738A (ja) | 音声翻訳装置、音声翻訳方法および音声翻訳プログラム | |
JP5892598B2 (ja) | 音声文字変換作業支援装置、音声文字変換システム、音声文字変換作業支援方法及びプログラム | |
JP2016186646A (ja) | 音声翻訳装置、音声翻訳方法および音声翻訳プログラム | |
CZ27002U1 (cs) | Systém pro převod řeči do textu pro nevidomé a slabozraké uživatele | |
US7027984B2 (en) | Tone-based mark-up dictation method and system | |
Caballero-Morales et al. | Automatic speech recognition of the Mixtec language: An ubiquitous computing application | |
JP6387044B2 (ja) | テキスト処理装置、テキスト処理方法およびテキスト処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Patent lapsed due to non-payment of fee |
Effective date: 20170620 |