CZ304917B6 - Systém pro převod řeči do textu pro nevidomé a slabozraké uživatele - Google Patents

Systém pro převod řeči do textu pro nevidomé a slabozraké uživatele Download PDF

Info

Publication number
CZ304917B6
CZ304917B6 CZ2013-475A CZ2013475A CZ304917B6 CZ 304917 B6 CZ304917 B6 CZ 304917B6 CZ 2013475 A CZ2013475 A CZ 2013475A CZ 304917 B6 CZ304917 B6 CZ 304917B6
Authority
CZ
Czechia
Prior art keywords
text
speech
audio
states
user
Prior art date
Application number
CZ2013-475A
Other languages
English (en)
Other versions
CZ2013475A3 (cs
Inventor
Aleš Pražák
Zdeněk Loose
Luděk Müller
Zbyněk Tychlt
Original Assignee
Speechtech, S.R.O.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Speechtech, S.R.O. filed Critical Speechtech, S.R.O.
Priority to CZ2013-475A priority Critical patent/CZ304917B6/cs
Publication of CZ2013475A3 publication Critical patent/CZ2013475A3/cs
Publication of CZ304917B6 publication Critical patent/CZ304917B6/cs

Links

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

Systém pro převod řeči do textu pro nevidomé a slabozraké uživatele obsahuje počítačovou jednotku s hlasovým syntetizátorem a/nebo tónovým syntetizátorem. Na počítačovou jednotku je připojeno vstupní audiozařízení, ovládací prvky, výstupní audiozařízení a zobrazovací výstupní zařízení. Systém je uzpůsoben k signalizaci zobrazených textových a/nebo netextových stavů systému a/nebo nezobrazených stavů systému do zvukové podoby. Zvuková podoba stavu je ve formě předem dané zvukové stopy a/nebo psaného textu textového stavu převedeného hlasovým syntetizátorem do zvukové podoby a/nebo parametrického popisu zvuku převedeného tónovým syntetizátorem do zvukové podoby.

Description

Vynález se týká oblastí techniky informačních a komunikačních technologií a pomůcek pro zrakově znevýhodněné uživatele.
Dosavadní stav techniky
Rozvoj techniky v současné době významně napomohl širšímu využívání moderních technologií pro převod přirozené řeči do textové podoby. Technologie je stále častěji využívána v různých úlohách. Může být koncovému uživateli skryta jako například v telefonních dialogových systémech, automatických přepisech do textu pořadů vysílaných v médiích, jako při rádiovém nebo televizním vysílání, nebo například ve službách bezpečnostních složek státu. Stále častěji je však technologie pro převod řečí do textu využívána i přímo uživateli v běžném životě, ať již pro osobní nebo pracovní účely, především pro přímý přepis mluvené řeči do textu, tj. v podstatě diktován. To je umožněno dostupným dostatečně vysokým výkonem techniky a dosahováním vysoké úspěšnosti systémů při převodu řeči na text. V současné době je již známa a dostupná řada systémů převádějících diktovanou řeč do textu, které jsou vhodné pro běžné osobní použití. Tyto systémy umožňují na dostupných technických prostředcích každému uživateli, který je obeznámen s ovládáním a schopen tak systém ovládat, diktovat a okamžitě získat psanou, tedy textovou, podobu toho, co ústně diktoval. Textový výsledek je možné například vytisknout nebo uložit do běžného souboru, a dále jej libovolně zpracovávat jako jiný text.
Technologie pro převod řeči na text by mohla být významnou pomocí znakově postiženým lidem, především při komunikaci psanou formou. Avšak, podobně jako v řadě jiných situací, nejsou v současnosti používané systémy uzpůsobené pro snadné použití zrakově postiženými uživateli. To sice zcela nevylučuje zrakově postiženým tyto systémy využívat, např. s použitím univerzálních pomůcek, které jim zprostředkují informace o stavech systému a umožní ho i ovládat. Takové univerzální nástroje se většinou označují jako „screenreadeiy“, tedy „čtecky obrazu“. Vzhledem k jejich univerzálnosti je však práce s nimi nepraktická a v některých klíčových situacích (z pohledu diktovacích systémů) i nemožná. „Screenreadery“ jsou schopné upozornit, pokud se na displeji něco změní a přečíst novou informaci, a umožňují naučenými úkony uživateli ovládání nástrojů, jakým může být i zmíněný nespecializovaný systém pro převod řeči na text. Tyto screenreadery pracují tak, že „čekají“ na nově zobrazené informace na displejích a ty předčítají uživateli. To však v případě použití spolu se systémem pro diktování (tj. pro převod řeči do textu) bývá problém hned ve dvou situacích:
1) předčítaná hlášení mohou být zachycena mikrofonem, do kterého uživatel právě diktuje svůj text, a tím poškozují výsledek práce systému - tedy vlastní textový přepis. Tento nežádoucí jev lze sice do jisté míry ovlivnit správnou volbou mikrofonu a jeho směrováním, ale stále představuje závažný problém při práci se systémem;
2) „screenreader“ předčítá i text, který je výsledkem přepisu diktátu. Diktovací systém obvykle text, který získal převodem mluvené řeči na textu, průběžně při diktování slovo za slovem zobrazuje na displeji. Tuto „změnu“ obsahu displeje detekuje univerzální „screenreader“ a nově přibyvší text přečte. To působí extrémně rušivě pro diktujícího uživatele a většině uživatelů to v podstatě znemožní systém využívat.
Problematické pro zrakově postižené uživatele je, že nevidí, co se na monitoru zařízení aktuálně děje, tedy například zdaje systém připraven k zápisu řeči do textu, nebo zda například čeká nejprve na potvrzení nebo zda zobrazuje chybovou hlášku.
-1 CZ 304917 B6
Univerzální nástroje pro komunikaci a zprostředkování ovládání nevidomým uživatelům jsou realizovány tak, aby poskytly svoji funkčnost ve spolupráci se širokou škálou nástrojů a systémů, což na úkor jejich univerzálnosti snižuje kvalitu jejich použitelnosti v každém jednom speciálním případě, tedy i v případě současného používání spolu s univerzálním systémem pro převod řeči na text. Nadto je velmi nežádoucí, aby během uživatelova diktování pomocný nástroj (screenreader) zároveň četl výsledek převodu na text. To doposud známými systémy není splněno.
Podstata vynálezu
Podstatou vynálezu je vytvoření systému pro převod řeči do textu pro nevidomé a slabozraké uživatele. Systém obsahuje počítačovou jednotku s hlasovým syntetizátorem a/nebo tónovým syntetizátorem, na kterou je připojeno vstupní audiozařízení, ovládací prvky, výstupní audiozařízení a zobrazovací výstupní zařízení. Systém je uzpůsoben k signalizaci zobrazených textových a/nebo netextových stavů systému a/nebo nezobrazených stavů systému do zvukové podoby tak, že zvuková podoba stavuje ve formě:
- předem dané zvukové stopy a/nebo
- psaného textu textového stavu převedeného hlasovým syntetizátorem do zvukové podoby a/nebo
- parametrického popisu zvuku převedeného tónovým syntetizátorem do zvukové podoby.
Ve výhodném provedení je signalizovaným stavem zejména:
- připravenost systému k přijetí povelu a/nebo
- potvrzení přijetí nebo nepřijetí povelu a/nebo
- připravenost nebo nepřipravenost systému k převodu řeči do textu.
V jiném výhodném provedení je text vzniklý převodem řeči převoditelný na pokyn uživatele hlasovým syntetizátorem systému do zvukové podoby.
V praxi je výhodné, pokud je vstupním zařízením mikrofon, ovládacími prvky jsou PC klávesnice a/nebo PC myš, výstupním audiozařízením je reproduktor a výstupním zobrazovacím zařízením je monitor.
Předkládané řešení odstraňuje, na rozdíl od stávajících známých řešení, nutnost používání dodatečného univerzálního nástroje pro zprostředkování komunikace a ovládání nevidomým uživatelem. Toho je dosaženo nově tak, že schopnost komunikace se zrakově postiženým uživatelem je zabudována do samotného systému pro převod řeči na text. Odstraňuje tedy nutnost komunikačně neefektivního a zdlouhavého způsobu předávání informace uživateli čtením obrazovky a do značné míry zlepšuje i komfort při ovládání systému.
Toho je docíleno především tak, že je uživatel průběžně informován zvukovými signály, tzv. zvukovými značkami, o všech stavech, do kterých se systém pro převod řeči na text dostane. Staven je míněna každá situace významná pro uživatele. Nejdůležitější stavy, specifické pro používání systému pro převod řeči na text, jsou: „start systému“, „začátek naslouchání diktování“, „vznik chyby“, „konec naslouchání diktování“, „začátek naslouchání povelu“, „konec naslouchání povelu“, „přijetí povelu“, „oznámení o nesrozumitelnosti povelu“. Dále pak může být systém vybaven celou řadou užitečných zvukových značek oznamujících obvyklé operace - stejné či podobné jaké jsou vykonávány i jinými systémy a nástroji, jako je například výzva a potvrzení provedení každé požadované akce - např. uložení výsledku do souboru, odstranění části nebo celého vý-2CZ 304917 B6 sledku, otevření nové nebo existující úlohy (souboru), tisk, odeslání emailem, exporty, importy, používání šablon, formátování textu atd.
Druhou významnou novou funkčností vynálezu je spojení hlavní funkce, tj. přepisu řeči na text, s možností přímého ovládání fungování systému hlasovými povely. Tato vlastnost není sama o sobě novinkou. Nicméně není znám jiným systém pro převod řeči na textu, který by byl vybaven možností být ovládán řečovými povely. Využití obou zmíněných nových vlastností systému je úzce provázáno, přičemž je důležité spolehlivě oznámit nevidomému uživateli stavy systémů, aby rozlišil, kdy systém očekává diktování textu a kdy ovládací povel. Této funkčnosti může být v realizaci podobného systému dosaženo různými postupy. Například lze využít dále zmíněnou interní komponentu pro rozpoznávání řeči nebo může být systém vybaven speciálním dalším rozpoznávačem pouze pro povely. Využití hlasového ovládání není nezbytnou podmínkou pohodlného používání systému zrakově postiženým uživatelem. Ovládání lze alternativně plnohodnotně realizovat i prostřednictvím obvyklých vstupních ovládacích zařízení jako je klávesnice, myš nebo i méně obvyklých jako například nožním pedálem.
Integrace obou zmíněných nových rozšíření, tj. zvukové oznamování stavů systému a ovládání mluvenými povely, do systému převodu řeči na text musí být důkladná, protože je důležité spolehlivě oznámit nevidomému uživateli stavy systému, aby rozlišil, kdy systém očekává diktování textu, kdy ovládací povel, a když je vjiném stavu a neočekává žádnou promluvu. Toto provázání je klíčové a nelze ho efektivně dosáhnout kombinací samostatných dosud používaných technik a nástrojů. Naopak používání popsaného systému zrakově postiženými jim natolik zvýší komfort, že se technologie stane běžně používanou i jimi.
Zařízení podle vynálezu může v zásadě obsahovat několik velmi úzce provázaných funkčních celků systému. Základní komponentou, která plní základní funkci, tedy převod řeči na text, je rozpoznávač řeči. V roli této komponenty je v zásadě možné využít řady dostupných rozpoznávačů různých dodavatelů. Liší se obvykle jak úspěšností rozpoznávání, velikostmi slovníků (tj. seznamy slov, které jsou schopné rozpoznat), tak licenčními podmínkami a cenou. Komponenta dostává od centrální řídicí komponenty příkazy ke spuštění či zastavení rozpoznávání. Disponuje vstupem, který je propojen s komponentou vstupu zvuku, která získává obvykle z mikrofonu diktovaný hlas, převádí jej do číselné reprezentace a předává ho na vstup komponenty rozpoznávače. Výstupem komponenty je proud rozpoznaného textu, který je předáván řídicí jednotce. Řídicí komponenta na základě požadavků uživatele a stavů systému řídí ostatní komponenty. Především reaguje na vstupy uživatele získané buď od komponenty obvyklého grafického uživatelského rozhraní, nebo od komponenty rozpoznávače řeči v situaci, kdy se rozpoznává ovládací příkaz. Pak může buď přebírat rozpoznaný text a dál ho zpracovávat, nebo iniciuje jeho přímé předávání jiné komponentě jako například komponentě zobrazování a/nebo ukládání. Důležitou funkcí řídicí jednotky je kolekce a vyhodnocování stavů.
Na základě stavů, ve kterých se systém nachází, a aktuálních uživatelských požadavků, řídí řídicí komponenta ostatní komponenty, ale současně určuje, je-li potřeba informovat zrakově postiženého uživatele o současném stavu nebo jeho změně. Je-li tomu tak, vydá pokyn pro komponentu zvukového upozorňování k přehrání vybrané specifické zvukové značky. Komponenta přehrávání zvukových značek požadovanou zvukovou značku přehraje. Zvukové značky mohou být třech typů. Může se jednat o uložený předem připravený zvuk, a to i například nahrávku lidské promluvy. Nebo může být zvuk syntetizován na základě uloženého parametrického popisu pomocí frekvenční syntézy. Lze však jako zvukové značky i přímo syntetizovat umělou promluvu využitím komponenty převodu textu na řeč, tj. systémů známých jako text-to-speech, neboli TTS. V takovém případě má systém uloženy texty, které pak v jednotlivých situacích přemlouvá. Výhodou využití TTS je schopnost systému uživateli sdělit i podrobnosti o neočekávaných chybových stavech, kdy bývá k dispozici jejich textový popis. Nicméně popisovaný systém je plně využitelný zrakově postiženými uživateli s libovolným vybraným typem zvukových značek. Další komponenta systému označená jako obslužná komponenta zajišťuje obvykle operace jako například
-3CZ 304917 B6 ukládání nadiktovaného textu, jeho načtení pokud si uživatel přeje v diktování pokračovat, různé převody formátů textu, udržování informací o uživatelském nastavení systému apod.
Popisovaný systém převodu řeči na text pro slabozraké a nevidomé eliminuje nutnost použití jakéhokoli dodatečného nástroje pro své používání slabozrakými a nevidomými uživateli. Systém je realizován tak, aby efektivním a nenásilným způsobem zprostředkoval zrakově postiženému uživateli potřebné informace o stavech systému, ale aby přitom uživatele nerušil, a zároveň nabízí účinné asistenční prostředky pro pohodlné a spolehlivé ovládání systému.
Příklad uskutečnění vynálezu
Příkladné provedení systému pro převod řeči do textu pro nevidomé a slabozraké uživatele je uzpůsobeno k signalizaci zobrazených textových a netextových stavů systému a zároveň nezobrazených stavů systému do zvukové podoby.
Základní komponentou systému je řečový rozpoznávač. Dále systém využívá komponentu pro řízení chování systému a pro komunikaci s ostatními komponentami jako jsou komponenta rozpoznávače, komponenta uživatelského rozhraní nebo komponenty audio vstupu a výstupu. Řídicí komponenta provádí oznamování stavů systému zvukovými značkami a dále je její funkcí přijímání a reagování na hlasové povely uživatele. Řídicí komponenta je navržena tak, aby neustále sledovala stavy systému a jeho komponent, a aby vždy patřičnou zvukovou značkou signalizovala změny stavů nevidomému uživateli.
Textovými stavy, které jsou signalizovány, jsou v tomto případě: výzva k zadání jména souboru před jeho uložením, oznámení o neuloženém souboru při pokusu o ukončení práce systému, zvolený název a cesta souboru pro uložení, odpověď systému na dotaz na jméno vybraného slovníku a výskyt neočekávané textově popsané chyby.
Netextovými stavy, které jsou signalizovány, jsou v tomto případě: ukončení inicializace po startu systému, začátek očekávání diktování a konec možnosti diktovat.
Nezobrazenými stavy, které jsou signalizovány, jsou v tomto případě: potvrzení přijetí nebo oznámení nepřijetí povelu, dokončení převodu zvuku do textu, potvrzení nalezení dalšího textového pole pro vyplnění a dosažení konce souboru při hledání.
Zvuková podoba stavů je zde, v závislosti na konkrétním signalizovaném stavu, ve formě předem dané zvukové stopy nebo psaného textu textového stavu převedeného hlasovým syntetizátorem do zvukové podoby nebo parametrického popisu zvuku převedeného tónovým syntetizátorem do zvukové podoby.
Uživatelským nastavením je pak možné ovlivnit, která forma bude použita pro signalizace včetně výběru a přiřazení konkrétních zvuků jednotlivým značkám. Výjimkou jsou textové stavy, které jsou přehrávány pomocí syntetizovaných promluv získaných pomocí komponenty TTS.
Text vzniklý převodem řeči je v příkladné realizaci zařízení taktéž převoditelný hlasovým syntetizátorem systému (TTS) do zvukové podoby, a to pouze na pokyn uživatele.
Příkladné provedení zařízení je v podobě běžného PC, opatřeného vstupním audiozařízením v podobě mikrofonu, ovládacími prvky v podobě PC klávesnice a PC myši, výstupním audiozařízením v podobě reproduktoru a zobrazovacím výstupním zařízením v podobě monitoru. Dále je opatřené systémem pro převod řeči podle shora uvedeného příkladu.

Claims (4)

1. Systém pro převod řeči do textu pro nevidomé a slabozraké uživatele, který obsahuje počítačovou jednotku s hlasovým syntetizátorem a/nebo tónovým syntetizátorem, na kterou je připojeno vstupní audiozařízení, ovládací prvky, výstupní audiozařízení a zobrazovací výstupní zařízení, vyznačující se tím, že systém je uzpůsoben k signalizaci zobrazených textových a/nebo netextových stavů systému a/nebo nezobrazených stavů systému do zvukové podoby tak, že zvuková podoba stavu je ve formě předem dané zvukové stopy a/nebo psaného textu textového stavu převedeného hlasovým syntetizátorem do zvukové podoby a/nebo parametrického popisu zvuku převedeného tónovým syntetizátorem do zvukové podoby.
2. Systém podle nároku 1, vyznačující se tím, že signalizovaným stavem je zejména připravenost systému k přijetí povelu a/nebo potvrzení přijetí nebo nepřijetí povelu a/nebo připravenost nebo nepřipravenost systému k převodu řeči do textu.
3. Systém podle nároku 1 nebo 2, vyznačující se tím, že text vzniklý převodem řeči je hlasovým syntetizátorem systému převoditelný na pokyn uživatele do zvukové podoby.
4. Systém podle některého z předchozích nároků, vyznačující se tím, že vstupním zařízením je mikrofon, ovládacími prvky jsou PC klávesnice a/nebo PC myš, výstupním audiozařízením je reproduktor a výstupním zobrazovacím zařízením je monitor.
CZ2013-475A 2013-06-20 2013-06-20 Systém pro převod řeči do textu pro nevidomé a slabozraké uživatele CZ304917B6 (cs)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CZ2013-475A CZ304917B6 (cs) 2013-06-20 2013-06-20 Systém pro převod řeči do textu pro nevidomé a slabozraké uživatele

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CZ2013-475A CZ304917B6 (cs) 2013-06-20 2013-06-20 Systém pro převod řeči do textu pro nevidomé a slabozraké uživatele

Publications (2)

Publication Number Publication Date
CZ2013475A3 CZ2013475A3 (cs) 2013-12-11
CZ304917B6 true CZ304917B6 (cs) 2015-01-21

Family

ID=49713508

Family Applications (1)

Application Number Title Priority Date Filing Date
CZ2013-475A CZ304917B6 (cs) 2013-06-20 2013-06-20 Systém pro převod řeči do textu pro nevidomé a slabozraké uživatele

Country Status (1)

Country Link
CZ (1) CZ304917B6 (cs)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220100959A1 (en) * 2020-09-30 2022-03-31 Honda Motor Co., Ltd. Conversation support device, conversation support system, conversation support method, and storage medium

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4400787A (en) * 1980-12-12 1983-08-23 Westinghouse Electric Corp. Elevator system with speech synthesizer for repetition of messages

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4400787A (en) * 1980-12-12 1983-08-23 Westinghouse Electric Corp. Elevator system with speech synthesizer for repetition of messages

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
(Audiovisual Interface for Czech Spoken Dialogue System, Pavel Ircing, Jan Romportl, Zdenek Loose, 2010 IEEE 10th International Conference on Signal Processing Proceedings, p. 526-529, Institute of Electrical and Electronics), 2010Engineers, Inc., 2010. *
(Generátor zvukové signalizace pro mikropocítacové systémy, [on/line]:http://www.hw.cz/navrh-obvodu/generator-zvukove-signalizace-pro-mikropocitacove-systemy.html), 26.9.2002 *
(SW Newton Dictate 3, clánek [on/line]:http://www.zive.cz/clanky/vyzkouseli-jsme-profesionalni-prevod-hlasu-na-text-video/sc-3-a-165750/default.aspx), 8.10.2012 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220100959A1 (en) * 2020-09-30 2022-03-31 Honda Motor Co., Ltd. Conversation support device, conversation support system, conversation support method, and storage medium

Also Published As

Publication number Publication date
CZ2013475A3 (cs) 2013-12-11

Similar Documents

Publication Publication Date Title
JP5750380B2 (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
US7376560B2 (en) Speech recognition device to mark parts of a recognized text
EP1096472B1 (en) Audio playback of a multi-source written document
EP1430474B1 (en) Correcting a text recognized by speech recognition through comparison of phonetic sequences in the recognized text with a phonetic transcription of a manually input correction word
EP1442452B1 (en) Correction device marking parts of a recognized text
WO2018100743A1 (ja) 制御装置および機器制御システム
US8606560B2 (en) Automatic simultaneous interpertation system
JP2007133033A (ja) 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム
GB2423403A (en) Distributed language processing system and method of outputting an intermediary signal
JP2013152365A (ja) 書き起こし支援システムおよび書き起こし支援方法
US20030216915A1 (en) Voice command and voice recognition for hand-held devices
JP7200533B2 (ja) 情報処理装置およびプログラム
JP2006301223A (ja) 音声認識システム及び音声認識プログラム
JP2013025299A (ja) 書き起こし支援システムおよび書き起こし支援方法
JP2007249653A (ja) マークアップ言語情報の処理装置、情報処理方法、およびプログラム
JP2006251545A (ja) 音声対話システム及びコンピュータプログラム
CZ304917B6 (cs) Systém pro převod řeči do textu pro nevidomé a slabozraké uživatele
JP2010128766A (ja) 情報処理装置、情報処理方法、プログラム及び記憶媒体
JP2015187738A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP5892598B2 (ja) 音声文字変換作業支援装置、音声文字変換システム、音声文字変換作業支援方法及びプログラム
JP2016186646A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
CZ27002U1 (cs) Systém pro převod řeči do textu pro nevidomé a slabozraké uživatele
US7027984B2 (en) Tone-based mark-up dictation method and system
Caballero-Morales et al. Automatic speech recognition of the Mixtec language: An ubiquitous computing application
JP6387044B2 (ja) テキスト処理装置、テキスト処理方法およびテキスト処理プログラム

Legal Events

Date Code Title Description
MM4A Patent lapsed due to non-payment of fee

Effective date: 20170620