CZ299508B6

CZ299508B6 - Systém automatické transkripce a zpusob užití dvou stupnu konverze reci a pocítacem podporovaná korekce

Info

Publication number: CZ299508B6
Application number: CZ20012936A
Authority: CZ
Inventors: Kahn@Jonathan; Qin@Charles; P. Flynn@Thomas
Original assignee: Custom Speech Usa, Inc.
Priority date: 1999-02-19
Filing date: 2000-02-18
Publication date: 2008-08-20
Also published as: KR20010102280A; EP1183680A1; HK1046186A1; PL349929A1; EP1183680B1; CA2363561C; CN1341255A; ATE341810T1; JP4601177B2; EA200100901A1; HK1046186B; DE60031113D1; WO2000049601A1; JP2002542501A; EA004352B1; ZA200106118B; CA2363561A1; NZ513571A; ES2276674T3; TR200102364T2

Abstract

Systém je urcen pro automatické transkripcní služby pro jednoho nebo nekolik hlasových uživatelu. Tento systém prijímá soubor hlasového diktátu od aktuálního uživatele (5), který automaticky konvertuje na první psaný text založený na první soustave konverzních promenných. Týž soubor hlasového diktátu se automaticky konvertuje na druhý psaný text založený na druhé soustave konverzních promenných. Mezi první a druhou soustavou konverzních promenných je alespon jeden rozdíl, jako jiné programy rozeznávání reci, ruzné slovníky apod. Systém dále obsahuje program pro rucní editaci výtisku prvního adruhého psaného textu pro vytvorení doslovného textu souboru hlasového diktátu. Tento doslovný textpak je dodán aktuálnímu uživateli (5) jako transkribovaný text. Doslovný text je rovnež zaveden zpet do každého stadia rozeznávání reci pro zdokonalení presnosti každého jednotlivého stadia s ohledemna lidský hlas v daném souboru.

Description

Systém automatické transkripce a způsob užití dvou stupňů konverze řeči a počítačem podporovaná korekce

Oblast techniky

Tento vynález se vztahuje obecně na systémy počítačového rozeznávání řeči a konkrétně na systém a způsob automatizace textového přepisu hlasového diktátu různých finálních uživatelů.

Dosavadní stav techniky

Programy rozeznávání jazyka jsou technicky dobře známy. Jakkoli jsou tyto programy pro automatickou konverzi řeči do psaného textu krajně užitečné, mnoho uživatelů se odradí od jejich používání, neboť nutí každého uživatele, aby strávil značný čas nácvikem systému. Skolení zpravidla začíná tak, že musí každý uživatel číst sérii předem vybraných materiálů asi po dobu dvaceti minut. Když pak uživatel pokračuje v používání programu, očekává se, pokud jsou slova nesprávně přepsána, že se zastaví a bude učit program napsat zamýšlené slovo tak, aby se zlepšila maximální přesnost akustického modelu. Bohužel nejsou většinou profesionálové - lékaři, zub20 ní lékaři, veterináři, právníci - a vedoucí pracovníci firem ochotni trávit čas vývojem potřebného akustického modelu tak, aby mohli skutečně těžit z automatické transkripce.

Předmětem tohoto vynálezu je tedy zabezpečení systému, který nabízí konečným uživatelům přehledné nacvičení programu rozeznávání řeči.

Existují systémy pro používání počítačů k nastavení transkripce od skupiny koncových uživatelů. Nejčastěji se tyto systémy používají ve velkých zařízeních s mnoha uživateli, jako jsou nemocnice. V takových systémech uživatel používající hlasu diktuje do univerzálního počítače, nebo jiného záznamového zařízení, a výsledný soubor se automaticky přenese k lidskému přepisovači.

Přepisovač přepíše soubor, který se pak vrátí k původnímu „autorovi“ pro revizi. Tyto systémy mají vysokou režii způsobenou zaměstnáváním dostatečného počtu lidských přepisovačů tak, aby byla provedena transkripce všech nadiktovaných souborů.

Proto je dalším předmětem tohoto vynálezu zajistit automatické prostředky překladu řeči do textu všude tam kde je vhodné, aby se minimalizoval počet lidských přepisovačů, kterých je zapotřebí k transkripci zvukových souborů vstupujících do systému.

Přidruženým předmětem je zabezpečení zjednodušených prostředků poskytujících verbální textové soubory pro naučení akustického modelu daného uživatele v úseku rozeznávání řeči v daném systému.

Jiným doplňujícím předmětem tohoto vynálezu je automatizovat již existující program rozeznávání řeči, aby bylo možno dále minimalizovat počet operátorů potřebných k provozování systému.

Tyto a další cíle budou zjevné pro pracovníky běžně obeznámené s touto technikou, kteří budou mít k dispozici tyto výkresy, specifikace a nároky.

Podstata vynálezu

Tento vynález se týká systému a způsobu, kterými se v podstatě automatizují transkripční služby pro jednoho nebo více hlasových uživatelů. Konkrétně tento systém zahrnuje použití dvou stup-1 CZ 299508 B6 ňů konverze řeči pro usnadněné vytvoření autentického transkribovaného textu s minimálním lidským přepisováním.

Systém zahrnuje prostředky k přijetí hlasového diktovaného souboru od běžného uživatele. Ten5 to hlasový nadiktovaný soubor se zavede do prvního prostředku pro automatickou konverzi hlasového diktovaného souboru do prvního psaného textu a do druhého prostředku pro automatickou konverzi hlasového diktovaného souboru do druhého psaného testu. První a druhý prostředek mají první a druhou soustavu konverzních prostředků v tomto pořadí. Tato první a druhá soustava konverzních proměnných mají alespoň jeden rozdíl.

Například tam, kde první a druhý automatický prostředek řečové konverze obsahují každý již existující program rozeznávání řeči, se mohou programy navzájem lišit. Různé programy rozeznávání řeči mají zabudované různé konverzní přístupy řeč-text, a proto je pravděpodobné, že u obtížných řečových výroků budou mít lišící se konverzi, a toho pak lze použít k vytvoření autentického textu. Mezi disponibilní již existující řečové konverzní prostředky patří Dragon Systems' Naturally Speaking IBM Via Voice a Philips Corporation Magie Speech.

U jiného přístupu by mohla první i druhá soustava konverzních proměnných každá zahrnovat jazykový model, tj. obecný nebo specializovaný jazykový model, jež by opět pravděpodobně vyústily v odlišné konverze u obtížných výroků, což by vedlo k snadnějšímu dosažení autentického textu. Alternativně by bylo možno modifikovat jedno, nebo několik, nastavení spojených s existujícím programem - programy rozeznávání řeči.

Při použití dalšího přístupu může být diktovaný hlasový soubor předběžně zpracován, ještě než se zavede do jednoho nebo obou automatických konverzních prostředků. Takto lze dosáhnout toho, že budou konverzní proměnné - např. digitální rozměr slova, rychlost vzorkování a odříznutí určitých harmonických rozsahů mezi oběma stupni konverze řeči odlišné.

Systém dále zahrnuje prostředky pro manuální redigování výtisku zmíněného prvního a druhého psaného textu tak, aby byl vytvořen autentický text diktovaného hlasového souboru. Při jednom přístupu se první psaný text alespoň dočasně synchronizuje s diktovaným hlasovým souborem. V takovém případě zahrnují prostředky manuální editace prostředky pro sekvenční porovnání výtisku prvního a druhého psaného textu, z čehož vznikne sekvenční seznam nestejných slov vytříděných z prvního psaného textu. Ruční editační prostředky dále zahrnují prostředky k postupnému vyhledávání běžného neodpovídajícího slova, a to současně v první vyrovnávací paměti přidružené k prvnímu automatickému konverznímu prostředku obsahujícímu první psaný text a v druhé vyrovnávací paměti spojené se sekvenčním seznamem. Ruční editační prostředky rovněž zahrnují prostředky pro korigování běžných neodpovídajících slov v druhé vyrovnávací paměti. Korekční prostředky obsahující prostředky pro zobrazení běžného neodpovídajícího slo40 va způsobem v podstatě vizuálně izolovaným od ostatního textu v prvním psaném textu a prostředky pro přehrání části zmíněného synchronizovaného záznamu hlasového diktátu z první vyrovnávací paměti jsou spojené s běžným neodpovídajícím slovem. Při jednom řešení zahrnují editační prostředky dále prostředky pro alternativní prohlídku daného běžného neodpovídajícího slova v kontextu s výtiskem prvního psaného textu.

Systém může rovněž zahrnovat cvičné prostředky pro zlepšování přesnosti programu rozeznávání řeči.

Přihláška rovněž uvádí způsob automatizace transkripčních služeb pro jednoho nebo několik hlasových uživatelů v systému obsahujícím alespoň jeden program rozeznávání řeči. Způsob zahrnuje: (1) příjem souboru hlasového diktátu od běžného hlasového uživatele; (2) automatické vytvoření prvního psaného textu podle souboru hlasového diktátu, přičemž program rozeznávání řeči použije první sady konverzních proměnných; (3) automatické vytvoření druhého psaného textu ze souboru hlasového diktátu, přičemž program rozeznávání řeči využije druhé sady kon-2CZ 299508 B6 verzních proměnných; (4) manuální vytvoření doslovného souboru porovnáním prvního a druhého psaného textu; a (5) předání doslovného souboru příslušnému uživateli. Vytvoření doslovného souboru zahrnuje (6) sekvenční srovnávání výtisku prvního psaného textu s druhým psaným textem, z čehož vyplyne sekvenční seznam neodpovídajících slov vyřazených z výtisku prvního psaného textu, přičemž sekvenční seznam má začátek, konec a běžné neodpovídající slovo, a toto určitě neodpovídající slovo se postupně přesouvá od začátku ke konci; (7) postupné souběžné vyhledávání určitého neodpovídajícího slova v první vyrovnávací paměti spojené alespoň s jedním programem rozeznávání řeči obsahujícím první psaný text a v druhé vyrovnávací paměti spojené se sekvenčním seznamem; (8) zobrazení určitého neodpovídajícího slova způsobem v podstatě vizuálně izolovaným od ostatního textu ve výtisku prvního psaného textu a přehrání části synchronizovaného záznamu hlasového diktátu z první vyrovnávací paměti spojené s prvním neodpovídajícím slovem; a (9) oprava určitého neodpovídajícího slova tak, aby bylo doslovnou replikou části synchronizovaného záznamu hlasového diktátu.

Přehled obrázků na výkresech

Vynález je následně blíže osvětlen pomocí výkresů, na kterých znázorňuje obr. 1 blokové schéma jednoho možného řešení tohoto systému pro v podstatě automatické transkripční služby pro jednoho nebo několik hlasových uživatelů, obr. lb blokové schéma univerzálního počítače, který může v tomto systému sloužit jako diktovací stanice, transkripční stanice i jako ovládací prostředek, obr. 2a vývojový diagram hlavní smyčky ovládacích prostředků daného systému, obr. 2b vývojový diagram zápisové části ovládacích prostředků daného systému, obr. 2c vývojový diagram sekce cvičného stupně ovládacích prostředků daného systému, obr. 2d vývojový diagram sekce automatického stupně ovládacích prostředků daného systému, obr. 3 adresářová struktura používaná ovládacími prostředky v daném systému, obr. 4 blokové schéma části výhodného řešení manuálních editačních prostředků, obr. 5 nárys ostatních výhodných řešení manuálních editačních prostředků a obr. 6 ilustraci uspořádání systému, jaký představuje automatizovaný systém transkripce a způsob používající dvou stanic konverze řeči a počítačem podporova30 nou korekci.

Příklady provedení vynálezu

Jakkoli může být tento vynález řešen v mnoha různých formách, na výkresech je zobrazeno a zde je probráno několik konkrétních řešení, přičemž je třeba zdůraznit, že toto zveřejnění musí být pojato pouze jako příkladné uvedení zásad vynálezu a nesmí nikterak omezovat vynález na ta řešení, jež jsou ilustrována.

Obr. 1 na výkresech ukazuje obecně jedno potenciální řešení daného systému pro v podstatě automatické transkripční služby pro jednoho nebo několik hlasových uživatelů. Tento systém musí zahrnovat prostředky pro příjem souboru hlasového diktátu od určitého uživatele. Tyto příjmové prostředky souboru hlasového diktátu může tvořit digitální záznamník hlasu, analogový záznamník hlasu, anebo standardní prostředky pro vstup počítačových souborů, a to na magnetic45 kých mediích nebo prostřednictvím datového spoje.

Jak je uvedeno, obsahuje systém 100 v jednom řešení několik digitálních záznamových stanic 10, 11, 12 a 13. Každá digitální záznamová stanice má minimálně digitální audiorekordér a prostředky pro identifikaci aktuálního hlasového uživatele. Každá z těchto digitálních záznamových stanic může být s výhodou součástí konfigurace univerzálního počítače - jako je počítač 20, jakkoli by pro tento specifický účel mohl být vyvinut specializovaný počítač. Univerzální počítač má nicméně tu výhodu navíc, že se může kromě toho uplatnit pro různá použití při provozování v rámci daného systému 100. Obecně by takový univerzální počítač měl mít kromě ostatních prvků mikroprocesor - jako je PENTIUM firmy Intel, série Cyrix K6 nebo Motorola 68000;

-3 CZ 299508 B6 energeticky závislou nebo nezávislou paměť; jednu nebo více velkokapacitních pamětí, tj. HDD nezobrazeno, mechaniku pružného disku 24 a jiné demontovatelné mediální prostředky 22, jako je pohon CD-ROM, DITTO, ZIP nebo JAZ pohon - od firmy Iomega - apod.; různé prostředky umožňující vstup uživatele, jako je myš 23, klávesnice 24, nebo mikrofon 25, a systém promítání videa 26. Při jednom řešení je univerzální počítač řízen operačním systémem WINDOWS 9x. Nicméně se počítá s tím, že by tento systém pracoval stejně dobře při použití počítače MACKINTOSH nebo i jiného operačního systému, jako WINDOWS CE, UNIX nebo JAVA, aby jich bylo uvedeno alespoň několik.

ío Bez ohledu na konkrétní počítačovou platformu musí při řešení používajícím analogového vstupu audio - přes mikrofon 25 - obsahovat počítač pro univerzální použití také nezobrazenou zvukovou kartu. Přirozeně by při řešení s digitálním vstupem nebylo zapotřebí žádné zvukové karty.

V příkladném řešení na obr. 1 jsou stanice pro digitální audiozáznam 10, 11, 12 a 13 upraveny a konfigurovány tak, aby byly kompatibilní s digitálním software pro audiozáznam na počítačovém systému PENTIUM provozovaném pod WINDOWS 9.x. Takové programové vybavení pro digitální záznam je k dispozici v rámci operačního systému WINDOWS 9.x., nebo od různých třetích stran, jako jsou The Programmers' Consortium lne, se sídlem v Oakton, Virginia VOICEDOC, Syntrillium Corporation se sídlem Phoenix, Arizona - COOL EDIT, nebo Dragon

Systems Corporation - Dragon Naturally Speaking Professional Edition. Tato různá programová vybavení vytvářejí soubory diktovaného slova ve formě souboru „WAW“. Jak je ovšem odborníkům v tomto oboru známo, bylo by možno použít i jiných formátů pro soubory audio, jako je MP3 nebo DSS pro formátování diktovaného hlasového souboru, bez vzdálení se principu tohoto vynálezu. V jednom způsobu provedení, používajícím programového vybavení VOICEDOC, tento program rovněž automaticky přiřazuje soubor tak, aby byl řešen jako WAV, ovšem odborníkům v tomto oboru bude patrně známo, že mohou uložit v počítačovém systému soubor audio při použití standardních metod operačního systému pro management souborů.

Jiný prostředek pro získání diktovaného hlasového souboru je speciální digitální rekordér j_4, jako např. Olympus Digital Voice Recorer D-1000, vyráběný Olympus Corporation. Pokud je tedy běžný použivatel hlasu spokojenější se spíše konvenčním typem diktafonového zařízení, může i nadále používat speciálního digitálního rekordéru 14. K tomu, aby bylo možno využít digitálního textového souboru audio, když se dokončí záznam, spojí se jednoúčelový digitální rekordér 14 provozně s jednou z digitálních stanic pro zvukový záznam, např. T3, aby se digitální audiosoubor zavedl do daného univerzálního počítače. Při takovém přístupu například nebude zapotřebí zvukové karty.

Jiná alternativa k získání diktovaného hlasového souboru může spočívat ve využití nějaké formy přenosných magnetických medií obsahujících zvukový soubor s již provedenými záznamy.

Při použití této alternativy by operátor vložil přenosné magnetické médium do jedné z digitálních stanic pro zvukový záznam, aby do systému přenesl zvukový soubor.

V některých případech může být nutné předem zpracovat zvukové soubory tak, aby byly přijatelné pro zpracování programem rozeznávání řeči. Tak například může být zapotřebí, aby se for45 mát souboru DSS konvertoval na formát souboru WAV, nebo může být nutné, aby se vzorkovací rychlost digitálního audíosouboru zvýšila a zase snížila. Tak například při použití Olympus Digital Voice Recorder spolu s Dragon Naturally Speaking, Olympus s rychlostí 8 MHz je třeba vyjet s rychlostí na 11 MHz. Programy pro realizaci takového předběžného zpracování jsou k dispozici z různých zdrojů, včetně Syntrillium Corporation a Olympus Corporation.

Dalším aspektem digitálních zvukových záznamových stanic je identifikace okamžitého hlasového uživatele. Identifikační prostředky mohou zahrnovat klávesnici 24, jejímž prostřednictvím uživatel, nebo samostatný operátor, může vložit jedinečný identifikační kód daného uživatele. Přirozeně může být identifikace uživatele vložena s využitím obrovského množství počítačových

-4CZ 299508 B6 vstupních zařízení, jako jsou ukazovací prvky, např. myš 23, dotyková nezobrazená obrazovka, světelné nezobrazené pero, nezobrazená čtečka čárových kódů, nebo zvukové klíče s využitím mikrofonu 25, aby jich bylo jmenováno alespoň několik.

V případě prvního uživatele mohou identifikační prostředky danému uživateli rovněž přidělit identifikační číslo poté, co od něj obdrží potenciálně identifikační informace, a to: (1) jméno; (2) adresu; (3) zaměstnání; (4) dialekt nebo akcent apod. Jakje třeba uvážit v souvislosti s ovládacími prostředky, vytvoří se pak na základě této vstupní informace v rámci ovládacích prostředků profil hlasového uživatele a podadresář. Bez ohledu na konkrétní použité identifikační prostředío ky musí být takto pro každého hlasového uživatele vytvořena uživatelská identifikace a v návaznosti musí být opatřena odpovídajícím digitálním zvukovým souborem pro každé použití tak, aby ovládací prostředek mohl audiozáznam náležitě nasměrovat a systém ho mohl konečně transkribovat.

V jednom řešení tohoto vynálezu mohou identifikační prostředky rovněž využít manuálního výběru speciálního slovníku. Počítá se s tím, že odborné slovníkové soubory mohou být obecně použitelné pro různé uživatele, jako z oboru lékařství - tj. radiologie, ortopedická chirurgie, gynekologie - a oborů práva - např. firemní právo, patentové právo, soudnictví, nebo mohou být vysoce specializované tak, že v rámci každé odbornosti by mohly být slovníkové parametry dále zúženy na základě konkrétních okolností konkrétního diktovaného souboru. Tak například je-li aktuální hlasový uživatel radiolog, který diktuje odečty abdominálního tomogramu - CAT, je nomenklatura vysoce specializovaná a liší se například od nomenklatury renálního ultrazvuku. Úzkou segmentací každého volitelného slovníkového souboru lze zvýšit pravděpodobnost přesné automatické konverze řeči.

Jakje vidět na obr. 1, mohou být digitální stanice pro záznam zvuku provozně spojeny se systémem 100 jako součást počítačové sítě 30, anebo mohou být alternativně spojeny provozně se systémem prostřednictvím internetového hostitelského počítače Γ5. Jak je vidět na obr. lb, univerzální počítač může být připojen jak do síťové svorky 27, tak i do telefonní zásuvky. Když se použije hostitelský internet, lze zabezpečit spojení tak, že se zvukový soubor pošle e-mailem prostřednictvím internetu. Jiná metoda pro uskutečnění takového spojení je cesta přímého modemového zapojení prostřednictvím vzdáleného ovládacího programu, jako PC ANYWHERE, který je k dispozici od firmy Symantec Corporation of Cupertino, Califomia. Je rovněž možné, je-li známa adresa IP digitální zvukové záznamové stanice 10, anebo adresa internetového hosti35 telského počítače 15, přenést zvukový soubor s využitím základního protokolu pro transfer souboru. Takto, jak lze dedukovat z předchozího, poskytuje tento systém hlasovým uživatelům velkou pružnost, aby si do systému začlenili vlastní hlasový vstup.

Ovládací prostředky 200 řídí proud souboru hlasového diktátu v závislosti na stupni školení daného hlasového uživatele. Jak je vidět na obr. 2a, 2b, 2c, 2d, obsahují řídicí prostředky 200 programové vybavení provozované na univerzálním počítači 40. Konkrétně se inicializuje program na kroku 201, kde se vkládají proměnné, vyprazdňují se vyrovnávací paměti a zahájí se konkrétní konfigurace této speciální instalace kontrolních prostředků. Ovládací prostředky kontinuálně monitorují cílový adresář - jako „aktuální“ na obr. 3 - aby rozhodly, zda má být do cílové45 ho kroku 202 přesunut nový soubor. Jakmile je nalezen nový soubor - jako „6723.id“, zobrazeno na obr. 3, provede se stanovení, zda běžný uživatel 5 - viz obr. 1 - je nový uživatel, krok 203.

Pro každého nového uživatele, jak je naznačeno existencí souboru „pro“ v „aktuálním“ podadresáři, vytvoří se nový podadresář, krok 204, jako například „usem“ podadresář, jakje zobrazeno na obr. 3. Tento podadresář se používá pro ukládání všech zvukových souborů „xxxx.wav“, psaného textu „xxxx.wrt“, doslovného textu „xxxx.vb“, transkripčního textu „xxxx.txt“ a uživatelského profilu „usem.pro“ pro daného konkrétního uživatele. Každé jednotlivé zadání dostane jedinečné číslo „xxxx“, takže všechny soubory spojené s určitým zadáním mohou být spojeny

-5 CZ 299508 B6 prostřednictvím takového čísla. S takovou strukturou adresáře je počet uživatelů omezen prakticky pouze disponibilní pamětí univerzálního počítače 40.

Když tedy byl nyní vytvořen uživatelský podadresář, převede se uživatelský profil do podadresá5 ře - krok 205. Obsah takového uživatelského profilu může být v různých systémech různý. Obsah jednoho potenciálního uživatelského profiluje znázorněn na obr. 3, kde obsahuje: jméno uživatele, adresu, zaměstnání a stav vyškolení - výcviku. Kromě proměnné označující stav vyškolení, jež je nutné, jsou ostatní data užitečná při směrování a přepisování zvukových souborů.

ío Poté, co byla zvolena jedna soustava souborů, určí ovládací prostředky identitu aktuálního uživatele srovnáním souboru ,,.id“ s „user.tbl.“- krok 206. Když tedy je nyní uživatel znám, může být uživatelský profil vybrán z podadresáře daného uživatele a zjištěn současný stav jeho vyškolení krok 207. Kroky 208 - 211 představují ověření současného stavu vyškolení a zahrnují přihlášení, výcvik, automatizaci a konec automatizace.

Přihlášení je první stadium v automatických transkripčních službách. Jak je zobrazeno na obr. 2b, zvukový soubor se odešle k transkripci - krok 301. Konkrétně se přenese soubor „xxxx.wav“ k stanicím přepisovačů 50 a 51. Ve výhodném řešení jsou obě stanice univerzální počítače, jež jsou oba vybaveny zvukovým přehrávačem a prostředky pro manuální vstup.

Zvukový přehrávač bude pravděpodobně digitální přehrávač, i když je možné, aby byl na stanice přenesen analogový zvukový soubor. Běžně jsou k dispozici různé zvukové přehrávače, včetně zařízení v operačním systému WINDOWS 9.x a od různých třetích stran, například The Programmers' Consortium. Inc, se sídlem Oakton. Virginia (VOICESCRIBE). Bez ohledu na to, jaký zvukový přehrávač se použije k přehrání zvukového souboru, souběžně se na počítači pro25 vozují prostředky manuálního vstupu. Tyto manuální prostředky mohou zahrnovat jakýkoli textový editor nebo zpracování textu, jako MS WORD, WordPerfect. AmiPro nebo Word Pad, v kombinaci s klávesnicí, myší, nebo jiným zařízením uživatelského rozhraní. V jednom provedení tohoto vynálezu mohou prostředky ručního vstupu být samy vybaveny programem pro rozeznávání řeči, jako jsou Naturally Speaking od Dragon Systems se sídlem Newton. Massa30 chussets, Via Voice od IBM Corporation se sídlem Armonk, New York, nebo Speech Magie od Philips Corporation se sídlem Atlanta, Georgia. Lidský přepisovač 6 naslouchá zvukovému souboru vytvořenému aktuálním uživatelem 5 a, jak je známo, ručně vkládá vnímaný obsah tohoto zaznamenaného textu, čímž vytváří transkribovaný soubor, krok 302. Jelikož je člověk, bude lidský přepisovač 6 pravděpodobně do textu vkládat svou zkušenost, vzdělání a odchylky od textu, a takto nevloží autentický přepis zvukového souboru. Po dokončení lidského přepisu uloží lidský přepisovač 6 soubor a označí jej jako připravený k přenosu do podadresáře příslušného uživatele jako „xxxx.txt“ - krok 303.

Pokud je tento daný uživatel pouze v přihlašovacím stadiu, bude si muset lidský pracovník obslu40 hy poslechnout zvukový soubor a manuálně jej porovnat s přepsaným souborem a vytvořit tak doslovný soubor - krok 304. Tento doslovný soubor „xxxx.vb“ se rovněž přenese do podadresáře příslušného uživatele - krok 305. Nyní, když je k dispozici autentický text, spustí ovládací prostředky 200 zařízení automatické konverze řeči - krok 304. Toto automatické zařízení pro konverzi řeči může být již existující program, jako Dragon System Naturally Speaking, IBM

ViaVoice, nebo Philips Speech Magie, aby bylo uvedeno alespoň několik. Alternativně to může být samostatný program koncipovaný tak, aby specificky prováděl automatické rozeznávání řeči.

V přednostním provedení se používá Dragon System Naturally Speaking tak, že se prováděná úloha pouští současně s Naturally Speaking, který spouští na pozadí operace klávesnice a myši prostřednictvím WIN32API, takže si Naturally Speaking myslí, že je v interakci s lidskou bytostí, zatímco je de facto řízen ovládacími prostředky 200. Takovéto techniky jsou v oblasti zkoušení počítačových programů dobře známy, a proto nebudou probírány podrobně. Mělo by stačit, když se uvede, že sledováním aplikačního toku u jakéhokoli programu rozeznávání řeči lze vytvořit při provádění úlohy nápodobu interaktivních manuálních kroků.

-6CZ 299508 B6

Je-li daný uživatel uživatelem novým, bude si program rozeznávání jazyka muset vytvořit nového uživatele - krok 307. Ovládací prostředky poskytují potřebné informace z uživatelského profilu uvedeného v podadresáři daného uživatele. Každé rozeznávání řeči vyžaduje značný výcvik, aby se vytvořil akustický model konkrétního uživatele. V případě Dragon na začátku program vyhledá přibližně 20 minut zvukového záznamu, zpravidla získaného tak, že uživatel čte zadaný text připravený Dragon Systems. Do systému Dragon je zabudována funkcionálnost v tom smyslu, že dovoluje „mobilní výcvik“. Při použití této vlastnosti se do programu rozeznávání řeči zavedou doslovný soubor a zvukový soubor na začátku vývoje akustického modelu pro daného ío uživatele - krok 308. Bez ohledu na délku tohoto zvukového souboru skončí ovládací prostředky

200 program rozeznávání řeči, když se dokončí soubor - krok 309.

Vzhledem k tomu, že přihlašovací stadium je příliš časné na to, aby se mohl používat automaticky tvořený text, zašle se aktuálnímu uživateli kopie přepsaného souboru s využitím adresové informace obsažené v uživatelském profilu - krok 310. Adresa může být běžná poštovní adresa nebo e-mail. Po tomto předání se program vrátí do hlavní smyčky na obr. 2a.

Po uplynutí určitého počtu minut výcviku daného uživatele se může jeho stav změnit z přihlašovací fáze na výcvikovou. Hranice pro tento přechod je subjektivní, ale snad lze uvést jako dobrou orientační zásadu, že jakmile Dragon vytváří text s 80 % přesností nebo lepší, lze učinit přechod do dalšího stadia. Takto při další přepisovací události u daného uživatele přepnou ovládací prostředky 200 na stadium výcviku. Jak ukazuje obr. 2c, kroky 401-403 jsou stejné kroky lidského přepisu jako kroky 301 - 303 v přihlašovací fázi. Když je vytvořen přepsaný soubor, spustí ovládací prostředky 200 zařízení automatické konverze řeči - nebo program rozeznávání řeči 25 a vyberou si aktuálního uživatele - krok 404. Zvukový soubor se zavede do programu rozeznávání řeči a v programové vyrovnávací paměti se vytvoří psaný text - krok 405. V případě Dragona se v této vyrovnávací paměti zpracovává soubor vždy stejně v celém programu. Proto je možno z této vyrovnávací paměti snadno kopírovat s využitím standardních systémových povelů a manuální editace může začít - krok 406.

V jednom konkrétním řešení využívajícím systém VOICEWARE od The Programmers Consortium, Inc., Oakton, Virginia vkládá uživatel audio do programu VOICEDOC v systému VOICEWARE a vytvoří tak soubor „wav“. Kromě toho, než uvolní tento soubor „wav“ do serveru VOICEWARE, vybere si uživatel přepisovače, „transcriptionist“. Tento přepisovač může být konkrétní lidský, anebo může být počítačový. Pokud si uživatel zvolí „počítačového přepisovače“, může si ještě vybrat, zda bude tento přepis řešen lokálně, nebo dálkově. Souboru přidělí server VOICEWARE číslo zakázky a pak směruje zakázku do sekce VOICESCRIBE v rámci systému. Normálně používá lidský přepisovač VOICESCRIBE, aby obdržel zvukový záznam zakázky na playbacku jako soubor („wav“). Kromě toho se zvukový soubor dostane také do zaří40 zení pro automatickou konverzi řeči. V tomto řešení systému VOICEWARE se tím, že se VOICESCRIBE přepne na „auto mode“, nové zakázky, tj. zvukový soubor nově vytvořený ve VOICEDOC, automaticky zavedou ze serveru VOICEWARE a z okna VOICESCRIBE, které má název okna tvořený číslem zakázky daného souboru „.wav“. Soubor ke zpracování, který běží v pozadí, „vidí“ otevřené okno VOICESCRIBE a s využitím WIN32API zjistí číslo zakázky podle názvu v okně VOICESCRIBE. Soubor k provedení pak spustí zařízení automatické konverze řeči. Tak například v Dragon System Naturally Speaking je zabudovaná funkce k realizaci rozeznávání řeči na existujícím souboru „.wav“. Program, který se má provést, vysílá fantomové stisky tlačítek do Naturally Speaking, aby se otevřel soubor „.wav“ z „příslušného“ adresáře (viz obr. 3), neboť má číslo zakázky dané úlohy.

V tomto řešení, poté, co Naturally Speaking dokončil automatickou transkripci obsahu souboru „.wav“, zahájí zpracovávaný soubor opět provoz tím, že vybere celý text v otevřeném okně Naturally Speaking a překopíruje ho na clipboard operačního systému WINDOWS 9.x. Poté, s využitím funkce clipboard, uloží clipboard jako textový soubor s využitím daného čísla zakáz-7 CZ 299508 B6 ky s příponou „dmt“. Zpracovávaný soubor pak „klikne“ na tlačítko „complete“ (dokončit) ve VOICESCRIBE, aby se soubor „dmt“ vrátil na server VOICEWARE. Jak bude pochopitelné pro osoby obeznámené v oboru, lze předchozí postup realizovat s využitím jiného digitálního záznamového programu a jiných zařízení pro automatickou řečovou konverzi. Kromě toho existuje i v jiných operačních systémech funkceschopnost analogická, jako má clipboard WINDOWS. Je rovněž možno, aby pro aktivaci nebo vyvolání jednoho nebo několika předchozích kroků bylo zapotřebí lidského zásahu. A dále, jakkoli různé programy realizující různé kroky tohoto postupu mohou běžet na celé řadě propojených počítačů - prostřednictvím LAN, WAN, internetového propojení, e-mailu apod., počítá se rovněž s tím, že kompletní potřebné programo10 vé vybavení se může provozovat na jediném počítači.

Uvažuje se i další alternativní přístup, v němž uživatel diktuje přímo do zařízení pro automatickou konverzi řeči a server VOICEWARE si odebere kopii obráceným směrem. Tento přístup funguje takto: aniž fakticky zaznamenává hlas, uživatel stiskne ve VOICEDOC tlačítko „comple15 te“, a tak vytvoří prázdný soubor ,,.wav“. Tomuto prázdnému souboru přidělí nicméně server VOICEWARE nezaměnitelné číslo zakázky. Uživatel, nebo soubor ke zpracování, který běží na pozadí, pak spustí zařízení automatické konverze řeči, načež uživatel diktuje přímo do tohoto programu, stejným způsobem, jako byl dříve použit ve spojení s takovýmto zařízením pro automatickou konverzi řeči. Po dokončení diktátu stiskne uživatel tlačítko s označením „retům“ (zpět), generováno prováděným souborem na pozadí, a tento prováděný soubor pak založí makro, které obdrží běžné zakázkové číslo od VOICEWARE - způsobem popsaným shora, vybere všechen text v dokumentu a překopíruje ho na clipboard. Tento clipboard se pak uloží do souboru „<jobnumber>.dmt“, jak probráno shora. Prováděný soubor pak „stiskne“ tlačítko „complete“ -prostřednictvím WIN32API - ve VOICESCRIBE, což efektivně vrátí soubor automaticky trans25 kribovaného textu zpět na server VOICEWARE, a ten pak zašle právě dokončenou transkripci uživateli VOICESCRIBE. Nicméně je třeba mít na paměti, že jakkoli různé programy realizující různé kroky tohoto postupu mohou běžet na celé řadě propojených počítačů - prostřednictvím LAN, WAN, internetového propojení, e-mailu apod., počítá se rovněž s tím, že kompletní potřebné programové vybavení se může provozovat na jediném počítači. Jak bude pochopitelné pro osoby obeznámené v oboru, lze předchozí postup realizovat s využitím jiného digitálního záznamového programu a jiných zařízení pro automatickou řečovou konverzi. Kromě toho existuje i v jiných operačních systémech funkceschopnost analogická, jako má clipboard WINDOWS. Je rovněž možno, aby pro aktivaci nebo vyvolání jednoho nebo několika předchozích kroků bylo zapotřebí lidského zásahu.

Manuální editování není snadný úkol. Lidské bytosti jsou náchylné chybovat. Proto tento vynález zahrnuje také prostředky ke zdokonalení u této úlohy. Jak ukazuje obr. 4, přepsaný soubor „3333.txt“ a kopie psaného textu ,,3333.wrt“ se sekvenčně porovnávají slovo za slovem 406a, až se sestaví v daném pořadí seznam neodpovídajících slov 406b,jež jsou vytažena z kopie psaného textu. Tento seznam má začátek a konec a kurzor 406c vyznačující aktuální neodpovídající slovo. Pod tímto sekvenčním seznamem je jiný seznam objektů obsahující původní neodpovídající slova, a také slova bezprostředně před neodpovídajícím slovem a za ním, výchozí umístění v paměti pro každé neodpovídající slovo v sekvenčním seznamu neodpovídajících slov 406b i délku neodpovídajícího slova.

Jak vyplývá z obr. 5, neodpovídající slovo, na něž ukáže kurzor 406c ze seznamu 406b, se zobrazí ve výrazné vizuální izolaci od ostatního textu v kopii psaného textu na standardním monitoru počítače 500 v aktivním okně 501. Jak je vidět na obr. 5, kontext neodpovídajícího slova si může operátor zvolit tak, že se zobrazí ve větě, k níž patří, nebo slovo za slovem, nebo ve větném kontextu, a to v tomto pořadí kliknutím na tlačítka 514, 515 a 516.

S aktivním oknem 501 je spojeno okno v pozadí 502, jež obsahuje kopii psaného textového souboru. Jak je vidět v okně v pozadí 502, postupné vyhledávání lokalizuje - viz kurzor 503, další výskyt daného neodpovídajícího slova „cash“. Současně s tím, v rámci okna 505 obsahujícího

-8CZ 299508 B6 vyrovnávací paměť z programu rozeznávání řeči, lokalizovalo stejné postupné vyhledávání, viz kurzor 506, další výskyt aktuálního neodpovídajícího slova. Lidský uživatel pravděpodobně při prohlížení aktivního okna 501 bude aktivovat jen zvukovou přehrávku z programu rozeznávání řeči tím, že klikne na tlačítko „play“ 510, což spustí audiozáznam synchronizovaný s textem u kurzoru 506. Na základě tohoto útržku řeči, jenž může být znovu a znovu přehráván kliknutím na tlačítko „play“, může lidský uživatel ručně vložit korekci aktuálního neodpovídajícího slova prostřednictvím klávesnice, aktivací myši, anebo případně i slyšitelnými příkazy pro jiný program rozeznávání řeči uvnitř tohoto okna.

ίο V tomto příkladě, i když existuje volba izolovaného kontextu nabízeného tlačítky 514, 515 a 516, může být přesto stále obtížné stanovit správné autentické vyjádření mimo kontext, a proto existuje tlačítko 513 k přepínání oken, které přesune okno 502 z pozadí do popředí, s viditelným kurzorem 503, jenž naznačuje současné umístění v rámci kopie psaného textu. Uživatel se pak může vrátit do aktivního okna a vložit tam správné slovo, „trash“. Tato změna ovlivní pouze kopii psa15 ného textu zobrazeného v okně 502 na pozadí.

Když je obsluha připravena na další neodpovídající slovo, klikne na tlačítko pokračování 511, čímž posune kurzor 406c směrem dolů na seznamu neodpovídajících slov a aktivuje postupné vyhledávání v obou oknech 502 a 505. Toto neodpovídající slovo se nyní zobrazí izolovaně a obsluha si může přehrát synchronizovanou řeč z programu rozeznávání řeči a opravit také toto slovo. Pokud by si v kterémkoli okamžiku provozu operátor přál vrátit se k předchozímu neodpovídajícímu slovu, klikne na zpětné tlačítko 512, čímž posune kurzor 406c o jedno slovo na seznamu nazpátek a vyvolá tak zpětné postupné vyhledávání. To se uskuteční s využitím podloženého seznamu předmětů, který obsahuje původní neodpovídající slova. Přes tento seznam se pojíždí formou předmět za předmětem, avšak alternativně, na pomoc při obousměrném traverzování v seznamu by mohl být probrán každý ze záznamů tak, aby se kontrolovalo, že má každá položka stejnou délku slova. Jelikož jsou čtena pouze neodpovídající slova v tomto podloženém seznamu, je možno vrátit se k původnímu neodpovídajícímu slovu tak, aby se obsluhující mohl rozhodnout, zda neměla být provedena jiná korekce.

Nakonec se kopie psaného textu definitivně opraví tak, že vznikne autentický výtisk, který se uloží do podadresáře uživatele. Autentický soubor se rovněž předá do programu rozeznávání řeči pro účely výcviku - krok 407. Nový - zdokonalený - akustický model se uloží - krok 408, a program rozeznávání řeči se uzavře, krok 409. Jelikož je systém dosud ve fázi výcviku, zašle se přepsaný soubor uživateli, tak, jako u kroku 310 ve fázi přihlašování.

Jak ukazuje obr. 4, systém může rovněž zahrnovat prostředky pro stanovení míry přesnosti na základě výstupu ze sekvenčních komparačních prostředků. Konkrétně, sečtením počtu slov psaného textu a počtu slov v seznamu 406b lze stanovit poměr slov ve zmíněném sekvenčním sezna40 mu a slov ve zmíněném psaném textu, z čehož vyplyne percentuální přesnost. Podobně jako předtím je to otázka volby, kdy se přeřadí uživatelé zjednoho stadia do druhého. Když je dosaženo takového cíle, změní se profil uživatele na další stadium - krok 211.

Jedním potenciálním zdokonalením, nebo odvozeným zlepšením, funkčnosti je stanovení pro45 centa přesnosti. Při jednom příkladném provedení by se tohoto procenta mohlo používat pro hodnocení dovednosti lidského přepisovače. Konkrétně, buď použitím známého autentického souboru, nebo dobře zavedeného uživatele, se může přidružený soubor ,,.wav“ přehrát lidskému přepisovači a předchozí porovnání lze provést srovnáním transkribovaného textu s autentickým souborem vytvořeným v předchozím procesu. Takto může tento systém poskytnout zdokonale50 nou funkčnost.

Jak je známo, používají v současné době producenti programů rozeznávání řeči záznamy cizích jazyků, dikcí apod., pro něž jsou manuálně vytvořené autentické soubory k naprogramování řečových modelů. Mělo by být jasně zřejmé, že by se předchozí způsob vytváření autentického textu

-9CZ 299508 B6 mohl využít při počátečním vývoji těchto řečových souborů, což tento proces výrazně zjednoduší.

Jakmile uživatel dosáhl stadia automatizace, může z tohoto systému těžit nejvíce. Nastartuje se program rozeznávání řeči - krok 600, a je zvolen příslušný uživatel - krok 601. Je-li to žádoucí, může být vybrán konkretizovaný slovník - krok 602. Pak může být zahájena automatická konverze digitálního zvukového souboru zaznamenaného aktuálním uživatelem - krok 603. Když se dokončí, předá se zapsaný soubor uživateli s využitím informací obsažených v uživatelském profilu - krok 604, a program se vrátí do hlavní smyčky.

Bohužel mohou nastat případy, kdy uživatelé hlasu nemohou po nějaký čas používat automatizované transkripce - po dobu nemoci, po dentistických pracích apod., neboť jejich akustický model byl dočasně, nebo i trvale, změněn. V takovém případě může správce systému nastavit proměnnou stavu výcviku tak, aby se zastavila automatizace, načež budou jedinými realizovanými kroky 301, 302, 303, 305 a 310, viz obr. 2b.

Obr. 6 znázorňuje jiné potenciální uspořádání různých prvků spojených s tímto vynálezem. V tomto uspořádání, jako dříve, uživatel verbálně nadiktuje dokument, který si přeje získat v přepsané podobě, a ten se pak uloží jako hlasový diktovaný soubor 700 jedním ze způsobů, jež byly popsány shora. V takovém řešení - spíše, než aby musel lidský přepisovač produkovat transkribovaný soubor - se alespoň dvakrát konvertuje soubor hlasového diktátu na psaný text.

Po této zdvojené automatické textové konverzi se navzájem porovnají výsledný prvý a druhý psaný textový soubor při použití manuálních editačních prostředků, jak popsáno shora ve spojení s obr. 4 a 5, což usnadní lidské obsluze pracné manuální opravování druhého psaného textového souboru.

Takto lze nepochybně poskytnout transkripční službu s daleko menší námahou lidského přepisovače. Klíčem k získání dostatečně přesného psaného textu k předání finálnímu uživateli je zajistit, aby se mezi prvním a druhým průchodem nějakým způsobem lišila konverze řeči na text. Konkrétně může systém mezi prvním a druhým konverzním krokem změnit jednu nebo několik následujících věcí:

(1) programy rozeznávání řeči, např. Dragon Systems Naturally Spesking, IBM Via Voice, nebo Philips Corporation Magie Speech;

(2) jazykové modely v rámci konkrétního programu rozeznávání řeči, např. obecná angličtina versus specializovaný slovník, jako třeba lékařský, právní;

(3) nastavení v rámci konkrétního programu rozeznávání řeči, např. „co nejpřesnější“ versus „rychle“; a/anebo (4) soubor hlasového diktátu, který se předběžně zpracuje digitálním procesorem signálu - jako Cool Edit firmy Syntrillium Corporation. Phoenix. Arizona, nebo programovaný DSP56000

IC od firmy Motorola. Inc. - tak, že se změní velikost digitálního slova, rychlost vzorkování, odřízne se nějaký konkrétní harmonický rozsah, nebo se provedou jiné potenciální modifikace.

Panuje přesvědčení, že změnou jedné nebo několika předchozích „konverzních proměnných“ vznikne z druhé konverze jazyka na text mírně odlišný psaný text oproti první konverzi řeč - text, a že porovnáním obou výsledných psaných textů s využitím nových manuálních editačních prostředků, jež se zde zveřejňují, může lidský operátor revidovat rozdíly způsobem uvedeným shora a rychle vytvořit autentický text k předání finálnímu uživateli. V tomto smyslu se tedy má zato,

- 10CZ 299508 B6 že lze plně automatizované transkripce dosáhnout s menšími lidskými zásahy, než u ostatních zveřejněných přístupů.

Tento systém, a s ním související způsob, jsou ilustrovány na obr. 6. Je třeba poznamenat, že zatímco jsou zde znázorněna dvě automatická konverzní zařízení 702, 703, řeči, může být použito jen jediného stupně programu rozeznávání jazyka provozovaného na jediném počítači, avšak s použitím různých konverzních proměnných mezi jednotlivými opakováními konverze souboru hlasového diktátu. Přirozeně je rovněž možno mít mnoho stupňů programu rozeznávání jazyka provozovaných na jediném stroji, nebo i na samostatných strojích propojených počítačovou sítí ío LAN, WAN, peer-to-peer (rovný s rovným) apod. - jak budou vědět pracovníci obeznámení v oboru.

Podobně, i když je manuální editační prostředek 705 znázorněn odděleně od automatizovaného prostředku konverze řeči, může být rovněž součástí jednoho počítače jako jedna nebo obě stanice automatického zařízení konverze jazyka. Podobně lze rovněž realizovat manuální editační prostředky na samostatném počítači, stejně jako v propojení s jinými počítači v rámci počítačové sítě.

A konečně je zobrazen Digital Signál Processor 701 pro ilustraci, že jedním přístupem ke změně konverzních proměnných je změnit vstup souboru hlasového diktátu na jednu nebo obě stanice automatického zařízení pro konverzi řeči. A opět lze tento procesor digitálního signálu realizovat na stejném počítači jako jeden nebo všechny předchozí funkční bloky, anebo na samostatném počítači propojeném s ostatními počítači prostřednictvím počítačové sítě.

Uvažuje se, že předchozí případ, v němž se používá dvou opakování konverze jazyk - text, by bylo možno extrapolovat na případ, v němž se provede dokonce více konverzních opakování a pokaždé se použije různých soustav konverzních proměnných a textové srovnání se provede mezi stejnými dvojicemi výstupů psaného textu, načež se provede porovnání vzájemné, z čehož plyne zvýšená přesnost automatické transkripce, ponechávající menší počet slov k úvaze při manuální editaci.

Předchozí popis a výkresy pouze vysvětlují a ilustrují vynález a vynález na ně není omezen. Ti, kdož jsou obeznámeni s tímto oborem a mají před sebou vynález, budou schopni provádět v něm modifikace a variace, aniž se vzdálí z rozsahu tohoto vynálezu.

Tak například lze implementovat všechny prvky tohoto systému na jediném univerzálním počítači při střídavém využívání stroje hlasovým uživatelem, přepisovačem a programem rozeznávání jazyka. Výsledné úspory nákladů činí tento systém přístupným pro větší počet kancelářských situací, nejen pro rozsáhlé lékařské kliniky, nemocnice, právnické kanceláře nebo jiná velká zařízení.

Claims

PATENTOVÉ NÁROKY

1. Systém v podstatě automatizovaných transkripčních služeb pro jednoho nebo několik hlaso5 vých uživatelů obsahující prostředek (12) pro příjem diktovaného hlasového souboru od aktuálního uživatele (5), přičemž aktuální uživatel patří mezi zmíněného jednoho nebo několik hlasových uživatelů;

2. Vynález podle nároku 1, kde řečený rozdíl mezi uvedenou první a druhou soustavou konver45 žních proměnných obsahuje alespoň zmíněný první (702) a druhý (703) automatický prostředek řečové konverze.

3. Vynález podle nároku 2, kde zmíněné editační prostředky dále obsahují prostředky pro alternativní prohlížení (501 a 502 nebo 505) zmíněného aktuálního nespárovaného slova v kon50 textu zmíněného výtisku zmíněného prvního psaného textu.

4. Vynález podle nároku 2, kde zmíněný první (702) a druhý (703) automatický prostředek hlasové konverze každý obsahují již existující program rozeznávání řeči určený pro lidské inter- 12CZ 299508 B6 aktivní použití, přičemž každý z obou, první a druhý automatický prostředek hlasové konverze, obsahují prostředek pro automatické odpovídání na sérii interaktivních dotazů od zmíněného již existujícího programu rozeznávání řeči.

5 - odlišné zvolení druhé soustavy konverzních proměnných z disponibilních jazykových modelů.

22. Způsob podle nároku 19, obsahující předběžné zpracování diktovaného hlasového souboru před automatickým vytvořením prvního psaného textu, přičemž předběžné zpracování tvoří

5 5. Vynález podle nároku 4, kde zmíněný rozdíl mezi první a druhou soustavou konverzních proměnných je zmíněný již existující program rozeznávání řeči obsahující zmíněný první (702) a druhý (703) automatický prostředek řečové konverze.

6. Vynález podle nároku 5, kde se zmíněný automatický prostředek řečové konverze (702, ío 703) zvolí ze skupiny tvořené zejména Dragon Systems' Naturally Speaking. IBM's Via Voice a Philips Corporation s Magie Speach.

7. Vynález podle nároku 2, kde zmíněný rozdíl mezi první a druhou soustavou konverzních proměnných (702, 703) obsahuje jazykový model používaný ve spojení se zmíněným již existují15 cím programem rozeznávání řeči.

8. Vynález podle nároku 7, kde se ve zmíněné první soustavě konverzních proměnných používá zevšeobecněného jazykového modelu a druhé soustavě konverzních proměnných se používá specializovaný jazykový model.

9. Vynález podle nároku 2, kde zmíněný rozdíl mezi zmíněnou první a druhou soustavou konverzních proměnných obsahuje alespoň jedno nastavení, jež je spojeno se zmíněným již existujícím programem rozeznávání řeči.

25 10. Vynález podle nároku 2, kde zmíněný rozdíl mezi zmíněnou první a druhou soustavou konverzních proměnných zahrnuje prostředky předběžného sluchového zpracování před zadáním do zmíněného prvního automatického konverzního prostředku (702).

10 alespoň část první soustavy konverzních proměnných.

23. Způsob podle nároku 22, který obsahuje předběžné zpracování souboru hlasového diktátu způsobem odlišným než u první soustavy předběžného zpracování konverzních proměnných, než se automaticky vytvoří druhý psaný text, a přitom předběžné zpracování tvoří alespoň část druhé

10 - první prostředek (702) pro automatickou konverzi zmíněného diktovaného hlasového souboru na první psaný text, přičemž první automatický konverzní prostředek má první soustavu konverzních proměnných;

druhý prostředek (703) pro automatickou konverzi zmíněného diktovaného hlasového sou15 boru na druhý psaný text, přičemž druhý automatický konverzní prostředek má druhou soustavu konverzních proměnných, přičemž mezi prvním a druhým souborem konverzních proměnných je alespoň jeden rozdíl; a prostředek (705) pro ruční editaci výtisku zmíněného prvního a druhého psaného textu pro

20 vytvoření doslovného textu umíněného diktovaného hlasového souboru;

kde zmíněný první psaný text je alespoň dočasně synchronizován se zmíněným diktovaným hlasovým souborem a zmíněný ruční editační prostředek obsahuje:

25 - prostředek (406A) pro sekvenční porovnávání výtisku prvního psaného textu se zmíněným druhým psaným textem, z nějž vyplyne sekvenční seznam rozdílných slov vyřazených ze zmíněného prvního psaného textu, přičemž sekvenční seznam má začátek, konec a aktuální nespárované slovo, přičemž aktuální nespárované slovo se postupně posouvá od zmíněného začátku ke změněnému konci;

prostředek (406A, 500) pro inkrementální současné vyhledávání zmíněného aktuálního nespárovaného slova v první vyrovnávací paměti přidružené k zmíněnému prvnímu automatickému konverznímu prostředku obsahujícím změněný první psaný text, a v druhé vyrovnávací paměti přidružené ke zmíněnému sekvenčnímu seznamu; a prostředky (502, 505, 24) pro korekci zmíněného aktuálního nespárovaného slova ve zmíněné druhé vyrovnávací paměti, přičemž zmíněné korekční prostředky včetně prostředků k zobrazení zmíněného aktuálního nespárovaného slova způsobem, který je v podstatě vizuálně izolován od ostatního textu ve zmíněném výtisku zmíněného prvního psaného textu

40 a prostředky (406C, 510, 20, 51 nebo 52) pro přehrání části zmíněného synchronizovaného hlasového diktátu zaznamenaného podle zmíněné první vyrovnávací paměti spojené se zmíněným aktuálním nespárovaným slovem.

11. Vynález podle nároku 10, kde zmíněný rozdíl mezí zmíněnou první a druhou soustavou kon30 verzních proměnných obsahuje prostředky předběžného sluchového zpracování (701) před vložením do zmíněného druhého automatického konverzního prostředku (703), kde první a druhý proměnná předběžného zpracování jsou různé.

12. Vynález podle nároku 11, kde se zmíněná proměnná předběžného zpracování zvolí ze

35 skupiny tvořené v podstatě velikostí digitálního slova, rychlostí odběru vzorků a odstraněním konkrétních harmonických rozsahů.

- 13 CZ 299508 B6

17. Vynález podle nároku 2, dále obsahující prostředek pro nácvik (401-411) zmíněného automatického konverzního prostředku řeči k dosažení vyšší přesnosti u diktovaného hlasového souboru aktuálního uživatele.

18. Vynález podle nároku 17, kde zmíněné nácvikové prostředky (401 - 411) zahrnují již existující cvičnou část již existujícího programu rozeznávání řeči určeného pro lidské interaktivní použití, přičemž zmíněný nácvikový prostředek zahrnuje prostředky pro automatické odpovědi na sérii interaktivních dotazů ze zmíněné již existující cvičné části zmíněného existujícího pro10 gramu rozeznávání řeči.

19. Způsob automatizace transkripčních služeb pro jednoho nebo několik hlasových uživatelů v systému obsahujícím alespoň jeden program rozeznávání řeči, který zahrnuje

15 - přijímání diktovaného hlasového souboru od aktuálního hlasového uživatele;

automatické vytváření prvního psaného textu ze souboru hlasového diktátu s programem rozeznávání řeči při použití první soustavy konverzních proměnných;

20 - automatické vytváření prvního psaného textu ze souboru hlasového diktátu s programem rozeznávání řeči při použití druhé soustavy konverzních proměnných; manuální provedení přesného souboru porovnáním prvního a druhého psaného textu; a

25 - vrácení doslovného souboru aktuálnímu uživateli, kde zmíněný krok manuálního provedení přesného souboru zahrnuje dílčí kroky:

postupného porovnávání výtisku prvního psaného textu s druhým psaným textem, ze kterého

30 vyplyne sekvenční seznam nespárovaných slov vyřazených z výtisku prvního psaného textu, přičemž sekvenční seznam má začátek, konec a aktuální nespárované slovo, a aktuální nespárované slovo se postupně posouvá od začátku ke konci;

postupné současné vyhledávání aktuálního nespárovaného slova v první vyrovnávací paměti

35 spojené s alespoň jedním programem rozeznávání řeči, který obsahuje první psaný text, a v druhé vyrovnávací paměti, jež je spojena se sekvenčním seznamem; a zobrazení aktuálního nespárovaného slova způsobem v podstatě vizuálně izolovaným od ostatního textu ve výtisku prvního psaného textu a přehrání části synchronizovaného hlaso40 vého diktátu zaznamenaného v první vyrovnávací paměti spojené s běžným nespárovaným slovem; a korekce běžného nespárovaného slova tak, aby doslovně reprezentovalo danou část synchronizovaného záznamu hlasového diktátu.

20. Způsob podle nároku 19, který obsahuje:

volbu první soustavy konverzních proměnných z disponibilního existujícího programu rozeznávání řeči; a odlišnou volbu druhé soustavy konverzních proměnných z disponibilních stávajících programů rozeznávání řeči.

- 14CZ 299508 B6

21. Způsob podle nároku 19, obsahující:

zvolení první soustavy konverzních proměnných z disponibilních jazykových modelů; a

13. Vynález podle nároku 2, kde zmíněný rozdíl mezi první a druhou soustavou konverzních proměnných zahrnuje jazykový model používaný ve spojení se zmíněným existujícím progra40 mem rozeznávání řeči.

14. Vynález podle nároku 13, kde se používá ve zmíněné první soustavě konverzních proměnných zobecněného jazykového modelu a ve zmíněné druhé soustavě konverzních proměnných se používá jazykového modelu specializovaného.

15. Vynález podle nároku 2, kde rozdíl mezi první a druhou soustavou konverzních proměnných zahrnuje prostředek pro předběžné sluchové zpracování (701) před vložením do zmíněného prvního automatického konverzního prostředku (702).

50 16. Vynález podle nároku 15, kde zmíněný rozdíl mezi zmíněnou první a druhou soustavou konverzních proměnných obsahuje prostředek pro předběžné sluchové zpracování (701) před vložením do zmíněného druhého prostředku automatické konverze (702), kde zmíněná první a druhá proměnná předběžného zpracování (702, 703) jsou různé.

15 soustavy konverzních proměnných.