CZ301799B6 - Zpusob úpravy datové informace v systému - Google Patents

Zpusob úpravy datové informace v systému Download PDF

Info

Publication number
CZ301799B6
CZ301799B6 CZ20070509A CZ2007509A CZ301799B6 CZ 301799 B6 CZ301799 B6 CZ 301799B6 CZ 20070509 A CZ20070509 A CZ 20070509A CZ 2007509 A CZ2007509 A CZ 2007509A CZ 301799 B6 CZ301799 B6 CZ 301799B6
Authority
CZ
Czechia
Prior art keywords
data information
data
group
sections
short
Prior art date
Application number
CZ20070509A
Other languages
English (en)
Other versions
CZ2007509A3 (cs
Inventor
Kencl@Lukáš
Loebl@Martin
Blamey@Jenny
Original Assignee
Kencl@Lukáš
Loebl@Martin
Blamey@Jenny
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kencl@Lukáš, Loebl@Martin, Blamey@Jenny filed Critical Kencl@Lukáš
Priority to CZ20070509A priority Critical patent/CZ301799B6/cs
Priority to US12/670,908 priority patent/US8856940B2/en
Priority to PCT/CZ2008/000076 priority patent/WO2009015616A2/en
Publication of CZ2007509A3 publication Critical patent/CZ2007509A3/cs
Publication of CZ301799B6 publication Critical patent/CZ301799B6/cs

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/145Countermeasures against malicious traffic the attack involving the propagation of malware through the network, e.g. viruses, trojans or worms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioethics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Virology (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

Datové informace, reprezentované elektrickými nebo vlnovými signály nebo datové informace v umelých a prírodních databázích a záznamových mediích, napríklad DNA, kódované jako rada znaku, se za úcelem maskování a pri soucasném zachování jejich vybrané lokální datové informace, rozdelí ve fyzickém médiu, zejména hardwaru pocítace, fyzickém komunikacním kanálu, fyzickém záznamovém médiu ci biologickém materiálu, na krátké prekrývající se datové úseky. Délka techto úseku je minimálne stejná nebo delší než je délka vybrané lokální datové informace, a sledovaná lokální datová informace je v krátkých úsecích obsažena celá. Tyto rozdelené krátké úseky vytvorí první skupinu a alespon k jednomu krátkému úseku první skupiny se pridají data, kódovaná jako vybrané znaky, pred nebo za znaky krátkých úseku první skupiny, pricemž vybrané znaky a jejich sled je stejný nebo ruzný a získaná smes puvodních krátkých úseku a modifikovaných úseku tvorí druhou skupinu a úseky druhé skupiny se vzájemne spojí v radu dat. Celý proces lze nekolikrát opakovat. Predmetem je i použití zpusobu úpravy datových informací ke konstrukci systému prvku, které sdílí lokální informace a jejich datových rad za úcelem získání nových vlastností systému.

Description

Způsob úpravy datové informace v systému
Oblast techniky
Vynález se týká úpravy informace za účelem jejího maskování a ochrany obsahu citlivé informace při ponechání pouze její Části, sledované lokální datové informace, v systému obsahujícím alespoň jednu informaci. Systém je tvořen prvky a sdílením informací mezi nimi. Každá informace je všeobecně chápána jako datová informace, která je obsažena v přírodních databázích, například genetické datové informace uložené v DNA a vázané na chromatinová vlákna, nebo datová informace uložená v umělých databázích a záznamových médích.
Datová informace je také reprezentovaná elektrickými nebo vlnovými signály, jako jsou zejména datagramy, pakety či stopy procházející jedním čí více body v sítích Internetu v daném časovém úseku, nebo data ve vyhledávačích, nebo data generovaná operačními systémy a s nimi spojenými aplikacemi, nebo data zaznamenaná např. uzlem komunikační sítě nebo vyměňované informace obsažené v sítích operátorů. Datová informace je všeobecně kódovaná jako řada znaků vybraných ze skupiny tvořené písmeny, číslicemi nebo libovolnými symboly. Systém je charakterizován minimálně jednou řadou znaků.
Dosavadní stav techniky
Prvky se rozumí například uživatelé Internetu, různé pracovní skupiny jedné firmy nebo státní instituce, uživatelé stejné aplikace, například počítačového programu, nebo informačního systému, buňky v biologickém systému, například v mnohobuněčném organizmu, prvky mohou být také prostředníci sdílení datových informací, například komunikační kanály a uzly, prvky mohou být také skupiny prvků nebo podsystémy. Datové informace o prvku mohou být například genetická informace buňky nebo elektrické signály reprezentující stav operačního systému v daném okamžiku, nebo například elektrické signály nebo vlnové signály reprezentující identifikační údaje uložené v umělých databázích, například zaznamenání věku a adresy. Sdílením informací se rozumí například internetové komunikace nebo souhrnná komunikační data (např. stopa výměny dat mezi několika uživateli, zaznamenaná např. uzlem komunikační sítě) nebo vyměňované datové informace obsažené v sítích operátorů nebo zveřejnění hromadných dat například o vyhledávání v sítích. Sdílením informaci v biologických systémech se rozumí například zpracování různých fyzických signálů, nebo fragmentů genetické informace obsažené v genomické DNA buňkami, nebo částmi DNA jedné buňky.
Běžné statistické metody sbírají informace o prvcích a jimi sdílené informace nezbavené soukro40 mého obsahu. Tyto metody předpokládají, že informace je sbírána autoritou mající obecnou důvěru, ze sebrané informace nezneužije a také je ochrání před nepřátelskými útoky. Tento předpoklad je nerealistický: jednotlivé prvky Často nemají důvod věřit autoritě, která informace sbírá. Proto informace pro sběr nedávají a statistika je nemožná. Někdy se ochrana přístupu k citlivým informacím při zpracování či studiu dalším subjektem řeší dvoustrannými právními dohodami a značnými sankcemi při jejich případném úniku Či zneužití. Nevýhodou takového postupu je značná pracnost, nerozšiřitelnost ve větším měřítku, komplikované Či nemožné zpřístupnění dalším subjektům, obtížná i nákladná kontrola a vymahatelnost, obtížné a nákladné zabezpečení a značná neúčinnost (zejména ochrana před úniky způsobenými vlastním personálem).
Existují ovšem důležité postupy týkající se systémů, které potřebují pouze část informace. Příkladem takového postupu je detekce vírů v internetové komunikaci, kde nebezpečí viru je indikováno tím, že internetová komunikace obsahuje krátký úsek z databáze nebezpečných úseků. Nebezpečí jiného ohrožení může být indikováno častým opakováním stejného krátkého úseku v internetové komunikaci.
- 1 CZ 301799 B6
Z hlediska postupů týkajících se systémů, které potřebují jen část datové informace, jsou důležité krátké úseky původní datové informace, které nazveme lokální datovou informací. Neuspořádanou skupinu více lokálních datových informací nazveme souborem lokálních datových informa5 cí. Výše uvedené vede k potřebě úpravy původní datové informace - kódované jako řada znaků, při které by se její obsah skryl a zároveň by se zachoval relevantní soubor lokálních datových informací.
Upravená datová informace obsahující soubor lokálních datových informací by se mohla sdílet a io umožnila by studium a úpravy systému a podpořila by vzájemnou komunikaci mezi prvky. Návrh na úpravu datových informací byl zpracován v práci: Lukáš Kencl, Jose Zamora, Martin Loebl, „Packet Content Anonymization by Hiding Words“, Demo na IEEE INFOCOM, Barcelona, Spain, April 2006, pomocí náhodného míchání souboru překrývajících se datových úseků. Ukázalo se nicméně, že tento postup nevede ke skrytí původní datové informace,
Z oblasti biologie je známé, že velká Část genomu eukaryotů je tvořena podúseky DNA, které se mnohokrát opakují přesně nebo s malými odchylkami. V počítačové biologii je tento jev identifikován jako hlavní překážka současných metod rekonstrukce delších úseků DNA ze známého souboru kratších překrývajících se úseků. Důvodem je, že jestliže soubor obsahuje velké množ20 ství kratších úseků s opakujícími se počátečními nebo koncovými podúseky, existuje nezvládnutelně mnoho možných variací na rekonstrukci delších úseků, které jsou konzistentní s analýzou překrývání.
Podstata vynálezu
Datové informace, potřebné k řešení celé řady problémů různých systémů, jsou zejména z důvodů jejich možného zneužití často nedostupné. Jejich nedostatek nás přinutil zabývat se otázkou úpravy datových informací tak, aby jejich původní obsah se skryl, ale aby jejich lokální datové informace, které by byly předmětem studia systému, zůstaly zachovány.
Uvedené nedostatky týkající se zejména možného zneužití informací odstraňuje úprava datových informací, reprezentovaných elektrickými nebo vlnovými signály nebo datových informací v přírodních a umělých databázích a záznamových médích, za účelem maskování a ochrany obsahu citlivých datových informací a současném ponechání jejich vybrané části, sledované lokální datové informace v systému obsahujícím alespoň jednu datovou informaci, kde původní úplná datová informace je kódovaná jako řada znaků vybraných ze skupiny tvořené písmeny, číslicemi nebo libovolnými symboly spočívající v tom, že se celá původní datová informace rozdělí ve fyzickém médiu, například v hardwaru počítače, fyzickém komunikačním kanálu, fyzickém záznamovém médiu či biologickém materiálu, na krátké překrývající se datové úseky, přičemž délka těchto krátkých úseků je minimálně stejná nebo delší než je délka sledované lokální datové informace, a sledovaná lokální datová informace je v krátkých úsecích obsažena celá, tyto rozdělené krátké úseky vytvoří první skupinu a alespoň k jednomu krátkému úseku první skupiny se přidají data kódovaná jako vybrané znaky před nebo za znaky krátkých úseků první skupiny, přičemž vybrané znaky a jejich sled je stejný nebo různý a získaná směs původních krátkých úseků a modifikovaných úseků tvoří druhou skupinu a úseky druhé skupiny se vzájemně spojí v řadu dat.
S výhodou se tyto spojené úseky druhé skupiny znovu zpracují podle předcházejícího postupu, přičemž rozdělení na krátké úseky a přidávání vybraných znaků se může provádět stejně nebo jinak a vzniklá další nová druhá skupina se opět spojí v řadu dat a tato procedura se několikrát opakuje za účelem rozšíření opakujících se podúseků, to je stejných posloupností znaků, jejichž počet a složení je náhodné. Opakující se podúseky mohou, ale nemusí obsahovat lokální informaci.
-2CZ 301799 B6
Tímto způsobem upravené datové informace, rozumí se datové řady a/nebo maskované datové řady vytvořené, například vlastním systémem pomocí opakujících se datových podúseků, jak je to známé například z oblasti biologie, lze použít ke studiu příslušného systému a zpracování údajů týkajících se lokální informace. Například se sleduje výskyt specifických krátkých úseků, relativní četnost stejných úseků nebo jejich závislost na Čase.
Tímto způsobem upravené datové řady podle vynálezu a/nebo maskované datové řady vytvořené, například vlastním systémem pomocí opakujících se datových podúseků, lze dále použít ke konio strukci a koordinaci složitých systémů.
Tímto způsobem upravené datové rady a/nebo maskované datové řady vytvořené například vlastním systémem, pomocí opakujících se datových podúseků, lze použít pro kontrolu datových informací, například zpracování záznamů, stop, otisků či instancí operačních systémů, nebo počítačových aplikací, z hlediska bezpečnosti, korektností, důvěryhodnosti. Nebo je lze použít pro statistické analýzy, například často používaných instrukcí či datových bloků, například pro navázání bezpečné komunikace či spolupráce, pro jejich migraci či replikaci na jiné výpočetní zařízení či procesor, pro jejich kopírování na jiná zařízení či média za účelem úschovy Či pro studium jejich chování v závislosti na čase.
Tímto způsobem upravené datové řady a/nebo maskované datové řady, vytvořené například vlastním systémem pomocí opakujících se datových podúseků, lze bezpečně použít například pro sdílení, zveřejňování, prodej, vyměňování a pro analýzu dat v sítích a vyhledávačích, nebo například stop, otisků, či instancí operačních systémů, počítačových aplikací či zaznamenané komunikace a interakce.
Tímto způsobem upravené datové řady a/nebo maskované datové řady, vytvořené, například vlastním systémem pomocí opakujících se datových podúseků, lze použít pro studium systému za účelem poznání jeho dynamického vývoje a rozpoznání, prevence, využití či izolace útoku, náka30 zy či jiného pozorovatelného jevu v systému.
S výhodou způsob použití spočívá v tom, že v nejméně jedné upravené a/nebo maskované datové řadě, kódované jako rada znaků se sledují skupiny opakujících se datových podúseků a/nebo jejich umístění v datové řadě a/nebo jejich průběžné změny v čase, a/nebo změny v jejich umís35 tění v datové řadě, přičemž tyto změny mohou být vyvolané přirozeně nebo uměle.
Tento způsob sledování je vhodný k diagnostice abnormálního chování mechanismu maskování datové informace pomocí skupin opakujících se datových podúseků ve sledované části systému a ke koordinaci systému spočívající v prevenci vad systému, například nemocí v biologickém sys40 tému, způsobených abnormálním chováním mechanismu maskování informace pomocí skupin opakujících se podúseků v části systému.
Dlouhodobý pozorovatel datové řady upravené podle vynálezu a/nebo maskované datové řady, vytvořené například vlastním systémem, pomocí opakujících se datových podúseků si může po čase pozorování zrekonstruovat část původní datové informace.
Proto se dále s výhodou podle vynálezu průběžně provádí popsaná modifikace a konstrukce systému, která spočívá v tom, že se skupiny opakujících se datových podúseků obsažené v nejméně jedné upravené a/nebo maskované datové řadě, kódované jako řada znaků, průběžně modifikují například přidáním dalších dat, kódovaných jako znaky, k opakujícím se datovým podúsekům na jejich začátek a/nebo na jejich konec, a/nebo se v těchto datových podúsecích vymění skupina dat, kódovaných jako znaky, a/nebo se datové podúseky přemístí na jiné místo v upravené datové řadě a/nebo se do upravené datové řady vloží náhodně další datové podúseky v datové řadě již obsažené.
-3CZ 301799 B6
Tuto konstrukci a modifikaci si každý prvek systému může provádět podle vybraného technologického postupu sám.
Dále předmětem vynálezu je způsob konstrukce systému novou datovou informací, který spočívá v tom, že se ke krátkým úsekům obsahujícím soubor lokálních datových informací z nové datové informace přidají na jejich začátek a /nebo konec datové podúseky ze skupin opakujících se datových podúseků konstruované datové řady a výsledná skupina datových úseků se náhodně vloží, do nejméně jedné konstruované upravené a /nebo maskované datové informace.
Při sledování chování biologických systémů nás napadlo, že skupiny opakujících se podúseků v genomu mohou mít ochrannou maskovací funkci. Snaží se zabránit, aby se delší úseky DNA jednotlivých buněk - prvků biologického systému daly snadno zrekonstruovat ze znalosti kratších úseků.
Dále nás napadlo využít popsané empiricky pozorované těžkosti rekonstrukce řady znaků, která obsahuje skupiny opakujících se podúseků, ze souboru překrývajících se úseků, na návrh postupu, jak upravovat datovou informaci kódovanou jako řada znaků tak, aby se skryla původní datová informace, ale aby soubor lokálních datovaných informací krátkých datových úseků zůstal zachován pro statistická zpracování a jiné důležité postupy týkající se systémů.
Některé z těchto krátkých datových úseků se mohou najít například v databázi indikující počítačové viry. V počítačové biologií se také pozorovala korelace atypického vývoje skupin opakujících se krátkých úseků v DNA a konkrétních nemocí, například diabetes a schizofrenie.
DNA se obecně považuje za depositář genetické informace. Napadlo nás, že DNA, která obsahuje skupiny opakujících se podúseků, se chová jako upravená maskovaná informace. Soubor lokálních datových informací - krátkých úseků řady DNA je dostupný ostatním buňkám v biologickém systému k pozorováním. Napadlo nás, že toto chování DNA se dá využít při sledování a konstrukci biologických systémů ale také při konstrukci, sledování a koordinaci jiných systémů.
Nejdůležitějším přínosem úpravy informace podle vynálezu je maskování původní informace, kódované jako řada znaků, a tím skrytí obsahu a významu původní informace, zatímco relevantní soubor lokálních datových informací zůstane zachován. Prvky systému se nemusí obávat rekons35 trukce původní datové informace či zneužití při předávání upravených datových informací respektive datových řad. K úpravě datové informace se použijí různé variace postupu podle vynálezu, které jsou dány k disposici každému prvku. Pomocí těchto různých variací postupu prvky svou původní datovou informaci samy upraví a dají ji k disposici pro studium a úpravy systému.
Výhodou úpravy datové informace podle vynálezu je umožnění různých použití týkajících se upravené datové informace v systémech. Jde například o studium a modelování chování a komunikace účastníků v komunikačních sítích na základě upravené datové řady záznamu komunikace (včetně jejího upraveného obsahu), což lze využít například při vytváření cílené reklamy, při vytváření aplikací pro koučink, analýzu, školení a zefektivnění Činnosti jednotlivců a organizací či při optimalizaci provozu či odhalování závad či útoků v síti Internetu, kdy by ve všech těchto případech přítomnost citlivých údajů, obsažených v neupravené datové informaci, znemožňovala použití takovéto aplikace, zejména vyvíjené, provozované či užívané další stranou. Prostřednictvím upravené datové informace-záznamů vyhledávání v automatizovaných vyhledávačích lze studovat a modelovat chování uživatelů a na základě získaných údajů mohou provozovatelé vyhledávačů i další strany optimalizovat činnost vyhledávačů a cílené reklamy. Záznamy komunikace účastníků v sítích a vyhledávání ve vyhledávačích uživateli lze v podobě upravené datové řady podle vynálezu také komerčně nabízet k prodeji třetím stranám, zveřejňovat či vyměňovat mezi provozovateli sítí či vyhledávačů, neboť vysoká výpočetní složitost rekonstrukce původní (neupravené) datové informace zabraňuje zneužití citlivých informací o účastnících či uživate-4CZ 301799 B6 lích. Upravené datové informace podle vynálezu lze využít také například pro zpřístupnění databází zdravotních či biologických záznamů za účelem výzkumu či vývoje nových léčiv či léčebných Či diagnostických postupů či modelování chování jednotlivců. Dále je lze využít při sdílení upravené datové řady ze záznamových médií (např. zvukové Čí kamerové systémy) pro případy ochrany bezpečnosti jinou stranou či povinnosti sdílet data se státními bezpečnostními orgány. Upravené datové informace lze také s výhodou využít při kontrole bezpečnosti, korektnosti při důvěryhodnosti jednotlivých instancí operačních systémů či aplikací nad nimi spuštěných, bez odhalení citlivých dat v těchto systémech obsažených.
Dále vynález umožňuje konstrukci a koordinaci systémů, které vedou ke zlepšení funkce systémů. V systému, kde upravená a/nebo maskovaná datová informace každého prvku je volně přístupná a sdílená celým systémem, je možná složitá koordinace umožňující například zabránit šíření nepříznivého jevu, například virů v internetové síti, nebo, jako je například koordinace systému buněk v mnohobuněčném organismu, kde sdílená maskovaná genetická informace každé buňky je obsažena v jejím DNA. Při sledování relevantní lokální datové informace a skupin opakujících se datových podúseků a jejich změn, a/nebo změn jejich umístění, v závislosti na čase, lze například provádět diagnostiku a prevenci chyb v systému nebo v jeho částech, a je také umožněno zjišťování a předpovídání globálních poruch systému způsobených poruchami mechanismu, provádějícího vlastní maskování informací. Lze například usuzovat na zdravotní stav biologických systémů.
Úpravou nové datové informace při jejím vkládáním do konstruované řady dat podle vynálezu lze docílit rychleji kladného výsledku a větší stability výsledného produktu, například v biologických systémech větší odolnosti proti autoimunitním reakcím.
Příklady provedení
Příklad 1 Zpracování předávaných datových informací na Internetu pro umožnění statistiky a studia Internetu.
V sítích Internetu jsou datové informace reprezentované jako elektrické a vlnové signály předávané jako datagramy, čí pakety. Datagramy či pakety jsou kódované řadou znaků určité délky, dané použitým protokolem. Pakety jsou rozděleny na hlavičku (header), obsahující výchozí a cílovou adresu a další kontrolní údaje, a tělo (payload, content), obsahující vlastní vyměňovaná data. Data vyměňovaná mezi dvěma či více uživateli mohou být na Internetu rozdělena do více paketů, které nemusí po Internetu cestovat bezprostředně po sobě, ani stejnou cestou. Záznam paketů procházejících jedním či více body Internetu v daném časovém úseku se obvykle nazývá stopa (trace). Tato stopa, čí pouze její část bez hlaviček, představuje předávanou -sdílenou datovou informaci na Internetu a tvoří vstupní - původní datovou informaci kódovanou řadou znaků. Studiem takové stopy lze například odhalit předávaný počítačový virus porovnáním s databází vírů, či rychle se šířící Internetový červ (worm) díky náhlému častému výskytu konkrétních krátkých úseků. Stopa ovšem obsahuje i sdělení soukromé povahy, které operátor sítě nechce či nesmí zaznamenávat, zpřístupňovat či zveřejnit. Ke studiu stopy za účelem odhalení nebezpečného viru může však postačit soubor lokálních datových informací-krátkých úseků.
Úprava vstupní, původní datové informace kódované řadou znaků některou z variant postupu podle vynálezu upraví stopu na upravenou datovou řadu kódovanou řadou znaků, která obsahuje soubor lokálních datových informací z původní stopy, ale původní stopu je z ní prokazatelně výpočetně složité odvodit zejména proto, že upravená stopa obsahuje skupiny opakujících se datových podúseků. Úprava datové informace podle vynálezu může být provedena například podle následující varianty postupu.
-5CZ 301799 B6
Varianta je popsána pro případ, že chceme zachovat všechny lokální datové informace, které mají danou délku. Ale podobně je možno postupovat i v případě že lokální datové informace, které chceme zachovat jsou jiné, například nejsou stejně dlouhé. Označme tedy k délku lokální datové informace, kterou chceme v úpravě zachovat. Variantu postupu popíšeme pomocí proce5 dur, pracujících s řadami znaků, které kódují datové informace.
Začneme popisem několika jednodušších procedur, postup se nakonec z těchto procedur poskládá. Cyklickou řadou míníme řadu-sled znaků, kde ztotožníme začátek a konec.
Procedura S1 ($, o, z, Z): vstupem je cyklická řada s, a parametry délky úseků jsou čísla o, z, Z přičemž platí, že délka lokální datové informace k, je menší nebo rovna o, což je menší nebo rovno z, což je menší nebo rovno Z.
Tato procedura se skládá z následujících kroků. Nejprve se řada s rozdělí na úseky Bl,... ,Bm tak že délka každého úseku Bi je náhodně vybrána z intervalu (y, Z). Úseky Bl,.,.,Bm tvoří první skupinu. Dále se na začátek každého úseku první skupiny přidá koncový úsek předešlého úseku délky o. Dále se může na konec každého takto vzniklého úseku přidat úsek obsahující jeden až dva znaky, vybraný náhodně z řady s. Takto upravené úseky tvoří druhou skupinu. Nakonec se úseky druhé skupiny seřadí do řady v náhodném pořadí.
Procedura S2(s, z, Z); vstupem je cyklická rada s, a parametry délky úseků jsou čísla z. Z. Tato procedura se skládá z následujících kroků.
Nejprve se řada s rozdělí na úseky Bl,... ,Bm tak že délka každého úseku Bije náhodně vybrána z intervalu (ζ,Ζ). Úseky Bl,... ,Bm tvoří první skupinu. Dále se na začátek každého úseku první skupiny přidá kopie celého předešlého úseku. Alternativně je například možno přidat jen podstatnou koncovou část předešlého úseku. Alternativně je také například možno ke každému vzniklému úseku na jeho konec přidat krátký úsek vybraný z řady s tak, aby koncový úsek tohoto nově vzniklého úseku se v souboru úseků opakoval. Takto upravené úseky tvoří druhou skupinu.
Nakonec se úseky druhé skupiny seřadí do řady v pořadí, které je možno popsat takto: Každý úsek první skupiny se objeví jednou jako počáteční a jednou jako koncový úsek nějakého úseku druhé skupiny. Proto je možno popsat seřazení pomocí vzájemně jednoznačného zobrazení (permutace) g na úsecích první skupiny, tak, že úsek druhé skupiny končící úsekem Bi první skupiny bude v seřazení pokračovat úsekem druhé skupiny začínajícím úsekem Bp(i) první skupiny. Při alternativním provádění procedury se pracuje s podstatnými částmi úseků první skupiny namísto těchto samotných úseků. Při seřazení použijeme libovolnou permutaci, pro kterou dostatečně mnoho (například 10 %) indexů i splňuje p(p(i)-l)= i+1.
Procedura S3(s,o,z,Z): vstupem je cyklická řada s, a parametry délky úseků jsou čísla o,z,Z.
Předpokládáme že řada s má tvar výstupu procedury $2, tj. radu s je možno zapsat jako Β1Β2Βρ(2)Β(ρ(2)Ή)... B(r-l)Br, kde r je index splňující p(r> 1. Nejprve popíšeme, jak rozdělíme řadu s. Pro takový popis stačí, opsat rozdělení, které v radě s provedeme. V obou výskytech (v řadě s= BlB2Bp(2)B(p(2)+l)..,B(r-l)Br), každého úseku Bi první skupiny provedeme stejné rozdělení řady s tak aby úsek Bi byl rozdělen na dva úseky, přičemž počáteční úsek by měl délku alespoň o. Úseky takto rozdělené řady s tvoří novou první skupinu. Dále se na začátek každého úseku nové první skupiny přidá koncový úsek předešlého úseku délky o. Dále se může na konec každého vzniklého úseku přidat úsek krátké délky, vybraný náhodně z rady s. Takto upravené úseky tvoří novou druhou skupinu. Nakonec se úseky nové druhé skupiny seřadí do řady v náhodném pořadí.
Dvě základní varianty postupu úpravy datové informace nyní můžeme popsat jako S3(S2(S1 Λ3 (s,k,k,3k/2),k,3k/2), k,k,3k/2) a S3(S2(s,k,3k/2),k,k,3k/2),
-6CZ 301799 B6 kde cyklická řada s vznikne ze vstupního řetězce ztotožněním jeho konce a počátku, k je délka lokální informace, kterou chceme uchovat, a ST3 značí tri aplikace procedury Sl, aleje možno procedury kombinovat i řadou jiných způsobů, například je možno zvolit jiný počet aplikací procedury Sl než tři.
Každý prvek systému může velmi snadno pomocí těchto variací svoji datovou informací upravit a dát ji k disposici ostatním neboť rekonstrukce citlivé původní datové informace-kódované jako řady znaků, na základě upravené datové řady je prokazatelně výpočetně složitá, protože existuje velké množství možných variací na rekonstrukci delších úseků, které jsou konzistentní s analý10 zou upravené řady znaků.
Vzniklá upravená datová řada umožňuje studium souboru lokálních informací původní stopy, například studium přibližné četnosti výskytu určitých vzorů-krátkých úseků naznačujících přítomnost viru. Mechanismus umožňuje rovněž zveřejňování, zpřístupnění či výměnu stop mezi prvky systému (operátory, uživateli, provozovateli), které si nemusí navzájem důvěřovat.
Příklad 2 Koordinace systému prvků - uživatelů operačních systémů.
Stavem operačního systémem nazýváme soubor konfigurací, počítače, které spravují nakládání se zdroji v počítači přítomnými, jako jsou například procesor, paměť, pevný disk, provádění programů, aplikace, apod.. Operační systém mj. sleduje stav jednotlivých aplikací nad ním spuštěných, a souborů uložených na pevném disku, V libovolném okamžiku se operační systém nachází v nějakém zcela zaznamenatelném stavu, reprezentovaném elektrickými signály a záznamy na záznamových médiích, které dohromady můžeme nazvat otiskem operačního systému. Otisk obsahuje například stav veškerých aplikací nad tímto operačním systému spuštěných a jím spravovaných a stav i obsah všech souborů daným operačním systémem spravovaných. Tento otisk operačního systému v daném okamžiku se všeobecně kóduje jako řada znaků. V rámci systému tato řada znaků představuje kódování původní datové informace prvku uživatele v daném okam30 žiku. Systém se vytvoří následujícím způsobem: Prvky uživatelé upraví otisk svého operačního systému například podle varianty popsané v prvním příkladě. Prvek-uživatel pak může zpřístupnit výslednou upravenou datovou řadu na přístupném místě, například na své webové stránce, kódovanou řadou znaků.
Podobně jako se v čase mění stav operačního systému, mění se také v čase jeho otisk, i jeho upravený otisk. Úpravy lze dosáhnout například opětovným prováděním úpravy celého otisku vždy v určitém časovém okamžiku na příklad podle varianty popsané v prvním příkladě. Je také možné soustředit se pouze na ta data a, která jsou v čase změněná oproti předchozímu otisku-s.
Při konstrukcí nového upraveného otisku v, lze tyto úseky a vložit do konstruované datové řady v, například následujícím způsobem: nově vkládaná data se nejprve upraví například podle varianty popsané v prvním příkladě. Ke každému krátkému datovému úseku souboru takto vzniklých lokálních datových informací-úseků, nebo k celému novému datovému úseku pokud se předešlá úprava neprovádí, se přidají na jejich začátek a /nebo konec opakující se datové podúseky ze skupin opakujících se podúseků jíž obsažených v konstruované upravené datové řadě v. Takto upravené úseky se vloží náhodně do konstruované datové řady v.
Prvky-uživatelé zpřístupňují upravenou datovou řadu v, kódovanou jako řada znaků, na volně přístupném místě, například na své webové stránce, či na místě s přístupem omezeným například jen pro některé další prvky-uživatele. Tato sdílená upravená datová řada slouží ke studiu systému i jednotlivých prvků zkoumáním údajů týkajících se lokální datové informace v otiscích (například výskyt specifických krátkých datových úseků, relativní četnost stejných datových úseků nebo jejich proměna v závislosti na čase). Toto studium může sloužit například ke kontrole sys-7CZ 301799 B6 tému či prvků-operacních systémů z hlediska bezpečnosti, korektnosti, důvěryhodnosti či statistické analýzy např. často používaných instrukcí či datových bloků. Toho lze využít např, při navázání bezpečné komunikace či spolupráce mezi prvky, při jejich migraci či replikaci na jiné výpočetní zařízení či procesor čí při jejich kopírování na jiná zařízení čí média za účelem úscho5 vy. Lze toho rovněž využít při konstrukci a studiu celého systému například za účelem poznání jeho dynamického vývoje a rozpoznání a izolace útoku či nákazy v systému. Příkladem systémů, které tak fungují, jsou biologické systémy.
io Příklad 3
Pro vložení nových genetických datových informací, například fluorescentních fúzních proteinových produktů, do buněk, jsou používány geneticky vytvořené bakteriální plasmidy a virové vektory. Úpravou genomu pomocí plasmidů lze vytvořit transformované buněčné linie.
Pro vytváření specifických proteinů lze využít specifický plasmid zkonstruovaný ze základní struktury plasmidů pUC. Do tohoto plasmidů se vloží promotér obratlovců vzatý z lidského cytomegaloviru CMV a genetická datová informace, kterou chceme vkládat.
Bylo pozorováno, že vytvořený plasmid a přepis a exprese příslušného proteinu z naší genetické datové informace v buňce, obr. 1, jsou stabilnější, jestliže promotéru předchází krátký opakující se podúsek póly C, za ním následuje promotér, potom opět podúsek póly C, a potom genetická datová informace (například gen) kterou chceme vložit do nově konstruovaného plasmidů, Nakonec na jeho konci následuje další podúsek póly C. Bylo pozorováno, že tento způsob vklá25 dání opakujících se podúseků vede k větší stabilitě příslušného plasmidů a přepisu a exprese příslušného proteinu. Chceme-li vytvářet příslušný protein v eukaryotech, bylo experimentálně pozorováno, že je výhodnější nakonec použít podúsek póly A místo podúseků póly C.

Claims (3)

  1. PATENTOVÉ NÁROKY
    35 1. Způsob úpravy datových informací, reprezentovaných elektrickými nebo vlnovými signály nebo datových informací v přírodních a umělých databázích a záznamových médích, za účelem maskování a ochrany obsahu citlivých datových informací při současném zachování jejich vybrané části, sledované lokální datové informace, v systému obsahujícím alespoň jednu datovou informaci, kde původní úplná datová informace je kódovaná jako řada znaků vybraných ze sku40 piny tvořené písmeny, číslicemi nebo libovolnými symboly, vyznačující se tím, že se celá původní datová informace rozdělí ve fyzickém médiu, zejména hardwaru počítače, fyzickém komunikačním kanálu, fyzickém záznamovém médiu či biologickém materiálu, na krátké překrývající se datové úseky, přičemž délka těchto úseků je minimálně stejná nebo delší než je délka sledované sbírané lokální datové informace, a sledovaná lokální datová informace je v krátkých
    45 úsecích obsažena celá, tyto rozdělené krátké úseky vytvoří první skupinu a alespoň k jednomu krátkému úseku první skupiny se přidají data kódovaná jako vybrané znaky před nebo za znaky krátkých úseků první skupiny, přičemž vybrané znaky a jejich sled je stejný nebo různý a získaná směs původních krátkých úseků a modifikovaných úseků tvoří druhou skupinu a úseky druhé skupiny se vzájemně spojí v radu dat.
    -8CZ 301799 B6
  2. 2, Úprava datové informace podle nároku 1 vyznačující se tím, že se spojené úseky druhé skupiny znovu zpracují podle nároku 1, přičemž rozdělení na krátké úseky a přidávání vybraných znaků se může provádět stejně nebo jinak a vzniklá další nová druhá skupina se
    5 opět spojí v řadu dat a tato procedura se několikrát opakuje za účelem rozšíření opakujících se podúseků.
  3. 3. Použití způsobu úpravy datových informací podle nároků 1 a 2 ke konstrukci systému prvků, které sdílí lokální informace a jejich datových řad za účelem získání nových požadovalo ných vlastností systému.
CZ20070509A 2007-07-30 2007-07-30 Zpusob úpravy datové informace v systému CZ301799B6 (cs)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CZ20070509A CZ301799B6 (cs) 2007-07-30 2007-07-30 Zpusob úpravy datové informace v systému
US12/670,908 US8856940B2 (en) 2007-07-30 2008-07-02 Processing of data information in a system
PCT/CZ2008/000076 WO2009015616A2 (en) 2007-07-30 2008-07-02 Masking sensitive information while preserving parts of the information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CZ20070509A CZ301799B6 (cs) 2007-07-30 2007-07-30 Zpusob úpravy datové informace v systému

Publications (2)

Publication Number Publication Date
CZ2007509A3 CZ2007509A3 (cs) 2009-02-11
CZ301799B6 true CZ301799B6 (cs) 2010-06-23

Family

ID=40304944

Family Applications (1)

Application Number Title Priority Date Filing Date
CZ20070509A CZ301799B6 (cs) 2007-07-30 2007-07-30 Zpusob úpravy datové informace v systému

Country Status (3)

Country Link
US (1) US8856940B2 (cs)
CZ (1) CZ301799B6 (cs)
WO (1) WO2009015616A2 (cs)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9589146B2 (en) 2014-04-22 2017-03-07 International Business Machines Corporation Method and system for hiding sensitive data in log files
WO2016063169A1 (en) * 2014-10-23 2016-04-28 Semiconductor Energy Laboratory Co., Ltd. Light-emitting element
AU2017363146B2 (en) 2016-11-16 2023-11-02 Catalog Technologies, Inc. Systems for nucleic acid-based data storage
US10650312B2 (en) 2016-11-16 2020-05-12 Catalog Technologies, Inc. Nucleic acid-based data storage
JP7364604B2 (ja) 2018-03-16 2023-10-18 カタログ テクノロジーズ, インコーポレイテッド 核酸ベースのデータ記憶のための化学的方法
US20200193301A1 (en) 2018-05-16 2020-06-18 Catalog Technologies, Inc. Compositions and methods for nucleic acid-based data storage
EP3966823A1 (en) 2019-05-09 2022-03-16 Catalog Technologies, Inc. Data structures and operations for searching, computing, and indexing in dna-based data storage
CA3157804A1 (en) 2019-10-11 2021-04-15 Catalog Technologies, Inc. Nucleic acid security and authentication
AU2021271639A1 (en) 2020-05-11 2022-12-08 Catalog Technologies, Inc. Programs and functions in DNA-based data storage
US12034765B1 (en) * 2023-07-24 2024-07-09 Mordecai Barkan Securing network access with legacy computers

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7151831B2 (en) * 2001-06-06 2006-12-19 Sony Corporation Partial encryption and PID mapping
US7802257B1 (en) * 2005-06-20 2010-09-21 Oracle America, Inc. Mechanism for bridging a thread-oriented computing paradigm and a job-oriented computing paradigm
US7984169B2 (en) * 2006-06-28 2011-07-19 Microsoft Corporation Anonymous and secure network-based interaction

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
J.Z.PONCE, M.LOEBL, L.KENCL, Packet Content Anonymization by Hiding Words, IEEE INFOCOM, Barcelona, 2006 *
R.Pang and V.Paxson, A high-level programming environment for packet trace anonymization and transformation, ACM SIGCOMM, 2003 *

Also Published As

Publication number Publication date
WO2009015616A3 (en) 2009-04-30
WO2009015616A4 (en) 2009-06-18
US20100205676A1 (en) 2010-08-12
CZ2007509A3 (cs) 2009-02-11
US8856940B2 (en) 2014-10-07
WO2009015616A2 (en) 2009-02-05

Similar Documents

Publication Publication Date Title
CZ301799B6 (cs) Zpusob úpravy datové informace v systému
Bonomi et al. Privacy challenges and research opportunities for genomic data sharing
Årnes Digital forensics
Naveed et al. Privacy in the genomic era
Vincze Challenges in digital forensics
Sedayao et al. Enhancing cloud security using data anonymization
Aminnezhad et al. A survey on privacy issues in digital forensics
Kyaw et al. Dictionary attack on Wordpress: Security and forensic analysis
Prayudi et al. Digital evidence cabinets: A proposed framework for handling digital chain of custody
Layton et al. Automating open source intelligence: algorithms for OSINT
JP2022547697A (ja) トランザクション内の遺伝データ
Mahdi et al. Secure similar patients query on encrypted genomic data
Soghoian Enforced community standards for research on users of the Tor anonymity network
Guo et al. Research and review on computer forensics
Benjamin et al. Time-to-event modeling for predicting hacker IRC community participant trajectory
Borges et al. SARS-CoV-2 introductions and early dynamics of the epidemic in Portugal
Okabe et al. Spread of variants of epidemic disease based on the microscopic numerical simulations on networks
Hinch et al. Estimating SARS-CoV-2 variant fitness and the impact of interventions in England using statistical and geo-spatial agent-based models
Reno et al. Utilizing IPFS and Private Blockchain to Secure Forensic Information
US20140095700A1 (en) System and method for passive decoding of social network activity using replica database
Khan et al. An Intelligent Blockchain and Software‐Defined Networking‐Based Evidence Collection Architecture for Cloud Environment
Heng et al. On the effectiveness of graph matching attacks against privacy-preserving record linkage
Howden et al. Virtual vignettes: the acquisition, analysis, and presentation of social network data
Kävrestad et al. Fundamentals of Digital Forensics: A Guide to Theory, Research and Applications
Howden et al. Moments in time: A forensic view of twitter

Legal Events

Date Code Title Description
MM4A Patent lapsed due to non-payment of fee

Effective date: 20170730