FI120755B - Tietueiden käsittely vastinparien löytämiseksi vertailutietojoukosta - Google Patents

Tietueiden käsittely vastinparien löytämiseksi vertailutietojoukosta Download PDF

Info

Publication number
FI120755B
FI120755B FI20030855A FI20030855A FI120755B FI 120755 B FI120755 B FI 120755B FI 20030855 A FI20030855 A FI 20030855A FI 20030855 A FI20030855 A FI 20030855A FI 120755 B FI120755 B FI 120755B
Authority
FI
Finland
Prior art keywords
synonym
data field
value
data
candidate
Prior art date
Application number
FI20030855A
Other languages
English (en)
Swedish (sv)
Other versions
FI20030855A (fi
FI20030855A0 (fi
Inventor
Pentti Pulkkinen
Timo Surakka
Original Assignee
Tieto Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tieto Oyj filed Critical Tieto Oyj
Priority to FI20030855A priority Critical patent/FI120755B/fi
Publication of FI20030855A0 publication Critical patent/FI20030855A0/fi
Priority to US10/559,386 priority patent/US7958129B2/en
Priority to EP04735585A priority patent/EP1631923A1/en
Priority to PCT/FI2004/000331 priority patent/WO2004109546A1/en
Publication of FI20030855A publication Critical patent/FI20030855A/fi
Application granted granted Critical
Publication of FI120755B publication Critical patent/FI120755B/fi

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

t
Tietueiden käsittely vastinparien löytämiseksi vertailutietojoukosta KEKSINNÖN ALA
5 Esillä oleva keksintö liittyy yleisesti tietueiden käsittelyyn, jotka saattavat sisältää tietoa, kuten nimiä tai muita eri tavoin kirjoitettuja nimikkeitä, vastinparin löytämiseksi näille tietueille vertailutietojoukosta. Esillä oleva keksintö liittyy erityisesti vastinparin löytämiseen tietueelle käyttämällä synonyymijoukkoa, joka kuvaa tunnettuja variaatioita tunnistearvoille.
10
KEKSINNÖN TAUSTAA
Monissa kielissä tietyt nimet, jotka kuulostavat samanlaisilta, on kirjoitettu eri tavoin. Esimerkiksi tiettyjen etu- tai sukunimien kirjoittamiseen saattaa olla 15 joitain yleisiä tapoja. Mitä tulee katujen, tai muiden maantieteellisten kohteiden nimiin, on usein virallisia tapoja kirjoittaa nämä nimet ja lukuisia tapoja lyhentää ne. Lisäksi kirjoitusvirheet tai muut tahalliset virheet voivat aiheuttaa lisävariaatioita kirjoitettuihin nimiin.
20 Monissa tietojenkäsittelysovelluksissa tietueita verrataan vertailutietojoukkoon vastinparin löytämiseksi tietueille. Uuden asiakastiedon tarkistaminen vertaamalla tietoa olemassa oleviin asiakastietoihin tai virallisista tietorekistereistä saatuun tietoon voi esimerkiksi olla tarpeen.
♦ · · • · · ··· · • « : 25 Kun vastinparien haku suoritetaan tietueelle, tulee sallia pienet variaatiot ·*.·**: nimien kirjoittamisessa tai muissa tunnisteissa tai yleensä tietueissa olevissa merkkijonoissa, muussa tapauksessa vastinpareja löydetään vain niille :*·*· tietueille, jotka on kirjoitettu tarkalleen samoin kuin merkinnät ;···. vertailutietojoukossa. Vastinpari tulisi löytää niin monelle tietueelle kuin 30 mahdollista, mutta löydetyn vastinparin tulisi olla oikea. On tärkeää välttää virheellisten vastinparien löytämistä, sillä sellaisessa tapauksessa esimerkiksi kaksi asiakasta voi sekoittua keskenään. Mitä älykkäämpää vastinparien • · ’*;·* haku on, sitä enemmän käsittelykapasiteettia se tyypillisesti vaatii.
:T: Vastinparien haun tulisi sallia tarpeeksi variaatioita todennäköisten :***: 35 vastinparien löytämiselle, mutta silti välttää väärien vastinparien löytyminen.
··· » ··« • · *
Esimerkiksi asiakastietoja sisältävissä sovelluksissa (customer information • ♦ *···* applications) vastinparien haku tapahtuu yleensä automaattisesti ja tietueet, 2 joille ei löydy vastinparia, saatetaan käsitellä manuaalisesti. Näin ollen on toivottavaa minimoida niiden tietueiden määrä, joille ei voida löytää vastinpareja. Vastinparien löytäminen nopeasti ja luotettavasti on vaativa tehtävä erityisesti suuria tietomääriä käsiteltäessä.
5
On olemassa erilaisia menetelmiä käsiteltävien tietueiden vastinparien haulle vertailutietojoukosta. Eräs menetelmä, jota voidaan käyttää, perustuu koko tekstin indeksointiin (full text indexing), jossa vastinparien samankaltaisuuden määrää samanlaisten merkkijonojen tai samojen yksittäisten kirjainten 10 lukumäärä käsiteltävän tiedon ja vertailutietojoukon välillä. Tavanomainen koko tekstin indeksointi ei ota huomioon järjestystä, jossa samankaltaiset kirjaimet ovat tietueessa ja vertailutietojoukon merkinnöissä. Tavanomainen koko tekstin indeksointi ei myöskään ole herkkä loogiselle asiayhteydelle, jossa samankaltaiset merkkijonot ovat tietueessa ja vertailutietojoukon 15 merkinnöissä. Yleensä koko tekstin indeksointi on paremmin sovellettavissa mahdollisten vastinparien joukon löytämiseen kuin sen arvioimiseen, onko mahdollinen vastinpari käypä tietylle tietueelle.
Toinen menetelmä vastinparien hakemiseksi perustuu tietueiden jakamiseen 20 tiettyjä tunnisteita sisältäviksi tietokentiksi. Käytettäessä esimerkkinä asiakastietoja tunnisteet voivat sisältää etunimen, sukunimen ja kadun nimen, jolloin sekä käsiteltävän että vertailutietojoukon tieto jaetaan samalla tavoin tietokentiksi. Sitten näitä käsiteltävien tietueiden tietokenttiä ja • · * ·*·: : vertailutietojoukkojen merkintöjen vastaavia tietokenttiä verrataan toisiinsa.
t * : 25 On mahdollista käyttää kenttäkohtaisia kriteerejä sopivan vastaavuusehdon .**.*’.* määrittämiseksi kentille. Tämä tekee vastinparin hausta luotettavampaa, mutta saattaa vaatia enemmän käsittelyresursseja. Vastaavuusehdon ·*·*; täyttyminen tietokentälle edellyttää tyypillisesti, että kulloinkin kyseessä olevan • · .···. tietueen tietokenttäarvon tulee muodostaa ainakin alamerkkijono 30 vertailutietojoukon merkinnän tietokenttäarvosta.
• · · *"| Menetelmässä, jossa tietueet jaetaan tietokentiksi, vastinparia tietueelle • · *·;** etsittäessä vertailutietojoukon merkinnälle voidaan antaa pisteitä jokaista :T: tietokenttää kohden, joka vastaa etsittävän tietueen tietokentää. Jotta 35 vertailutietojoukon merkintä voitaisiin hyväksyä vastinpariksi, täytyy merkinnän ·*· tyypillisesti saada kokonaispistemäärä, joka ylittää tietyn kynnyksen.
*;].* Vaihtoehtoisesti tai lisäksi voidaan määritellä muita kriteerejä merkinnän • · *···' hyväksymiselle vastinpariksi. Kynnys ja mahdolliset muut kriteerit määritetään 3 yleensä aikaisemman samankaltaisen tiedon käsittelykokemukseen perustuen tai kokeellisesti suorittamalla testiajoja.
Kuten edellä mainittiin, vaatimukset vastaavuuden löytymiselle käsiteltävän 5 tietueen tietokentän ja vertailutietojoukon merkinnän tietokentän välillä voivat olla melko tiukat. Näin ollen määritettäessä vastaavuuksia tietokentille käytetään usein vertailujoukkoja ja/tai synonyymijoukkoja. Vertailujoukko merkitsee tässä selityksessä tietorakennetta, joka luetteloi ennaltamäärätyt arvot tunnisteelle. Nämä ennaltamäärätyt arvot kuvaavat yleensä erilaisia 10 oikeita tapoja kirjoittaa nimi tai muu tunniste. Synonyymijoukko merkitsee tässä selityksessä tietorakennetta, joka luetteloi jo tunnetut variaatiot tunnistearvoille. Nämä variaatiot sisältävät tyypillisesti tavanomaisia kirjoitusvirheitä. Merkintä synonyymijoukossa viittaa tyypillisesti merkintään vertailujoukossa, jotta synonyymijoukon merkintä voidaan yhdistää 15 vastaavaan vertailujoukon tunnisteen arvoon. Mitä tulee esimerkiksi kadunnimiin, vertailujoukko sisältäisi erilaisia virallisia tapoja kirjoittaa ja/tai lyhentää kadunnimiä, kun taas synonyymijoukko sisältäisi epävirallisia tapoja kirjoittaa kadunnimiä tai niiden lyhenteitä, tai hiukan virheellisesti (mutta silti tunnistettavasti) kirjoitettuja kadunnimiä.
20
Vastaavan tietokentän löytymiseksi käsiteltävän tietueen tietokentälle, käsiteltävän tietueen tietokentän sisällön tulee tyypillisesti olla identtinen tai , . muodostaa alamerkkijono tietokentän sisällöstä joko vertailujoukon • · · j*Y merkinnässä tai synonyymijoukon merkinnässä. On mahdollista, että tietyn :* 25 tietueen tietokentää vastaavaa tietokenttää ei ole vertailu- tai • · ·'.·’.·* synonyymijoukoissa. Esimerkiksi kadunnimi voi olla virheellisesti kirjoitettu !***: siten, että synonyymijoukossa ei ole merkintää, joka sisältäisi tämän :*·*: variaation kadunnimestä. Tällaisessa tapauksessa riippuu vertailutietojoukon :***· merkintöjen pisteistä (tai muista arviointituloksista), riittävätkö toisiin 30 tietokenttiin liittyvät vastaavuudet vastinparin löytymiseksi tietueelle, joka sisältää virheellisesti kirjoitetun kadunnimen.
«M» M· • · **:*’ Vertailujoukkoja päivitetään yleensä määräajoin, esimerkiksi viikoittain, uusien ··· v : kadunnimien lisäämiseksi. Vertailujoukkojen päivittäminen on usein 35 suoraviivaista, koska tämä tieto voi tyypillisesti olla vastaanotettu virallisista lähteistä. Synonyymijoukot päivitetään yleensä harvemmin. Tämä päivittäminen tehdään yleensä käymällä manuaalisesti läpi tietueita, joille ei ♦ · ’**·* ole löydetty vastinpareja aikaisemmin suoritetuissa hauissa. Tietokenttien 4 arvoille, jotka ovat tunnistettavia, voidaan tehdä merkintöjä synonyymijoukkoon. On kuitenkin mahdollista, että virheitä tapahtuu päivitettäessä synonyymijoukkoa manuaalisesti. Kriteerit tietyn tunnisteen variaation merkitsemiseen voivat myös riippua päivityksestä vastuussa 5 olevasta henkilöstä. Mitä kadunnimiin tulee, on esimerkiksi mahdollista, että kadunnimi, joka viittaa katuun tietyssä kaupungissa, lisätään virheellisesti synonyymijoukkoon kadunnimenä, joka viittaa katuun toisessa kaupungissa. Manuaalisen päivityksen aikana on myös lukuisia muita mahdollisuuksia virheisiin.
10
Kuten edellä mainittiin, vastinparien löytäminen luotettavasti käsiteltäville tietueille riippuu vertailujoukkojen ja synonyymijoukkojen sisällöstä.
Esillä olevan keksinnön suoritusmuotojen tarkoitus on ratkaista ongelmat 15 vastinparien löytämisessä nopealla ja luotettavalla tavalla. Asiaan liittyvät ongelmat on esitetty edellä.
KEKSINNÖN LYHYT YHTEENVETO
20 Keksinnön ensimmäisen aspektin mukainen tietueen käsittelymenetelmä vastinparin löytämiseksi vertailutietojoukosta käsittää seuraavat vaiheet: määritetään tietokentän arvo tietueessa tietokentän esittäessä , , tunnistetta, • · · * määritetään ennalta määrättyjen tunnistearvojen joukosta ainakin : 25 yksi synonyymiehdokas tietokentän arvolle, • · •VV määritetään, täyttävätkö synonyymiehdokas ja tietokentän arvo ennalta määrätyn synonyymin hyväksyntäkriteerin ja, mikäli ennalta määrätty :*·*: synonyymin hyväksyntäkriteeri täyttyy, liitetään tietokentän arvo ja synonyymiehdokas synonyymeiksi, ja • · · 30 haetaan vastinparia tietueelle vertailemalla vertailutietojoukon merkintöihin tietokentän arvoa ja/tai tietokentän arvoon liitettyä synonyymia.
• · · · #·» • · *:** Keksinnön toisen aspektin mukainen synonyymijoukon käsittelymenetelmä • · · •V : vertailutietojoukossa olevien vastinparien löytämiseksi tietueille, tietueen 35 sisältäessä tunnistetta esittävän tietokentän, synonyymijoukon jäsenten .···, ollessa ensimmäisiä tunnistearvoja ja viitatessa vastaaviin toisiin • · · '‘..t tunnistearvoihin toisten tunnistearvojen ollessa ennalta määrättyjä **·* tunnistearvoja ja mainitun vastinparin haun sisältäessä tietokentän arvon 5 vertaamisen synonyymijoukkoon, menetelmän käsittäessä vaiheet, joissa määritetään ennaltamäärättyjen tunnistearvojen joukosta ainakin yksi synonyymiehdokas, joka liittyy tietokentän arvoon tietueessa, ja mikäli tietokentän arvo ja synonyymiehdokas täyttävät ennalta määrätyn synonyymin 5 hyväksyntäkriteerin, lisätään ennen vastinparin hakua tietueelle tietokentän arvo synonyymijoukkoon synonyymiehdokkaaseen viittaavana jäsenenä.
Keksinnön kolmannen aspektin mukainen tietokoneohjelma käsittää toimintaohjeet, jotta tietokone suorittaisi minkä tahansa liitteenä olevan 10 menetelmävaatimuksen menetelmän.
Keksinnön neljännen aspektin mukainen tietokoneohjelma sisältyy tietokoneella luettavalle tallennevälineelle.
15 Keksinnön viidennen aspektin mukainen tietojenkäsittelyjärjestelmä tietueiden käsittelemiseksi vastinparien löytämistä varten vertailutietojoukosta käsittää: - välineet tietueiden vastaanottamista varten, - välineet vertailutietojoukon tallentamista varten, - välineet ennaltamäärättyjen tunnistearvojen tallentamiseksi tunnistetta 20 varten, - välineet tietokentän arvojen määrittämiseksi tietueissa tietokentän kuvatessa tunnistetta, . . - välineet tietokentän arvojen ja vastaavien ennaltamäärättyjen • · · ;,:t: tunnistearvojen liittämiseksi synonyymeiksi, mainittujen välineiden ·:*·: ·: 25 ollessa järjestetyt määrittämään ennaltamäärätyistä tunnistearvoista \v ainakin yhden synonyymiehdokkaan tietokentän arvolle, määrittämään, • ·· täyttävätkö synonyymiehdokas ja tietokentän arvo ennaltamäärätyn synonyymin hyväksyntäkriteerin, ja mikäli ennaltamäärätty synonyymin hyväksyntäkriteeri täyttyy, liittämään tietokentän arvo ja • · · 30 synonyymiehdokas synonyymeiksi, ja - välineet vastinparien hakemiseksi vertailutietojoukosta tietueille, mainitun haun sisältäessä vertailutietojoukkojen merkintöjen • · "* vertaamisen tietokenttien arvoihin ja/tai tietokenttien arvoihin liittyviin M» v : synonyymeihin.
·*« 35 ,···, Keksinnön kuudennen aspektin mukainen tietojenkäsittelyjärjestelmä · · synonyymijoukon käsittelemiseksi vastinparien hakemiseksi *"' vertailutietojoukosta tietueille, tietueen käsittäessä tunnistetta esittävän 6 tietokentän, synonyymijoukon jäsenten ollessa ensimmäisiä tunnistearvoja ja viitatessa vastaaviin toisiin tunnistearvoihin, mainittujen toisten tunnistearvojen ollessa ennaltamäärättyjä tunnistearvoja ja mainitun haun sisältäessä tietokentän arvon vertaamisen synonyymijoukkoon, järjestelmän 5 käsittäessä: - välineet synonyymijoukon tallentamiseksi, - välineet ennaltamäärättyjen tunnistearvojen tallentamiseksi tunnistetta varten, - välineet tietueiden vastaanottamiseksi, 10 - välineet tietokentän arvojen määrittämiseksi tietueissa, ja - välineet tietokentän arvon ja vastaavien ennaltamäärättyjen synonyymeiksi liitettyjen tunnistearvojen lisäämiseksi synonyymijoukkoon ennen vastinparien hakua vertailutietojoukosta, mainittujen välineiden ollessa järjestettyjä määrittämään ennaltamäärätyistä tunnistearvoista ainakin yhden 15 synonyymiehdokkaan tietokentän arvolle, määrittämään täyttävätkö synonyymiehdokas ja tietokentän arvo ennaltamäärätyn synonyymin hyväksyntäkriteerin, ja mikäli ennaltamäärätty synonyymin hyväksyntäkriteeri täyttyy, liittämään tietokentän arvo ja synonyymiehdokas synonyymeiksi.
20 Keksinnön joissakin suoritusmuodoissa synonyymijoukko päivitetään dynaamisesti. Näissä suoritusmuodoissa synonyymijoukon päivitys on osa vastinparien löytämisprosessia käsiteltäville tietueille, ja se suoritetaan . ^ automaattisesti riippuen ennalta määrätystä synonyymin |*Y hyväksyntäkriteeristä. Mikäli ennaltamäärätty synonyymin hyväksyntäkriteeri • · · ·;·/ 25 täyttyy, tietokenttäarvo, joka muodostaa osan senhetkisestä käsiteltävästä :.v tietueesta, lisätään synonyymijoukkoon. Määrittämällä sopiva synonyymin >·« hyväksyntäkriteeri on mahdollista ohjata vastinparien löytämistarkkuutta vertailutietojoukosta. On myös mahdollista välttää virheitä, jotka liittyvät :”*s synonyymijoukon manuaaliseen päivitykseen. Synonyymin hyväksyntäkriteeri 30 voi olla määritetty esimerkiksi tunnetun tietuejoukon testiajoilla.
··· .···. Synonyymit voidaan tallentaa ja niitä voidaan käyttää lisätietueiden • · käsittelemiseksi tai vaihtoehtoisesti synonyymia (synonyymeja), jotka on v : liitetty tietyn tietueen tietokenttäarvoon, voidaan käyttää vain tuota tiettyä ··· 35 tietuetta varten. Joissakin keksinnön suoritusmuodoissa synonyymit määritetään jokaiselle tietueelle lennossa. Tämä tarkoittaa sitä, että vaikka .···, kaksi tai useampi tietue sisältää saman ei-ennaltamäärätyn arvon tietylle • · ··· 7 tietokentälle, samaa proseduuria synonyymin liittämiseksi tähän tietokenttäarvoon käytetään jokaiselle näistä tietueista.
PIIRUSTUSTEN LYHYT KUVAUS 5
Esillä olevan keksinnön ymmärtämisen helpottamiseksi ja sen esittämiseksi, miten keksintö voidaan toteuttaa, viitataan nyt vain esimerkinomaisesti oheisiin piirustuksiin, joissa:
Kuvio 1 esittää esimerkkinä kaavamaisesti yleiskuvauksen menetelmästä, 10 jossa keksinnön suoritusmuodot ovat sovellettavissa;
Kuvio 2 esittää esimerkkinä kaavamaisesti yleiskuvauksen menetelmästä, johon sisältyy keksinnön suoritusmuoto;
Kuvio 3 esittää esimerkkinä vuokaavion keksinnön ensimmäisen suoritusmuodon mukaisesta menetelmästä; 15 Kuvio 4 esittää esimerkkinä osan keksinnön toisen suoritusmuodon mukaisesta vuokaaviosta;
Kuvio 5 esittää esimerkkinä kadunnimiin liittyvän vertailutaulun;
Kuvio 6 esittää esimerkkinä kadunnimiin liittyvän synonyymitaulun;
Kuvio 7 esittää kaksi esimerkkiä Levenshteinin etäisyyyden laskemisesta; ja 20 Kuvio 8 esittää esimerkkejä, jotka liittyvät identtisten merkkien osien laskemiseen.
KEKSINNÖN EDULLISTEN SUORITUSMUOTOJEN YKSITYISKOHTAINEN
."M KUVAUS
• « * : 25 φ * *.v Kuvio 1 esittää esimerkkinä kaavamaisesti yleiskuvauksen menetelmästä, • · » jossa keksinnön suoritusmuodot ovat sovellettavissa. Kuviossa 1 käsiteltävät ·**[: tietueet 101 esitetään tallennettuina disketille. Vertailutietojoukko 102, josta vastinpareja tulee hakea, esitetään kuviossa 1 tietokantana. Vertailujoukko 30 103 ja synonyymijoukko 104, jotka liittyvät tiettyyn tunnisteeseen, esimerkiksi kadunnimeen, esitetään tallennettuina tietokantoihin. Käsiteltäessä suuria *··*. tietomääriä vertailutietojoukko, vertailujoukot ja synonyymijoukot yleensä • t tallennetaan tietokantoihin.
»M
• · · • Φ m :!!!: 35 On huomattava, että vaikka kuvio 1 esittää vertailujoukon 103 ja synonyymijoukon 104 ainoastaan yhdelle tietylle tunnisteelle, synonyymien • · · .e.., käsittelyä voidaan suorittaa usealle tunnisteelle. Tällaisissa tapauksissa useat • · *" vertailujoukot ja synonyymijoukot liittyvät vastaanotettujen tiedostojen 8 käsittelyyn. On mahdollista, että nämä eri vertailu- ja synonyymijoukot on tallennettu yhteen ainoaan tietokantaan. Vertailu- ja synonyymijoukkoja käsitellään usein tietokannan tauluina,. mutta ne voivat olla mitä tahansa muita sopivia tietorakenteita. Synonyymijoukko ja vertailujoukko voidaan tallentaa 5 tietokoneen muistiin tai pysyvämpään muistiin.
Vastaanotettu tieto 101 esikäsitellään ensin vaiheessa 110. Esikäsittely nojaa siihen, että käsiteltävissä tietueissa määritetään ainakin yksi tunnistetta kuvaava tietokenttä. Vastaanotettu tieto voi sisältää tietokentän erottimia tai 10 muulla tavoin osoittaa tietokentän. Vaihtoehtoisesti esikäsittelyssä voidaan merkkijono jakaa sopivaksi määräksi tietokenttiä. Tyypillisesti käsiteltävät tietueet jaetaan useisiin tunnisteita sisältäviin tietokenttiin. Esikäsittely voi myös sisältää tietokenttäarvojen muokkaamista joidenkin ennalta määrättyjen sääntöjen mukaisesti. Esimerkiksi käsiteltäessä nimiä kuvaavia tietokenttiä voi 15 olla suotavaa muuntaa merkkijonot muotoon, jossa kaksoiskonsonantit korvataan yksinkertaisilla konsonanteilla. Kuviossa 5 on esimerkki kaksoiskonsonanttien ja -vokaalien korvaamisesta yksinkertaisilla konsonanteilla ja vokaaleilla. Tällaiset ennalta määrätyt säännöt riippuvat tyypillisesti kyseessä olevasta kielestä. Merkinnät vertailutietojoukossa 102 on 20 tyypillisesti esikäsitelty samalla tavoin.
Käsiteltävät tietueet 101 sisältävät tyypillisesti joitain tietokenttiä, joita ei löydy : .·. vertailutietojoukon merkinnöistä. Asiakastieto esimerkissä asiakastunnisteet • * · ;'*V voivat olla tällaista tietoa. Vastinpareja voidaan hakea käyttämällä kaikkia niitä "V 25 tietokenttiä, jotka esiintyvät sekä käsiteltävissä tietueissa 101, että ; · * vertailutietojoukon 102 merkinnöissä, tai käyttämällä vain joitain noista *···** yhteisistä tietokentistä.
·· · ♦ · · ♦ t • ·
Esikäsitellyt tietueet tallennetaan tiedostona (tai tietokantana) 121.
30 Synonyymikäsittely vaiheessa 111 käyttää vertailujoukkoa 103 ja ··· synonyymijoukkoa 104 tunnisteen tietokentän (tietokenttien) arvojen ···» .**·. muuntamiseksi ennalta määrätyiksi tunnistearvoiksi. Esimerkiksi jos «·· kadunnimi lyhennetään virallisella tavalla voidaan lyhenne muuntaa viralliseksi • · · y * kadunnimeksi vertailujoukon 103 avulla. Toisena esimerkkinä, jos kadunnimi 35 käsiteltävässä tietueessa on tunnettu muunnelma, se voidaan muuntaa viralliseksi kadunnimeksi synonyymijoukon 104 avulla. Tyypillisesti .·*·» vertailujoukossa oleva tunnistearvo lisätään lisätietokenttään tietueessa.
Tiedostoon 122 tallennettu tieto sisältää näin ollen yleensä sekä tietokentän g alkuperäisen arvon, että vastaavan virallisen tunnistearvon, kun tuo arvo voidaan löytää käyttämällä vertallujoukkoa ja/tai synonyymijoukkoa. Voi tietenkin käydä niin, ettei esimerkiksi ole mahdollista löytää kadunnimen uudelle muunnokselle vastaavaa virallista kadunnimeä.
5
Vaiheessa 112 vertailutietojoukon ehdokkaat (merkinnät) arvioidaan esimerkiksi antamalla pisteitä jokaiselle sellaiselle ilmentymälle, jonka tietokenttää vastaava tietokenttä löytyy käsiteltävästä tietueesta. Vastaavuuksien antamien pisteiden määrä voi olla erilainen eri tietokenttien 10 kohdalla. Eräs tapa päättää vastaavuuden antamien pisteiden määrä kullekin tietokentälle on suorittaa testiajoja. Tyypillisesti kaikkein relevantimpien tietokenttien vastaavuuksille annetaan enemmän painoarvoa tässä arviointivaiheessa kuin vähemmän relevanttien tietokenttien pareille.
15 Tähän arviointivaiheeseen 112 liittyvät tyypillisesti kaikki ne tietokentät, joiden perusteella vastinpareja haetaan. Vertailutietojoukon merkinnän hyväksymiseksi vastinpariksi käsiteltävälle tietueelle merkinnän pisteiden (tai muiden arviointitulosten) täytyy tyypillisesti ylittää tietty kynnys. Vaihtoehtoisesti tai lisäksi voi olla joitain muita kriteerejä, jotka merkinnän 20 tulee täyttää. Esimerkiksi tietyn tietokentän sisällön tulee ehkä olla virheetöntä. Kynnys ja mahdolliset muut kriteerit on yleensä määritetty aikaisempaan kokemukseen perustuen käsiteltäessä samankaltaista tietoa tai tekemällä koeajoja.
* * ·
··» I
t · • f « :;γ 25 Tietylle käsiteltävälle tietueelle voidaan löytää nolla vastinparia, yksi vastinpari • · · ’;!** tai useita vastinpareja. Tämä esitetään kuviossa 1 seuraavalla kolmella tiedostolla: ei vastinpareja 123, yksi vastinpari 124 ja useita vastinpareja 125.
·· · j *.·’ Tiedosto 123, joka liittyy tunnistamattomiin tietueisiin, sisältää tyypillisesti ί***: alkuperäiset tietueet. Tiedostot 124 ja 125 sisältävät tyypillisesti sellaisia 30 tietueita, joissa tietokenttien alkuperäinen sisältö on korvattu vastaavalla ··· vertailutietojoukkojen tietokenttien sisällöllä. Kaikki ylimääräinen alkuperäinen ···* .*··. tieto, jota ei käytetä vastinparien haussa, on tyypillisesti tiedostoissa 124 ja 125.
«M • · · • · · ·· 35 Käsiteltävät tietueet voivat esimerkiksi olla asiakastietueita, jotka sisältävät asiakasnumerolta, etunimiä, sukunimiä ja osoitteita. Vastinpareja voidaan ,·*·, hakea vertailutietojoukoista käyttämällä nimi- ja osoitetietoa. Tässä esimerkikssä tiedostot 124 ja 125 sisältävät etunimiä, sukunimiä ja osoitteita, 10 jotka on kirjoitettu samalla tavoin kuin vastinparimerkinnöissä vertailutietojoukossa ja alkuperäisissä asiakasnumeroissa.
Useat vastinparit voivat liittyä esimerkiksi tietueeseen, jossa on annettu vain 5 etunimen ensimmäinen kirjain ja vertailutietojoukossa on useita merkintöjä, joissa etunimi alkaa tällä kirjaimella ja joiden muut tietokentät ovat myös kyllin samankaltaisia käsiteltävän tietueen toisiin tietokenttiin nähden.
Kuvio 2 esittää esimerkkinä kaaviomaisesti yleiskuvan menetelmästä 200, 10 joka liittyy keksinnön suoritusmuotoon. Menetelmässä synonyymijoukko 104 päivitetään vaiheessa 201 käyttämällä olemassa olevien käsiteltävien tietuejoukkojen tietoa ja vertailujoukon 103 tietoa. Kuten kuviossa 2 esimerkinomaisesti esitetään, synonyymijoukon päivitys suoritetaan yleensä käyttämällä tiedoston 121 esikäsiteltyjä tietueita.
15
Vaiheessa 201 käsiteltävän tietueen tietokentän arvolle synonyymiehdokkaaksi sopiva tunnistearvo määritetään ensin ennalta määrätyistä tunnistearvoista. Tyypillisesti synonyymiehdokkaat määritetään käyttämällä vertailujoukkoa 103, johon ennalta määrätyt tunnistearvot on 20 tallennettu, kuten kuviossa 2 on esitetty. Synonyymiehdokkaat on tyypillisesti määritetty ennalta määrättyjä sääntöjä käyttämällä. Mikäli tietokentän ja synonyymiehdokkaan arvo täyttää synonyymin hyväksyntäkriteerin, synonyymijoukko 104 voidaan sitten päivittää lisäämällä siihen merkintä, joka :*y sisältää tietokentän arvon ja viittaa synonyymiehdokkaaseen, eli yhteen • · t 25 vertailujoukon 103 tunnistinarvoon. Vaihtoehtoisesti synonyymijoukko :.v voidaan liittää tietokentän arvoon esimerkiksi sijoittamalla synonyymi *«· lisätietokenttään relevantissa tietueessa.
·· · I · • « • · ί*“: Muut menetelmävaiheet ja väliaikaiset tiedostot, jotka liittyvät menetelmään 30 200, ovat samankaltaisia kuin ne, jotka liittyvät kuvion 1 menetelmään 100.
··· .’···, Kuviossa 2 esitetty menetelmä tehdään tyypillisesti eräajona. Tämä tarkoittaa • · *·* sitä, että vaihe 110 suoritetaan ensin tietylle käsiteltävien tietueiden joukolle.
V : Sen jälkeen synonyymit liitetään tietueiden tietokenttäarvoihin vaiheessa 201 35 ja tallennetaan tietorakenteeseen, esimerkiksi synonyymitauluun. Tyypillisesti yhteen tietueeseen liittyvä merkintä synonyymitaulukossa tehdään ennen kuin .*··. aletaan käsitellä toista seuraavaa tietuetta, mutta on myös mahdollista liittää • * ensin synonyymit kaikkiin relevantteihin tietokenttäarvoihin tietuejoukossa ja 11 sitten lisätä nämä synonyymitauluun. Kun synonyymitaulu on päivitetty ainakin joillakin tietokenttäarvoilla, jotka ovat tietuejoukossa, synonyymien käsittelyvaihe 111 suoritetaan kaikille tietueille, jotka kuuluvat käsiteltävään joukkoon.
5
On huomattava, että ryhdyttäessä analysoimaan tietuejoukkoa synonyymijoukko 104 voi joko jo sisältää ainakin yhden merkinnän tai se voi olla tyhjä. Siten on mahdollista päivittää olemassa oleva synonyymijoukko vaiheessa 201 tai luoda uusi synonyymijoukko vaiheessa 201.
10
On mahdollista liittää synonyymit kaikille tietokentän arvoille tietuejoukossa, mutta tyypillisesti tietokentän arvoa verrataan ensin merkintöihin vertailujoukossa 103 ja merkintöihin synonyymijoukossa 104. Mikäli tietokenttäarvo on jo vertailujoukossa 103 tai synonyymijoukossa 104, sitä ei 15 tarvitse lisätä synonyymijoukkoon. Toisaalta toteutuksesta riippuen voi olla resursseja kuluttavampaa verrata tietokenttäarvoa vertailujoukkoon ja/tai synonyymijoukkoon kuin yksinkertaisesti ryhtyä liittämään synonyymiä tietokentän arvoon. Erityisesti joissakin tietokannoissa indeksi voi olla asetettu sivuuttamaan automaattisesti kaksoismerkinnät tietokantaan. Tällaisessa 20 tapauksessa synonyymijoukko ei sisältäisi kaksoismerkintöjä, vaikka synonyymit liitettäisiin jokaiseen tietokenttäarvoon vertaamatta niitä synonyymijoukkoon.
♦ « • · i • * · |'V On huomattava, että keksinnön joissakin suoritusmuodoissa tietueita ei \*V 25 käsitellä eräajoina. Tietueet voidaan käsitellä tietue tietueelta esimerkiksi ’;,Y suorittamalla vaiheet 110, 201, 111 ja 112 ensimmäiselle tietueelle ja sitten [;·;** toiselle tietueelle ja niin edelleen. Keksinnön näissä suoritusmuodoissa, joissa : V tietueet käsitellään tietue tietueelta synonyymijoukko voidaan tallentaa • · * tietorakenteeseen ja päivittää vaiheessa 201. Vaihtoehtoisesti on mahdollista, 30 ettei ole olemassa tiettyä erillistä tietorakennetta synonyymijoukon ·:· tallentamista varten. Esimerkiksi synonyymiä, joka liitetään tietueen :'**· tietokentän arvoon, saatetaan käyttää vain tätä tiettyä tietuetta varten ja « · · liitetty synonyymi voidaan tallentaa ainoastaan tähän tietueeseen. On vaihtoehtoisesti mahdollista, että liitetty synonyymi pidetään muistissa 35 tietueen käsittelyn aikana tallentamatta synonyymiä tietueeseen.
··* • · · • i · » :***. Kuvio 3 esittää esimerkinomaisesti vuokaavion keksinnön ensimmäisen ···* suoritusmuodon mukaisesta menetelmästä 300. Tässä suoritusmuodossa 12 synonyymi- ja vertailujoukot tallennetaan tauluihin. Jotkut vaiheet menetelmässä 300 vastaavat vaiheita menetelmässä 200. Käsiteltävä tietue vastaanotetaan vaiheessa 301. Vaiheessa 302 määritetään tietokenttäarvo, joka esittää tietyn tunnisteen arvoa.
5
Vaiheessa 303 tarkistetaan, tuleeko synonyymitaulun päivittäminen hylätä käsittelyssä olevan tietueen tietokenttäarvon kohdalla. Tyypilliset syyt synonyymitaulun päivittämisen hylkäämiselle keksinnön suoritusmuodoissa ovat, että käsittelyssä olevan tietueen tietokenttäarvo on jo olemassa 10 tunnistimeen liittyvässä vertailutaulussa ja/tai tunnistimeen liittyvässä synonyymitaulussa. Joissakin tapauksissa voi olla tarvetta joihinkin lisätarkistuksiin, jotka sisältävät ainakin yhden tietokentän käsittelyssä olevasta tietueesta. Tämä riippuu myös vertailutaulun tai synonyymitaulun sisällöstä. Esimerkiksi kadunnimeä varten vertailutaulu ja/tai synonyymitaulu 15 voi sisältää lisätietoa, joka osoittaa maantieteellisen alueen. Tämä lisätieto voi olla esimerkiksi kaupungin nimi, kaupungin numerokoodi tai postinumero. Esimerkiksi kadunnimessä, mikäli kadunnimi ja postinumero käsiteltävässä tietueessa ovat samat kuin vertailutaulun merkinnässä, ei ole tarpeen päivittää synonyymitauiua kadunnimeilä. On huomattava, että tällaista lisätietoa ei 20 tarvitse olla sekä vertailutaulukossa että synonyymitaulukossa, koska synonyymitaulun merkinnät viittaavat vertailutaulun merkintöihin. Alla on esimerkki vertailutaulun ja synonyymitaulun sisällöstä.
• · • · · • · ;*V Mikäli synonyymitaulun päivittäminen hylätään, menetelmä jatkuu vaiheessa 25 307, jossa haetaan vastinparia käsiteltävälle tietueelle synonyymitauiua *:’.** käyttämällä. On huomattava, että vaihe 303 estää esimerkiksi vertailutaulun * · merkintöjen kopioimisen synonyymitauluun ja tekee näin ollen J V synonyymitaulun käsittelyn vähemmän resursseja kuluttavaksi. Vaihe 303 ei ·*· kuitenkaan aina ole keksinnön suoritusmuodoissa tarpeellinen, kuten edellä 30 on esitetty.
··· «···
Mikäli harkitaan synonyymitaulun päivittämistä, määritetään vaiheessa 304 • · · synonyymiehdokas tietokenttäarvolle ennalta määritettyjen tunnistearvojen • · · *».* (tyypillisesti vertailutauluun tallennettujen) joukosta. Vaiheessa 305 35 tarkistetaan, täyttävätkö tietokenttäarvo ja synonyymiehdokas synonyymin hyväksyntäkriteerin. Synonyymiehdokkaiden - eli tunnistearvojen, jota .·*·. tietokenttäarvo luultavasti vastaa - määrittämistä selitetään tarkemmin • ^ i seuraavassa keksinnön toisen suoritusmuodon yhteydessä. Mikäli 13 synonyymin hyväksyntäkriteeri täyttyy, tunnistimen tietokenttäarvoon viittaava syrionyymiehdokas lisätään synonyymitauluun vaiheessa 306. Tämän jälkeen menetelmä 300 jatkuu vaiheessa 307, ja päivitettyä synonyymitaulua käytetään haettaessa vastinparia käsiteltävälle tietueelle. Mikäli synonyymin 5 hyväksyntäkriteeri ei täyty, menetelmä 300 jatkuu suoraan vaiheessa 307 synonyymitaulua päivittämättä.
On huomattava, että vaikka ensimmäistä suoritusmuotoa kuvataan edellä käsittelyssä olevan tietueen tietokenttäarvoon liittyen, on mahdollista päivittää 10 synonyymitaulu sisältämään merkintöjä tietyn tietuejoukon kaikille relevanteille tietokenttäarvoille ennen kuin aloitetaan näiden tietueiden vastinparien haku. On myös mahdollista, että hyväksytyt synonyymit liitetään tietokenttäarvoihin esimerkiksi sijoittamalla synonyymit lisätietokenttään vastaavissa tietueissa tai pitämällä liitettyjä synonyymejä muistissa, kunnes tietue on käsitelty.
15
Kuvio 4 esittää esimerkkinä osaa menetelmän 400 vuokaaviosta keksinnön toisen suoritusmuodon mukaisesti. Menetelmän 400 vaihe 401 vastaa menetelmän 300 vaihetta 303 kuviossa 3, mutta antaa tarkemman esimerkin hylkäyskriteeristä. Menetelmän vaiheet 402 - 405 antavat tarkemman 20 esimerkin synonyymiehdokkaan märittämisestä tietokenttäarvolle (vaihe 304) ja synonyymin hyväksyntäkriteerille vaiheessa 305.
. . Vaiheessa 401 tarkistetaan ensin, löytyykö kyseinen tietokenttäarvo : V merkinnästä vertailutaulukossa tai synonyymitaulukossa. Lisäksi voidaan • · * : 25 tarkistaa, että toinen tietokenttä tutkittavassa tietueessa, mainitun toisen *·ν tietokentän esittäessä toista tunnistetta, on identtinen tai muistuttaa vastaavaa «·· tietoa vertailutaulun tai synonyymitaulun merkinnässä.
· · • · · • · • ·
Esimerkkinä käsitellään kadunnimiä sekä vertailu- ja synonyymitauluja, jotka 30 sisältävät tietoa kadunnimistä ja niihin liittyvistä postinumeroista. Kuviot 5 ja 6 kuvaavat esimerkkeinä vertailutaulua 500 ja synonyymitaulua 600, jotka ]·*·. liittyvät kadunnimiin suomeksi ja ruotsiksi. Vertailutaulu 500 sisältää seuraavat • * "* sarakkeet: match_katu-sarake sisältää kadunnimen viralliset kirjoitus- tai «·· Σ.: : lyhennystavat; match_katu_puhdas-sarake sisältää esikäsitellyt viralliset »»« 35 nimet (kuviossa 5 esikäsittely sisältää kaksoiskonsonanttien ja -vokaalien .·*:·. korvaamisen yksinkertaisilla); katu-sarake sisältää virallisen kadunnimen; • · · φΣ... postinumero-sarake sisältää sen alueen postinumeron, jolla katu sijaitsee; ja • · *** kuntakoodi (citycode) sisältää koodin kunnalle, jossa katu sijaitsee.
14
Synonyymitaulu 600 sisältää seuraavat sarakkeet: tietokenttäarvo ja synonyymi. Tietokenttäarvo sisältää joitain epävirallisia versioita kadun nimistä ja synonyymisarake sisältää vastaavat viralliset kadun nimet. Synonyymisarake synonyymitaulussa 600 vastaa katusaraketta 5 vertailutaulussa 500. On huomattava, että kuvioissa 5 ja 6 kuvatut esimerkit muodostavat vain osan realistisista vertailu- ja synonyymitauluista. Realistisissa sovelluksissa synonyymitaulussa ja vertailutaulussa on tyypillisesti paljon enemmän merkintöjä.
10 Synonyymitaulun päivitys voidaan hylätä kadunnimelle, mikäli kyseinen kadunnimi ja postinumero löytyvät vertailutaulusta, tai mikäli kadunnimi löytyy synonyymitaulusta ja ainakin relevantein osa, esimerkiksi alku, postinumerosta on identtinen käsittelyssä olevan tiedon kanssa. Tässä esimerkissä postinumeroon liittyvä lisätarkistus mahdollistaa synonyymitaulun 15 päivityksen niissä tapauksissa, joissa yhden tai useamman postinumeroalueen kaduilla on samankaltaiset nimet. Koska synonyymitaulun merkinnät eivät oletusarvoltaan ole kadunnimen oikeita kirjoitustapoja - toisin kuin vertailutaulun merkinnät - synonyymitauluun liittyvä lisätarkistuskriteeri voi olla vähemmän jyrkkä kuin vertailutaulun vastaava.
20
Mikäli synonyymitaulun päivitystä harkitaan, tulee tietokenttäarvolle määrittää synonyymiehdokas ennalta määrättyjen tunnistearvojen joukosta.
; Synonyymiehdokas määritetään käyttämällä vertailutaulun merkintöjä, toisin sanoin käyttämällä erilaisia oikeita arvoja tunnisteelle. On myös mahdollista, *:V 25 että monet synonyymiehdokkaat määritetään liittymään tiettyyn • · · *·*·* tietokenttäarvoon.
··· * ♦ • · • · · • · · : V Vaiheessa 402 vertailutaulumerkinnät (eli synonyymiehdokkaat), joita harkitaan synonyymin määrittämiseksi tietokenttäarvolle, valikoidaan 30 käyttämällä ehdokkaan valikointikriteerejä. Tämä vaihe rajoittaa näin ollen ··. huomioon otettujen vertailutaulukkomerkintöjen lukumäärää määritettäessä .··*. synonyymiä tietokenttäarvolle. Ehdokkaan valintakriteeri sisältää tyypillisesti ·* tietokenttäarvon ja merkinnän vertailutaulukossa. Lisäksi käsiteltävän tietueen : lisätietokenttä voi liittyä ehdokkaan valintakriteereihin. Lisätietokenttä voi olla 35 toista tunnistetta esittävä toinen tietokenttä.
* ·*· • · · • · * .··. Tarkastellaan uudelleen kadunnimeä esimerkkinä tunnisteesta. Ajatellaan, • · että vertailutaulukko kadunnimelle sisältää myös tietoa maantieteellisestä 15 alueesta, esimerkiksi postinumeron. Esimerkki ehdokkaan valintakriteeristä on seuraava: joko 1) postinumerot ja kadunnimen ensimmäiset kirjaimet ovat identtisiä käsiteltävässä tietueessa ja vertailutaulun merkinnässä tai 2) postinumerot ovat identtisiä, kadunnimen ensimmäinen kirjain on erilainen ja 5 kolmas, neljäs ja viides kirjain kadunnimissä ovat identtisiä käsiteltävässä tietueessa ja vertailutaulun merkinnässä. On huomattava, että ehdokkaan valikointikriteerin yksityiskohdat voivat riippua ainakin tunnisteen kielestä ja/tai merkityksestä. Sopiva ehdokkaan valikointikriteeri voi löytyä esimerkiksi koeajoilla.
10
Toinen esimerkki ehdokkaan valintakriteeristä ottaa huomioon, kuinka samankaltaisilta tietokenttäarvo ja tunnistearvo vertailutaulukossa kuulostavat. Tällaista ehdokkaan valintakriteeriä voidaan käyttää erilaisten nimien yhteydessä. Soundex-koodit ovat esimerkkejä siitä, kuinka samanlaiselta 15 kaksi sanaa kuulostaa. Eräs esimerkki sopivasta soundex-koodista ehdokkaan valikointikriteerin käytössä on yleisesti käytetty, alkuperäinen soundex-koodi, joka koostuu nimen ensimmäisestä kirjaimesta, jota seuraa kolme numeroa, jotka on määritetty tunnettujen sääntöjen mukaisesti. Soundex-koodien käytön etuna on, että monet tietokannat on varustettu tällä 20 toiminnolla. Lisäesimerkki ehdokkaan valintakriteeristä on käyttää koko tekstin indeksointia, joka on herkkä erillisille aakkosmerkeille.
• · • · · *.‘Y Vaiheessa 403 tunnistearvoehdokkaat arvioidaan laskemalla ainakin yksi • · · 25 laatuparametri. Tässä keksinnön toisessa suoritusmuodossa yksi * * · laatuparametri liittyy niiden muutosten N lukumäärään, jotka vaaditaan tietokenttäarvon muuntamiseksi identtiseksi synonyymiehdokkaan kanssa.
• · * ; Muutosten lukumäärä voidaan laskea minkä tahansa sopivan tekniikan avulla, C.': esimerkiksi Levenshteinin etäisyyden. Levenshtein on tunnettu menetelmä 30 sen minimimuutosmäärän laskemiseksi, joka vaaditaan ensimmäisen ··· merkkijonon muuntamiseen toiseksi merkkijonoksi.
• · · · ··» • f * ·
Kuvio 7 esittää kahta esimerkkiä Levenshteinin etäisyyden laskemisesta. *·* * Taulukko 700 kuvaa minimimuutosmäärän laskemista sanan LAKSEOTIE
M· 35 (kohde) muuntamiseksi sanaksi LAAKSOTIE (lähde). Taulukko 710 kuvaa minimimuutosmäärän laskemista sanan JACOBSEN (kohde) muuntamiseksi .···. sanaksi JACOBSSON (lähde).
* · · 16
Levenshteinin etäisyys voidaan laskea käyttämällä matriisia, jossa sarakkeiden lukumäärä on kirjainmerkkien lukumäärä lähteessä ja rivien lukumäärä on kirjainmerkkien lukumäärä kohteessa. Matriisin ylimmän rivin ja äärimmäisenä vasemmalla olevan sarakkeen laskemiseksi tarvitaan apurivi ja 5 apusarake. Apurivi ja -sarake sisältävät kokonaislukuja nollasta eteenpäin. Merkintöjen arvot matriisissa on laskettu valikoimalla pienin seuraavista kolmesta arvosta: 1) äärimmäisenä vasemmalla olevan merkinnän arvo plus 1; 2) plus yhden yläpuolella olevan merkinnän arvo; ja 3) ylhäällä vasemmalla olevan merkinnän arvo plus A, jossa A=0, kun kirjainmerkit ovat samat ja 10 muuten A=1. Levenshteinin etäisyys on merkintä alarivin äärimmäisenä oikealla olevassa merkinnässä. Levenshteinin etäisyys sanan LAKSEOTIE muuntamiseksi sanaksi LAAKSOTIE on 2 ja Levenshteinin etäisyys sanan JACOBSEN muuntamiseksi sanaksi JACOBSSON on myös 2.
15 Lisäesimerkki laatuparametrista on identtisten kirjainmerkkien suhde tietokentän arvossa ja synonyymiehdokkaassa. Tämä laatuparametri ottaa huomioon identtisten kirjainmerkkien järjestyksen tietokentän arvossa ja synonyymiehdokkaassa.
20 Eräs mahdollisuus mitata identtisten kirjainmerkkien suhdetta tietokenttäarvossa ja synonyymiehdokkaassa on seuraava. Otetaan esimerkki, jossa tietokenttäarvo on ”A Kiv katu" ja synonyymiehdokas on ; ... "Aleksis Kiven katu". Ensin tietokenttäarvoa ja synonyymiehdokasta verrataan |‘V eteenpäin alkaen alusta. Kuvio 8 kuvaa tätä esimerkkiä taulukossa 800.
“V 25 Ensimmäisellä kierroksella tietokenttäarvon ensimmäisestä kirjainmerkistä • · · haetaan synonyymiehdokkaan alusta aloittamista varten. Tässä esimerkissä kirjain A on löydetty, koska synonyymiehdokas alkaa tällä kirjaimella.
• · « : V Seuraavalla kierroksella tietokenttäarvon seuraavaa kirjainmerkkiä etsitään, *·.**'·· mutta aloittamalla synonyymiehdokkaasta kirjainmerkistä, joka seuraa 30 edellisellä kierroksella löydettyä kirjainmerkkiä. Tällä tavoin tietokenttäarvon ··. jokaista kirjainmerkkiä haetaan synonyymiehdokkaasta. Kuten taulukosta 800 »··« .··*. voidaan nähdä, jokainen "A Kiv katu"-kirjainmerkki löytyy merkkijonosta "Aleksis Kiven katu” ja samassa järjestyksessä. Tämä eteenpäin vertaaminen *·* : antaa näin ollen tulokseksi arvon 1. Taulukko 810 kuvaa toista esimerkkiä: • · · 35 siinä tietokenttäarvo on "Ainonkatu” ja synonyymiehdokas on "Ainontie”.
* Tässä toisessa esimerkissä eteenpäin vertaaminen antaa tulokseksi .···. seitsemän yhdeksästä, eli noin 0,78.
• « ··» 17 Tällainen tapa tutkia identtisten kirjainmerkkien suhdetta saattaa olla herkkä eroille tietokenttäarvon pituuden ja synonyymiehdokkaan pituuden välillä. Näin ollen on suotavaa verrata tietokenttäarvoa ja synonyymiehdokasta taaksepäin ja eteenpäin kaikkiaan neljä kertaa. Kuvaavana esimerkkinä jonoja ’’ABC" ja 5 "DEF” verrattaisiin seuraavilla tavoilla: ABC versus DEF; CBA versus FED; DEF versus ABC; ja FED versus CBA. Näiden neljän vertailun tuloksista suurin tulos on laatuparametrin arvo.
Mitä tulee taulukoiden 800 ja 810 esimerkkeihin neljän vertailun tulokset ovat 10 taulukolle 800 1, 1, 7/16 ja 8/16 ja taulukolle 810 7/9, 2/9, 6/8 ja 2/8. Laatuparametri, joka mittaa identtisten kirjainmerkkien suhteen ja ottaa huomioon kirjainmerkkien järjestyksen, olisi näin ollen 1 taulukossa 800 kuvatussa esimerkissä ja 7/9 taulukossa 810 kuvatussa esimerkissä.
15 On mahdollista laskea lisälaatuparametri kaikille synonyymiehdokkaille tai ainoastaan sellaisille synonyymiehdokkaille, joilla on riittävän hyvä ennalta laskettu laatuparametri tai laatuparametrit. Tämä on jälleen toteutusvalinta: voi olla nopeampaa laskea lisälaatuparametrit kaikille synonyymiehdokkaille tai voi olla nopeampaa päättää ennalta arvioitujen laatuparametrien perusteella 20 laskeako lisäparametrit. Mikäli synonyymin hyväksyntäkriteeri määrittävää esimerkiksi itsenäiset kynnykset jokaiselle laatuparametrille, silloin lisälaatuparametrit voidaan laskea ainoastaan niille synonyymiehdokkaille, : jotka on hyväksytty kynnyksen perusteella. Toisaalta, mikäli synonyymin * · · j*V hyväksyntäkriteerin tulokset ovat yhdessä riippuvaisia laatuparametriarvoista, \*Y 25 voi olla tarpeen arvioida kaikki relevantit laatuparametrit kaikille • · · synonyymiehdokkaille.
• · • « ··♦ ·· ♦ : V Mikäli laatuparametriarvoille käytetään toisistaan riippumattomia kynnyksiä tai ··· muita hyväksymissääntöjä, silloin järjestys, jossa laatuparametreja vertaillaan 30 näihin kynnyksiin, tyypillisesti vaikuttaa siihen, mitkä synonyymiehdokkaat ·:· (mikäli mitkään) hyväksytään synonyymeiksi. Esimerkiksi käytettäessä • · # ® ·**·. Levenshteinin etäisyyttä ja identtisten kirjoitusmerkkien määrää laatuparametreina hyväksytyt synonyymit voivat olla erilaisia, jos synonyymin « * · *·] * hyväksyntäkriteeri hylkää ensin ne synonyymiehdokkaat, joilla ei ole pienintä 35 Levenshteinin etäisyyttä, tai mikäli se hylkää ensin ne synonyymiehdokkaat, :T: joilla ei ole suurinta määrää identtisiä kirjainmerkkejä. Tämä tulee ottaa .**·. huomioon määritettäessä synonyymin hyväksyntäkriteeriä. Edellä mainitut kynnykset ovat suhteellisia, koska ne vertaavat parhaita synonyymiehdokkaita 18 (tietyn laatuparametrin merkityksessä) toisiin synonyymiehdokkaisiin. Edelleen näiden suhteellisten kynnysten lisäksi, tai vaihtoehtoisesti niiden kanssa, on synonyymiehdokkaille mahdollista määrittää absoluuttiset kynnykset. Esimerkki absoluuttisesta kynnyksestä on, että 5 synonyymiehdokkaan pituuden ja tietokentän pituuden välisen erotuksen ei tule ylittää tiettyä numeroa.
Keksinnön toisessa suoritusmuodossa Levenshteinin etäisyyttä ja identtisten kirjainmerkkien määrää käytetään laatuparametreina. Synonyymin 10 hyväksyntäkriteeri tässä keksinnön toisessa suoritusmuodossa määrittää, että ainoastaan ne synonyymiehdokkaat, joilla on pienimmät Levenshteinin etäisyysarvot, voidaan hyväksyä synonyymeiksi. Kuten edellä on esitetty, vaihtoehtoisesti on mahdollista, että on synonyymin hyväksyntäkriteeri, joka esimerkiksi määrittää, että ainoastaan ne synonyymiehdokkaat, joilla on 15 suurin määrä identtisiä kirjainmerkkejä, voidaan hyväksyä synonyymeiksi. Keksinnön toisessa suoritusmuodossa parhaita synonyymiehdokkaita ovat ne, joihin liittyy pienin arvo N. On mahdollista, että on olemassa yksi synonyymiehdokas, jolla on pienin arvo N, tai enemmän kuin yksi synonyymiehdokas voi olla liitetty pienimpään arvoon N. Vaiheessa 404 tämä 20 voidaan valinnaisesti tarkistaa. Joissakin tapauksissa voi olla suotavaa olla päivittämättä synonyymitaulukkoa (tai muuten liittää synonyymiehdokasta tietokenttäarvoon), mikäli on olemassa useampia kuin yksi . t.t synonyymiehdokas, joka liittyy pienimpään arvoon N. Muissa tapauksissa ;*V vastinparien löytymisen luotettavuuteen ei vaikuta se, että 25 synonyymitaulukkoon lisätään tietokenttäarvo, joka viittaa esimerkiksi kahteen t · · synonyymiehdokkaaseen, jotka liittyvät samaan arvoon N. Se, mitä tässä on sanottu vaiheesta 404, pätee myös muihin laatuparametreihin, ei ainoastaan ·· · : *.·' Levenshteinin etäisyyteen.
·♦· • · • * · · 30 Keksinnön toisessa suoritusmuodossa identtisten kirjainmerkkien määrä on ··· mahdollista laskea ainoastaan niille synonyymiehdokkaille, joilla on pienin t»·· .·*·. Levenshtein etäisyys, koska synonyymin hyväksyntäkriteeri määrittää, että ainoastaan synonyymiehdokkaat, joilla on pienin Levenshteinin etäisyys, v * voidaan hyväksyä. Vaiheessa 405 tarkistetaan, täyttääkö synonyymiehdokas ·*» 35 (-ehdokkaat), jolla on pienin Levenshteinin etäisyys, muutoin synonyymin hyväksyntäkriteerin. Keksinnön toisessa suoritusmuodossa synonyymin .·*·. hyväksyntäkriteeri määrittää, että identtisten kirjainmerkkien määrän parhaalle • m tunnistearvoehdokkaalle (ehdokkaille) tulee ylittää tietty kynnys. Kynnys on 19 tyypillisesti noin 0,80, mutta on huomattava, että jopa pienet muutokset kynnysarvossa voivat aiheuttaa suuria muutoksia vastinparien löytymisen tarkkuudessa. Mikäli kynnysarvo on liian matala, vastinparien luotettavuus voi selvästi huonontua. Lisäksi kynnys, joka liittyy identtisten kirjainmerkkien 5 määrään synonyymiehdokkaiden hyväksymistä varten, voi ottaa huomioon tietokenttäarvon ja synonyymiehdokkaan pituuseron. Lisäksi päivityskriteeri voi määrittää, että pituusero ei saa olla suurempi kuin ennalta määritetty kynnys.
10 Vaiheessa 406 tietokenttäarvo, joka viittaa parhaaseen synonyymiehdokkaaseen (ehdokkaisiin) lisätään synonyymitaulukkoon (tai muutoin liitetään tietokenttäarvoon), mikäli synonyymin hyväksyntäkriteeri täyttyy vaiheessa 405. Tästä eteenpäin menetelmä jatkuu vaiheessa 407. Tämä vaihe voi sisältää vastinparin haun käsittelyssä olevalle tietueelle 15 (tietue-tietueelta-käsittely; vaihe 307) tai synonyymin määrittämisen seuraavalle tietueelle (eräajokäsittely; vaihe 303 eteenpäin).
Synonyymin hyväksyntäkriteeriä on mahdollista jalostaa edelleen määrittämällä lisää laatuparametreja. Lisäksi, kuten edellä on esitetty, on 20 mahdollista tarkistaa jokaisen synonyymiehdokkaan kohdalla, täyttääkö se synonyymin hyväksyntäkriteerin. Näin ollen on mahdollista, ettei ole mitään erillisiä tiettyyn laatuparametriin liittyviä tarkistuksia joidenkin : .·. synonyymiehdokkaiden hylkäämiseksi.
tn · • « t · · • * · \*V 25 On huomattava, että sen muutosmäärän, mikä vaaditaan yhden merkkijonon muuntamiseen toiseksi merkkijonoksi, ja identtisten kirjainmerkkien määrän • · [;·;* synonyymiehdokkaassa ja tietokenttäarvossa lisäksi muita laatuparametreja : V voidaan käyttää synonyymiehdokkaiden arvioimiseksi. Esitetyt laatuparametrit • * · vaikuttavat erittäin hyviltä valinnoilta tunnisteiksi, jotka edustavat nimiä tai 30 muita luonnollisen kielen sanoja. On myös huomattava, että saattaa olla #>*j· mahdollista kehittää yksi ainoa laatuparametri, joka ottaa huomioon esimerkiksi sekä yhden merkkijonon toiseksi merkkijonoksi muuntamisessa • · vaadittavien muutosten lukumäärän että identtisten kirjainmerkkien määrän • · · merkkijonoissa tai jopa useammissa suureissa. Tällainen laatuparametri • · 35 saattaa olla esimerkiksi suureiden painotettu summa. Sopivia yhdistelmiä erillisistä suureista voidaan löytää testaamalla.
• · · • · • · ··· 20
On lisäksi mahdollista hienosäätää synonyymiehdokkaiden hyväksyntää hylkäysjoukolla, joka sisältää tunnettuja ei-haluttuja synonyymiarvoja tietylle tietokenttäarvolle. Vertailu hylkäysjoukkoon voidaan tehdä esimerkiksi määritettäessä synonyymiehdokkaita (vaiheessa 304 tai 402) tai se voi olla 5 osa hyväksymiskriteeriä (vaiheessa 305 tai 405).
Päivittämällä synonyymitaulukkoa dynaamisesti tai muulla tavoin liittämällä synonyymejä käsiteltävien tietueiden tietokenttäarvoihin ennen vastinparien hakua tietueille, on mahdollista vähentää niiden tietueiden määrää, joille ei 10 löydy vastinpareja. Keksinnön suoritusmuodoissa synonyymiehdokas tietokentän arvolle määritetään tyypillisesti käyttämällä ennalta määrättyjä sääntöjä, joten määrittämällä ennalta määrätyt säännöt sopivasti on mahdollista ohjata vastinparien löytymisen tarkkuutta. Asiakastietoihin liittyvänä vertailuesimerkkinä vastinparien löytymisprosentti tietueille, jotka 15 kuuluvat asiakastiedon esimerkkiaineistoon, kohosi noin 70 prosentista noin 80 prosenttiin, kun olemassa oleva synonyymitaulukko päivitettiin dynaamisesti keksinnön toisen suoritusmuodon mukaisesti.
On huomattava, että keksinnön suoritusmuodon mukaista menetelmää 20 voidaan soveltaa esimerkiksi käyttämällä tavanomaisia laskenta- ja tietojenkäsittelyjärjestelmiä, jotka on varustettu sopivalla ohjelmalla. On melko yksinkertaista soveltaa keksinnön suoritusmuotoja varsinkin olemassa : olevissa järjestelmissä, jotka käyttävät synonyymitaulukkoja, koska "V ainoastaan synonyymitaulun päivitysproseduuri täytyy lisätä.
· · 25 Synonyymiehdokkaan valintakriteeri ja synonyymin hyväksyntäkriteeri täytyy määrittää huolella, jotta vastinparien löytymisen tarkkuus tietueille on halutulla • · *··*’ tasolla.
t* · • * · • · • · ···
On huomattava, että vaikka edeltävä selitys viittaa tunnisteen vertaiiutauluun 30 ja synonyymitauluun, vastaavaa tietoa voidaan tallentaa yhteen ainoaan >t·:· tietorakenteeseen. Nimet vertailutaulu ja synonyymitaulu on tarkoitettu :"*· havainnollistaviksi, eikä niitä ole tarkoitettu rajoittamaan keksinnön suojapiiriä • tämän nimisiin tietorakenteisiin. Näitä nimiä ei myöskään ole tarkoitettu • · · rajoittamaan tietorakenteita erilaisten tunnistearvojen tallentamiseksi tätä 35 erityistä tarkoitusta varten ainoastaan tauluihin.
··· • · · • · · .·**. On myös huomattava, että keksinnön yksityiskohtaisissa suoritusmuodoissa ··· kadunnimeä käytetään erityisenä esimerkkinä tunnisteesta. Keksintö on myös 21 sovellettavissa toisiin tunnisteisiin, kuten maantieteellisiin tunnisteisiin, etunimiin tai sukunimiin. Lisäksi keksintö on sovellettavissa mihin tahansa muihin nimikkeisiin, merkkijonoihin tai eri tavoilla kirjoitettuihin sanoihin.
5 On lisäksi huomattava, että termi tietue tässä selityksessä ja oheisissa patenttivaatimuksissa viittaa käsiteltävään tietoon. Tiedon asiayhteys voi olla erilainen kuin edellä kuvatuissa esimerkeissä. Keksintö on näin ollen sovellettavissa muunkin kuin vain asiakastiedon käsittelyyn.
10 On huomattava, että synonyymijoukot, jotka liittyvät useampaan kuin yhteen tunnisteeseen, voidaan päivittää edellä kuvattujen periaatteiden mukaisesti. Keksintö ei rajoitu yhteen ainoaan tunnistimeen liittyvän synonyymisetin dynaamisen päivittämiseen.
15 Vaikka edulliset suoritusmuodot esillä olevaa keksintöä soveltavasta laitteesta ja menetelmästä on kuvattu oheisissa kuvioissa ja selitetty edeltävässä yksityiskohtaisessa selityksessä, on ymmärrettävä, että keksintö ei rajoitu esitettyihin suoritusmuotoihin, vaan sitä voidaan uudelleenjärjestää, muunnella ja korvata lukuisilla tavoilla poikkeamatta keksinnön hengestä 20 sellaisena, kuin se on esitetty ja määritetty seuraavissa patenttivaatimuksissa.
• · • · » • · · ··· · t · • 1 2 3 · • · · ··« · • 1 • · « « · 1 • · ··» • · • · «·· ·· · • · · t 1 • · «M • 1 • · «·· « · · <1·» ··· • · • · ··· ··· • · · • · ·
• M
• · • · ·· ··· • · · • · 1
M
• · 2 • · 3

Claims (30)

1. Tietueen käsittelymenetelmä vastinparin löytämiseksi vertailutietojoukosta, menetelmän käsittäessä vaiheet, joissa: 5 määritetään tietokentän arvo tietueessa, tietokentän esittäessä tunnistetta, määritetään ennalta määrättyjen tunnistearvojen joukosta ainakin yksi synonyymiehdokas tietokentän arvolle, määritetään, täyttävätkö synonyymiehdokas ja tietokentän arvo ennalta 10 määrätyn, kirjoitustavan variaation huomioonottavan synonyymin hyväksyntäkriteerin ja mikäli ennalta määrätty kirjoitustavan variaation huomioonottava synonyymin hyväksyntäkriteeri täyttyy, liitetään tietokentän arvo ja synonyymiehdokas synonyymeiksi, ja päivitetään automaattisesti vertailutietojoukkoon liittyvää synonyymijoukkoa tietokentän arvolla, ja 15 haetaan vastinparia tietueelle vertaamalla tietokentän arvoa vertailutietojoukkoon ja/tai päivitettyyn synonyymijou kkoon tietokentän synonyymiehdokkaan määrittämisen ja synonyymin hyväksyntäkriteerin täyttymisen määrittämisen jälkeen.
2. Patenttivaatimuksen 1 mukainen menetelmä, jossa ainakin yksi synonyymiehdokas määritetään käyttämällä ehdokkaan valintakriteeriä, joka riippuu ainakin tietokentän arvosta ja siitä ennalta määrätystä tunnistearvosta, . . jota harkitaan synonyymiehdokkaaksi. • · · • · · M« · * :·: ί 25
3. Patenttivaatimuksen 2 mukainen menetelmä, jossa ehdokkaan • · \v valintakriteeri ottaa lisäksi huomioon, kuinka samankaltaiselta ennalta ··« määrätty tunnistearvo ja tietokentän arvo kuulostavat. ·· · • · · • · • «
4. Patenttivaatimuksen 2 mukainen menetelmä, jossa ehdokkaan • · · 30 valintakriteeri määrää, että ainakin ennalta määrätty osa tietokentän arvosta : on identtinen ennalta määrätyn tunnistearvon ennalta määrätyn osan kanssa.
··· · ··* • · • · *" 5. Minkä tahansa patenttivaatimuksen 2-4 mukainen menetelmä, jossa ehdokkaan valintakriteeri ottaa huomioon myös tietueen lisätietokentän 35 mainitun lisätietokentän esittäessä toista tunnistinta. • ♦ • · · • ·· • · • · # · · ·. ·:
6. Minkä tahansa edeltävän patenttivaatimuksen mukainen menetelmä, jossa synonyymiehdokkaalle arvioidaan ainakin yksi laatuparametri synonyymin hyväksyntäkriteerin ottaessa huomioon ainakin yhden laatuparametrin.
7. Patenttivaatimuksen 6 mukainen menetelmä, jossa ainakin yksi laatuparametri ottaa huomioon ainakin yhden seuraavista suureista: muutosten määrä, jotka vaaditaan tietokentän arvon muuntamiseksi identtiseksi synonyymiehdokkaan kanssa; identtisten kirjainmerkkien osuus tietokentän arvossa ja synonyymiehdokkaassa; ja ero tietokentän arvon 10 pituuden ja synonyymiehdokkaan pituuden välillä.
8. Patenttivaatimuksen 7 mukainen menetelmä, jossa tietokentän arvon synonyymiehdokkaan kanssa identtiseksi muuntamiseen vaadittavien muutosten määrä on laskettu käyttäen Levenshteinin etäisyyttä. 15
9. Patenttivaatimuksen 7 mukainen menetelmä, jossa identtisten kirjainmerkkien osuus ottaa huomioon kirjainmerkkien järjestyksen.
10. Minkä tahansa patenttivaatimuksen 6-9 mukainen menetelmä, jossa 20 ensimmäinen laatuparametri arvioidaan jokaiselle synonyymiehdokkaalle ja ainakin toinen laatuparametri arvioidaan ainakin parhaan ensimmäisen laatuparametrin omaavalle synonyymiehdokkaalle tai omaaville synonyymiehdokkaille. • * * * • « · • ·· · • :*: 25
11. Minkä tahansa patenttivaatimuksen 6-10 mukainen menetelmä, jossa ··· · synonyymin hyväksyntäkriteeri vaatii, että ainoastaan yhdellä .·’··. synonyymiehdokkaalla on paras ainakin yksi laatuparametri. • · ··· M · tl*
12. Minkä tahansa patentivaatimuksen 6-11 mukainen menetelmä, jossa • · **··* 30 ainakin kaksi laatuparametria arvioidaan jokaiselle synonyymiehdokkaalle ja synonyymin hyväksyntäkriteeri määrittää kynnyksen yhdelle ainakin kahdesta v : laatuparametrista, kynnyksen ollessa riippuvainen toisesta ainakin kahdesta • · · laatuparametrista. ·*♦ • ♦ • ·
13. Minkä tahansa edeltävän patenttivaatimuksen mukainen menetelmä, • · . jossa vastinparien haku sisältää tietokentän arvon vertailun tunnisteeseen • · \*·: liittyvän synonyymijoukon kanssa, mainitun synonyymijoukon jäsenien viitatessa vastaaviin ennalta määrättyihin tunnistearvoihin, ja kun ennalta määrätty synonyymin hyväksyntäkriteeri on täytetty, tietokentän arvo lisätään synonyymijoukkoon tietokentän arvoon liittyvään synonyymiin viittaamana jäsenenä ennen vastinparin hakua. 5
14, Minkä tahansa edeltävän patenttivaatimuksen mukainen menetelmä, jossa ainakin yhden synonyymiehdokkaan määrittäminen hylätään, mikäli ennalta määrätty hylkäyskriteeri täyttyy.
15. Patenttivaatimuksen 14 mukainen menetelmä, jossa ennalta määrätty 10 hylkäyskriteeri määrittää, että tietokentän arvo on identtinen yhden ennalta määrätyn tunnistearvon kanssa.
16. Patenttivaatimuksen 14 mukainen menetelmä, jossa vastinparin hakuun liittyy synonyymijoukko ja ennalta määrätty hylkäyskriteeri määrittää, että 15 tietokentän arvo on ainakin yksi seuraavista: yksi ennalta määrätyistä tunnistearvoista, ja synonyymijoukon jäsen.
17. Minkä tahansa patenttivaatimuksen 14-16 mukainen menetelmä, jossa ennalta määrätty hylkäyskriteeri ottaa huomioon toisen tietokentän arvon 20 tietueessa.
18. Minkä tahansa edeltävän patenttivaatimuksen mukainen menetelmä, jossa ainakin yhtä tietokentän arvoon liittyvää synonyymia osoittava tieto ;·γ lisätään tietueeseen. : 25 • * v.!
19. Patenttivaatimuksen 18 mukainen menetelmä, jossa jokaiselle • •I **...·* synonyymille, joka liittyy tietokentän arvoon, tehdään kopio tietueesta. ·· · • « • · « ·
20. Minkä tahansa edeltävän patenttivaatimuksen mukainen menetelmä, 30 jossa tunniste liittyy nimeen, joka kuuluu yhdelle seuraavista: maantieteellinen : kokonaisuus, henkilö ja organisaatio. I«* m »i* · ***t
21. Menetelmä synonyymijoukon käsittelemiseksi vertailutietojoukossa olevien vastinparien etsimiseksi tietueille, tietueen sisältäessä tunnistetta esittävän 35 tietokentän, synonyymijoukon jäsenten ollessa ensimmäisiä tunnistearvoja ja .'.j viitatessa vastaaviin toisiin tunnistearvoihin, toisten tunnistearvojen ollessa .·. : ennalta määrättyjä tunnistearvoja ja mainitun vastinparin haun sisältäessä • *· tietokentän arvon vertaamisen synonyymijoukkoon, menetelmän käsittäessä vaiheet, joissa määritetään ennalta määrättyjen tunnistervojen joukosta ainakin yksi synonyymiehdokas, joka liittyy tietokentän arvoon tietueessa, ja mikäli tietokentän arvo ja synonyymiehdokas täyttävät ennalta määrätyn kirjoitustavan variaation huomioonottavan synonyymin hyväksyntäkriteerin, 5 päivitetään automaattisesti vertailutietojoukkoon liittyvää synonyymijoukkoa lisäämällä ennen vastinparin hakua tietueelle tietokentän arvo synonyymijoukkoon synonyymiehdokkaaseen viittaavana jäsenenä.
22. Patenttivaatimuksen 21 mukainen menetelmä, jossa synonyymijoukko on 10 tyhjä ennen tietokentän arvon lisäämistä synonyymijoukkoon.
23. Patenttivaatimuksen 21 mukainen menetelmä, jossa synonyymijoukko sisältää ainakin yhden jäsenen ennen tietokentän arvon lisäämistä synonyymijoukkoon. 15
24. Tietokoneohjelma, joka käsittää ohjeet tietokoneen saamiseksi suorittamaan minkä tahansa patenttivaatimuksen 1-20 mukaisen menetelmän.
25. Patenttivaatimuksen 24 mukainen tietokoneohjelma, joka sisältyy 20 tietokoneella luettavaan tallennevälineeseen.
26. Tietokoneohjelma, joka käsittää ohjeet tietokoneen saamiseksi suorittamaan minkä tahansa patenttivaatimuksen 21-23 mukaisen : menetelmän. ··· · : 25 * · ·
27. Patenttivaatimuksen 26 mukainen tietokoneohjelma, joka sisältyy ,ί··. tietokoneella luettavaan tallennevälineeseen. • · ··· ·· · • · ·
28. Tiedon käsittelyjärjestelmä tietueiden käsittelemiseksi vastinparien • · *···* 30 löytämiseksi vertailutietojoukosta, järjestelmän käsittäessä: - välineet tietueiden vastaanottamiseksi, v ; - välineet vertailutietojoukon tallentamiseksi, :.**.’·* - välineet ennalta määrättyjen tunnistearvojen tallentamiseksi tunnistetta .·». varten, * * 35. välineet tietokentän arvojen määrittämiseksi tietueissa, tietokentän . * esittäessä tunnistetta, t · ϊ.*·: - välineet tietokentän arvojen ja vastaavien ennalta määrättyjen ·:**: tunnistearvojen liittämiseksi synonyymeiksi ennen vastinparien hakemista, mainittujen välineiden ollessa järjestettyjä määrittämään ennalta määrätyistä tunnistearvoista ainakin yhden synonyymiehdokkaan tietokentän arvolle, määrittämään täyttävätkö synonyymiehdokas ja tietokentän arvo ennalta määrätyn kirjoitustavan 5 variaation huomioonottavan synonyymin hyväksyntäkriteerin, ja mikäli ennalta määrätty kirjoitustavan variaation huomioonottava synonyymin hyväksyntäkriteeri täyttyy, liittämään tietokentän arvo ja synonyymiehdokas synonyymeiksi, ja - välineet vastinparien hakemiseksi vertailutietojoukosta tietueille, 10 mainitun haun sisältäessä vertailutietojoukon merkintöjen vertaamisen tietokenttien arvoihin ja/tai synonyymeihin, jotka liittyvät tietokenttien arvoihin.
29. Patenttivaatimuksen 28 mukainen tiedonkäsittelyjärjestelmä, joka edelleen 15 sisältää - välineet synonyymijoukon tallentamiseksi, mainitun synonyymijoukon jäsenten viitatessa vastaaviin ennalta määrättyihin tunnistearvoihin, jossa välineet tietokentän arvojen liittämiseksi vastaaviin ennalta määrättyihin tunnistearvoihin synonyymeina on järjestetty lisäämään ennen 20 vastinparihakuvälineiden aktivointia synonyymijoukkoon tietokentän arvoon liittyvään synonyymiin viittaava jäsen.
30. Tietojenkäsittelyjärjestelmä synonyymijoukon käsittelemiseksi vastinparien • ;*,· hakua varten vertailutietojoukosta tietueille, tietueen käsittäessä tunnistetta ··· · : 25 esittävän tietokentän, synonyymijoukon jäsenten ollessa ensimmäisiä "V tunnistearvoja ja viitatessa vastaaviin toisiin tunnistearvoihin, mainittujen t · · 1.1' toisten tunnistearvojen ollessa ennalta määrättyjä tunnistinarvoja, ja mainitun haun sisältäessä tietokentän arvon vertaamisen synonyymijoukkoon, • · · järjestelmän käsittäessä: 30. välineet synonyymijoukon tallentamiseksi, - välineet ennalta määrättyjen tunnistearvojen tallentamiseksi tunnistetta J.i ** varten, - välineet tietueiden vastaanottamiseksi, ··· - välineet tietokentän arvojen määrittämiseksi tietueissa, ja 35. välineet tietokentän arvon ja vastaavien ennalta määrättyjen, synonyymeiksi liitettyjen tunnistearvojen lisäämiseksi synonyymijoukkoon ennen vastinparien hakua vertailutietojoukosta, ·:**· mainittujen välineiden ollessa järjestettyjä määrittämään ennalta » määrätyistä tunnistearvoista ainakin yhden synonyymiehdokkaan tietokentän arvolle, määrittämään täyttävätkö synonyymiehdokas ja tietokentän arvo ennalta määrätyn kirjoitustavan variaation huomioonottavan synonyymin hyväksyntäkriteerin, ja mikäli ennalta 5 määrätty kirjoitustavan variaation huomioonottava synonyymin hyväksyntä kriteeri täyttyy, päivittämään automaattisesti vertailutietojoukkoon liittyvää synonyymijoukkoa tietokentän arvolla liittämällä tietokentän arvo ja synonyymiehdokkaan arvo synonyymeiksi. • • · · • φ · ·1· · • · • 1 1 • · · »M · * « • · » ♦ 1 1 • 1 ··1 • · • · ··· M · • 1 · • · • · • t1 • · • · »·· • · · I · · • · · • · · • Φ • · ··· ··· • · • · «·» • · • · « • · · • ·· • 1 ?
FI20030855A 2003-06-06 2003-06-06 Tietueiden käsittely vastinparien löytämiseksi vertailutietojoukosta FI120755B (fi)

Priority Applications (4)

Application Number Priority Date Filing Date Title
FI20030855A FI120755B (fi) 2003-06-06 2003-06-06 Tietueiden käsittely vastinparien löytämiseksi vertailutietojoukosta
US10/559,386 US7958129B2 (en) 2003-06-06 2004-06-01 Processing data records for finding counterparts in a reference data set
EP04735585A EP1631923A1 (en) 2003-06-06 2004-06-01 Processing data records for finding counterparts in a reference data set
PCT/FI2004/000331 WO2004109546A1 (en) 2003-06-06 2004-06-01 Processing data records for finding counterparts in a reference data set

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FI20030855 2003-06-06
FI20030855A FI120755B (fi) 2003-06-06 2003-06-06 Tietueiden käsittely vastinparien löytämiseksi vertailutietojoukosta

Publications (3)

Publication Number Publication Date
FI20030855A0 FI20030855A0 (fi) 2003-06-06
FI20030855A FI20030855A (fi) 2004-12-07
FI120755B true FI120755B (fi) 2010-02-15

Family

ID=8566219

Family Applications (1)

Application Number Title Priority Date Filing Date
FI20030855A FI120755B (fi) 2003-06-06 2003-06-06 Tietueiden käsittely vastinparien löytämiseksi vertailutietojoukosta

Country Status (4)

Country Link
US (1) US7958129B2 (fi)
EP (1) EP1631923A1 (fi)
FI (1) FI120755B (fi)
WO (1) WO2004109546A1 (fi)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7937396B1 (en) 2005-03-23 2011-05-03 Google Inc. Methods and systems for identifying paraphrases from an index of information items and associated sentence fragments
US7937265B1 (en) 2005-09-27 2011-05-03 Google Inc. Paraphrase acquisition
CN101281522B (zh) * 2007-04-06 2010-11-03 阿里巴巴集团控股有限公司 一种处理相关关键词的方法及系统
US8037086B1 (en) 2007-07-10 2011-10-11 Google Inc. Identifying common co-occurring elements in lists
US8001136B1 (en) * 2007-07-10 2011-08-16 Google Inc. Longest-common-subsequence detection for common synonyms
US8103506B1 (en) * 2007-09-20 2012-01-24 United Services Automobile Association Free text matching system and method
DE102007057248A1 (de) * 2007-11-16 2009-05-20 T-Mobile International Ag Verbindungsschicht für Datenbanken
US7962486B2 (en) 2008-01-10 2011-06-14 International Business Machines Corporation Method and system for discovery and modification of data cluster and synonyms
JP2010015554A (ja) * 2008-06-03 2010-01-21 Just Syst Corp 表構造解析装置、表構造解析方法および表構造解析プログラム
US9092517B2 (en) * 2008-09-23 2015-07-28 Microsoft Technology Licensing, Llc Generating synonyms based on query log data
US20100293179A1 (en) * 2009-05-14 2010-11-18 Microsoft Corporation Identifying synonyms of entities using web search
US8533203B2 (en) * 2009-06-04 2013-09-10 Microsoft Corporation Identifying synonyms of entities using a document collection
US9600566B2 (en) 2010-05-14 2017-03-21 Microsoft Technology Licensing, Llc Identifying entity synonyms
US8468119B2 (en) 2010-07-14 2013-06-18 Business Objects Software Ltd. Matching data from disparate sources
US8745019B2 (en) 2012-03-05 2014-06-03 Microsoft Corporation Robust discovery of entity synonyms using query logs
US10032131B2 (en) 2012-06-20 2018-07-24 Microsoft Technology Licensing, Llc Data services for enterprises leveraging search system data assets
US9594831B2 (en) 2012-06-22 2017-03-14 Microsoft Technology Licensing, Llc Targeted disambiguation of named entities
US9229924B2 (en) 2012-08-24 2016-01-05 Microsoft Technology Licensing, Llc Word detection and domain dictionary recommendation
JP6063217B2 (ja) * 2012-11-16 2017-01-18 任天堂株式会社 プログラム、情報処理装置、情報処理システム、および情報処理方法
US9081785B2 (en) 2012-12-07 2015-07-14 International Business Machines Corporation Inferring valid values for objects in a glossary using reference data
AU2016369586B2 (en) * 2015-12-19 2019-03-28 SWVL, Inc. Method and device for correlating multiple tables in a database environment
EP3785133A4 (en) 2018-04-24 2022-01-19 Von Drakk, Viktor IMPROVED METHOD AND APPARATUS FOR CORRELING MULTIPLE TABLES IN A DATABASE ENVIRONMENT
CN115080553B (zh) * 2022-07-21 2022-11-08 广东广物优车科技有限公司 一种出口货物智能监测方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5551049A (en) * 1987-05-26 1996-08-27 Xerox Corporation Thesaurus with compactly stored word groups
EP0437615B1 (en) * 1989-06-14 1998-10-21 Hitachi, Ltd. Hierarchical presearch-type document retrieval method, apparatus therefor, and magnetic disc device for this apparatus
US5220625A (en) * 1989-06-14 1993-06-15 Hitachi, Ltd. Information search terminal and system
US5210868A (en) * 1989-12-20 1993-05-11 Hitachi Ltd. Database system and matching method between databases
US5572423A (en) * 1990-06-14 1996-11-05 Lucent Technologies Inc. Method for correcting spelling using error frequencies
US5649221A (en) * 1995-09-14 1997-07-15 Crawford; H. Vance Reverse electronic dictionary using synonyms to expand search capabilities
US5956711A (en) * 1997-01-16 1999-09-21 Walter J. Sullivan, III Database system with restricted keyword list and bi-directional keyword translation
US6523028B1 (en) 1998-12-03 2003-02-18 Lockhead Martin Corporation Method and system for universal querying of distributed databases
US6918086B2 (en) * 2000-03-28 2005-07-12 Ariel S. Rogson Method and apparatus for updating database of automatic spelling corrections
AU2001253403A1 (en) * 2000-04-14 2001-10-30 Justaddsales. Com, Inc. Computer-based interpretation and location system
GB2367917A (en) * 2000-10-12 2002-04-17 Qas Systems Ltd Retrieving data representing a postal address from a database of postal addresses using a trie structure
CN1310172C (zh) 2001-07-26 2007-04-11 国际商业机器公司 生成候补同义词的数据处理方法和系统
US7231343B1 (en) * 2001-12-20 2007-06-12 Ianywhere Solutions, Inc. Synonyms mechanism for natural language systems
US20040024760A1 (en) * 2002-07-31 2004-02-05 Phonetic Research Ltd. System, method and computer program product for matching textual strings using language-biased normalisation, phonetic representation and correlation functions
US7440941B1 (en) * 2002-09-17 2008-10-21 Yahoo! Inc. Suggesting an alternative to the spelling of a search query
US20040064447A1 (en) * 2002-09-27 2004-04-01 Simske Steven J. System and method for management of synonymic searching
US20040088157A1 (en) * 2002-10-30 2004-05-06 Motorola, Inc. Method for characterizing/classifying a document
US20040107205A1 (en) * 2002-12-03 2004-06-03 Lockheed Martin Corporation Boolean rule-based system for clustering similar records

Also Published As

Publication number Publication date
US20060218136A1 (en) 2006-09-28
FI20030855A (fi) 2004-12-07
FI20030855A0 (fi) 2003-06-06
EP1631923A1 (en) 2006-03-08
WO2004109546A1 (en) 2004-12-16
US7958129B2 (en) 2011-06-07

Similar Documents

Publication Publication Date Title
FI120755B (fi) Tietueiden käsittely vastinparien löytämiseksi vertailutietojoukosta
US7707023B2 (en) Method of finding answers to questions
US5680628A (en) Method and apparatus for automated search and retrieval process
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US6026398A (en) System and methods for searching and matching databases
US8855998B2 (en) Parsing culturally diverse names
US5715469A (en) Method and apparatus for detecting error strings in a text
JP4301515B2 (ja) 文章表示方法、情報処理装置、情報処理システム、プログラム
US8041560B2 (en) System for adaptive multi-cultural searching and matching of personal names
US7856598B2 (en) Spelling correction with liaoalphagrams and inverted index
US20160055150A1 (en) Converting data into natural language form
CA2750609C (en) Methods and systems for matching records and normalizing names
US8849653B2 (en) Updating dictionary during application installation
US20080065671A1 (en) Methods and apparatuses for detecting and labeling organizational tables in a document
US9098487B2 (en) Categorization based on word distance
CN110851559A (zh) 数据元自动识别方法和识别系统
Rehman et al. Morpheme matching based text tokenization for a scarce resourced language
US8219905B2 (en) Automatically detecting keyboard layout in order to improve the quality of spelling suggestions
JP7040155B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP6623840B2 (ja) 同義語検出装置、同義語検出方法及び同義語検出用コンピュータプログラム
JPH05151261A (ja) 時制推敲支援システム
US12032609B1 (en) System, method, and computer program for performing semantic type-ahead suggestions for natural language database searches
JP3591109B2 (ja) キーワード設定装置
Samsuri et al. A comparison of distributed, pam, and trie data structure dictionaries in automatic spelling correction for indonesian formal text
KR100508353B1 (ko) 검색 질의의 철자를 체크하는 방법

Legal Events

Date Code Title Description
PC Transfer of assignment of patent

Owner name: TIETO OYJ

Free format text: TIETO OYJ

FG Patent granted

Ref document number: 120755

Country of ref document: FI

MM Patent lapsed