FI122369B - Tietojärjestelmä - Google Patents

Tietojärjestelmä Download PDF

Info

Publication number
FI122369B
FI122369B FI20085421A FI20085421A FI122369B FI 122369 B FI122369 B FI 122369B FI 20085421 A FI20085421 A FI 20085421A FI 20085421 A FI20085421 A FI 20085421A FI 122369 B FI122369 B FI 122369B
Authority
FI
Finland
Prior art keywords
expression
expressions
hint
sentiment
tip
Prior art date
Application number
FI20085421A
Other languages
English (en)
Swedish (sv)
Other versions
FI20085421A0 (fi
FI20085421A (fi
Inventor
Juho Muhonen
Original Assignee
Whitevector Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Whitevector Oy filed Critical Whitevector Oy
Priority to FI20085421A priority Critical patent/FI122369B/fi
Publication of FI20085421A0 publication Critical patent/FI20085421A0/fi
Publication of FI20085421A publication Critical patent/FI20085421A/fi
Application granted granted Critical
Publication of FI122369B publication Critical patent/FI122369B/fi

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

Tietojärjestelmä
Keksinnön ala
Esillä oleva keksintö liittyy tietotekniikoihin ja erityisesti sentimentti-analyysitietojärjestelmään.
5 Keksinnön tausta
Suurimmalla osalla organisaatioita on tarve monitoroida yleistä mielipidettä heihin yhdistetyistä asioista, oli kyseessä sitten organisaation tuotteet, maine tai imago. Esimerkiksi yritystä voi kiinnostaa pitävätkö ihmiset muutoksesta heidän tuotteessaan, tai kampanjaorganisaatio haluaisi tietää esittävätkö 10 ihmiset negatiivisia mielipiteitä heidän kandidaattinsa käynnissä olevasta avio-eroprosessista.
Tällainen monitorointi tehdään perinteisesti joko kyselemällä henkilöistä muodostuvalta koeryhmältä suoraan heidän mielipiteitään, tai käymällä läpi kokoelma tietystä aiheesta kirjoitettuja tallenteita. Kumpikin näistä mene-15 telmistä on kallis, aikaa vievä ja rajoittuu suhteellisen pieneen koeryhmään, sillä niissä on mukana ihmisen tekemää työtä. Esimerkiksi markkinatutkimuksessa ja riskinhallinnassa myönteisten tai kielteisten mielipiteiden, sentimenttien, automaattista erottelua pidettäisiin parempana.
Lisäksi verkkosisällön, kuten verkkolokien ja verkkofoorumien, mää-20 rän räjähdysmäinen kasvu on luonut mahdollisuuden päästä käsiksi suunnattomaan yleisen mielipiteen tietolähteeseen. Verkkosisällön valtava määrä tarkoittaa kuitenkin tosiasiallisesti sitä, että verkkosisällön uskottava analysointi tavanomaisin menetelmin on käytännöllisesti katsoen mahdotonta.
Tietojenkäsittelytyökalujen kehitys on mahdollistanut sellaisten lait-£ 25 teiden tuottamisen, joissa erityyppisissä tietoyksiköissä, esimerkiksi tallentaisin sa, HTML-sivuissa, jne. olevat sentimentit voidaan tunnistaa ja taltioida autos’ maattisesti. Automaattinen tässä yhteydessä tarkoittaa, että tunnistus- ja talti- to ointitoiminnallisuuksia sisältävä toimintosarja voidaan toteuttaa tietojärjestel-| män ohjelmistolla, mikro-ohjelmistolla, ja/tai laitteistolla ilman, että ihmismieli 30 samanaikaisesti osallistuu siihen.
Olemassa olevien tietojärjestelmien ongelma sentimenttianalyysin o suhteen on, että analyysien tulokset eivät ole tarkkoja ja sen vuoksi tällaisten
O
^ tulosten perusteella tehdyt kyselyt eivät ole riittävän informatiivisia kaupallisen kiinnostuksen herättämiseksi, tai ne eivät osoita oikeutetuksi tällaisiin kyselyi-35 hin liittyviä käypiä kustannuksia. Sentimentin paikallistaminen ja sentimentin 2 myönteisyyden tai kielteisyyden analysointi on suhteellisen helppo tehtävä ihmismielelle, mutta saman suorittaminen tietojärjestelmällä on kaikkea muuta kuin triviaalia. Tyypillisesti tietojärjestelmällä saavutetut tulokset ovat hyvin erilaisia kuin ihmismielellä toteutetun analyysin kautta saadut tulokset.
5 Automaattisten järjestelmien tekemissä analyyseissä on luonnolli sesti useita haasteita, mutta yksi keskeisimmistä ongelmista on, että tietojärjestelmät ovat harvemmin riittävän monipuolisia tulkitakseen oikein eri termien positiivisia ja negatiivisia vaikutelmia. Monet tavanomaisista järjestelmistä, jotka käsittelevät esimerkiksi tekstidokumentteja, nojautuvat sanakirjaperusteisiin 10 lähestymistapoihin, joissa listataan termien ja niitä vastaavien polariteettiarvo-jen yhteydet. Analyysin aikana tallenteen tai sen osan polariteettiarvoja haetaan sanakirjasta, ja niistä lasketaan jotain ennalta määrättyä yhtälöä käyttämällä polariteettiarvo. Tuloksena saatua arvoa käytetään sitten tallen-teen/tallenteen osan polariteettiarvona.
15 Tällaiset lähestymistavat kuitenkin jättävät huomiotta sen seikan, et tä monissa tapauksissa yksi ja sama ilmaisu voi välittää monia eri tarkoituksia ja sentimenttejä, sen mukaan missä ja miten ilmaisu on muodostettu. Kun ihmismieli käsittelee ilmaisun, esimerkiksi sanan, se toimii kokonaisvaltaisesti ottaen huomioon koko tekstiympäristön kaikkialla maailmassa. Esimerkiksi, kun 20 kyseessä on tekstitietoyksikkö, termi “pieni” välittää eri tarkoituksen riippuen siitä viitataanko matkapuhelimeen (’Vau, uusi Utopia-puhelimeni on niin pieni, että voin pitää sitä farkkujen taskussa!’) tai huoneen kokoon (’Keittiö oli niin pieni ettemme edes harkinneet talon ostamista’).
Keksinnön lyhyt selostus 25 Keksinnön tavoitteena on siten kehittää tietojärjestelmä, joka tarjoaa 5 täsmällisempiä automaattisia sentimenttianalyysejä. Tarkka tarkoittaa tässä si- c\i ^ tä, että laitteella tehtyjen analyysien tulokset vastaavat paremmin tuloksia, jot- ^ ka saadaan yhdistämällä yhden tai useamman ihmismielen tekemät manuaali- ^ set analyysit. Keksinnön tavoite saavutetaan menetelmällä ja järjestelmällä, | 30 joille on tunnusomaista se, mitä sanotaan itsenäisissä patenttivaatimuksissa.
Keksinnön edulliset suoritusmuodot ovat epäitsenäisten patenttivaatimusten
CM
kohteena.
o Keksintö perustuu siihen ajatukseen, että tallennetaan joukko vertai- ^ lusentimentti-ilmaisuja, vihjeitä, siten, että kukin sisältää sentimentti-ilmaisun ja 35 siihen yhdistetyn sentimenttikontekstin. Laite on järjestetty havaitseman sentimentti-ilmaisun vain, kun sentimenttiä ilmaiseva termi tai termijoukko esiintyy 3 kontekstissa, joka vastaa määrätyllä tasolla vihjeen kontekstia. Virheellisten tulkintojen ja assosiaatioiden mahdollisuus laitteessa vähenee merkittävästi, ja laitteen tarkkuus paranee.
Keksinnön mukaisen menetelmän ja laitteen etuna on, että niiden 5 avulla voidaan käyttää nopeaa sentimenttianalyysia ja samaan aikaan tarjota tuloksia, jotka tarkemmin heijastavat ilmaisun antaneiden lähteiden tarkoituksia. Mitä tarkempia sentimenttianalyysin taltioidut tulokset ovat, sitä arvokkaampia ovat taltiointeihin tehtyjen kyselyjen tulokset, ja siten koko sentiment-tianalyysitietojärjestelmän kokonaissuorituskyky.
10 Parannetun tarkkuuden ansiosta voidaan myös luoda tehokkaam min tallennettu vertailusentimentti-ilmaisujoukko, sillä vuorovaikutteinen senti-menttiarkisto ja vihje-plus-konteksti -tulos lähestyvät ihmismielellä tehtyjä tulkintoja ennemminkin kuin loittonevat niistä.
Kuvioiden lyhyt selostus 15 Keksintöä selostetaan nyt lähemmin edullisten suoritusmuotojen yh teydessä, viitaten oheisiin piirroksiin, joista:
Kuvio 1 antaa toiminnallisen kuvauksen tietojärjestelmästä;
Kuvio 2 esittää kuviossa 1 suoritusmuotona käytetyn tietojärjestelmän toimintaympäristön; 20 Kuvio 3 esittää esimerkinomaisen laiterakenteen kuviossa 2 suori tusmuotona käytetyn laitteen toteuttamiseksi;
Kuvio 4 esittää kuvion 2 sentimenttianalyysitietojärjestelmän hankin-taosan toiminnallisia yksiköitä;
Kuvio 5 esittää kuvion 4 tietojärjestelmän toteuttaman menetelmän; 25 ja o Kuvio 6 esittää itseohjaavan toimintosarjan, jota voidaan käyttää ku- c\i ....
^ vion 4 tietojärjestelmässä.
o cd
CM
x Keksinnön yksityiskohtainen selostus
CL
___ 30 On huomioitava, että seuraavat suoritusmuodot ovat esimerkinomai- siä. Lisäksi vaikka selitysosa voi useissa kohdissa viitata ’’johonkin”, ’’yhteen” g tai ’’erääseen” suoritusmuotoon/”eräisiin” suoritusmuotoihin, viittaus ei kohdistu o samaan suoritusmuotoon/samoihin suoritusmuotoihin, tai kyseessä oleva tunnusmerkki ei välttämättä sovellu vain yksittäiseen suoritusmuotoon. Eri suori 4 tusmuotojen yksittäisiä tunnusmerkkejä voidaan yhdistää tarjoamaan lisäsuori-tusmuotoja.
Keksintö liittyy tietojärjestelmään, joka erottelee syötetyistä tietoyksiköistä määrättyä tietoa tietokantaan. Keksinnön suoritusmuotojen toteuttami-5 seen voidaan käyttää yhdessä tai erikseen useita järjestelmärakenteita, jotka soveltavat erilaisia tietojenkäsittelytekniikoita. Tietojenkäsittelyjärjestelmät ja -tekniikat kehittyvät jatkuvasti ja keksinnön suoritusmuodot voivat edellyttää useita muutoksia, jotka ovat periaatteessa alan ammattilaiselle ilmeisiä. Tämän vuoksi tämän selitysosan sanoja ja ilmaisuja tulisi tulkita laajasti, sillä niiden on 10 tarkoitus vain havainnollistaa, ei rajoittaa suoritusmuotoja.
Kuvio 1 antaa toiminnallisen kuvauksen keksinnön mukaisesta tietojärjestelmästä 100. Yleisesti termi tietojärjestelmä liittyy sellaisten henkilöiden, tietueiden ja aktiviteettien yhdistelmään, jotka automaattisesti ja manuaalisesti käsittelevät tietoa ja informaatiota tietyssä organisaatiossa. Tässä yhteydessä 15 tietojärjestelmä liittyy vielä erityisemmin geneeriseen tietojärjestelmän tietotek-niikkakomponenttiin, ja viittaa siten mihin tahansa tietoliikenteeseen ja/tai tietokoneeseen liittyvään laitteeseen tai keskenään kytkettyjen laitteiden järjestelmään tai osajärjestelmiin, joita voi käyttää tiedon hankinnassa, tallennuksessa, siirrossa, tai vastaanotossa, ja jotka sisältävät ohjelmiston, mikro-ohjelmiston, 20 ja/tai tietojenkäsittelylaitteiston.
Informaatiojärjestelmä 100 ottaa joukon tietoyksiköitä Dlj, suorittaa prosessointitoiminnon F(Dlj) ja antaa joukon tietueita Sj(DI,). Tietoyksikkö Dl, viittaa tietolohkoon, joka on koodattu elektroniseen muotoon, jotta tietojärjestelmän tietokonelaitteet ja tietokoneohjelmat pystyvät muuntamaan, tallenta-25 maan, suojaamaan, käsittelemään ja siirtämään sitä ja turvallisesti noutamaan sen tietojärjestelmän 100 prosesseissa. Tietoyksikkö voi olla esimerkiksi tekstien , video- tai audiotiedosto. Kukin tietoyksikkö Dl, käsittää yhden tai useampia ^ tietoelementtejä iek, joita tietojärjestelmä pystyy automaattisesti havaitsemaan o ^ ja käsittelemään tietoyksikön erillisinä osina. Automaattisesti tässä yhteydessä ^ 30 tarkoittaa, että havaitsemis- ja käsittelytoiminnot voidaan suorittaa tietojärjes-
X
£ telmän ohjelmistolla, mikro-ohjelmistolla, ja/tai tietojenkäsittelylaitteistolla il- man, että ihmismieli samanaikaisesti suorittaa tukioperaatioita.
S Jotkin tietoyksikössä Dl, olevat tietoelementit iek voidaan yhdistää oo g tunnistettavissa oleviin aiheisiin. Tietoelementti iekvoi viitata itse aiheeseen tai 35 tarjota ilmaisun osapuolen käsityksestä aiheen suhteen. Osapuolen käsitys edustaa sentimenttiä, henkilökohtaista uskomusta tai arviointia, joka ei perustu 5 näyttöön tai varmuuteen ja jota ilmaistaan tietoyksikössä käytetyillä ilmaisuvälineillä. Esimerkiksi tekstitiedostossa sentimenttejä ilmaistaan tekstitiedostoissa käytetyn kielen verbaalisilla ilmaisuilla.
Tietojärjestelmän käsittelytoiminto F(Dlj) on järjestetty havaitsemaan 5 syötetyistä tietoyksiköistä tietoelementit iek, ja erottelemaan joukosta havaittuja tietoelementtejä aiheita, ja näihin aiheisiin yhdistettyjä sentimenttejä. Senti-mentti prosessoidaan polariteettiarvoksi, joka ilmaisee hyväksymistasoa aiheen havaitussa sentimentissä. Käsittelytoimintotieto F(Dlj) on myös järjestetty luomaan tietueen Sj(Dli), joka käsittää havaitun aiheen tunnistustiedon ja ha-10 vaittuun aiheeseen yhdistetyn sentimentin polariteettiarvon. Tietojärjestelmä 100 on järjestetty antamaan luoto tietue Sj(Dlj) tietokantaan, josta tiedon automatisoitu sentimenttianalyysi voi sitä hakea.
Keksintöä kuvataan seuraavassa keksinnönmukaisen tietojärjestelmän erään suoritusmuodon avulla. Keksinnön suoritusmuotona käytetään sen-15 timenttianalyysitietojärjestelmää (sentiment analysis information system, SAIS), joka on järjestetty käsittelemään tekstitiedostoksi koodattuja tietoyksiköitä. Tekstitiedosto käsittää merkkejä, jotka voidaan tulkita sanoiksi, näihin liittyviä välimerkkejä, ja muita erityismerkkejä. Sanat muodostuvat merkkise-kvensseistä ja niillä voi olla semanttinen merkitys luonnollisessa kielessä. Yksi 20 tai useampi sana voi viitata samaan semanttiseen merkitykseen ja yhdellä sanalla voi olla yksi tai useampia erillisiä tulkintoja. Tietojärjestelmän prosesseja varten merkit voidaan muuntaa digitaaliseen muotoon, ja digitaalinen tieto voidaan muuntaa takaisin merkeiksi.
Kuvio 2 esittää kuviossa 1 suoritusmuotona käytetyn tietojärjestel-25 män toimintaympäristön. Kuten edellä kuvattiin, tietojärjestelmä vastaanottaa tietoyksiköistä ainakin yhdestä tietoyksikkölähteestä. Kuviossa 2, SAIS on lii-o tetty joukkoon etäviestintäosapuolia CP1, CP2, CP3, CP4 ja joukkoon paikalli- r-L siä viestintäosapuolia CP5, CP6.
O
^ Voidakseen viestiä etäviestintäosapuolien kanssa SAIS on liitetty ^ 30 verkotettuun viestintäjärjestelmään, joka mahdollistaa tiedonvaihdon SAIS:in ja
£ etäviestintäosapuolien CP1, CP2, CP3, CP4 välillä. Tiedon vaihtamiseksi SAIS
ja etäviestintäosapuolet CP1, CP2, CP3, CP4 käsittävät päätelaitteita, jotka S yhdessä niihin liittyvien ohjelmiston, sovellusten ja sisällön kanssa toimivat tie- § toliikenneverkossa NET ja joita tietoliikenneverkko NET tukee.
CM
35 Tietoliikenneverkko NET käsittää tyypillisesti ainakin yhden tai use ampia runkoverkkoja, jotka tarjoavat verkkopalveluja, ja yhden tai useampia lii- 6 tyntäverkkoja, joiden välityksellä useat eri käyttäjät pystyvät käyttämään näitä verkkopalveluja. Runkoverkko viittaa tässä siirtovälineeseen, joka muodostuu verkoista, järjestelmälaitteistoista ja perusrakenteista, jotka on järjestetty tarjoamaan yhteyksiä liityntäverkkojen välillä sekä palvelun tarjoajien ja liityntä-5 verkkojen välillä. Liityntäverkko edustaa tässä tarvittavia kuljetuksen siirto-tiemahdollisuuksia tietoliikennepalveluiden tarjoamiseksi tietoliikenneverkon päätelaitteille. Päätelaite edustaa tässä yksilöllisesti tunnistettavissa olevaa jär-jestelmäyksikköä, joka on yhden tai useamman määrätyn protokollakerroksen datavirtojen lähteenä ja nieluna. Tietoliikennejärjestelmän peruselementit ovat 10 alan ammattilaisten yleisesti tuntemia, eikä niitä kuvata tässä tarkemmin.
Voidakseen viestiä paikallisten viestintäosapuolien kanssa, SAIS on liitetty paikalliseen liitäntään LIF, tai sisältää paikallisen liitännän LIF, jonka välityksellä se voi vaihtaa tietoa CP5:n ja CP6:n kanssa. LIF voi käsittää käyttöliittymän, jonka kautta käyttäjillä on pääsy rajattuun joukkoon SAIS:in toiminto-15 ja. LIF voi myös käsittää joitakin ei-verkkoperusteisia tietoliikenteen käyttömahdollisuuksia, joiden avulla on mahdollista vaihtaa tietoa suoraan viestivien laitteiden CP5, CP6 ja SAIS välillä. Esimerkkeihin tällaisista mekanismeista kuuluu esimerkiksi Bluetooth, Infrared Data Association (IrDA), Radio Frequency Identification (RFID), Digital Enhanced Cordless Telecommunications 20 (DECT), Dedicated Short Range Communications (DSRC), HIPERLAN, Hl-PERMAN, Institute of Electrical and Electronics Engineers (IEEE) 802.11, Ultra-wideband (UWB), Institute of Electrical and Electronics Engineers (IEEE) 802.16 (WiMAX), xMax, ZigBee, Institute of Electrical and Electronics Engineers (IEEE) 802.16 (WPAN), langaton USB.
25 Kuten edellä myös kuvattiin, SAIS antaa ulostulona käsiteltyjä tietu- eitä. Antotoimintoja varten SAIS on liitetty tietokantajärjestelmään DB, johon se o voi tallentaa tietoa. Yksinkertaisuuden vuoksi kuvio 2 esittää tietokantajärjes- r*L telmän yhtenä paikallisesti liitettynä tietokantana. On kuitenkin selvää, että tie-
O
^ tokanta DB voi olla myös integroitu SAlS.iin, tai se on järjestetty SAIS.in saata- ^ 30 ville tietoliikenneverkon NET yli. Suojapiiristä poikkeamatta voidaan käyttää tie- £ tokantajärjestelmää, joka sisältää minkä tahansa näiden erityyppisten tietokan- ^ taelementtien yhdistelmän.
S Jotkut viestintäosapuolet voivat olla tiedonlähteitä ja ne toimittavat § tietoyksiköitä SAIS:ille käsittelyä ja tallennusta varten. Jotkut viestintäosapuolet
CM
35 voivat olla kyseleviä asiakkaita, jotka hakevat tietoa sentimenttianalyysiä varten SAIS:in tietokantajärjestelmästä. Jotkut viestintäosapuolet voivat olla toimia 7 sekä tiedon lähteinä että kyselevinä asiakkaina. Keksinnön tavoitteena on parantaa tietojärjestelmän hankkimispuolta siten, että kyselyiden tulokset vastaisivat tarkemmin ihmismiehen käsitystä tietoyksiköissä ilmaistuista sentimen-teistä ilman, että ihmismieltä välttämättä käytetään prosessissa. Tulee huomi-5 oida, että vaikka kuvio 2 esittää SAIS:in järjestelmänä, joka suorittaa sekä hankinta- että kyse lyto im intoja, suojapiiristä poikkeamatta on mahdollista jakaa nämä osat erillisiksi järjestelmiksi, jotka jakavat saman tietokantajärjestelmän. Hankintaosa voidaan omistaa sentimenttien erottamiseen ja tallennukseen tietoyksiköistä ja soveltava osa voidaan omistaa kyselyiden suorittamiseen jae-10 tussa tietokantajärjestelmässä. Seuraavassa keskustellaan yksityiskohtaisemmin suoritusmuotona käytetyn tietojärjestelmän hankintaosasta.
Kuvio 3 esittää esimerkinomaisen laiterakenteen laitteen, jonka suoritusmuotona kuviossa 2 on SAIS, toteuttamiseksi. Laite käsittää ohjausyksikön 31, prosessorielementin, joka käsittää aritmeettisen loogisen moduulin, joukon 15 erikoisrekistereitä ja ohjauspiirejä. Laite käsittää myös muistiyksikön 32, tietovälineen, johon tietokoneella luettavissa olevaa dataa tai ohjelmia tai käyttäjä-dataa voidaan tallentaa. Muistivälineet tyypillisesti käsittävät sekä muistimo-duuleita, jotka mahdollistavat sekä lukemisen että kirjoittamisen (RAM) ja muistimoduuleita, joiden sisältöä voidaan vain lukea (ROM). Laite käsittää 20 myös liityntäyksikön 33, jossa on ottoyksikkö 34 datan syöttämiseksi laitteessa oleviin sisäisiin prosesseihin ja antoyksikkö 35 datan tulostamiseksi laitteen sisäisistä prosesseista.
Esimerkkeihin mainitusta ottoyksiköstä 34 SAIS:issa kuuluvat pisto-yksiköt, jotka toimivat yhdyskäytävänä sen ulkoisiin liityntäpisteisiin kuljetetulle 25 informaatiolle. Informaation ottamiseksi paikallisesti ottoyksikkö 34 voi myös käsittää näppäimistön tai kosketusnäytön, mikrofonin tai vastaavan. Informaa-o tion antamiseksi paikallisesti antoyksikkö 35 voi käsittää myös näytön, koske- μ. tusnäytön, mikrofonin tai vastaavan.
^ Ohjausyksikkö 31, muistiyksikkö 32 ja liityntäyksikkö 33 on liitetty ^ 30 sähköisesti toisiinsa vastaanotettuun ja/tai tallennettuun dataan kohdistuvien
X
£ toimintojen systemaattiseksi suorittamiseksi laitteen ennalta määritettyjen, ^ olennaisesti ohjelmoitujen prosessien mukaisesti. Keksinnön mukaisissa rat- $ kaisuissa nämä toiminnot käsittävät toiminteita SAIS:in loogisten yksiköiden, 00 g toimintojen ja rajapintojen toteuttamiseksi kuvioissa 4-6 esitetyllä tavalla.
35 Laitteen yksiköt ja lohkot voidaan toteuttaa yhtenä tai useampana integroituna piirinä, kuten sovelluskohtaisena mikropiirinä (ASIC). Myös muut 8 laitteistosuoritusmuodot ovat käyttökelpoisia, kuten erillisistä loogisista komponenteista rakennettu piiri. Voidaan soveltaa myös näiden eri hybridiä. Kaikki modifikaatiot ja rakenteet suoritusmuodon toiminteen toteuttamiseksi voidaan suorittaa rutiineina, jotka voidaan toteuttaa lisättyinä tai päivitettyinä ohjelmisto-5 rutiineina, sovelluspiireinä (ASIC) ja/tai ohjelmoitavina piireinä. Ohjelmistorutii-nit voidaan ladata laitteeseen.
On huomattava, että kuviossa 3 on esitetty vain esillä olevan suoritusmuodon esittämiseen tarvittavat elementit. Alan ammattilaiselle on selvää, että tietoliikennelaitteet käsittävät useita lisäelementtejä ja toiminnallisuuksia, 10 joita ei ole eksplisiittisesti kuvattu tässä. Lisäksi lohkot esittävät loogisia ja toiminnallisia yksiköitä, jotka voidaan toteuttaa yhden tai useamman fyysisen yksikön sisällä tai sen/niiden yhteydessä, riippumatta siitä onko ne kuvattu kuviossa 3 yhtenä tai useampana lohkona.
Tietokoneohjelmat voidaan tallentaa tietokoneella tai prosessorilla 15 luettavissa olevalle tietokoneohjelman jakelutietovälineelle. Tietokoneohjelma-tietoväline voi olla esimerkiksi, mutta ei näihin rajoittuen, sähköinen, magneettinen, optinen, infrapuna- tai puolijohdejärjestelmä, laite tai siirtotietoväline. Tie-tokoneohjelmatietoväline sisältää ainakin yhden seuraavista tietovälineistä: tietokoneella luettavissa oleva tietoväline, ohjelman tallennusväline, taltiointiväli-20 aine, tietokoneella luettavissa oleva muisti, hajasaantimuisti, pyyhittäväsi! ohjelmoitavissa oleva lukumuisti, tietokoneella luettavissa oleva ohjelmiston jake-lupaketti, tietokoneella luettavissa oleva signaali, tietokoneella luettavissa oleva tietoliikennesignaali, tietokoneella luettavissa oleva painotuote, ja tietokoneella luettavissa oleva kompressoitu ohjelmistopaketti.
25 Kuvio 4 esittää kuvion 2 sentimenttianalyysitietojärjestelmän SAIS
hankintaosan toiminnallisia yksiköitä. Tietoyksiköt syötetään erilaisten paikallisen tai verkkoliittymien välityksellä tietoyksiköiden vastaanottimeen DR. Tietoyksik- rL kö Dl, on elementtien iej yhdistelmä, jossa elementtiä ie, voidaan pitää minä ta- o ^ hansa automaattisesti erotettavissa olevana osana tietoyksikköä Dlj. DR ha- ^ 30 vaitsee syötetyn tietoyksikön Dl, ja mahdollisesti erottaa tietoyksikkötasoista
X
£ metadataa, esimerkiksi vastaanottoajan, alulle panevan viestintäosapuolen, ^ jne. Metadata voidaan liittää tietoyksikköön Dl, esimerkiksi käytettäväksi toi- S mintosarjan myöhemmissä vaiheissa ja/tai tarjottavaksi lisäinformaationa tu- § loksena saatavien sentimenttitietueiden Sj(Dlj) kanssa.
C\] 35 Esillä olevassa suoritusmuodossa tietoyksikkö on luonnollisella kie lellä, esimerkiksi englanniksi, kirjoitettu tekstitä I Ien ne ja sisältää vain tekstitie- 9 toa, ei iisämediaa, kuten kuvia tai ääniiinkkejä. Tekstitallenne sisältää joukon ilmaisuja T. Ilmaisuiksi käsitetään tyypillisesti sanat niiden perusmuodossaan t_i=(base), mutta ne voivat sisältää myös muuta luonnollisen kielen tietoa, kuten tiedon sanaluokasta tai aikamuodosta t_i=(base, pos). Esimerkiksi sanat 5 ’small’, ’smaller’, ’smallest’ voivat olla eri ilmaisuja tai ne kaikki voidaan kuvata ilmaisuksi t=(”small”) tai ilmaisuksi t=(”small”, adj).
DR syöttää tietoyksikön Dii tallenteen ilmaisuerottimeen DT, joka analysoi tallenteessa olevat merkkisekvenssit ja määrittää niistä useita ilmaisuja. Ilmaisut voidaan saada automaattisesti käyttäen luonnollisen kielen proses-10 sointimenetelmiä, kuten sanaluokkamerkintää, verbi- ja substantiivilauseiden objekti/subjekti-suhteen selvittämistä. Ilmaisuiden erottamista tekstidokumenteista on käsitelty laajasti (http://www-nlp.stanford.edu/links/statnlp.html) tal-lenneanalyysien alalla eikä sitä kuvata tässä yksityiskohtaisesti. Mikä tahansa ilmaisujen erottamiseen soveliasta mekanismia voidaan käyttää suojapiiristä 15 poikkeamatta.
Olettakaamme, että tallenne sisältää lauseen The new Utopia phone is really small. However, it did not have good pre-installed ring tones. I think I will go buy it tomorrow’. DT:ssä lauseesta erotetaan seuraava joukko ilmaisuja: 20 ‘the’ ‘new’ ‘Utopia’ ‘phone’ ‘be’ 25 ‘really’ ‘small’ t i 0
CM
‘however’
Is- 9 ‘it’
CD
™ 30 ‘do’ £ ‘not’ ,- ‘have’ 1 ‘good’ o ‘pre-installed’ o w 35 ‘ring’ ‘tone’ 10 c ) τ ‘think’ Τ 5 ‘will’ ‘go’ ‘buy’ ‘it’ ‘tomorrow’ 10
Kontekstianalyysitoimintojen virtaviivaistamiseksi DT voi järjestää alkuperäisen tekstitallenteen ilmaisut ilmaisutallenteeseen D, joka vastaa joukkoa D={termi}, jossa tenrij=(ti, i) on tallenteen i:s termi ja t, on termin term, ilmaisu.
15 (‘the’,0) (‘new’,1) (‘Utopia’,2) (‘phone’,3) (‘be’,4) 20 (‘really’,5) (‘small’,6) ΓΛ7) (‘however’,8) (‘it’,9) 25 (‘do’, 10) (‘not’,11) o (‘have’,12) |4. (‘good’, 13) o ^ (‘pre-installed’, 14) w 30 (‘ring’, 15) £ (‘tone’, 16)
Si <”17> S (T,18) 00 § (‘think’, 19) w 35 (T,20) (‘will’,21) 11 (‘go’,22) (‘buy’,23) (‘it’,24) (‘tomorrow’,25) 5 (‘.’,26) DT syöttää ilmaisuerotetun tallenteen sentimenttierottimeen SE. Yleensä SAIS tallentaa joukon sentimentti-ilmaisuja ja sentimentti-ilmaisuun yhdistetyn polariteettiarvon. SE havaitsee tallenteen termijoukosta ainakin yhden sentimentti-ilmaisun. SE määrittää havaitsemaansa sentimenttitermiä vas-10 taavan polariteettiarvon. SE myös yhdistää sentimentti-ilmaisun kohderyhmään, joka käsittää yhden tai useampia tallenteen kohdetermejä. SE laskee polariteettiarvon kohdetermille tai kohdetermeille yhdistetyn sentimenttitermin polariteettiarvon perusteella. Sitten SE antaa sentimenttitietueita, joissa senti-menttitietue sisältää ainakin kohdetermin ilmaisun, kohdetermin lasketun pola-15 riteettiarvon ja vaihtoehtoisesti jotakin lisäinformaatiota, joka voi olla hyödyllistä haku- ja käyttövaiheen toiminnoille.
Keksinnön mukaisesti sentimentti-ilmaisut yhdistetään lisäksi kontekstiin, ja tätä kontekstia käytetään määrittämään voidaanko sentimenttitermin polariteettiarvoa käyttää laskettaessa kohdetermin tai kohdetermien polariteet-20 tiarvoa. Seuraavassa keskustellaan yksityiskohtaisemmin eräästä keksinnön toimintosarjan suoritusmuodosta. Suoritusmuodossa vihjeistä muodostuva tietokanta mahdollistaa kontekstipohjaisen analyysin.
Vihjetietokanta CDB on toiminnallinen yksikkö, joka on tietojärjestelmän SAIS sentimenttierottimen SE käytettävissä ja sisältää useita vihjeitä. 25 Vihje käsittää periaatteessa viitteen, viitekontekstin ja viitepolariteettiarvon. Vihjeen elementtien muoto noudattaa analysoitavan tallenteen tietoelementtien o muotoa siten, että samankaltaisuus vihjeen elementtien ja tallenteen yhden tai useamman elementin joukon välillä voidaan määrittää tietojärjestelmässä käyt-o ^ tämättä analyysiin samanaikaisesti ihmismieltä. Periaatteessa vihje voi käsittää ^ 30 minkä tahansa mediatyypin elementtejä, mukaan lukien ääntä ja videota. Esil- £ lä’ olevassa suoritusmuodossa, joka liittyy tekstitallenteisiin, termit perustuvat tekstimuotoisiin lauseisiin ja vihjeet sisältävät etupäässä positiivisen tai nega-$ tiivisen varauksen sisältävien adjektiivien, verbien, substantiivien, hymiöiden § tai huuto/kysymysmerkkien ilmauksia.
C\J
35 Näin ollen sellaisten termien havaitsemiseksi, jotka ovat potentiaali sia kandidaatteja sedimenteille, SE lukee termit tallenteesta ja valitsee niistä 12 yhdestä tai useammasta termistä muodostuvan joukon. SE tarkistaa osuuko tämä termijoukko vihjetietokannan vihjeiden viitteisiin. Jos termijoukon ja vihjeen välillä havaitaan osuma, termejä pidetään sentimenttikandidaattina ja SE ottaa ne lisäanalyysiin. Jos ei, termien ei katsota ilmaisen sentimenttiä, ja SE 5 jättää ne huomiotta tässä vaiheessa. Osuman tarkistus käsittää yhdestä tai useammasta termistä muodostuvan kandidaattijoukon valinnan tarkistettavaksi ilmaisuerotetusta tallenteesta, vihjeen samankaltaisuusfunktion ja vihjeen sa-mankaltaisuusfunktion kanssa käytettävän vastaavan osumakriteerin valinnan, ja valitun vihjesamankaltaisuusfunktion laskemisen valitun kandidaattijoukon ja 10 vihjeen perusteella. Jos tulos vastaa samankaltaisuusfunktion kanssa sovellettavaksi valittua positiivista osumakriteeriä, vihjeosuma on löytynyt.
Oletetaan yleisesti, että tallenne D tarkoittaa tietoyksikköä, ceC vihjettä, P(D) kaikkien tietoelementtijoukkojen joukkoa, ja m: P(D) x C —> R sa-mankaltaisuusfunktiota tietoelementtijoukon ja vihjeen välillä. Vihjeen voidaan 15 katsoa osuvan tallenteen elementtijoukkoon {ie,}, jos m({iei} ,c)> öm, missä 5m ennalta määrätty kynnysarvo vihjeosumalle.
Esillä olevassa suoritusmuodossa vihjeen samankaltaisuusfunktio voidaan toteuttaa ennalta määrättynä toimintona, joka määrittää termeistä joukon ilmaisuja, ja joukon vihjeen viitteessä olevia ilmaisuja, ja vertaa näitä mää-20 ritettyjä joukkoja. Yksinkertaisena esimerkkinä samankaltaisuusfunktio voi käsittää merkkikohtaisen vertailun termin ilmaisun ja vihjeen viitteen ilmaisun välillä, ja antaa Boolean-arvon 1, jos kaikki ilmaisun merkit vastaavat toisiaan tai Boolean arvoon 0, jos ainakin yksi verrattujen ilmaisujen merkeistä on eri.
Vihjeen samankaltaisuusfunktio voidaan valita erikseen kullekin 25 analysoitavalle ilmaisulle tai ilmaisujoukolle, tai kaikissa analyyseissä voidaan käyttää samaa samankaltaisuusfunktiota. Suojapiiristä poikkeamatta voidaan ° käyttää muun tyyppisiä vihjeen samankaltaisuusfunktioita ja erikokoisia tallen- teitä ja vihjeen ilmaisujoukkoja. Esimerkiksi vihjeen samankaltaisuusfunktion ei (^) välttämättä tarvitse olla Boolean-funktio; ilmaisujoukkojen välisten eritasoisten
(M
30 samankaltaisuuksien (eli osumien) ilmaisuun voidaan käyttää reaalinumeroita £ antavia funktioita. Vihjeosuma voidaan todeta, jos samankaltaisuuden taso ylitit tää ennalta määrätyn kynnysarvon. Menetelmiä ja funktioita samankaltaisuu- jg den määrittämiseksi vertailutermien ja kohdetermien välillä on kuvattu tarkem- o min esimerkiksi rinnakkaisessa hakemuksessa PCT/FI2007/050511.
(M
35 Kun tallenteen termien ilmaisuja ja viitteen ilmaisuja verrataan, tyy pillisesti, mutta ei välttämättä, edellytetään, että ilmaisut esiintyvät tallenteessa 13 samassa järjestyksessä kuin ne on annettu viitteessä. Voidaan myös vaatia, että perättäisten osumailmaisujen välillä ei ole muita ilmaisuja. Monissa kielissä tämä voi silti olla liian tiukka vaatimus, ja jottei viitteitä jää osumatta epäolennaisten täytesanojen vuoksi, on hyväksyttävä, että ilmaisujen välillä on vä-5 limatkaa. Tästä syystä vihjeisiin on mahdollista lisätä väljyysarvo, joka määrittää sallitun koon osumailmaisujen väliin jääville välimatkoille.
Näin ollen vihje voidaan muodollisemmin määrittää joukoksi tietoelementtejä, jotka sisältävät viitteen, joka sisältää väljyysarvon sei ja viiteil-maisusekvenssin (t,0), viitepolariteettiarvon peR, ja viitekontekstin o,. Vihjeen 10 koko | c| on sekvenssin (t,c) pituus. Vihjeen c voidaan katsoa osuvan tallenteen termijoukkoon, jos viitteen ilmaisut havaitaan termijoukon ilmaisuissa, edullisesti samassa järjestyksessä, ja rajoitetun etäisyyden päässä toisistaan. Tässä suoritusmuodossa hyväksyttävissä oleva välimatka vastaa sallittua ei-osuvien ilmaisujen määrää viitteessä olevaan ilmaisuun osuvan kandidaatti-15 joukon ilmaisun ja seuraavaan viitteessä olevaan ilmaisuun osuvan kandidaat-tijoukon seuraavan ilmaisun välillä.
Toisin sanoen, merkitään vihje c=(p,s,(tjc),Oj). Olkoon DK={(tj, i) | ieK} joukko termejä, jolloin Kc{0,1,..., | D|-1}. Olkoon kjK:n suurin elementti, c osuu D|<:hon kanssa, jos |c|=|DK| ja Vie[0, |c| -1], 20 if - tki > ki+l - ki < s
Olettakaamme esimerkiksi, että vihjeen vertailu toteutetaan termi-joukoilla, jotka sisältävät vain yhden termin, ja samankaltaisuusfunktio vihje-osumalle käsittää edellä kuvatun Boolean-funktion. Olettakaamme lisäksi, että vihjetietokanta sisältää seuraavat vihjeet: 25 c_0=(1,0,(“good”),{}) c_1 =(0,1,(“good”, “morning”),{}) § c_2=(1,0, (“small”), {’’phone”})
Kun SE alkaa käydä läpi termejä edellisessä esimerkkitallenteessa, cd ensimmäinen termi, joka vastaa vihjetietokannan vihjeen viitettä on termi x 30 (“small”, 6). Tätä termiä pidetään nyt sentimentti-ilmaisua kantavana kandi- * daattina.
Tavanomainen sanakirjaan perustuvat sentimenttien erottelumene-g telmät kärsivät yleiskäyttöisten sanakirjojen käytössä. Selkeästikään yhtä ja o samaa sanakirjaa ei voida käyttää erityyppisiin tallenteisiin, joiden sentimentti- 35 en ilmaisutavat ovat erilaisia, ja sentimenttitietueiden automaattisessa tuottamisessa voidaan tehdä epätarkkoja tai jopa vääriä tulkintoja. Tämän ongelman 14 lieventämiseksi kukin vihje sisältää lisäksi määrityksen kontekstista, jossa vihje pätee. Vastaavasti kutakin tallenteen termiä varten voidaan määrittää konteksti, jossa se esiintyy. Vihjettä voidaan pitää merkityksellisenä tallenteen yhden tai useamman termin ryhmälle vain, jos termin konteksti tallenteessa on riittä-5 vän samankaltainen vihjeen kontekstin kanssa. Jos kontekstit ovat hyväksyttävissä määrin samanlaisia, todetaan vastaavuusosuma ja vihjeen sanotaan liittyvän termiin. Liittyvä vihje soveltuu sentimenttitietueiden tuottamiseen.
Olkoon C yleisesti kaikkien mahdollisten kontekstien joukko, C^jeC elementtijoukon {e,}, konteksti, CueC vihjeen u konteksti ja r:CxC—>R saman-10 kaltaisuusfunktio kontekstien välillä. Vihje liittyy elementtijoukkoon {e,}, jos r(C{ £i},Cu)>5r, jossa δΓ on määrätty kynnysarvo kontekstien samankaltaisuudelle.
Esillä olevassa suoritusmuodossa vihje sisältää kontekstianalyysiä varten viitekontekstin Oj, joka sisältää ei yhtään, yhden tai useampia konteksti-ilmaisuja, joiden osumista verrattavia termejä ympäröivässä kontekstialueessa 15 oleviin termeihin voidaan tarkistaa. Näin ollen, kun vihjeosuma tallenteessa ja vihjetietokannassa olevan ilmaisun tai ilmaisujen välillä on löytynyt, SAIS määrittää kontekstialueen tallenteen kandidaattitermin tai -termien ympäriltä ja tarkistaa sitten löytyykö kontekstialueella olevien termien ilmaisujen ja vihjeessä olevan viitekonteksti-ilmaisun tai -ilmaisujen välillä osuma. Vihjeiden viitekon-20 teksti-ilmaisut tallennetaan viitetietokantaan ja niitä ylläpidetään siellä, ja esillä olevassa suoritusmuodossa sentimenttierottelutoimintosarjan näkökulmasta katsoen ne käsittävät ennalta määrättyjä ilmaisujoukkoja. Termien konteksti voidaan suojapiiristä poikkeamatta määrittää monella tavalla. Seuraavassa esitetään mekanismi, joka hyödyntää ilmaisuerotetun tallenteen ilmaisujen järjes-25 tystä.
Esillä olevan suoritusmuodon ilmaisuerotetussa tallenteessa D termi 5 käsittää indikaation sen ilmaisun järjestyksestä tallenteessa. Tämän ilmaisun
C\J
^ avulla voidaan määrittää alueperusteinen termikonteksti. Tallenteen termejä ° käsittävät voidaan siten pitää sekvenssinä ja termin /c-konteksti käsittää ilmai- co ^ 30 suja, jotka ovat enintään k askeleen etäisyydellä termistä. Toisin sanoen ter-
| min /c-konteksti käsittää termit, jotka ovat ilmaisuerotetussa tallenteessa D
(2k+1) pituisen ikkunan sisällä. Esimerkiksi termin 0-konteksti sisältää termin C\l J itsensä ilmaisun, ja termin 1-konteksti on joukko, jossa on termi itse ja termit o välittömästi sen vasemmalla ja oikealla puolella.
^ 35 Yleisesti jos D={termi} on tallenne, termin term, k-konteksti on (-'termi ={tx| (tx,X) eD A hk<X<i+k}.
15
Termijoukon k-konteksti on kontekstien unioni.
Esillä olevassa suoritusmuodossa, sentimentti-ilmaisua kantavaksi havaitun termin (“small”, 6) 3-konteksti on: C ("small”,6)= {“phone”, “be”, “really”, “small”, “however”, “if”} 5 Tässä suoritusmuodossa, kontekstin samanlaisuus lasketaan käyt tämällä peruskosinisamanlaisuutta f. Jos merkitsemme kaikkien ilmaisujen joukkoa T:llä ja P(T):llä kaikkien ilmaisujoukkojen joukkoa, ja annetaan C-ieP(T) ja C2sP(T) olla ilmaisukonteksteja, ilmaisukontekstisamanlaisuus f: P(T) x P(T) —> [0,1] voidaan määrittää: f 1 , if Ci = 0VC2 =0 f(C'i,02) = < ICiDCal otherume l V&isÄcTt ’ ot>lermse 10
Yhtälö ilmaisee, että tyhjän joukon samanlaisuus kaikkien muiden kontekstien suhteen voi olla 1. Tämän ansiosta voidaan määrittää vihjeitä, jotka ovat riittävän samanlaisia minkä tahansa kontekstin kanssa. Tällaisia vihjeitä kutsutaan globaaleiksi vihjeiksi. Esimerkki globaalista vihjeestä on ilmaisu 15 ’’hyvä”, jonka voidaan katsoa tarkoittavan positiivista kantaa missä tahansa annetussa kontekstissa.
Kosinisamanlaisuus 3-kontekstissa C3(-Smaii”,6) osumavihjeen c_2=( 1,0,(“small”),{’’phone”}) kanssa on:
Ismail-,6V {V«>™”» = ^ 20 Oletetaan, että suoritusmuotona käytetyssä järjestelmässä konteks- tisamanlaisuuden kynnysarvoksi on asetettu ör=0 siten, että mikä tahansa nollaa suurempi arvo todentaa samanlaisuuden. Tämä tarkoittaa sitä, että SE havaitsee termin (“small”, 6) liittyvän vihjeeseen c_2. Tämä tarkoittaa, että vihjet-tä c_2 voidaan käyttää luomaan sentimenttitietueita termeistä, jotka ovat sa-S 25 maila vaikutusalueella kuin termi (“small”, 6).
Yleisesti sentimentti viittaa kohdennettuun mielipiteeseen, jonka vai-o ^ kutusalue ulottuu yli elementtijoukon yli tallenteessa. Tässä suoritusmuodossa ^ sentimentillä voi olla positiivinen, neutraali tai negatiivinen polariteetti, jota
X
£ edustaa reaalinumero, negatiivisten numeroiden vastatessa negatiivisia senti- 30 menttejä ja positiivisten numeroiden positiivisia sentimenttejä. Tässä suoritus- S muodossa sentimenttitietue käsittää ryhmän tietoelementtejä (k,a,t,p), jossa 00 § keD ilmaisee sentimentin vaikutusalueen, aeA sentimentin tekijän, teD sen- ™ timentin kohteen ja peR sentimentin polariteetin. Sentimentti ilmaisee negatii visen sentimentin jos (iff), p < 0, ja sentimentti ilmaisee positiivisen sentimentin 16 jos (iff) p > 0. Muussa tapauksessa sentimenttiä voidaan pitää neutraalina sen-timenttinä.
Tavallisesti tallenne on enimmäkseen täynnä neutraaleja sentiment-tejä, eli toteamuksia, joilla ei ole negatiivista tai positiivista hyötykuormaa. Sen-5 timenttitietueiden kannalta järjestelmän tavoitteena on havaita ja taltioida negatiivisia ja positiivisia sentimenttejä tallenteessa olevasta suuresta neutraalien sentimenttien massasta.
Näin ollen, kun yhteys tallenteen termin ja vihjeen välillä on määritetty, termiin yhdistettyä sentimenttiä voidaan soveltaa yhteen tai useampaan 10 sellaisen kohdetermin joukkoon, jonka yli sentimentin vaikutusalue ulottuu. Jotta tämä olisi mahdollista, SE on yhdistetty vaikutusalue-erottimeen SPE. Kun SE on vihjetietokannassa CDB olevan tiedon perusteella havainnut sentimentin, se syöttää termin vaikutusalue-erottimeen, joka määrittää sentimentille vaikutusalueen. Vaikutusalueen määritys riippuu hyvin paljon sovellettavasta me-15 diatyypistä ja/tai tallennetyypistä, ja suojapiiristä poikkeamatta voidaan soveltaa erilaisia vaikutusalueen määritysmenetelmiä. Suoritusmuotona käytetyssä järjestelmässä vaikutusalueen erotin on järjestetty katsomaan, että sentimentti ulottuu tekstitallenteen lauseen yli. Kun SPE vastaanottaa SE:ltä termin (“small”, 6), se määrittää termit, jotka kuuluvat samaan lauseeseen ja palauttaa 20 SE.IIe vaikutusaluejoukon {(“the, 0), (“new”, 1), (“Utopia”, 2), (“phone”, 3), (“be”, 4), (“really”, 5), (“small”, 6), (“.”,7)}
On selvää, että kaikki termit eivät ole merkityksellisiä sentimentti-tietueiden kannalta ja sentimenttitietueiden luominen mille tahansa vaikutusalueen termille olisi resurssien haaskausta. SAIS käsittää edullisesti kohde-25 erottimen TE, johon on järjestetty kohteen erotusfunktio, joka vastaanottaa edellä kuvatun joukon SE:ltä ja palauttaa osajoukon, joka käsittää vain kohde-o termit, joiden katsotaan sopivan sentimenttitietuekyselyihin. Kohde-erotusta funktio voi vaihdella suojapiirin sisällä. Suoritusmuotona käytetyssä järjestel- ^ mässä, TE on järjestetty määrittämään ja erottamaan kaikki substantii- C\] 30 vit/pronominit, jotka ovat osumatermin edellä vaikutusaluejoukossa. Sanaluokat kien automaattinen määritys on alan ammattilaisille hyvin tunnettua, eikä siitä ^ keskustella enempää tässä yhteydessä.
S Tässä suoritusmuodossa sanaluokkien määrityksen tekee TE, mutta § sen voi tehdä myös DT. Esillä’ olevassa suoritusmuodossa, TE palauttaa 35 SE:lle kohdetermit (“Utopia”,2) ja (“phone”,3).
17
Tekstissä ilmaistut sentimentit voivat tallennekohtaisesti olla yhden henkilön tuottamia. On kuitenkin mahdollista, että teksti sisältää useita lainauksia ja viitteitä, jotka osoittavat useisiin mielipiteiden omistajiin. Jotta viitteet voitaisiin kyselyvaiheessa tehdä oikein, SAIS voi käsittää myös toiminnallisen ele-5 mentin tekijäerottimen AE. AE:hen on järjestetty tekijänerotusnfunktio, joka vastaanottaa koko vaikutusalueen osumatermit ja määrittää sentimenttitietuee-seen sisällytettävän tekijäindikaation. Tekijänerotusfunktio voi vaihdella suoja-piirin sisällä. Suoritusmuotona käytetyn järjestelmän AE käyttää yksinkertaistettua ratkaisua, joka etsii DE:ltä vastaanotetun metadatan, määrittää siitä al-10 kuun panneen viestintäosapuolen (verkkojutteluidentiteetti ’’loveMyPhone”), ja käyttää tätä identiteettiä minkä tahansa tallenteessa ilmaistun sentimentin tekijänä.
Lopulta SAIS käsittää lisäksi polariteettierottimen PE, joka laskee liittyvän vihjeen perusteella polariteettiarvon sentimenttitietueita varten. PE:hen 15 on järjestetty polariteettierotusfunktio, joka vastaanottaa kohdetermit ja määrittää niihin yhdistetyn, sentimenttitietueeseen sisällytettävän polariteettiarvon. Polariteettierotusfunktio voi vaihdella suojapiirin sisällä. Yksinkertaisimmassa muodossaan liittyvän vihjeen polariteetti voidaan yhdistää suoraan kohdeter-miin. Tyypillisesti on kuitenkin tarpeen tarkistaa sisältyykö vaikutusalueeseen 20 negaatio ja onko sillä vaikutusta kohdetermiä koskeviin laskutoimituksiin. Suoritusmuotona käytetyssä järjestelmässä tämä tehdään siten, että PE tarkistaa sisältääkö osumasentimenttitermiä edeltävä 3-kontekstin osa negaatioilmaisun ”not”. Jos ilmaisu löydetään, liittyvän vihjeen viitepolariteetti voidaan muuttaa kertomalla se -1:llä, muussa tapauksessa liittyvän vihjeen viitepolariteettiarvoa 25 voidaan käyttää suoraan. On myös mahdollista parantaa PE:n tarkkuutta edel-leen tulkitsemalla polariteetin heikkenevän etäännyttäessä osumasentimentti-o termistä. Tätä heikkeneminen voidaan ottaa huomioon esimerkiksi määrittä-
CM
r-L mällä kohdetermin polariteettiarvon vastaavan liittyvän vihjeen viitepolariteet- o ^ tiarvoa, jaettuna viiteilmaisun ja kohdetermin ilmaisun välisellä etäisyydellä ^ 30 vaikutusalueessa. Esimerkissä liittyvän vihjeen c_2 viitepolariteettiarvo on 1, ja ί etäisyys kohdetermistä (“Utopia”,2) osumatermiin (“small”, 6) on 4, joten koh- determiin (“Utopia”,2) yhdistettävä polariteettiarvo on 14 Vastaavasti etäisyys S kohdetermistä (“phone”,3) osumatermiin (“small”, 6) on 3, joten kohdetermiin 00 g (“small”, 6) yhdistettävä polariteettiarvo on 1/3.
(M
35 Ensimmäisen osumatermin perusteella tuotetut sentimenttitietueet ovat: 18 s_0=({(‘the,,0)l(‘new,,1),(‘Utopia’)2)>(‘phone’>3),(‘be’I4),(,really’l5),(‘smair>6),(‘.,l 7)}, LoveMyPhone, {(“Utopia”,2)}, 1/4) s_1=({(‘the,,0),(,new’,1),(‘Utopia’,2),(‘phone’,3),(‘be’,4),(‘realiy’,5),(‘smair,6),(‘.’> 5 7)}, LoveMyPhone, {(“phone”,3)}, 1/3)
Sentimenttiä kuljettava teksti-ilmaisu voi tulla negatiiviseksi tai neutralisoitua, jos ilmaisu on osa suurempaa lauseketta. Tämä vihjeiden suhde voidaan ilmaista osajärjestyksien muodossa. Olkoon u ja v vihjeitä ja <cue kaik-10 kia vihjeitä koskeva tarkka osajärjestys. Vihje u on vihjeen v alivihje ja vihje v on vihjeen u ylivihje jos (iff) u<cue v. Ylivihjeen katsotaan olevan yksityiskohtaisempi kuin sen alivihjeet. Tarkempiin tuloksiin ja tehokkaampaan käsittelyyn pääsemiseksi järjestelmä voidaan järjestää käyttämään yksityiskohtaisinta vihjettä, joka osuu elementtiin.
15 Esimerkiksi tallenteen D seuraava osuva termi olisi termi (“good”, 13). Vihjeellä cue c_0=((1,0,(“good”),{}) on nyt ylivihje c_1 =(0,1,(“good”, “morning”),{}), ja tarkempiin tuloksiin pääsemiseksi PE yrittää ensin tarkistaa vihjeen c_1 osumaa. Seuraavat kaksi termiä (“pre-installed”, 14) ja (“ring”, 15) eivät sisällä ilmaisuja, jotka osuisivat c_1:n toiseen ilmaisuun ’’morning”. Näin ol-20 Ien vihje c_1 ei ole osuma. Toisaalta vihje c_0 osuu selvästi termiin (“good”, 13).
Suoritusmuotona käytetty SE erottaa seuraavan lauseen: {(‘however’,8),(‘it’,9),(‘do’, 10),(‘not’, 11),(‘have’, 12),(‘good’, 13),(‘pre-installed’, 14),(‘ring’, 15),(‘tone’,16),(‘.’,17)}, ja TE erottaa joukosta kohdetermin (“it”,9) joka on lau-25 seen ainut substantiivi/pronomini.
Liittyvän vihjeen c_0 polariteetti on 1 ja termin ”it” etäisyys termistä o ’’good" on 4. PE havaitsee ilmaisun (“not”, 11), joten kohdetermille määritetty
CM
^ polariteettiako on -1/4.
° Tulokseksi saaduksi sedimentiksi tulee siis: ™ 30 s_2=({(‘how-ever’,8),(‘it’,9),(‘do’,10),(‘not’,11),(‘have’,12),(‘good’,13),(‘pre-install f ed’,14),(‘ring’,15),(‘tone’,16),(‘.’,17)}, LoveMyPhone, {(“it”,9)}, -1/4}
Vaihtoehtoinen tapa negaatioilmaisun (“not”, 11) huomioimiseksi olisi
CM
^ ottaa lisäksi huomioon negaatioilmaisun sijainti. Polariteettiarvoksi tulisi silloin o =-1/(11-9)=.1/2.
^ 35 Esillä olevan suoritusmuodon esimerkkitallenteesta ei löydy muita osuvia termejä. Kontekstin huomioivaa lähestymistapaa käyttämällä sentiment- 19 titermin ja sentimentin vaikutusalueen sisällä olevan kohdetermin yhdistelmän tulkinta lähestyy ihmismielen joustavuutta ja tekee kohdetermeihin yhdistetyistä polariteettiarvoista tarkempia jatkoanalyysejä silmälläpitäen. Menetelmä on suhteellisen yksinkertainen ja se voidaan näin ollen toteuttaa yleiskäyttöisten 5 tietojärjestelmien laitteiston avulla.
Kuvio 5 esittää suoritusmuodon kuvion 4 tietojärjestelmän SAIS toteuttamasta menetelmästä sentimenttitietueiden luomisessa. Vaiheiden yksityiskohtia voidaan tarkistaa myös kuvion 4 kuvauksesta. Toimintosarja alkaa vaiheessa, jossa SAIS on käynnistettyjä valmis ottamaan vihjeitä ja tietoyksi-10 köitä. Yhden tai useamman vihjeen joukko tallennetaan (vaihe 500) viitetietokantaan ja SAIS siirtyy valmiuteen (vaihe 502) uusien tietoyksiköiden vastaanottamiseksi. Vihje sisältää viitteen, viitekontekstin ja viitepolariteettiarvon. Kun uusi tietoyksikkö vastaanotetaan (vaihe 504), sen ilmaisut erotellaan (vaihe 506) tallenteeksi D, joka käsittää joukon termejä D={termj}. Tallenteen D termi-15 en osuvuus tallennettuihin vihjeisiin tarkistetaan (vaihe 508). Jos (vaihe 510) vihjeosumaa ei löydy, tietoyksikkö ei sisällä taltioitavia sentimenttejä ja toimintosarja siirtyy takaisin vaiheeseen 502 odottamaan seuraavaa tietoyksikköä.
Jos (vaihe 510) vihjeosuma löytyy, SAIS tekee relevanssitarkistuk-sen, jossa se määrittää (vaihe 512) kontekstialueen osumatermin ympäriltä ja 20 tarkistaa (vaihe 514) kontekstialueella olevien termien ilmaisujen ja vihjeen konteksti-ilmaisujen osuvuuden. Jos (vaihe 516) relevanssiosumaa ei löydy, vihjettä ei voida yhdistää mihinkään vaikutusalueella olevaan termiin ja toimintosarja palaa vaiheeseen 508 etsimään lisää vihjeosumia. Jos (vaihe 516) re-levanssiosuma löytyy, sentimenttitermi taltioidaan (vaihe 518) ja siihen yhdis-25 tetty vaikutusalue määritetään (vaihe 520). Vaikutusalueelta etsitään (vaihe 522) kohdetermejä. Jos (vaihe 524) kohdetermiä ei löydy, ei ole ainuttakaan o termiä, johon sentimentti voidaan yhdistää ja toimintosarja palaa takaisin vai- iJ. heeseen 508 etsimään lisää vihjeosumia. Jos (vaihe 524) kohdetermi löytyy, ^ SAIS määrittää (vaihe 526) sentimentin tekijän, ja laskee (vaihe 528) liittyvän ™ 30 vihjeen viitepolariteettiarvon perusteella kohdetermille polariteettiarvon. Tieto £ vaikutusalueesta, tekijästä, kohdetermi ja laskettu polariteettiarvo tallennetaan (vaihe 530) sentimenttitietueen tietoelementeiksi ja ne annetaan (vaihe 532) S SAIS:in sentimenttitietokantaan. Toimintosarja siirtyy sitten vaiheeseen 522 et- § simään toista kohdetermiä sentimenttitietuetta varten.
CM
35 Kuten edellä mainittiin, sentimentin erotustoimintosarjalle viitetieto kanta edustaa staattista yksikköä, joka tarjoaa joukon vihjeitä ja vihjekonteksti- 20 ilmaisuja, joita voidaan käyttää vertailuissa. Vihjetietokanta, joka mahdollistaa ilmaisujen kontekstitietoisen erottelun, tarjoaa tietorakenteen, jossa sekä viitteet että niihin yhdistetyt kontekstit voidaan myös helposti säilyttää ihmismielen minimaalisella rinnakkaisella tuella tai jopa ilman sitä. Edellisessä suoritus-5 muodossa oletettiin, että asiantuntija oli syöttänyt vihjeet tietokantaan ja niitä tallennettiin siellä jatkokäyttöä varten sentimenttierottelutoiminnoissa.
On kuitenkin selvää, että mitä tahansa täysimittaista järjestelmää varten yksinomaan ihmisen syöttämiin vihjeisiin perustuva vihjetietokanta ei tule olemaan teknisesti toimintakykyinen. Automatisoidumpi lähestymistapa saa-10 daan mahdolliseksi erottamalla vihjeitä merkitystä sentimenttitiedosta. Olettakaamme, että SAIS käsittää vihjeenhallinnan toiminnallisen lisäelementin CM. Oletetaan lisäksi, että asiantuntija syöttää CM:ään joukon lauseita, jotka on merkitty joko positiiviseksi tai negatiiviseksi. Lauseet voisivat olla esimerkiksi: Ί think Idoc is a very good MP3 player’, 15 The theater has a good sound system’
The new Swecar performed well in tests’ ja kukin niistä olisi merkitty positiiviseksi. Viitteiden havaitsemiseksi CM käsittää vihjeen havaitsemisfunktion ja erottaa syötetyistä lauseista adjektiivit ’’new” ja ’’good” ja muodostaa niistä positiivisia (polariteetti^) globaaleja vihjekandi-20 daatteja, joiden väljyys on nolla. c_0=(1,0,(“good”),{}) c_1=(1,0,(“new”),{}) CM määrittää sitten näiden vihjekandidaattien taajuuden merkityissä lauseissa. Adjektiivin ’’good” taajuus on 2/3 (lauseet) ja adjektiivin ’’new” taa-25 juus on 1/3. CM voi sitten joko hyväksyä tai hylätä kandidaatit niiden taajuuksi-en perusteella.
o Automatisoidun toimintosarjan ongelmana on, että tuotetut vihjeet ^ eivät välttämättä käsitä kontekstitietoa, jota tarvitaan tarkempien tulosten ai- ^5 kaansaamiseksi.
C\J
30 Keksinnön mukainen järjestelmä tarjoaa kuitenkin itseohjautuvan
£ mekanismin, jossa olemassa olevaa vihjetietokantaa ja sentimenttierotinta SE
käytetään tuottamaan uusia vihjeitä, joissa on kontekstitietoa. Kuvio 6 esittää S itseohjaavan toimintosarjan, jota voidaan käyttää kuvion 3 SAIS:issä. Itseoh- o jäävässä toimintosarjassa CM vastaanottaa tallenteen ja olemassa olevan vih-
CM
35 jeen ja erottaa tallenteesta yhden tai useampia sentimenttitietueita, kuten edellä kuvioissa 4 ja 5 kuvattiin. Kuvion 6 esimerkissä syötetty lause 60 on ‘Idoc 21 nono is a good MP3 player because it is so small’, ja vihjetietokanta CDB käsittää yhden vihjeen c=(1,0,(“good”),{}). Kun tätä vihjettä käytetään edellä kuvatulla tavalla, SE antaa sentimenttitietueen: s_0=({(“ldoc”,0),(“nono”,1),(“be”,2),("a”,3),(“good”,4),(“MP3”,5),(“player”,6),(“be 5 cause”,7),(“it”,8), (“be”,9),(“so”, 10),(“small”, 11),(“.”, 12)},A,{(“ldoc”,0),(“nono”, 1)}, 1/3) jonka kohdetermit ovat (“ldoc”,0), (“nono”,1) ja polariteetti 1/3. Sen lisäksi, että sentimenttitietue annetaan sentimenttitietokantaan, sentimentti s_0 välitetään myös CM:lle, joka erottaa vaikutusalueelta ilmaisut ’’good” ja ’’small” 63 ja luo 10 niistä positiiviset ja negatiiviset kandidaattivihje-ilmaisut 64 (“good”,1), (“good”,-1), (“small”, 1), (“small”,-1).
CM voidaan järjestää hyväksymään vain vihjeilmaisut, jotka esiintyvät teksteissä usein ja siten ennen ilmaisujen ’’good” ja ’’small” hyväksymistä, CM tarkistaa esiintyvätkö ne tarpeeksi usein toimitetussa tallenteessa. CM 15 täydentää kandidaatti-ilmaisutietueita 65 käsittämään ilmaisun kandidaatin esiintymistaajuudesta positiivisissa ja negatiivisissa sentimenteissä ("good”, 0/1, -1), (’’good”, 1/1, 1), (’’small”, 0/1, -1), (’’small”, 1/1, 1). Koska opetusmateriaali käsittää yhden tallenteen positiivisen sentimentin, positiiviset kandidaatit saavat taajuudeksi 1/1, koska kummatkin adjektiivit esiintyvät kerran positiivi-20 sessa sedimentissä. Vastaavasti negatiivisten sentimenttien taajuudeksi tulee nolla, ja negatiiviset kandidaatit näin ollen eliminoituvat. Jäljelle jäävät vihje-kandidaatit 66 ovat siten (’’good”, 1/1, 1) ja ("small”, 1/1, 1).
CM tarkistaa myös ovatko vihjekandidaatit uusia. Kuvion 6 esimerkissä kandidaatin ("good”, 1/1, 1) ilmaisu esiintyy jo sellaisenaan olemassa 25 olevassa vihjeessä, ja vihjettä, jossa on viite ’’good” ei siten tarvitse lisätä enää vihjetietokantaan. Adjektiivi ’’small” on kuitenkin uusi ja ilmaisua ’’small” pide-o tään näin ollen kandidaatti-ilmaisuna 67 vihjeen viitteeksi.
CM
^ Kohdetermit kontekstianalyysia varten määritetään sentimenttitietu- 1 een vaikutusalueesta samalla tavoin kuin sentimenttien erotuksessa, esimer-
CQ
^ 30 kiksi taltioimalla kaikki substantiivit (”ldoc”, ”nono”, ”MP3”, ’’Player”) vaikutus- £ alueelta. Nämä substantiivit lisätään vihjeeseen joukkona viitekonteksti- -r- ilmaisuja. Täysin automaattisessa vihjetuotannossa vihjekandidaatin 67 ilmaisu ja viitekonteksti-ilmaisut kootaan suoraan vihjeeksi 68, joka voidaan taltioida 00 o vihjetietokantaan CDB. Polariteettiarvo viitettä varten voidaan saada suoraan ^ 35 tai laskemalla vihjekandidaatin polariteettiarvosta. Lisäsäätönä toimintosarjaan 22 voidaan lisätä vaihe, jossa asiantuntija tarkistaa vihjeen 68 ennen sen tallennusta vihjetietokantaan CDB.
Alan ammattilaiselle on ilmeistä, että tekniikan kehittyessä keksinnön perusajatus voidaan toteuttaa monin eri tavoin. Keksintö ja sen suoritus-5 muodot eivät siten rajoitu yllä kuvattuihin esimerkkeihin vaan ne voivat vaihdella patenttivaatimusten puitteissa.
δ
CM
1^ o
CD
CM
X
cc
CL
CM
LO
00
O
O
CM

Claims (15)

  1. 23
  2. 1. Tietojärjestelmä, joka käsittää: ilmaisuerottimen, joka on järjestetty vastaanottamaan tietoyksikön ja erottamaan siitä joukon ilmaisuja; 5 vihjetietokannan, joka on järjestetty tallentamaan yhden tai useam pia vihjeitä, vihjeen käsittäessä viitteen ja viitepolariteettiarvon, viitteen käsittäessä yhden tai useampia ilmaisuja; sentimenttierottimen, joka on järjestetty erottamaan joukosta ilmaisuja kandidaatti-ilmaisujoukon, joka käsit-10 tää yhden tai useampia ilmaisuja; vertaamaan kandidaatti-ilmaisujoukkoa vihjetietokannan vihjeisiin; vasteena osuman havaitsemiselle kandidaatti-ilmaisujoukon ja vihjeen välillä hakemaan vihjeen viitepolariteettiarvon; käyttämään viitepolariteettiarvoa laskettaessa polariteettiarvoa tieto-15 yksikön yhden tai useamman kohdeilmaisun kohdejoukolle; antamaan sentimenttitietueita, tietueen käsittäessä kohdejoukon ja kohdejoukolle lasketun polariteettiarvon, tunnettu siitä, että vihje käsittää myös vihjekohtaisen viitekontekstin, joka käsittää yhden tai useampia ilmaisuja; ja 20 sentimenttierotin on järjestetty: määrittämään alueen, joka sisältää kandidaatti-ilmaisujoukon ja kan-didaatti-ilmaisujoukossa olevien ilmaisujen määrätyt naapuri-ilmaisut; vertaamaan määrätyssä alueessa olevia ilmaisuja vihjeen viitekon- tekstiin; 25 päättämään vertailun perusteella käytetäänkö viitepolariteettiarvoa laskettaessa polariteettiarvoa yhdelle tai useammalle tietoyksikön kohdeil- ^ maisulle. o
  3. 2. Patenttivaatimuksen 1 mukainen tietojärjestelmä, tunnettu 0 siitä, että i 1 30 ilmaisuerotin on järjestetty määrittämään ilmaisun sijainti tietoyksi- 1 kössä ja välittämään ilmaisu sentimenttierottimeen terminä, joka käsittää ilmai sun ja indikaation ilmaisun sijainnista; sentimenttierotin on järjestetty käyttämään ilmaisun sijainti-indikaa- LO g tiota erotus-, vertaus-, lasku- ja/tai määritystoiminnoissaan. oj 35 3. Patenttivaatimuksen 1 tai 2 mukainen tietojärjestelmä, tunnet- t u siitä, että 24 ilmaisuerotin on järjestetty määrittämään ilmaisun sanaluokan ja välittämään ilmaisun sentimenttierottimeen terminä, joka käsittää ilmaisun ja indikaation ilmaisun sanaluokasta; sentimenttierotin on järjestetty käyttämään ilmaisun sanaluokkaindi-5 kaatiota erotus-, vertaus-, lasku- ja/tai määritystoiminnoissaan.
  4. 4. Minkä tahansa patenttivaatimuksen 1-3 mukainen tietojärjestelmä, tunnettu siitä, että viite ja kandidaatti-ilmaisujoukko ovat perättäinen joukko ilmaisuja, ja vihje käsittää lisäksi väljyysarvon, joka määrittää sallitun ei-osuvien ilmaisu- 10 jen määrän viitteessä olevaan ilmaisuun osuvan kandidaattijoukon ilmaisun ja seuraavaan viitteessä olevaan ilmaisuun osuvan kandidaattijoukon seuraavan ilmaisun välillä.
  5. 5. Minkä tahansa patenttivaatimuksen 1-4 mukainen tietojärjestelmä, tunnettu siitä, että sentimenttierotin on järjestetty vertaamaan ilmaisu- 15 ja määrätyllä alueella vihjeen viitekontekstiin käyttämällä samanlaisuusfunktio-ta, määrättyjen samanlaisuusfunktion tulosten liittyessä positiiviseen osumaan tai negatiiviseen osumaan.
  6. 6. Patenttivaatimuksen 5 mukainen tietojärjestelmä, tunnettu siitä, että samanlaisuusfunktio on kosinisamanlaisuus, joka saadaan /(C'l, Co) - | , otherwise 20 jossa C1 on viitekonteksti ja C2 on määrätyllä alueella olevien ilmaisujen muodostama konteksti.
  7. 7. Patenttivaatimuksen 5 tai 6 mukainen tietojärjestelmä, tunnet-t u siitä, että vasteena positiiviseen osumaan yhdistyvän samanlaisuusfunktion 25 tulokselle, sentimenttierotin on järjestetty määrittämään kandidaattijoukolle vai-kutusalueen, vaikutusalueen käsittäessä määrätyn joukon kandidaatti-™ ilmaisujoukkoon yhdistettyjä ilmaisuja.
  8. 8. Patenttivaatimuksen 7 mukainen tietojärjestelmä, tunnettu siitä, että vaikutusalue käsittää ilmaisuja, jotka kuuluvat samaan lauseeseen x 30 kuin kandidaatti-ilmaisujoukko.
  9. 9. Patenttivaatimuksen 8 mukainen tietojärjestelmä, tunnettu siitä, että sentimenttierotin on järjestetty oo erottamaan vaikutusalueesta ainakin yhden kohdeilmaisun; ja o ^ käyttämään kohdeilmaisun paikan etäisyyttä kandidaatti-ilmaisujou- 35 kosta laskettaessa polariteettiarvoa kohdeilmaisulle. 25
  10. 10. Patenttivaatimuksen 9 mukainen tietojärjestelmä, tunnettu siitä, että sentimenttierotin on järjestetty tarkistamaan sisältääkö vaikutusalue negaatioilmaisun; ja vasteena negaatioilmaisun havaitsemiselle vaikutusalueessa, sää-5 tämään kohdeilmaisun polariteettiarvoa havaitun negaatioilmaisun mukaisesti.
  11. 11. Minkä tahansa patenttivaatimuksen 7-10 mukainen tietojärjestelmä, tunnettu siitä, että sentimenttierotin on järjestetty erottamaan vaikutusalueesta yhden tai useamman ilmaisun vihjekandidaattijoukon.
  12. 12. Patenttivaatimuksen 11 mukainen tietojärjestelmä, tunnettu 10 siitä, että sentimenttierotin on järjestetty havaitsemaan vaikutusalueesta yhden tai useamman vihjekonteksti-ilmaisun joukon ja yhdistämään vihjekonteksti-il-maisut vihjekandidaattijoukkoon.
  13. 13. Patenttivaatimuksen 12 mukainen tietojärjestelmä, tunnettu siitä, että sentimenttierotin on järjestetty laskemaan vihjekandidaattijoukoile po- 15 lariteettiarvon ja tallentamaan vihjekandidaattijoukon, vihjekonteksti-ilmaisut ja polariteettiarvon vihjeenä vihjetietokantaan, vihjekandidaattijoukon ollessa käytettynä perustana vihjeen viitteelle, vihjekonteksti-ilmaisujen viitekontekstille ja laskettujen polariteettiarvojen viitepolariteetille.
  14. 14. Menetelmä, joka käsittää: 20 operoidaan tietojärjestelmää; vastaanotetaan tietoyksikkö ja erotetaan siitä joukko ilmaisuja; tallennetaan yksi tai useampia vihjeitä, vihjeen käsittäessä viitteen ja viitepolariteettiarvon, viitteen käsittäessä yhden tai useampia ilmaisuja; erotetaan useista ilmaisuista kandidaatti-ilmaisujoukko, joka käsittää 25 yhden tai useampia ilmaisuja; verrataan kandidaatti-ilmaisujoukkoa vihjetietokannan vihjeisiin; ^ vasteena osuman havaitsemiselle kandidaatti-ilmaisujoukon ja vih- ^ jeen välillä haetaan vihjeen viitepolariteettiarvo; käytetään viitepolariteettiarvoa laskettaessa polariteettiarvo tietoyk-30 sikön yhden tai useamman kohdeilmaisun kohdejoukolle; (M x annetaan sentimenttitietueita, tietueen käsittäessä kohdejoukon ja £ kohdejoukon lasketun polariteettiarvon, tunnettu siitä, että sisällytetään vihjeeseen vihjekohtainen viitekonteksti, joka käsittää •'sj- g yhden tai useampia ilmaisuja; ja o 35 määritetään alue, joka sisältää kandidaatti-ilmaisujoukon ja kandi- daatti-ilmaisujoukossa olevien ilmaisujen määrätyt naapuri-ilmaisut; 26 verrataan määrätyssä alueessa olevia ilmaisuja vihjeen viitekon- tekstiin; päätetään vertailun perusteella käytetäänkö viitepolariteettiarvoa laskettaessa polariteettiarvoa yhdelle tai useammalle tietoyksikön kohdeil-5 maisulle.
  15. 15. Tietokoneohjelmatuote, joka on tietokoneella luettavissa ja koo-daa käskyjä sisältävän tietokoneohjelman tietokoneprosessin suorittamiseksi tietojärjestelmässä olevien toimintojen ohjaamiseksi, tunnettu siitä, että prosessi sisältää: 10 operoidaan tietojärjestelmää; vastaanotetaan tietoyksikkö ja erotetaan siitä joukko ilmaisuja; tallennetaan yksi tai useampia vihjeitä, vihjeen käsittäessä viitteen ja viitepolariteettiarvon, viitteen käsittäessä yhden tai useampia ilmaisuja; erotetaan useista ilmaisuista kandidaatti-ilmaisujoukko, joka käsittää 15 yhden tai useampia ilmaisuja; verrataan kandidaatti-ilmaisujoukkoa vihjetietokannan vihjeisiin; vasteena osuman havaitsemiselle kandidaatti-ilmaisujoukon ja vihjeen välillä haetaan vihjeen viitepolariteettiarvo; käytetään viitepolariteettiarvoa laskettaessa polariteettiako tietoyk-20 sikön yhden tai useamman kohdeilmaisun kohdejoukolle; annetaan sentimenttitietueita, tietueen käsittäessä kohdejoukon ja kohdejoukon lasketun polariteettiarvon, tunnettu siitä, että sisällytetään vihjeeseen vihjekohtainen viitekonteksti, joka käsittää yhden tai useampia ilmaisuja; ja 25 määritetään alue, joka sisältää kandidaatti-ilmaisujoukon ja kandi- daatti-ilmaisujoukossa olevien ilmaisujen määrätyt naapuri-ilmaisut; T- verrataan määrätyssä alueessa olevia ilmaisuja vihjeen viitekon- ™ tekstiin; päätetään vertailun perusteella käytetäänkö viitepolariteettiarvoa cd 30 laskettaessa polariteettiarvoa yhdelle tai useammalle tietoyksikön kohdeil-x maisulle. cc CL cm LO 00 O O C\l 27
FI20085421A 2008-05-07 2008-05-07 Tietojärjestelmä FI122369B (fi)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FI20085421A FI122369B (fi) 2008-05-07 2008-05-07 Tietojärjestelmä

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FI20085421 2008-05-07
FI20085421A FI122369B (fi) 2008-05-07 2008-05-07 Tietojärjestelmä

Publications (3)

Publication Number Publication Date
FI20085421A0 FI20085421A0 (fi) 2008-05-07
FI20085421A FI20085421A (fi) 2009-11-08
FI122369B true FI122369B (fi) 2011-12-30

Family

ID=39523076

Family Applications (1)

Application Number Title Priority Date Filing Date
FI20085421A FI122369B (fi) 2008-05-07 2008-05-07 Tietojärjestelmä

Country Status (1)

Country Link
FI (1) FI122369B (fi)

Also Published As

Publication number Publication date
FI20085421A0 (fi) 2008-05-07
FI20085421A (fi) 2009-11-08

Similar Documents

Publication Publication Date Title
US11514235B2 (en) Information extraction from open-ended schema-less tables
WO2015185019A1 (zh) 一种基于语义理解的表情输入方法和装置
Ek et al. Named entity recognition for short text messages
CN104573099B (zh) 题目的搜索方法及装置
Phandi et al. SemEval-2018 task 8: Semantic extraction from CybersecUrity REports using natural language processing (SecureNLP)
JP2010181993A (ja) 絵文字を含む文章ファイルを評価する評価分析サーバ、方法及びプログラム
Jiang et al. Factoring fact-checks: Structured information extraction from fact-checking articles
Oramas et al. ELMD: An automatically generated entity linking gold standard dataset in the music domain
Murray et al. Interpretation and transformation for abstracting conversations
Abdallah et al. Multi-domain evaluation framework for named entity recognition tools
González et al. Siamese hierarchical attention networks for extractive summarization
Reshadat et al. A new open information extraction system using sentence difficulty estimation
Algur et al. Sentiment analysis by identifying the speaker's polarity in Twitter data
US9639524B2 (en) Linguistic based determination of text creation date
Serigos Applying corpus and computational methods to loanword research: new approaches to Anglicisms in Spanish
Chopra et al. Named entity recognition in Punjabi using hidden Markov model
CN110008314B (zh) 一种意图解析方法及装置
Oudah et al. Person name recognition using the hybrid approach
Fenogenova et al. A general method applicable to the search for anglicisms in russian social network texts
FI122369B (fi) Tietojärjestelmä
Dadoun et al. Sentiment Classification Techniques Applied to Swedish Tweets Investigating the Effects of translation on Sentiments from Swedish into English
Ezhilarasi et al. Designing the neural model for POS tag classification and prediction of words from ancient stone inscription script
Lek et al. Sentix: An aspect and domain sensitive sentiment lexicon
Eder et al. Acquiring a formality-informed lexical resource for style analysis
Wadawadagi et al. A multi-layer approach to opinion polarity classification using augmented semantic tree kernels

Legal Events

Date Code Title Description
FG Patent granted

Ref document number: 122369

Country of ref document: FI

MM Patent lapsed