FI122369B - information - Google Patents
information Download PDFInfo
- Publication number
- FI122369B FI122369B FI20085421A FI20085421A FI122369B FI 122369 B FI122369 B FI 122369B FI 20085421 A FI20085421 A FI 20085421A FI 20085421 A FI20085421 A FI 20085421A FI 122369 B FI122369 B FI 122369B
- Authority
- FI
- Finland
- Prior art keywords
- expression
- expressions
- hint
- sentiment
- tip
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
TietojärjestelmäInformation Systems
Keksinnön alaField of the Invention
Esillä oleva keksintö liittyy tietotekniikoihin ja erityisesti sentimentti-analyysitietojärjestelmään.The present invention relates to information technology and in particular to the sentiment analysis information system.
5 Keksinnön taustaBackground of the Invention
Suurimmalla osalla organisaatioita on tarve monitoroida yleistä mielipidettä heihin yhdistetyistä asioista, oli kyseessä sitten organisaation tuotteet, maine tai imago. Esimerkiksi yritystä voi kiinnostaa pitävätkö ihmiset muutoksesta heidän tuotteessaan, tai kampanjaorganisaatio haluaisi tietää esittävätkö 10 ihmiset negatiivisia mielipiteitä heidän kandidaattinsa käynnissä olevasta avio-eroprosessista.Most organizations need to monitor public opinion about the things they are involved with, whether it's products, reputation or image. For example, a company might be interested in whether people like the change in their product, or a campaign organization would like to know if 10 people have negative opinions about their candidate's ongoing divorce process.
Tällainen monitorointi tehdään perinteisesti joko kyselemällä henkilöistä muodostuvalta koeryhmältä suoraan heidän mielipiteitään, tai käymällä läpi kokoelma tietystä aiheesta kirjoitettuja tallenteita. Kumpikin näistä mene-15 telmistä on kallis, aikaa vievä ja rajoittuu suhteellisen pieneen koeryhmään, sillä niissä on mukana ihmisen tekemää työtä. Esimerkiksi markkinatutkimuksessa ja riskinhallinnassa myönteisten tai kielteisten mielipiteiden, sentimenttien, automaattista erottelua pidettäisiin parempana.Traditionally, this kind of monitoring is done either by asking a group of individuals directly about their opinions, or by looking through a collection of recordings on a particular subject. Each of these methods is costly, time consuming, and limited to a relatively small set of experiments because they involve human work. For example, in market research and risk management, automatic separation of positive or negative opinions, sentiments, would be preferable.
Lisäksi verkkosisällön, kuten verkkolokien ja verkkofoorumien, mää-20 rän räjähdysmäinen kasvu on luonut mahdollisuuden päästä käsiksi suunnattomaan yleisen mielipiteen tietolähteeseen. Verkkosisällön valtava määrä tarkoittaa kuitenkin tosiasiallisesti sitä, että verkkosisällön uskottava analysointi tavanomaisin menetelmin on käytännöllisesti katsoen mahdotonta.In addition, the explosive growth of online content such as weblogs and online forums has made it possible to access a vast source of public opinion information. However, the enormous amount of web content actually means that it is virtually impossible to credibly analyze web content using conventional methods.
Tietojenkäsittelytyökalujen kehitys on mahdollistanut sellaisten lait-£ 25 teiden tuottamisen, joissa erityyppisissä tietoyksiköissä, esimerkiksi tallentaisin sa, HTML-sivuissa, jne. olevat sentimentit voidaan tunnistaa ja taltioida autos’ maattisesti. Automaattinen tässä yhteydessä tarkoittaa, että tunnistus- ja talti- to ointitoiminnallisuuksia sisältävä toimintosarja voidaan toteuttaa tietojärjestel-| män ohjelmistolla, mikro-ohjelmistolla, ja/tai laitteistolla ilman, että ihmismieli 30 samanaikaisesti osallistuu siihen.The development of data processing tools has made it possible to produce devices in which the sentiments in different types of data units, such as recorders, HTML pages, etc., can be identified and stored autosmically. Automatic in this context means that a sequence of identification and storage functionalities can be implemented in an IT system. software, firmware, and / or hardware without the human mind being simultaneously involved.
Olemassa olevien tietojärjestelmien ongelma sentimenttianalyysin o suhteen on, että analyysien tulokset eivät ole tarkkoja ja sen vuoksi tällaistenThe problem with existing information systems with respect to sentiment analysis o is that the results of the analyzes are not accurate and therefore
Oo
^ tulosten perusteella tehdyt kyselyt eivät ole riittävän informatiivisia kaupallisen kiinnostuksen herättämiseksi, tai ne eivät osoita oikeutetuksi tällaisiin kyselyi-35 hin liittyviä käypiä kustannuksia. Sentimentin paikallistaminen ja sentimentin 2 myönteisyyden tai kielteisyyden analysointi on suhteellisen helppo tehtävä ihmismielelle, mutta saman suorittaminen tietojärjestelmällä on kaikkea muuta kuin triviaalia. Tyypillisesti tietojärjestelmällä saavutetut tulokset ovat hyvin erilaisia kuin ihmismielellä toteutetun analyysin kautta saadut tulokset.^ the results of queries based on the results are not informative enough to attract commercial interest, or do not justify the current costs of such queries. Locating the sentiment and analyzing the positivity or negation of the sentiment 2 is a relatively easy task for the human mind, but doing the same with an information system is nothing but trivial. Typically, the results obtained with an information system are very different from the results obtained through human analysis.
5 Automaattisten järjestelmien tekemissä analyyseissä on luonnolli sesti useita haasteita, mutta yksi keskeisimmistä ongelmista on, että tietojärjestelmät ovat harvemmin riittävän monipuolisia tulkitakseen oikein eri termien positiivisia ja negatiivisia vaikutelmia. Monet tavanomaisista järjestelmistä, jotka käsittelevät esimerkiksi tekstidokumentteja, nojautuvat sanakirjaperusteisiin 10 lähestymistapoihin, joissa listataan termien ja niitä vastaavien polariteettiarvo-jen yhteydet. Analyysin aikana tallenteen tai sen osan polariteettiarvoja haetaan sanakirjasta, ja niistä lasketaan jotain ennalta määrättyä yhtälöä käyttämällä polariteettiarvo. Tuloksena saatua arvoa käytetään sitten tallen-teen/tallenteen osan polariteettiarvona.5 There are, of course, many challenges to the analysis of automated systems, but one of the major problems is that information systems are rarely sufficiently diverse to correctly interpret the positive and negative effects of different terms. Many conventional systems, such as text documents, rely on dictionary-based approaches 10 to list the relationships between terms and their corresponding polarity values. During the analysis, the polarity values of a recording or part thereof are retrieved from the dictionary and calculated using a predetermined equation. The resulting value is then used as the polarity value of the recording / recording portion.
15 Tällaiset lähestymistavat kuitenkin jättävät huomiotta sen seikan, et tä monissa tapauksissa yksi ja sama ilmaisu voi välittää monia eri tarkoituksia ja sentimenttejä, sen mukaan missä ja miten ilmaisu on muodostettu. Kun ihmismieli käsittelee ilmaisun, esimerkiksi sanan, se toimii kokonaisvaltaisesti ottaen huomioon koko tekstiympäristön kaikkialla maailmassa. Esimerkiksi, kun 20 kyseessä on tekstitietoyksikkö, termi “pieni” välittää eri tarkoituksen riippuen siitä viitataanko matkapuhelimeen (’Vau, uusi Utopia-puhelimeni on niin pieni, että voin pitää sitä farkkujen taskussa!’) tai huoneen kokoon (’Keittiö oli niin pieni ettemme edes harkinneet talon ostamista’).15 However, such approaches neglect the fact that in many cases the same expression can convey many different meanings and sentiments, depending on where and how the expression is formed. When the human mind deals with an expression, such as a word, it functions holistically, taking into account the entire textual environment throughout the world. For example, with 20 text items, the term "small" conveys a different meaning depending on whether it's referring to a mobile phone ('Wow, my new Utopia phone is so small I can keep it in a jeans pocket!') Or room size ('The kitchen was so small even considering buying a house ').
Keksinnön lyhyt selostus 25 Keksinnön tavoitteena on siten kehittää tietojärjestelmä, joka tarjoaa 5 täsmällisempiä automaattisia sentimenttianalyysejä. Tarkka tarkoittaa tässä si- c\i ^ tä, että laitteella tehtyjen analyysien tulokset vastaavat paremmin tuloksia, jot- ^ ka saadaan yhdistämällä yhden tai useamman ihmismielen tekemät manuaali- ^ set analyysit. Keksinnön tavoite saavutetaan menetelmällä ja järjestelmällä, | 30 joille on tunnusomaista se, mitä sanotaan itsenäisissä patenttivaatimuksissa.BRIEF DESCRIPTION OF THE INVENTION It is therefore an object of the invention to provide an information system that provides more accurate automated sentiment analyzes. Accurate herein means that the results of the analyzes performed on the device better match the results obtained by combining manual analyzes made by one or more human minds. The object of the invention is achieved by a method and a system Characterized by what is stated in the independent claims.
Keksinnön edulliset suoritusmuodot ovat epäitsenäisten patenttivaatimustenPreferred embodiments of the invention are in the dependent claims
CMCM
kohteena.the subject.
o Keksintö perustuu siihen ajatukseen, että tallennetaan joukko vertai- ^ lusentimentti-ilmaisuja, vihjeitä, siten, että kukin sisältää sentimentti-ilmaisun ja 35 siihen yhdistetyn sentimenttikontekstin. Laite on järjestetty havaitseman sentimentti-ilmaisun vain, kun sentimenttiä ilmaiseva termi tai termijoukko esiintyy 3 kontekstissa, joka vastaa määrätyllä tasolla vihjeen kontekstia. Virheellisten tulkintojen ja assosiaatioiden mahdollisuus laitteessa vähenee merkittävästi, ja laitteen tarkkuus paranee.The invention is based on the idea of storing a plurality of comparison sentiment expressions, hints, each containing a sentiment expression and 35 sentiment context associated therewith. The device is arranged to detect a sentiment expression only when a sentiment term or set of terms occurs in 3 contexts corresponding to a given level of the hint context. The possibility of misinterpretations and associations in the device is significantly reduced and the accuracy of the device is improved.
Keksinnön mukaisen menetelmän ja laitteen etuna on, että niiden 5 avulla voidaan käyttää nopeaa sentimenttianalyysia ja samaan aikaan tarjota tuloksia, jotka tarkemmin heijastavat ilmaisun antaneiden lähteiden tarkoituksia. Mitä tarkempia sentimenttianalyysin taltioidut tulokset ovat, sitä arvokkaampia ovat taltiointeihin tehtyjen kyselyjen tulokset, ja siten koko sentiment-tianalyysitietojärjestelmän kokonaissuorituskyky.An advantage of the method and apparatus according to the invention is that they enable rapid sentiment analysis and at the same time provide results that more accurately reflect the intent of the sources which gave the expression. The more accurate the results of the sentiment analysis are, the more valuable the results of the surveys for the recordings, and thus the overall performance of the sentiment analysis information system.
10 Parannetun tarkkuuden ansiosta voidaan myös luoda tehokkaam min tallennettu vertailusentimentti-ilmaisujoukko, sillä vuorovaikutteinen senti-menttiarkisto ja vihje-plus-konteksti -tulos lähestyvät ihmismielellä tehtyjä tulkintoja ennemminkin kuin loittonevat niistä.10 Enhanced accuracy also allows for a more efficient storage of reference sentiment expressions, as the interactive centimeter archive and tip-plus-context result approach human-like interpretations rather than overlapping them.
Kuvioiden lyhyt selostus 15 Keksintöä selostetaan nyt lähemmin edullisten suoritusmuotojen yh teydessä, viitaten oheisiin piirroksiin, joista:BRIEF DESCRIPTION OF THE DRAWINGS The invention will now be further described in connection with preferred embodiments, with reference to the accompanying drawings, in which:
Kuvio 1 antaa toiminnallisen kuvauksen tietojärjestelmästä;Figure 1 provides a functional description of the information system;
Kuvio 2 esittää kuviossa 1 suoritusmuotona käytetyn tietojärjestelmän toimintaympäristön; 20 Kuvio 3 esittää esimerkinomaisen laiterakenteen kuviossa 2 suori tusmuotona käytetyn laitteen toteuttamiseksi;Figure 2 shows the operating environment of the information system used in the embodiment of Figure 1; Figure 3 shows an exemplary device structure for implementing the device used in Figure 2;
Kuvio 4 esittää kuvion 2 sentimenttianalyysitietojärjestelmän hankin-taosan toiminnallisia yksiköitä;Figure 4 shows the functional units of the acquisition section of the sentiment analysis information system of Figure 2;
Kuvio 5 esittää kuvion 4 tietojärjestelmän toteuttaman menetelmän; 25 ja o Kuvio 6 esittää itseohjaavan toimintosarjan, jota voidaan käyttää ku- c\i ....Figure 5 illustrates a method implemented by the information system of Figure 4; 25 and Fig. 6 shows a self-controlling procedure that can be used as a c ...
^ vion 4 tietojärjestelmässä.^ vion 4 information system.
o cdo cd
CMCM
x Keksinnön yksityiskohtainen selostusx Detailed Description of the Invention
CLCL
___ 30 On huomioitava, että seuraavat suoritusmuodot ovat esimerkinomai- siä. Lisäksi vaikka selitysosa voi useissa kohdissa viitata ’’johonkin”, ’’yhteen” g tai ’’erääseen” suoritusmuotoon/”eräisiin” suoritusmuotoihin, viittaus ei kohdistu o samaan suoritusmuotoon/samoihin suoritusmuotoihin, tai kyseessä oleva tunnusmerkki ei välttämättä sovellu vain yksittäiseen suoritusmuotoon. Eri suori 4 tusmuotojen yksittäisiä tunnusmerkkejä voidaan yhdistää tarjoamaan lisäsuori-tusmuotoja.It should be noted that the following embodiments are exemplary. Further, although the disclosure may at several points refer to "" some "," "one" g, or "" some "embodiment (s), the reference does not refer to the same embodiment (s), or the characteristic in question may not be applicable to a single embodiment. Individual features of the various direct embodiments may be combined to provide additional embodiments.
Keksintö liittyy tietojärjestelmään, joka erottelee syötetyistä tietoyksiköistä määrättyä tietoa tietokantaan. Keksinnön suoritusmuotojen toteuttami-5 seen voidaan käyttää yhdessä tai erikseen useita järjestelmärakenteita, jotka soveltavat erilaisia tietojenkäsittelytekniikoita. Tietojenkäsittelyjärjestelmät ja -tekniikat kehittyvät jatkuvasti ja keksinnön suoritusmuodot voivat edellyttää useita muutoksia, jotka ovat periaatteessa alan ammattilaiselle ilmeisiä. Tämän vuoksi tämän selitysosan sanoja ja ilmaisuja tulisi tulkita laajasti, sillä niiden on 10 tarkoitus vain havainnollistaa, ei rajoittaa suoritusmuotoja.The invention relates to an information system which extracts certain information from input data units into a database. Several system architectures employing different data processing techniques may be used together or separately to implement embodiments of the invention. Data processing systems and techniques are constantly evolving and embodiments of the invention may require many changes which will, in principle, be apparent to those skilled in the art. Therefore, the words and expressions in this specification should be interpreted broadly, as they are intended only to illustrate, not to limit, the embodiments.
Kuvio 1 antaa toiminnallisen kuvauksen keksinnön mukaisesta tietojärjestelmästä 100. Yleisesti termi tietojärjestelmä liittyy sellaisten henkilöiden, tietueiden ja aktiviteettien yhdistelmään, jotka automaattisesti ja manuaalisesti käsittelevät tietoa ja informaatiota tietyssä organisaatiossa. Tässä yhteydessä 15 tietojärjestelmä liittyy vielä erityisemmin geneeriseen tietojärjestelmän tietotek-niikkakomponenttiin, ja viittaa siten mihin tahansa tietoliikenteeseen ja/tai tietokoneeseen liittyvään laitteeseen tai keskenään kytkettyjen laitteiden järjestelmään tai osajärjestelmiin, joita voi käyttää tiedon hankinnassa, tallennuksessa, siirrossa, tai vastaanotossa, ja jotka sisältävät ohjelmiston, mikro-ohjelmiston, 20 ja/tai tietojenkäsittelylaitteiston.Figure 1 provides a functional description of an information system 100 according to the invention. Generally, the term information system relates to a combination of persons, records, and activities that automatically and manually process information and information within a particular organization. In this context, the information system 15 is more specifically related to the generic information technology component of the information system, and thus refers to any communication and / or computer related device or subsystem of interconnected devices that may be used to acquire, store, transmit, or receive information , micro-software, 20 and / or computing hardware.
Informaatiojärjestelmä 100 ottaa joukon tietoyksiköitä Dlj, suorittaa prosessointitoiminnon F(Dlj) ja antaa joukon tietueita Sj(DI,). Tietoyksikkö Dl, viittaa tietolohkoon, joka on koodattu elektroniseen muotoon, jotta tietojärjestelmän tietokonelaitteet ja tietokoneohjelmat pystyvät muuntamaan, tallenta-25 maan, suojaamaan, käsittelemään ja siirtämään sitä ja turvallisesti noutamaan sen tietojärjestelmän 100 prosesseissa. Tietoyksikkö voi olla esimerkiksi tekstien , video- tai audiotiedosto. Kukin tietoyksikkö Dl, käsittää yhden tai useampia ^ tietoelementtejä iek, joita tietojärjestelmä pystyy automaattisesti havaitsemaan o ^ ja käsittelemään tietoyksikön erillisinä osina. Automaattisesti tässä yhteydessä ^ 30 tarkoittaa, että havaitsemis- ja käsittelytoiminnot voidaan suorittaa tietojärjes-Information system 100 takes a plurality of data units D1j, performs a processing function F (D1j), and outputs a plurality of records Sj (DI1). The information unit D1, refers to a block of data encoded in electronic form to enable computer hardware and computer programs in the information system to convert, store, protect, process, and transfer it and retrieve it securely in the processes of the information system 100. The data unit may be, for example, a text, video or audio file. Each data unit D1, comprises one or more data elements, ik, which can be automatically detected by the information system and processed as separate parts of the data unit. Automatically in this context ^ 30 means that the detection and processing functions can be performed in the information system.
XX
£ telmän ohjelmistolla, mikro-ohjelmistolla, ja/tai tietojenkäsittelylaitteistolla il- man, että ihmismieli samanaikaisesti suorittaa tukioperaatioita.System software, firmware, and / or computing hardware without the human mind simultaneously performing support operations.
S Jotkin tietoyksikössä Dl, olevat tietoelementit iek voidaan yhdistää oo g tunnistettavissa oleviin aiheisiin. Tietoelementti iekvoi viitata itse aiheeseen tai 35 tarjota ilmaisun osapuolen käsityksestä aiheen suhteen. Osapuolen käsitys edustaa sentimenttiä, henkilökohtaista uskomusta tai arviointia, joka ei perustu 5 näyttöön tai varmuuteen ja jota ilmaistaan tietoyksikössä käytetyillä ilmaisuvälineillä. Esimerkiksi tekstitiedostossa sentimenttejä ilmaistaan tekstitiedostoissa käytetyn kielen verbaalisilla ilmaisuilla.S Some data elements in the data unit D1, can be associated with oo g identifiable subjects. The data element iekvoi refer to the topic yourself or 35 to provide a conception of the term party in relation to the topic. The party represents the understanding of sentiment, personal belief or assessment, which is not based on 5 display or reliability of the information and which is expressed in the unit used in the detection means. For example, in a text file, sentiments are expressed by verbal expressions of the language used in the text file.
Tietojärjestelmän käsittelytoiminto F(Dlj) on järjestetty havaitsemaan 5 syötetyistä tietoyksiköistä tietoelementit iek, ja erottelemaan joukosta havaittuja tietoelementtejä aiheita, ja näihin aiheisiin yhdistettyjä sentimenttejä. Senti-mentti prosessoidaan polariteettiarvoksi, joka ilmaisee hyväksymistasoa aiheen havaitussa sentimentissä. Käsittelytoimintotieto F(Dlj) on myös järjestetty luomaan tietueen Sj(Dli), joka käsittää havaitun aiheen tunnistustiedon ja ha-10 vaittuun aiheeseen yhdistetyn sentimentin polariteettiarvon. Tietojärjestelmä 100 on järjestetty antamaan luoto tietue Sj(Dlj) tietokantaan, josta tiedon automatisoitu sentimenttianalyysi voi sitä hakea.The information system processing function F (D1j) is arranged to detect the data elements ik from the 5 data units entered, and to distinguish from the detected data elements the subjects and the sentiments associated with these subjects. The cent is processed to a polarity value that indicates the level of acceptance in the perceived sentiment of the subject. The processing function information F (D1j) is also arranged to create a record Sj (Dli) comprising the detected topic identification information and the sentiment polarity value associated with the detected topic. Information system 100 is arranged to provide a credit record Sj (D1j) to a database from which automated sentiment analysis can retrieve it.
Keksintöä kuvataan seuraavassa keksinnönmukaisen tietojärjestelmän erään suoritusmuodon avulla. Keksinnön suoritusmuotona käytetään sen-15 timenttianalyysitietojärjestelmää (sentiment analysis information system, SAIS), joka on järjestetty käsittelemään tekstitiedostoksi koodattuja tietoyksiköitä. Tekstitiedosto käsittää merkkejä, jotka voidaan tulkita sanoiksi, näihin liittyviä välimerkkejä, ja muita erityismerkkejä. Sanat muodostuvat merkkise-kvensseistä ja niillä voi olla semanttinen merkitys luonnollisessa kielessä. Yksi 20 tai useampi sana voi viitata samaan semanttiseen merkitykseen ja yhdellä sanalla voi olla yksi tai useampia erillisiä tulkintoja. Tietojärjestelmän prosesseja varten merkit voidaan muuntaa digitaaliseen muotoon, ja digitaalinen tieto voidaan muuntaa takaisin merkeiksi.The invention will now be described by means of an embodiment of an information system according to the invention. An embodiment of the invention uses the sen-15 sentiment analysis information system (SAIS), which is arranged to process data units encoded as a text file. A text file contains characters that can be interpreted as words, punctuation, and other special characters. Words are made up of character quences and can have semantic meaning in natural language. One or more 20 words may refer to the same semantic meaning, and one word may have one or more distinct interpretations. For information system processes, characters can be digitized and digital information can be converted back to characters.
Kuvio 2 esittää kuviossa 1 suoritusmuotona käytetyn tietojärjestel-25 män toimintaympäristön. Kuten edellä kuvattiin, tietojärjestelmä vastaanottaa tietoyksiköistä ainakin yhdestä tietoyksikkölähteestä. Kuviossa 2, SAIS on lii-o tetty joukkoon etäviestintäosapuolia CP1, CP2, CP3, CP4 ja joukkoon paikalli- r-L siä viestintäosapuolia CP5, CP6.Figure 2 illustrates the operating environment of the information system used as the embodiment of Figure 1. As described above, the information system receives from the data units from at least one data unit source. In Figure 2, SAIS is connected to a plurality of remote communication parties CP1, CP2, CP3, CP4 and a plurality of local-to-L communication parties CP5, CP6.
Oo
^ Voidakseen viestiä etäviestintäosapuolien kanssa SAIS on liitetty ^ 30 verkotettuun viestintäjärjestelmään, joka mahdollistaa tiedonvaihdon SAIS:in ja^ In order to communicate with remote communication parties, SAIS is connected to ^ 30 networked communication systems that enable the exchange of information between SAIS and
£ etäviestintäosapuolien CP1, CP2, CP3, CP4 välillä. Tiedon vaihtamiseksi SAIS£ between the telecommunication parties CP1, CP2, CP3, CP4. To exchange information SAIS
ja etäviestintäosapuolet CP1, CP2, CP3, CP4 käsittävät päätelaitteita, jotka S yhdessä niihin liittyvien ohjelmiston, sovellusten ja sisällön kanssa toimivat tie- § toliikenneverkossa NET ja joita tietoliikenneverkko NET tukee.and the telecommunication parties CP1, CP2, CP3, CP4 comprise terminals which S, together with the related software, applications and content, operate on the telecommunication network NET and are supported by the telecommunication network NET.
CMCM
35 Tietoliikenneverkko NET käsittää tyypillisesti ainakin yhden tai use ampia runkoverkkoja, jotka tarjoavat verkkopalveluja, ja yhden tai useampia lii- 6 tyntäverkkoja, joiden välityksellä useat eri käyttäjät pystyvät käyttämään näitä verkkopalveluja. Runkoverkko viittaa tässä siirtovälineeseen, joka muodostuu verkoista, järjestelmälaitteistoista ja perusrakenteista, jotka on järjestetty tarjoamaan yhteyksiä liityntäverkkojen välillä sekä palvelun tarjoajien ja liityntä-5 verkkojen välillä. Liityntäverkko edustaa tässä tarvittavia kuljetuksen siirto-tiemahdollisuuksia tietoliikennepalveluiden tarjoamiseksi tietoliikenneverkon päätelaitteille. Päätelaite edustaa tässä yksilöllisesti tunnistettavissa olevaa jär-jestelmäyksikköä, joka on yhden tai useamman määrätyn protokollakerroksen datavirtojen lähteenä ja nieluna. Tietoliikennejärjestelmän peruselementit ovat 10 alan ammattilaisten yleisesti tuntemia, eikä niitä kuvata tässä tarkemmin.The telecommunications network NET typically comprises at least one or more backbone networks providing network services and one or more access networks through which several different users can access these network services. The core network herein refers to a transmission medium consisting of networks, system hardware and infrastructures arranged to provide connections between access networks and between service providers and access networks. The access network represents the necessary transport bearer options for providing telecommunication services to the terminals of the telecommunication network. Here, the terminal represents a uniquely identifiable system unit that is the source and sink of data streams for one or more specific protocol layers. The basic elements of a telecommunications system are well known to those skilled in the art and will not be described in further detail herein.
Voidakseen viestiä paikallisten viestintäosapuolien kanssa, SAIS on liitetty paikalliseen liitäntään LIF, tai sisältää paikallisen liitännän LIF, jonka välityksellä se voi vaihtaa tietoa CP5:n ja CP6:n kanssa. LIF voi käsittää käyttöliittymän, jonka kautta käyttäjillä on pääsy rajattuun joukkoon SAIS:in toiminto-15 ja. LIF voi myös käsittää joitakin ei-verkkoperusteisia tietoliikenteen käyttömahdollisuuksia, joiden avulla on mahdollista vaihtaa tietoa suoraan viestivien laitteiden CP5, CP6 ja SAIS välillä. Esimerkkeihin tällaisista mekanismeista kuuluu esimerkiksi Bluetooth, Infrared Data Association (IrDA), Radio Frequency Identification (RFID), Digital Enhanced Cordless Telecommunications 20 (DECT), Dedicated Short Range Communications (DSRC), HIPERLAN, Hl-PERMAN, Institute of Electrical and Electronics Engineers (IEEE) 802.11, Ultra-wideband (UWB), Institute of Electrical and Electronics Engineers (IEEE) 802.16 (WiMAX), xMax, ZigBee, Institute of Electrical and Electronics Engineers (IEEE) 802.16 (WPAN), langaton USB.In order to communicate with the local communication parties, SAIS is connected to the local interface LIF, or contains a local interface LIF, through which it can exchange information with CP5 and CP6. The LIF may comprise a user interface through which users have access to a limited set of SAIS Function-15 and. LIF may also include some non-network based communication capabilities that allow information to be exchanged directly between CP5, CP6 and SAIS communication devices. Examples of such mechanisms include Bluetooth, Infrared Data Association (IrDA), Radio Frequency Identification (RFID), Digital Enhanced Cordless Telecommunications (DECT), Dedicated Short Range Communications (DSRC), HIPERLAN, H1-PERMAN, Institute of Electrical and Electronics Engineers (IEEE) 802.11, Ultra-wideband (UWB), Institute of Electrical and Electronics Engineers (IEEE) 802.16 (WiMAX), xMax, ZigBee, Institute of Electrical and Electronics Engineers (IEEE) 802.16 (WPAN), Wireless USB.
25 Kuten edellä myös kuvattiin, SAIS antaa ulostulona käsiteltyjä tietu- eitä. Antotoimintoja varten SAIS on liitetty tietokantajärjestelmään DB, johon se o voi tallentaa tietoa. Yksinkertaisuuden vuoksi kuvio 2 esittää tietokantajärjes- r*L telmän yhtenä paikallisesti liitettynä tietokantana. On kuitenkin selvää, että tie-25 As also described above, SAIS provides output processed records. For output functions, SAIS is connected to a database system DB, where it can store data. For simplicity, Fig. 2 shows a database system * L as one locally connected database. However, it is clear that
Oo
^ tokanta DB voi olla myös integroitu SAlS.iin, tai se on järjestetty SAIS.in saata- ^ 30 ville tietoliikenneverkon NET yli. Suojapiiristä poikkeamatta voidaan käyttää tie- £ tokantajärjestelmää, joka sisältää minkä tahansa näiden erityyppisten tietokan- ^ taelementtien yhdistelmän.The DB database may also be integrated with SA1S., or it may be arranged over a communications network NET available to SAIS. Without departing from the scope of protection, a database system containing any combination of these various types of database elements may be used.
S Jotkut viestintäosapuolet voivat olla tiedonlähteitä ja ne toimittavat § tietoyksiköitä SAIS:ille käsittelyä ja tallennusta varten. Jotkut viestintäosapuoletS Some communication parties may be sources of information and provide information units to SAIS for processing and storage. Some communication parties
CMCM
35 voivat olla kyseleviä asiakkaita, jotka hakevat tietoa sentimenttianalyysiä varten SAIS:in tietokantajärjestelmästä. Jotkut viestintäosapuolet voivat olla toimia 7 sekä tiedon lähteinä että kyselevinä asiakkaina. Keksinnön tavoitteena on parantaa tietojärjestelmän hankkimispuolta siten, että kyselyiden tulokset vastaisivat tarkemmin ihmismiehen käsitystä tietoyksiköissä ilmaistuista sentimen-teistä ilman, että ihmismieltä välttämättä käytetään prosessissa. Tulee huomi-5 oida, että vaikka kuvio 2 esittää SAIS:in järjestelmänä, joka suorittaa sekä hankinta- että kyse lyto im intoja, suojapiiristä poikkeamatta on mahdollista jakaa nämä osat erillisiksi järjestelmiksi, jotka jakavat saman tietokantajärjestelmän. Hankintaosa voidaan omistaa sentimenttien erottamiseen ja tallennukseen tietoyksiköistä ja soveltava osa voidaan omistaa kyselyiden suorittamiseen jae-10 tussa tietokantajärjestelmässä. Seuraavassa keskustellaan yksityiskohtaisemmin suoritusmuotona käytetyn tietojärjestelmän hankintaosasta.35 may be inquiry clients seeking information for sentiment analysis from the SAIS database system. Some communications parties may act as both sources of information and as inquiry customers. The object of the invention is to improve the acquisition side of the information system so that the results of the surveys more accurately reflect the human person's perception of the centimeters expressed in the information units without necessarily using the human mind in the process. It should be noted that although Figure 2 illustrates SAIS as a system that performs both procurement and litho operations, it is possible, without departing from the scope, to divide these parts into separate systems that share the same database system. The acquisition portion may be dedicated to extracting and storing sentiments from the data units, and the applicable portion may be dedicated to performing queries in a distributed database system. The acquisition part of an information system used as an embodiment will be discussed in more detail below.
Kuvio 3 esittää esimerkinomaisen laiterakenteen laitteen, jonka suoritusmuotona kuviossa 2 on SAIS, toteuttamiseksi. Laite käsittää ohjausyksikön 31, prosessorielementin, joka käsittää aritmeettisen loogisen moduulin, joukon 15 erikoisrekistereitä ja ohjauspiirejä. Laite käsittää myös muistiyksikön 32, tietovälineen, johon tietokoneella luettavissa olevaa dataa tai ohjelmia tai käyttäjä-dataa voidaan tallentaa. Muistivälineet tyypillisesti käsittävät sekä muistimo-duuleita, jotka mahdollistavat sekä lukemisen että kirjoittamisen (RAM) ja muistimoduuleita, joiden sisältöä voidaan vain lukea (ROM). Laite käsittää 20 myös liityntäyksikön 33, jossa on ottoyksikkö 34 datan syöttämiseksi laitteessa oleviin sisäisiin prosesseihin ja antoyksikkö 35 datan tulostamiseksi laitteen sisäisistä prosesseista.Fig. 3 shows an exemplary device structure for implementing a device, the embodiment of which in Fig. 2 is SAIS. The device comprises a control unit 31, a processor element comprising an arithmetic logic module, a plurality of special registers and control circuits. The device also comprises a memory unit 32, a medium on which computer-readable data or programs or user data can be stored. The memory means typically comprise both memory modules, which allow both reading and writing (RAM), and memory modules, the contents of which are read-only (ROM). The device 20 also comprises an interface unit 33 having an input unit 34 for supplying data to internal processes within the device and an output unit 35 for printing data from internal processes within the device.
Esimerkkeihin mainitusta ottoyksiköstä 34 SAIS:issa kuuluvat pisto-yksiköt, jotka toimivat yhdyskäytävänä sen ulkoisiin liityntäpisteisiin kuljetetulle 25 informaatiolle. Informaation ottamiseksi paikallisesti ottoyksikkö 34 voi myös käsittää näppäimistön tai kosketusnäytön, mikrofonin tai vastaavan. Informaa-o tion antamiseksi paikallisesti antoyksikkö 35 voi käsittää myös näytön, koske- μ. tusnäytön, mikrofonin tai vastaavan.Examples of said pickup unit 34 in SAIS include staple units that serve as a gateway for information transported to its external access points. To locate information locally, the acquisition unit 34 may also comprise a keyboard or touch screen, a microphone or the like. To provide information locally, the delivery unit 35 may also comprise a display for μ. screen, microphone or similar.
^ Ohjausyksikkö 31, muistiyksikkö 32 ja liityntäyksikkö 33 on liitetty ^ 30 sähköisesti toisiinsa vastaanotettuun ja/tai tallennettuun dataan kohdistuvienThe control unit 31, the memory unit 32 and the interface unit 33 are connected ^ 30 electrically to each other for received and / or stored data.
XX
£ toimintojen systemaattiseksi suorittamiseksi laitteen ennalta määritettyjen, ^ olennaisesti ohjelmoitujen prosessien mukaisesti. Keksinnön mukaisissa rat- $ kaisuissa nämä toiminnot käsittävät toiminteita SAIS:in loogisten yksiköiden, 00 g toimintojen ja rajapintojen toteuttamiseksi kuvioissa 4-6 esitetyllä tavalla.£ for systematic execution of operations according to predetermined, substantially programmed processes of the device. In the solutions of the invention, these functions include functions for implementing SAIS logical units, 00 g functions and interfaces as shown in Figures 4-6.
35 Laitteen yksiköt ja lohkot voidaan toteuttaa yhtenä tai useampana integroituna piirinä, kuten sovelluskohtaisena mikropiirinä (ASIC). Myös muut 8 laitteistosuoritusmuodot ovat käyttökelpoisia, kuten erillisistä loogisista komponenteista rakennettu piiri. Voidaan soveltaa myös näiden eri hybridiä. Kaikki modifikaatiot ja rakenteet suoritusmuodon toiminteen toteuttamiseksi voidaan suorittaa rutiineina, jotka voidaan toteuttaa lisättyinä tai päivitettyinä ohjelmisto-5 rutiineina, sovelluspiireinä (ASIC) ja/tai ohjelmoitavina piireinä. Ohjelmistorutii-nit voidaan ladata laitteeseen.Units and blocks of a device may be implemented in one or more integrated circuits, such as application specific integrated circuits (ASICs). Other 8 embodiments of hardware are also useful, such as a circuit constructed from discrete logic components. A hybrid of these can also be applied. All modifications and structures for implementing the function of the embodiment may be performed as routines, which may be implemented as added or updated software routines, application circuits (ASICs) and / or programmable circuits. Software routines can be downloaded to the device.
On huomattava, että kuviossa 3 on esitetty vain esillä olevan suoritusmuodon esittämiseen tarvittavat elementit. Alan ammattilaiselle on selvää, että tietoliikennelaitteet käsittävät useita lisäelementtejä ja toiminnallisuuksia, 10 joita ei ole eksplisiittisesti kuvattu tässä. Lisäksi lohkot esittävät loogisia ja toiminnallisia yksiköitä, jotka voidaan toteuttaa yhden tai useamman fyysisen yksikön sisällä tai sen/niiden yhteydessä, riippumatta siitä onko ne kuvattu kuviossa 3 yhtenä tai useampana lohkona.It should be noted that Figure 3 only shows the elements required to represent the present embodiment. It will be obvious to a person skilled in the art that communication devices comprise a number of additional elements and functionalities 10 not explicitly described herein. In addition, the blocks represent logical and functional units that may be implemented within or in conjunction with one or more physical units, whether depicted in Figure 3 as one or more blocks.
Tietokoneohjelmat voidaan tallentaa tietokoneella tai prosessorilla 15 luettavissa olevalle tietokoneohjelman jakelutietovälineelle. Tietokoneohjelma-tietoväline voi olla esimerkiksi, mutta ei näihin rajoittuen, sähköinen, magneettinen, optinen, infrapuna- tai puolijohdejärjestelmä, laite tai siirtotietoväline. Tie-tokoneohjelmatietoväline sisältää ainakin yhden seuraavista tietovälineistä: tietokoneella luettavissa oleva tietoväline, ohjelman tallennusväline, taltiointiväli-20 aine, tietokoneella luettavissa oleva muisti, hajasaantimuisti, pyyhittäväsi! ohjelmoitavissa oleva lukumuisti, tietokoneella luettavissa oleva ohjelmiston jake-lupaketti, tietokoneella luettavissa oleva signaali, tietokoneella luettavissa oleva tietoliikennesignaali, tietokoneella luettavissa oleva painotuote, ja tietokoneella luettavissa oleva kompressoitu ohjelmistopaketti.The computer programs may be stored on a computer or processor 15 readable computer program distribution medium. The computer program medium may include, but is not limited to, an electrical, magnetic, optical, infrared or semiconductor system, device, or transmission medium. The computer program media contains at least one of the following media: computer readable media, program storage media, storage media 20, computer readable memory, random access memory, erase! programmable read only memory, computer readable software distribution package, computer readable signal, computer readable communication signal, computer readable print product, and computer readable compressed software package.
25 Kuvio 4 esittää kuvion 2 sentimenttianalyysitietojärjestelmän SAISFigure 4 shows the SAIS of the sentiment analysis information system of Figure 2
hankintaosan toiminnallisia yksiköitä. Tietoyksiköt syötetään erilaisten paikallisen tai verkkoliittymien välityksellä tietoyksiköiden vastaanottimeen DR. Tietoyksik- rL kö Dl, on elementtien iej yhdistelmä, jossa elementtiä ie, voidaan pitää minä ta- o ^ hansa automaattisesti erotettavissa olevana osana tietoyksikköä Dlj. DR ha- ^ 30 vaitsee syötetyn tietoyksikön Dl, ja mahdollisesti erottaa tietoyksikkötasoistafunctional units of the acquisition part. The data units are fed through various local or network interfaces to the data unit receiver DR. The information unit D1j is a combination of the elements iej, wherein the element iej can be considered at any level as an automatically separable part of the information unit D1j. DR retrieves the input data unit D1, and possibly separates it from the data unit levels
XX
£ metadataa, esimerkiksi vastaanottoajan, alulle panevan viestintäosapuolen, ^ jne. Metadata voidaan liittää tietoyksikköön Dl, esimerkiksi käytettäväksi toi- S mintosarjan myöhemmissä vaiheissa ja/tai tarjottavaksi lisäinformaationa tu- § loksena saatavien sentimenttitietueiden Sj(Dlj) kanssa.The metadata may be associated with the information unit D1, for example for use in subsequent steps of the procedure S and / or to be provided as additional information with the resulting sentiment records Sj (D1j).
C\] 35 Esillä olevassa suoritusmuodossa tietoyksikkö on luonnollisella kie lellä, esimerkiksi englanniksi, kirjoitettu tekstitä I Ien ne ja sisältää vain tekstitie- 9 toa, ei iisämediaa, kuten kuvia tai ääniiinkkejä. Tekstitallenne sisältää joukon ilmaisuja T. Ilmaisuiksi käsitetään tyypillisesti sanat niiden perusmuodossaan t_i=(base), mutta ne voivat sisältää myös muuta luonnollisen kielen tietoa, kuten tiedon sanaluokasta tai aikamuodosta t_i=(base, pos). Esimerkiksi sanat 5 ’small’, ’smaller’, ’smallest’ voivat olla eri ilmaisuja tai ne kaikki voidaan kuvata ilmaisuksi t=(”small”) tai ilmaisuksi t=(”small”, adj).C \] 35 In the present embodiment, the information unit is written in Text in Natural Language, for example English, and contains only textual information, not paternal media such as pictures or audio clips. A text record contains a set of expressions T. Expressions typically include words in their basic form t_i = (base), but they can also contain other natural language information, such as word class or t_i = (base, pos). For example, the words 5 'small', 'smaller', 'smallest' may be different expressions or they may all be described as t = ('small') or t = ('small', adj).
DR syöttää tietoyksikön Dii tallenteen ilmaisuerottimeen DT, joka analysoi tallenteessa olevat merkkisekvenssit ja määrittää niistä useita ilmaisuja. Ilmaisut voidaan saada automaattisesti käyttäen luonnollisen kielen proses-10 sointimenetelmiä, kuten sanaluokkamerkintää, verbi- ja substantiivilauseiden objekti/subjekti-suhteen selvittämistä. Ilmaisuiden erottamista tekstidokumenteista on käsitelty laajasti (http://www-nlp.stanford.edu/links/statnlp.html) tal-lenneanalyysien alalla eikä sitä kuvata tässä yksityiskohtaisesti. Mikä tahansa ilmaisujen erottamiseen soveliasta mekanismia voidaan käyttää suojapiiristä 15 poikkeamatta.The DR enters the record detector separator DT of the information unit Dii, which analyzes the character sequences in the recording and determines a plurality of expressions therefrom. Expressions can be obtained automatically using natural language process-10 sounding methods, such as word class notation, object / subject ratio determination of verb and noun phrases. The distinction between phrases and text documents has been extensively discussed (http://www-nlp.stanford.edu/links/statnlp.html) in the field of tal analysis and is not described in detail here. Any mechanism suitable for distinguishing expressions may be used without departing from the scope of protection.
Olettakaamme, että tallenne sisältää lauseen The new Utopia phone is really small. However, it did not have good pre-installed ring tones. I think I will go buy it tomorrow’. DT:ssä lauseesta erotetaan seuraava joukko ilmaisuja: 20 ‘the’ ‘new’ ‘Utopia’ ‘phone’ ‘be’ 25 ‘really’ ‘small’ t i 0Let's say the recording contains the phrase The new Utopia phone is really small. However, it didn't have good pre-installed ring tones. I think I'll go buy it Tomorrow. In DT, the following set of expressions is distinguished from the phrase: 20 'the' 'new' 'Utopia' 'phone' 'be' 25 'really' 'small' t i 0
CMCM
‘however’'However'
Is- 9 ‘it’Is- 9 'it'
CDCD
™ 30 ‘do’ £ ‘not’ ,- ‘have’ 1 ‘good’ o ‘pre-installed’ o w 35 ‘ring’ ‘tone’ 10 c ) τ ‘think’ Τ 5 ‘will’ ‘go’ ‘buy’ ‘it’ ‘tomorrow’ 10™ 30 'do' £ 'not', - 'have' 1 'good' o 'pre-installed' ow 35 'ring' 'tone' 10 c) τ 'think' Τ 5 'will' 'go' 'buy " 'it' 'Tomorrow' 10
Kontekstianalyysitoimintojen virtaviivaistamiseksi DT voi järjestää alkuperäisen tekstitallenteen ilmaisut ilmaisutallenteeseen D, joka vastaa joukkoa D={termi}, jossa tenrij=(ti, i) on tallenteen i:s termi ja t, on termin term, ilmaisu.To streamline the context analysis functions, DT may arrange the expressions of the original text record into the expression record D corresponding to the set D = {term}, where tenrij = (ti, i) is the i term of the record and t is the term term.
15 (‘the’,0) (‘new’,1) (‘Utopia’,2) (‘phone’,3) (‘be’,4) 20 (‘really’,5) (‘small’,6) ΓΛ7) (‘however’,8) (‘it’,9) 25 (‘do’, 10) (‘not’,11) o (‘have’,12) |4. (‘good’, 13) o ^ (‘pre-installed’, 14) w 30 (‘ring’, 15) £ (‘tone’, 16)15 ('the', 0) ('new', 1) ('Utopia', 2) ('phone', 3) ('be', 4) 20 ('really', 5) ('small', 6 ) ΓΛ7) ('however', 8) ('it', 9) 25 ('do', 10) ('not', 11) o ('have', 12) | 4. ('Good', 13) o ^ ('pre-installed', 14) w 30 ('ring', 15) £ ('tone', 16)
Si <”17> S (T,18) 00 § (‘think’, 19) w 35 (T,20) (‘will’,21) 11 (‘go’,22) (‘buy’,23) (‘it’,24) (‘tomorrow’,25) 5 (‘.’,26) DT syöttää ilmaisuerotetun tallenteen sentimenttierottimeen SE. Yleensä SAIS tallentaa joukon sentimentti-ilmaisuja ja sentimentti-ilmaisuun yhdistetyn polariteettiarvon. SE havaitsee tallenteen termijoukosta ainakin yhden sentimentti-ilmaisun. SE määrittää havaitsemaansa sentimenttitermiä vas-10 taavan polariteettiarvon. SE myös yhdistää sentimentti-ilmaisun kohderyhmään, joka käsittää yhden tai useampia tallenteen kohdetermejä. SE laskee polariteettiarvon kohdetermille tai kohdetermeille yhdistetyn sentimenttitermin polariteettiarvon perusteella. Sitten SE antaa sentimenttitietueita, joissa senti-menttitietue sisältää ainakin kohdetermin ilmaisun, kohdetermin lasketun pola-15 riteettiarvon ja vaihtoehtoisesti jotakin lisäinformaatiota, joka voi olla hyödyllistä haku- ja käyttövaiheen toiminnoille.Si <”17> S (T, 18) 00 § ('think', 19) w 35 (T, 20) ('will', 21) 11 ('go', 22) ('buy', 23) ( 'it', 24) ('Tomorrow', 25) 5 ('.', 26) DT enters the expression-separated record into the sentiment separator SE. Usually, SAIS stores a set of sentiment expressions and a polarity value associated with the sentiment expression. The SE detects at least one centimeter expression from the set of terms in the recording. The SE determines the polarity value corresponding to the sentiment term it detects. The SE also combines sentiment expression with a target audience comprising one or more target terms of the recording. The SE calculates the polarity value from the target term or the polarity value of the sentiment term combined with the target terms. The SE then provides the sentiment records, where the cent record contains at least the expression of the target term, the calculated Pola-15 runtime value of the target term, and, alternatively, some additional information that may be useful for the search and use phase operations.
Keksinnön mukaisesti sentimentti-ilmaisut yhdistetään lisäksi kontekstiin, ja tätä kontekstia käytetään määrittämään voidaanko sentimenttitermin polariteettiarvoa käyttää laskettaessa kohdetermin tai kohdetermien polariteet-20 tiarvoa. Seuraavassa keskustellaan yksityiskohtaisemmin eräästä keksinnön toimintosarjan suoritusmuodosta. Suoritusmuodossa vihjeistä muodostuva tietokanta mahdollistaa kontekstipohjaisen analyysin.According to the invention, sentiment expressions are further combined with context, and this context is used to determine whether the polarity value of the sentiment term can be used to calculate the polarity-20 of the target term or terms. In the following, one embodiment of the embodiment of the invention will be discussed in more detail. In an embodiment, the hints database enables context-based analysis.
Vihjetietokanta CDB on toiminnallinen yksikkö, joka on tietojärjestelmän SAIS sentimenttierottimen SE käytettävissä ja sisältää useita vihjeitä. 25 Vihje käsittää periaatteessa viitteen, viitekontekstin ja viitepolariteettiarvon. Vihjeen elementtien muoto noudattaa analysoitavan tallenteen tietoelementtien o muotoa siten, että samankaltaisuus vihjeen elementtien ja tallenteen yhden tai useamman elementin joukon välillä voidaan määrittää tietojärjestelmässä käyt-o ^ tämättä analyysiin samanaikaisesti ihmismieltä. Periaatteessa vihje voi käsittää ^ 30 minkä tahansa mediatyypin elementtejä, mukaan lukien ääntä ja videota. Esil- £ lä’ olevassa suoritusmuodossa, joka liittyy tekstitallenteisiin, termit perustuvat tekstimuotoisiin lauseisiin ja vihjeet sisältävät etupäässä positiivisen tai nega-$ tiivisen varauksen sisältävien adjektiivien, verbien, substantiivien, hymiöiden § tai huuto/kysymysmerkkien ilmauksia.Hint Database CDB is a functional unit that is available to the SAIS Sentiment Separator SE and contains several hints. 25 A hint basically comprises a reference, a reference context, and a reference polarity value. The shape of the hint elements follows the shape of the data elements o of the recording to be analyzed, so that the similarity between the hint elements and the set of one or more elements of the recording can be determined simultaneously for analysis by a human mind. In principle, a hint can comprise ^ 30 elements of any type of media, including audio and video. In the present embodiment related to textual recordings, the terms are based on textual sentences, and the clues consist primarily of expressions of adjectives, verbs, nouns, emoticons or exclamation points or exclamation points containing a positive or negative charge.
C\JC \ J
35 Näin ollen sellaisten termien havaitsemiseksi, jotka ovat potentiaali sia kandidaatteja sedimenteille, SE lukee termit tallenteesta ja valitsee niistä 12 yhdestä tai useammasta termistä muodostuvan joukon. SE tarkistaa osuuko tämä termijoukko vihjetietokannan vihjeiden viitteisiin. Jos termijoukon ja vihjeen välillä havaitaan osuma, termejä pidetään sentimenttikandidaattina ja SE ottaa ne lisäanalyysiin. Jos ei, termien ei katsota ilmaisen sentimenttiä, ja SE 5 jättää ne huomiotta tässä vaiheessa. Osuman tarkistus käsittää yhdestä tai useammasta termistä muodostuvan kandidaattijoukon valinnan tarkistettavaksi ilmaisuerotetusta tallenteesta, vihjeen samankaltaisuusfunktion ja vihjeen sa-mankaltaisuusfunktion kanssa käytettävän vastaavan osumakriteerin valinnan, ja valitun vihjesamankaltaisuusfunktion laskemisen valitun kandidaattijoukon ja 10 vihjeen perusteella. Jos tulos vastaa samankaltaisuusfunktion kanssa sovellettavaksi valittua positiivista osumakriteeriä, vihjeosuma on löytynyt.Thus, to detect terms that are potential candidates for sediment, the SE reads the terms from the recording and selects a set of 12 from one or more terms. SE verifies that this term set matches the tips in the Hints Database. If a match is found between the term set and the clue, the terms are considered a sentiment candidate and the SE will take them for further analysis. If not, the terms are not considered to express sentiment and will be ignored by SE 5 at this stage. A hit check comprises selecting a candidate set consisting of one or more terms to be checked from an expression extracted record, selecting a matching hit criterion to use with a hint similarity function and a hint similarity function, and calculating the selected hint similarity function from the selected candidate set and. If the result matches the positive match criterion selected for the similarity function, a hint match is found.
Oletetaan yleisesti, että tallenne D tarkoittaa tietoyksikköä, ceC vihjettä, P(D) kaikkien tietoelementtijoukkojen joukkoa, ja m: P(D) x C —> R sa-mankaltaisuusfunktiota tietoelementtijoukon ja vihjeen välillä. Vihjeen voidaan 15 katsoa osuvan tallenteen elementtijoukkoon {ie,}, jos m({iei} ,c)> öm, missä 5m ennalta määrätty kynnysarvo vihjeosumalle.It is generally assumed that the record D represents a data unit, a ceC hint, P (D) a set of all data element sets, and m: P (D) x C → R a similarity function between the data element set and the hint. The hint can be considered to match the record set {ie,} if m ({iei}, c)> um, where 5m is a predetermined threshold for the hint hit.
Esillä olevassa suoritusmuodossa vihjeen samankaltaisuusfunktio voidaan toteuttaa ennalta määrättynä toimintona, joka määrittää termeistä joukon ilmaisuja, ja joukon vihjeen viitteessä olevia ilmaisuja, ja vertaa näitä mää-20 ritettyjä joukkoja. Yksinkertaisena esimerkkinä samankaltaisuusfunktio voi käsittää merkkikohtaisen vertailun termin ilmaisun ja vihjeen viitteen ilmaisun välillä, ja antaa Boolean-arvon 1, jos kaikki ilmaisun merkit vastaavat toisiaan tai Boolean arvoon 0, jos ainakin yksi verrattujen ilmaisujen merkeistä on eri.In the present embodiment, the hint similarity function can be implemented as a predetermined function that defines a set of terms from a set of terms and a set of expressions in a hint reference, and compares these determined sets. As a simple example, the similarity function may comprise a character-by-character comparison between the term expression and a hint reference expression, and give a Boolean value of 1 if all expression characters match or a Boolean value of 0 if at least one of the compared expression characters is different.
Vihjeen samankaltaisuusfunktio voidaan valita erikseen kullekin 25 analysoitavalle ilmaisulle tai ilmaisujoukolle, tai kaikissa analyyseissä voidaan käyttää samaa samankaltaisuusfunktiota. Suojapiiristä poikkeamatta voidaan ° käyttää muun tyyppisiä vihjeen samankaltaisuusfunktioita ja erikokoisia tallen- teitä ja vihjeen ilmaisujoukkoja. Esimerkiksi vihjeen samankaltaisuusfunktion ei (^) välttämättä tarvitse olla Boolean-funktio; ilmaisujoukkojen välisten eritasoistenThe hint similarity function can be selected separately for each of the 25 expressions or sets of expressions to be analyzed, or the same similarity function can be used in all analyzes. Without departing from the scope, other types of hint similarity functions and different sized recordings and hint detection sets can be used. For example, the hint similarity function need not (^) necessarily be a Boolean function; of different levels between the expression sets
(M(M
30 samankaltaisuuksien (eli osumien) ilmaisuun voidaan käyttää reaalinumeroita £ antavia funktioita. Vihjeosuma voidaan todeta, jos samankaltaisuuden taso ylitit tää ennalta määrätyn kynnysarvon. Menetelmiä ja funktioita samankaltaisuu- jg den määrittämiseksi vertailutermien ja kohdetermien välillä on kuvattu tarkem- o min esimerkiksi rinnakkaisessa hakemuksessa PCT/FI2007/050511.30 Similarities (ie hits) can be expressed using functions giving real numbers £. A hint match can be detected if the level of similarity has exceeded a predetermined threshold. Methods and functions for determining similarity between reference terms and target terms are described in more detail, for example, in PCT / FI2007 / 050511.
(M(M
35 Kun tallenteen termien ilmaisuja ja viitteen ilmaisuja verrataan, tyy pillisesti, mutta ei välttämättä, edellytetään, että ilmaisut esiintyvät tallenteessa 13 samassa järjestyksessä kuin ne on annettu viitteessä. Voidaan myös vaatia, että perättäisten osumailmaisujen välillä ei ole muita ilmaisuja. Monissa kielissä tämä voi silti olla liian tiukka vaatimus, ja jottei viitteitä jää osumatta epäolennaisten täytesanojen vuoksi, on hyväksyttävä, että ilmaisujen välillä on vä-5 limatkaa. Tästä syystä vihjeisiin on mahdollista lisätä väljyysarvo, joka määrittää sallitun koon osumailmaisujen väliin jääville välimatkoille.35 When comparing the terms in a recording with those in the reference, typically, but not necessarily, it is required that the terms appear in the recording 13 in the same order as given in the reference. It may also be required that there be no other expressions between successive expressions. In many languages, this may still be too strict a requirement, and in order not to miss references due to irrelevant filler words, it is acceptable that there is a gap between the expressions. For this reason, it is possible to add a spacing value to the hints that defines the allowed size for the distances between hit expressions.
Näin ollen vihje voidaan muodollisemmin määrittää joukoksi tietoelementtejä, jotka sisältävät viitteen, joka sisältää väljyysarvon sei ja viiteil-maisusekvenssin (t,0), viitepolariteettiarvon peR, ja viitekontekstin o,. Vihjeen 10 koko | c| on sekvenssin (t,c) pituus. Vihjeen c voidaan katsoa osuvan tallenteen termijoukkoon, jos viitteen ilmaisut havaitaan termijoukon ilmaisuissa, edullisesti samassa järjestyksessä, ja rajoitetun etäisyyden päässä toisistaan. Tässä suoritusmuodossa hyväksyttävissä oleva välimatka vastaa sallittua ei-osuvien ilmaisujen määrää viitteessä olevaan ilmaisuun osuvan kandidaatti-15 joukon ilmaisun ja seuraavaan viitteessä olevaan ilmaisuun osuvan kandidaat-tijoukon seuraavan ilmaisun välillä.Thus, a hint can more formally be defined as a set of data elements that include a reference containing a looseness value sei and an artistry sequence (t, 0), a reference polarity value pe R, and a reference context o,. Tip size 10 c | is the length of the sequence (t, c). Hint c can be considered to match a set of terms in a recording if the reference expressions are detected in the term set expressions, preferably in the same order, and a limited distance apart. In this embodiment, the acceptable distance corresponds to the allowable number of irrelevant expressions between the expression of the candidate set 15 in the reference expression and the next expression of the candidate set in the next reference.
Toisin sanoen, merkitään vihje c=(p,s,(tjc),Oj). Olkoon DK={(tj, i) | ieK} joukko termejä, jolloin Kc{0,1,..., | D|-1}. Olkoon kjK:n suurin elementti, c osuu D|<:hon kanssa, jos |c|=|DK| ja Vie[0, |c| -1], 20 if - tki > ki+l - ki < sIn other words, denote the hint c = (p, s, (tjc), Oj). Let DK = {(tj, i) | ieK} is a set of terms where Kc {0,1, ..., | D | -1}. Let kjK be the largest element, c, with D | <if | c | = | DK | and Export [0, | c | -1], 20 if - tki> ki + l - ki <s
Olettakaamme esimerkiksi, että vihjeen vertailu toteutetaan termi-joukoilla, jotka sisältävät vain yhden termin, ja samankaltaisuusfunktio vihje-osumalle käsittää edellä kuvatun Boolean-funktion. Olettakaamme lisäksi, että vihjetietokanta sisältää seuraavat vihjeet: 25 c_0=(1,0,(“good”),{}) c_1 =(0,1,(“good”, “morning”),{}) § c_2=(1,0, (“small”), {’’phone”})Suppose, for example, that a hint comparison is performed on term sets that contain only one term, and the similarity function for the hint hit includes the Boolean function described above. Let's also assume that the hint database contains the following tips: 25 c_0 = (1,0, ("good"), {}) c_1 = (0,1, ("good", "morning"), {}) § c_2 = ( 1.0, ("small"), {'' phone '})
Kun SE alkaa käydä läpi termejä edellisessä esimerkkitallenteessa, cd ensimmäinen termi, joka vastaa vihjetietokannan vihjeen viitettä on termi x 30 (“small”, 6). Tätä termiä pidetään nyt sentimentti-ilmaisua kantavana kandi- * daattina.When the SE begins to search through the terms in the previous example record, the first term in cd that corresponds to the hint in the hint database is the term x 30 (“small”, 6). This term is now considered to be the candidate bearing the expression sentiment.
Tavanomainen sanakirjaan perustuvat sentimenttien erottelumene-g telmät kärsivät yleiskäyttöisten sanakirjojen käytössä. Selkeästikään yhtä ja o samaa sanakirjaa ei voida käyttää erityyppisiin tallenteisiin, joiden sentimentti- 35 en ilmaisutavat ovat erilaisia, ja sentimenttitietueiden automaattisessa tuottamisessa voidaan tehdä epätarkkoja tai jopa vääriä tulkintoja. Tämän ongelman 14 lieventämiseksi kukin vihje sisältää lisäksi määrityksen kontekstista, jossa vihje pätee. Vastaavasti kutakin tallenteen termiä varten voidaan määrittää konteksti, jossa se esiintyy. Vihjettä voidaan pitää merkityksellisenä tallenteen yhden tai useamman termin ryhmälle vain, jos termin konteksti tallenteessa on riittä-5 vän samankaltainen vihjeen kontekstin kanssa. Jos kontekstit ovat hyväksyttävissä määrin samanlaisia, todetaan vastaavuusosuma ja vihjeen sanotaan liittyvän termiin. Liittyvä vihje soveltuu sentimenttitietueiden tuottamiseen.Conventional dictionary-based sentiment separation techniques suffer from the use of general-purpose dictionaries. Clearly, one and the same dictionary cannot be used for different types of recordings with different ways of expressing sentiment, and inaccurate or even misinterpretations can be made in the automatic production of sentiment records. To alleviate this problem 14, each hint further includes a definition of the context in which the hint applies. Similarly, for each term of a recording, the context in which it occurs can be determined. A hint can only be considered relevant to a group of one or more terms in a recording if the context of the term in the recording is sufficiently similar to the context of the hint. If the contexts are to an acceptable degree similar, a match is found and the hint is said to be related to the term. The related hint is suitable for producing sentiment records.
Olkoon C yleisesti kaikkien mahdollisten kontekstien joukko, C^jeC elementtijoukon {e,}, konteksti, CueC vihjeen u konteksti ja r:CxC—>R saman-10 kaltaisuusfunktio kontekstien välillä. Vihje liittyy elementtijoukkoon {e,}, jos r(C{ £i},Cu)>5r, jossa δΓ on määrätty kynnysarvo kontekstien samankaltaisuudelle.Let C be a set of contexts of all possible contexts, the context of the element set {e,}, the context of the CueC hint u, and the similarity function between the contexts r: CxC → R. The hint is related to the set of elements {e,} if r (C {£ i}, Cu)> 5r, where δΓ is a specified threshold for contextual similarity.
Esillä olevassa suoritusmuodossa vihje sisältää kontekstianalyysiä varten viitekontekstin Oj, joka sisältää ei yhtään, yhden tai useampia konteksti-ilmaisuja, joiden osumista verrattavia termejä ympäröivässä kontekstialueessa 15 oleviin termeihin voidaan tarkistaa. Näin ollen, kun vihjeosuma tallenteessa ja vihjetietokannassa olevan ilmaisun tai ilmaisujen välillä on löytynyt, SAIS määrittää kontekstialueen tallenteen kandidaattitermin tai -termien ympäriltä ja tarkistaa sitten löytyykö kontekstialueella olevien termien ilmaisujen ja vihjeessä olevan viitekonteksti-ilmaisun tai -ilmaisujen välillä osuma. Vihjeiden viitekon-20 teksti-ilmaisut tallennetaan viitetietokantaan ja niitä ylläpidetään siellä, ja esillä olevassa suoritusmuodossa sentimenttierottelutoimintosarjan näkökulmasta katsoen ne käsittävät ennalta määrättyjä ilmaisujoukkoja. Termien konteksti voidaan suojapiiristä poikkeamatta määrittää monella tavalla. Seuraavassa esitetään mekanismi, joka hyödyntää ilmaisuerotetun tallenteen ilmaisujen järjes-25 tystä.In the present embodiment, the hint contains a reference context Oj for context analysis which contains none, one or more context expressions, which hit terms comparable to those in the surrounding context region 15. Therefore, when a hint match between the expression and the expression or expressions in the hint database is found, SAIS determines the context area around the candidate's term or terms in the recording, and then checks for a match between the terms in the context and the reference context expression or expressions in the hint. The text expressions of the reference reference-20 tips are stored and maintained in the reference database, and in the present embodiment, from the viewpoint of the sentiment separation procedure, comprise predetermined sets of expressions. The context of the terms can be defined in many ways without departing from the scope. The following is a mechanism that utilizes a sequence of expressions in a detached recording.
Esillä olevan suoritusmuodon ilmaisuerotetussa tallenteessa D termi 5 käsittää indikaation sen ilmaisun järjestyksestä tallenteessa. Tämän ilmaisunIn the detection-separated recording of the present embodiment, term D includes an indication of the order of its expression in the recording. This expression
C\JC \ J
^ avulla voidaan määrittää alueperusteinen termikonteksti. Tallenteen termejä ° käsittävät voidaan siten pitää sekvenssinä ja termin /c-konteksti käsittää ilmai- co ^ 30 suja, jotka ovat enintään k askeleen etäisyydellä termistä. Toisin sanoen ter-^ is used to define a region-specific term context. Thus, the terms comprising the terms of the recording can be considered as a sequence, and the term / c context comprises expressions up to k steps from the term. In other words, the ter-
| min /c-konteksti käsittää termit, jotka ovat ilmaisuerotetussa tallenteessa D| The min / c context comprises the terms contained in the detached recording D
(2k+1) pituisen ikkunan sisällä. Esimerkiksi termin 0-konteksti sisältää termin C\l J itsensä ilmaisun, ja termin 1-konteksti on joukko, jossa on termi itse ja termit o välittömästi sen vasemmalla ja oikealla puolella.(2k + 1) inside the window. For example, the term 0 context contains the expression of the term C 1 J itself, and the context 1 term is a set containing the term itself and the terms o immediately to its left and right.
^ 35 Yleisesti jos D={termi} on tallenne, termin term, k-konteksti on (-'termi ={tx| (tx,X) eD A hk<X<i+k}.^ 35 Generally, if D = {term} is a recording, the term term, k-context is (-'term = {tx | (tx, X) eD A hk <X <i + k}.
1515
Termijoukon k-konteksti on kontekstien unioni.The k-context of a term set is a union of contexts.
Esillä olevassa suoritusmuodossa, sentimentti-ilmaisua kantavaksi havaitun termin (“small”, 6) 3-konteksti on: C ("small”,6)= {“phone”, “be”, “really”, “small”, “however”, “if”} 5 Tässä suoritusmuodossa, kontekstin samanlaisuus lasketaan käyt tämällä peruskosinisamanlaisuutta f. Jos merkitsemme kaikkien ilmaisujen joukkoa T:llä ja P(T):llä kaikkien ilmaisujoukkojen joukkoa, ja annetaan C-ieP(T) ja C2sP(T) olla ilmaisukonteksteja, ilmaisukontekstisamanlaisuus f: P(T) x P(T) —> [0,1] voidaan määrittää: f 1 , if Ci = 0VC2 =0 f(C'i,02) = < ICiDCal otherume l V&isÄcTt ’ ot>lermse 10In the present embodiment, the 3-context of the term ("small", 6) found to carry the sentiment expression is: C ("small", 6) = {"phone", "be", "really", "small", " "," If "} 5 In this embodiment, context similarity is computed using the basic cosine similarity f. If we denote the set of all expressions by T and P (T) the set of all expression sets, and give C-ieP (T) and C2sP (T) be expression contexts, expression context similarity f: P (T) x P (T) -> [0,1] can be defined as: f 1, if Ci = 0VC2 = 0 f (C'i, 02) = <ICiDCal otherume l V & isÄcTt 'ot > lermse 10
Yhtälö ilmaisee, että tyhjän joukon samanlaisuus kaikkien muiden kontekstien suhteen voi olla 1. Tämän ansiosta voidaan määrittää vihjeitä, jotka ovat riittävän samanlaisia minkä tahansa kontekstin kanssa. Tällaisia vihjeitä kutsutaan globaaleiksi vihjeiksi. Esimerkki globaalista vihjeestä on ilmaisu 15 ’’hyvä”, jonka voidaan katsoa tarkoittavan positiivista kantaa missä tahansa annetussa kontekstissa.The equation indicates that the identity of an empty set with respect to all other contexts can be 1. This allows you to define clues that are sufficiently similar to any context. Such clues are called global clues. An example of a global tip is the expression "15" "good", which can be taken to mean a positive stance in any given context.
Kosinisamanlaisuus 3-kontekstissa C3(-Smaii”,6) osumavihjeen c_2=( 1,0,(“small”),{’’phone”}) kanssa on:The cosine similarity in context 3 with C3 (-Smaii ", 6) with the hit tip c_2 = (1,0, (" small "), {" "phone"}) is:
Ismail-,6V {V«>™”» = ^ 20 Oletetaan, että suoritusmuotona käytetyssä järjestelmässä konteks- tisamanlaisuuden kynnysarvoksi on asetettu ör=0 siten, että mikä tahansa nollaa suurempi arvo todentaa samanlaisuuden. Tämä tarkoittaa sitä, että SE havaitsee termin (“small”, 6) liittyvän vihjeeseen c_2. Tämä tarkoittaa, että vihjet-tä c_2 voidaan käyttää luomaan sentimenttitietueita termeistä, jotka ovat sa-S 25 maila vaikutusalueella kuin termi (“small”, 6).Ismail-, 6V {V ™> "" = ^ 20 Assume in the system used in the embodiment, the threshold for context similarity is set to ó = 0 such that any value greater than zero verifies the similarity. This means that SE detects the term ("small", 6) to be related to hint c_2. This means that tips c_2 can be used to create sentiment records for terms that are within the scope of sa-S 25 racket ("small", 6).
Yleisesti sentimentti viittaa kohdennettuun mielipiteeseen, jonka vai-o ^ kutusalue ulottuu yli elementtijoukon yli tallenteessa. Tässä suoritusmuodossa ^ sentimentillä voi olla positiivinen, neutraali tai negatiivinen polariteetti, jotaGenerally, sentiment refers to a targeted opinion whose scope extends beyond a set of elements in a recording. In this embodiment, the ^ sentiment may have a positive, neutral, or negative polarity which
XX
£ edustaa reaalinumero, negatiivisten numeroiden vastatessa negatiivisia senti- 30 menttejä ja positiivisten numeroiden positiivisia sentimenttejä. Tässä suoritus- S muodossa sentimenttitietue käsittää ryhmän tietoelementtejä (k,a,t,p), jossa 00 § keD ilmaisee sentimentin vaikutusalueen, aeA sentimentin tekijän, teD sen- ™ timentin kohteen ja peR sentimentin polariteetin. Sentimentti ilmaisee negatii visen sentimentin jos (iff), p < 0, ja sentimentti ilmaisee positiivisen sentimentin 16 jos (iff) p > 0. Muussa tapauksessa sentimenttiä voidaan pitää neutraalina sen-timenttinä.£ represents a real number, with negative numbers representing negative cents and positive numbers positive cents. In this embodiment, the sentiment record comprises a set of data elements (k, a, t, p) where 00 δ keD indicates the effect range of the sentiment, the aeA sentiment factor, the teD sentiment object and the piR sentiment polarity. The sentiment indicates a negative sentiment if (iff), p <0, and the sentiment indicates a positive sentiment 16 if (iff) p> 0. Otherwise, the sentiment may be considered a neutral sentiment.
Tavallisesti tallenne on enimmäkseen täynnä neutraaleja sentiment-tejä, eli toteamuksia, joilla ei ole negatiivista tai positiivista hyötykuormaa. Sen-5 timenttitietueiden kannalta järjestelmän tavoitteena on havaita ja taltioida negatiivisia ja positiivisia sentimenttejä tallenteessa olevasta suuresta neutraalien sentimenttien massasta.Usually, the recording is mostly filled with neutral sentiments, that is, statements that have no negative or positive payload. For Sen-5 Sentiment Records, the system aims to detect and record negative and positive sentiments from the large mass of neutral sentiment in the recording.
Näin ollen, kun yhteys tallenteen termin ja vihjeen välillä on määritetty, termiin yhdistettyä sentimenttiä voidaan soveltaa yhteen tai useampaan 10 sellaisen kohdetermin joukkoon, jonka yli sentimentin vaikutusalue ulottuu. Jotta tämä olisi mahdollista, SE on yhdistetty vaikutusalue-erottimeen SPE. Kun SE on vihjetietokannassa CDB olevan tiedon perusteella havainnut sentimentin, se syöttää termin vaikutusalue-erottimeen, joka määrittää sentimentille vaikutusalueen. Vaikutusalueen määritys riippuu hyvin paljon sovellettavasta me-15 diatyypistä ja/tai tallennetyypistä, ja suojapiiristä poikkeamatta voidaan soveltaa erilaisia vaikutusalueen määritysmenetelmiä. Suoritusmuotona käytetyssä järjestelmässä vaikutusalueen erotin on järjestetty katsomaan, että sentimentti ulottuu tekstitallenteen lauseen yli. Kun SPE vastaanottaa SE:ltä termin (“small”, 6), se määrittää termit, jotka kuuluvat samaan lauseeseen ja palauttaa 20 SE.IIe vaikutusaluejoukon {(“the, 0), (“new”, 1), (“Utopia”, 2), (“phone”, 3), (“be”, 4), (“really”, 5), (“small”, 6), (“.”,7)}Thus, once the relationship between a recording term and a hint is determined, the sentiment associated with the term can be applied to one or more sets of 10 target terms that extend beyond the scope of the sentiment. To make this possible, the SE is combined with the sphere separator SPE. Once the SE has detected the sentiment based on the information in the hint database CDB, it enters the term into the scope delimiter, which defines the scope of the sentiment. Scope determination is highly dependent on the me-15 slide type and / or recording type used, and different scope determination methods can be applied without departing from the scope. In the embodiment system, the effect delimiter is arranged to see that the sentiment extends beyond the sentence of the text recording. When the SPE receives a term ("small", 6) from the SE, it defines terms that belong to the same sentence and returns a set of {("the, 0), (" new ", 1), (" Utopia " , 2), ("phone", 3), ("be", 4), ("really", 5), ("small", 6), (".", 7)}
On selvää, että kaikki termit eivät ole merkityksellisiä sentimentti-tietueiden kannalta ja sentimenttitietueiden luominen mille tahansa vaikutusalueen termille olisi resurssien haaskausta. SAIS käsittää edullisesti kohde-25 erottimen TE, johon on järjestetty kohteen erotusfunktio, joka vastaanottaa edellä kuvatun joukon SE:ltä ja palauttaa osajoukon, joka käsittää vain kohde-o termit, joiden katsotaan sopivan sentimenttitietuekyselyihin. Kohde-erotusta funktio voi vaihdella suojapiirin sisällä. Suoritusmuotona käytetyssä järjestel- ^ mässä, TE on järjestetty määrittämään ja erottamaan kaikki substantii- C\] 30 vit/pronominit, jotka ovat osumatermin edellä vaikutusaluejoukossa. Sanaluokat kien automaattinen määritys on alan ammattilaisille hyvin tunnettua, eikä siitä ^ keskustella enempää tässä yhteydessä.It is clear that not all terms are relevant to sentiment records, and creating sentiment records for any affected term would be a waste of resources. Preferably, the SAIS comprises a target delimiter TE, which is provided with an object delimiter function that receives the set of SEs described above and returns a subset comprising only the target delimiter terms considered suitable for sentiment record queries. The target difference function may vary within the protection circuit. In the embodiment used, the TE is arranged to define and distinguish all substantive C / I vit / pronouns that precede the hit term in the domain of influence. Automatic definition of word categories is well known to those skilled in the art and will not be discussed further herein.
S Tässä suoritusmuodossa sanaluokkien määrityksen tekee TE, mutta § sen voi tehdä myös DT. Esillä’ olevassa suoritusmuodossa, TE palauttaa 35 SE:lle kohdetermit (“Utopia”,2) ja (“phone”,3).S In this embodiment, the word classes are defined by the TE, but can also be defined by DT. In the present embodiment, the TE returns the target terms ("Utopia", 2) and ("phone", 3) to 35 SE.
1717
Tekstissä ilmaistut sentimentit voivat tallennekohtaisesti olla yhden henkilön tuottamia. On kuitenkin mahdollista, että teksti sisältää useita lainauksia ja viitteitä, jotka osoittavat useisiin mielipiteiden omistajiin. Jotta viitteet voitaisiin kyselyvaiheessa tehdä oikein, SAIS voi käsittää myös toiminnallisen ele-5 mentin tekijäerottimen AE. AE:hen on järjestetty tekijänerotusnfunktio, joka vastaanottaa koko vaikutusalueen osumatermit ja määrittää sentimenttitietuee-seen sisällytettävän tekijäindikaation. Tekijänerotusfunktio voi vaihdella suoja-piirin sisällä. Suoritusmuotona käytetyn järjestelmän AE käyttää yksinkertaistettua ratkaisua, joka etsii DE:ltä vastaanotetun metadatan, määrittää siitä al-10 kuun panneen viestintäosapuolen (verkkojutteluidentiteetti ’’loveMyPhone”), ja käyttää tätä identiteettiä minkä tahansa tallenteessa ilmaistun sentimentin tekijänä.The sentiments expressed in the text may be generated by one person per recording. However, it is possible that the text contains multiple quotes and references that point to multiple opinion holders. For correct referencing at the query stage, SAIS may also comprise a functional element factor separator AE. The AE is provided with a factor extraction function that receives hit terms for the entire effect area and determines the factor indication to be included in the sentiment record. The factor separation function may vary within the protection circuit. In the embodied system, the AE using a simplified solution that searches ED from the received metadata to determine whether the Al-10-month invoking the communication partner (verkkojutteluidentiteetti '' loveMyPhone "), and use this identity to any of sentiment expressed by the record.
Lopulta SAIS käsittää lisäksi polariteettierottimen PE, joka laskee liittyvän vihjeen perusteella polariteettiarvon sentimenttitietueita varten. PE:hen 15 on järjestetty polariteettierotusfunktio, joka vastaanottaa kohdetermit ja määrittää niihin yhdistetyn, sentimenttitietueeseen sisällytettävän polariteettiarvon. Polariteettierotusfunktio voi vaihdella suojapiirin sisällä. Yksinkertaisimmassa muodossaan liittyvän vihjeen polariteetti voidaan yhdistää suoraan kohdeter-miin. Tyypillisesti on kuitenkin tarpeen tarkistaa sisältyykö vaikutusalueeseen 20 negaatio ja onko sillä vaikutusta kohdetermiä koskeviin laskutoimituksiin. Suoritusmuotona käytetyssä järjestelmässä tämä tehdään siten, että PE tarkistaa sisältääkö osumasentimenttitermiä edeltävä 3-kontekstin osa negaatioilmaisun ”not”. Jos ilmaisu löydetään, liittyvän vihjeen viitepolariteetti voidaan muuttaa kertomalla se -1:llä, muussa tapauksessa liittyvän vihjeen viitepolariteettiarvoa 25 voidaan käyttää suoraan. On myös mahdollista parantaa PE:n tarkkuutta edel-leen tulkitsemalla polariteetin heikkenevän etäännyttäessä osumasentimentti-o termistä. Tätä heikkeneminen voidaan ottaa huomioon esimerkiksi määrittä-Finally, SAIS further comprises a polarity separator PE, which calculates a polarity value for sentiment records based on a related hint. The PE 15 is provided with a polarity difference function that receives the target terms and determines the associated polarity value to be included in the sentiment record. The polarity difference function may vary within the protective circuit. In its simplest form, the related polarity can be directly linked to the target term. Typically, however, it is necessary to check whether the scope 20 contains negation and whether it has an effect on the calculations for the target term. In the embodiment system, this is done by checking the PE for the 3 context context part preceding the hit sentiment term to contain the negation expression "not". If the expression is found, the reference polarity of the associated hint can be changed by multiplying by -1, otherwise the reference polarity value of the related hint 25 can be used directly. It is also possible to further improve the accuracy of the PE by interpreting the polarity decreasing as it moves away from the hit sentiment term. This deterioration can be accounted for, e.g.
CMCM
r-L mällä kohdetermin polariteettiarvon vastaavan liittyvän vihjeen viitepolariteet- o ^ tiarvoa, jaettuna viiteilmaisun ja kohdetermin ilmaisun välisellä etäisyydellä ^ 30 vaikutusalueessa. Esimerkissä liittyvän vihjeen c_2 viitepolariteettiarvo on 1, ja ί etäisyys kohdetermistä (“Utopia”,2) osumatermiin (“small”, 6) on 4, joten koh- determiin (“Utopia”,2) yhdistettävä polariteettiarvo on 14 Vastaavasti etäisyys S kohdetermistä (“phone”,3) osumatermiin (“small”, 6) on 3, joten kohdetermiin 00 g (“small”, 6) yhdistettävä polariteettiarvo on 1/3.r-L is the polarity value of the target term corresponding to the reference polarity value of the associated hint, divided by the distance between the artistic expression and the expression of the target term in the range of 30. In the example, the reference polarity value for the associated hint c_2 is 1, and ί is the distance from the target term (“Utopia”, 2) to the hit term (“small”, 6), so the polarity value associated with the target (“Utopia”, 2) is 14. "Phone", 3) has 3 in the hit term ("small", 6), so the polarity value to be associated with the target term 00 g ("small", 6) is 1/3.
(M(M
35 Ensimmäisen osumatermin perusteella tuotetut sentimenttitietueet ovat: 18 s_0=({(‘the,,0)l(‘new,,1),(‘Utopia’)2)>(‘phone’>3),(‘be’I4),(,really’l5),(‘smair>6),(‘.,l 7)}, LoveMyPhone, {(“Utopia”,2)}, 1/4) s_1=({(‘the,,0),(,new’,1),(‘Utopia’,2),(‘phone’,3),(‘be’,4),(‘realiy’,5),(‘smair,6),(‘.’> 5 7)}, LoveMyPhone, {(“phone”,3)}, 1/3)35 The sentiment records generated by the first hit term are: 18 s_0 = ({('the ,, 0) l (' new ,, 1), ('Utopia') 2)> ('phone'> 3), ('be'I4 ), (, really'l5), ('smair> 6), ('., l 7)}, LoveMyPhone, {("Utopia", 2)}, 1/4) s_1 = ({('the ,, 0), (, new ', 1), (' Utopia ', 2'), ( 'phone', 3 '), (' be ', 4'), ( 'realiy', 5), ( 'smair, 6); ('.'> 5 7)}, LoveMyPhone, {("phone", 3)}, 1/3)
Sentimenttiä kuljettava teksti-ilmaisu voi tulla negatiiviseksi tai neutralisoitua, jos ilmaisu on osa suurempaa lauseketta. Tämä vihjeiden suhde voidaan ilmaista osajärjestyksien muodossa. Olkoon u ja v vihjeitä ja <cue kaik-10 kia vihjeitä koskeva tarkka osajärjestys. Vihje u on vihjeen v alivihje ja vihje v on vihjeen u ylivihje jos (iff) u<cue v. Ylivihjeen katsotaan olevan yksityiskohtaisempi kuin sen alivihjeet. Tarkempiin tuloksiin ja tehokkaampaan käsittelyyn pääsemiseksi järjestelmä voidaan järjestää käyttämään yksityiskohtaisinta vihjettä, joka osuu elementtiin.Sentence-carrying text expression can become negative or neutralized if the expression is part of a larger expression. This relationship of hints can be expressed in the form of sub-sequences. Let u and v be the exact sub-order for hints and <cue for all 10 hints. Hint u is a subtype of a hint v and hint v is a hint of u if (iff) u <cue v. An over hint is considered to be more detailed than its sub-tips. For more accurate results and more efficient handling, the system can be configured to use the most detailed hint that hits the element.
15 Esimerkiksi tallenteen D seuraava osuva termi olisi termi (“good”, 13). Vihjeellä cue c_0=((1,0,(“good”),{}) on nyt ylivihje c_1 =(0,1,(“good”, “morning”),{}), ja tarkempiin tuloksiin pääsemiseksi PE yrittää ensin tarkistaa vihjeen c_1 osumaa. Seuraavat kaksi termiä (“pre-installed”, 14) ja (“ring”, 15) eivät sisällä ilmaisuja, jotka osuisivat c_1:n toiseen ilmaisuun ’’morning”. Näin ol-20 Ien vihje c_1 ei ole osuma. Toisaalta vihje c_0 osuu selvästi termiin (“good”, 13).15 For example, the next relevant term for record D would be the term ("good", 13). Hint cue c_0 = ((1,0, ("good"), {}) now has a hint of c_1 = (0,1, ("good", "morning"), {}), and PE tries to get more accurate results first check the c_1 hit The following two terms ("pre-installed", 14) and ("ring", 15) do not contain expressions that would match c_1's other expression "" morning. " On the other hand, the hint c_0 clearly falls within the term "good" (13).
Suoritusmuotona käytetty SE erottaa seuraavan lauseen: {(‘however’,8),(‘it’,9),(‘do’, 10),(‘not’, 11),(‘have’, 12),(‘good’, 13),(‘pre-installed’, 14),(‘ring’, 15),(‘tone’,16),(‘.’,17)}, ja TE erottaa joukosta kohdetermin (“it”,9) joka on lau-25 seen ainut substantiivi/pronomini.The SE used as an embodiment separates the following statement: {('however', 8), ('it', 9), ('do', 10), ('not', 11), ('have', 12), (' good ', 13), (' pre-installed ', 14), (' ring ', 15), (' tone ', 16), ('. ', 17)}, and TE separates the target term (' it ' , 9), which is the only noun / pronoun in La.
Liittyvän vihjeen c_0 polariteetti on 1 ja termin ”it” etäisyys termistä o ’’good" on 4. PE havaitsee ilmaisun (“not”, 11), joten kohdetermille määritettyThe related hint c_0 has a polarity of 1 and a distance of "it" from o "" good "of 4. PE detects the expression (" not ", 11), so the
CMCM
^ polariteettiako on -1/4.The polarity factor is -1/4.
° Tulokseksi saaduksi sedimentiksi tulee siis: ™ 30 s_2=({(‘how-ever’,8),(‘it’,9),(‘do’,10),(‘not’,11),(‘have’,12),(‘good’,13),(‘pre-install f ed’,14),(‘ring’,15),(‘tone’,16),(‘.’,17)}, LoveMyPhone, {(“it”,9)}, -1/4}° The resulting sediment thus becomes: ™ 30 s_2 = ({('how-ever', 8), ('it', 9), ('do', 10), ('not', 11), ('have ', 12), (' good ', 13), (' pre-install f ed ', 14), (' ring ', 15), (' tone ', 16), ('. ', 17)}, LoveMyPhone, {("it", 9)}, -1/4}
Vaihtoehtoinen tapa negaatioilmaisun (“not”, 11) huomioimiseksi olisiAn alternative way to consider the expression "not" (11) would be
CMCM
^ ottaa lisäksi huomioon negaatioilmaisun sijainti. Polariteettiarvoksi tulisi silloin o =-1/(11-9)=.1/2.^ also takes into account the location of the negative expression. The polarity value would then be o = -1 / (11-9) =. 1/2.
^ 35 Esillä olevan suoritusmuodon esimerkkitallenteesta ei löydy muita osuvia termejä. Kontekstin huomioivaa lähestymistapaa käyttämällä sentiment- 19 titermin ja sentimentin vaikutusalueen sisällä olevan kohdetermin yhdistelmän tulkinta lähestyy ihmismielen joustavuutta ja tekee kohdetermeihin yhdistetyistä polariteettiarvoista tarkempia jatkoanalyysejä silmälläpitäen. Menetelmä on suhteellisen yksinkertainen ja se voidaan näin ollen toteuttaa yleiskäyttöisten 5 tietojärjestelmien laitteiston avulla.^ 35 No other relevant terms are found in the example recording of the present embodiment. Using a context-sensitive approach, the interpretation of the combination of the sentiment 19 and the target term within the scope of the sentiment approaches the flexibility of the human mind and makes the polarity values associated with the target terms more accurate for further analysis. The method is relatively simple and can therefore be implemented with the aid of general-purpose information systems.
Kuvio 5 esittää suoritusmuodon kuvion 4 tietojärjestelmän SAIS toteuttamasta menetelmästä sentimenttitietueiden luomisessa. Vaiheiden yksityiskohtia voidaan tarkistaa myös kuvion 4 kuvauksesta. Toimintosarja alkaa vaiheessa, jossa SAIS on käynnistettyjä valmis ottamaan vihjeitä ja tietoyksi-10 köitä. Yhden tai useamman vihjeen joukko tallennetaan (vaihe 500) viitetietokantaan ja SAIS siirtyy valmiuteen (vaihe 502) uusien tietoyksiköiden vastaanottamiseksi. Vihje sisältää viitteen, viitekontekstin ja viitepolariteettiarvon. Kun uusi tietoyksikkö vastaanotetaan (vaihe 504), sen ilmaisut erotellaan (vaihe 506) tallenteeksi D, joka käsittää joukon termejä D={termj}. Tallenteen D termi-15 en osuvuus tallennettuihin vihjeisiin tarkistetaan (vaihe 508). Jos (vaihe 510) vihjeosumaa ei löydy, tietoyksikkö ei sisällä taltioitavia sentimenttejä ja toimintosarja siirtyy takaisin vaiheeseen 502 odottamaan seuraavaa tietoyksikköä.Figure 5 illustrates an embodiment of the method used by SAIS of Figure 4 to create sentiment records. The details of the steps can also be checked from the description in Figure 4. The sequence begins when SAIS is up and running ready to take tips and information-10 ropes. A set of one or more clues is stored (step 500) in a reference database and SAIS goes into readiness (step 502) to receive new information units. The hint contains the reference, reference context, and reference polarity value. When a new information unit is received (step 504), its expressions are separated (step 506) into a record D comprising a set of terms D = {termj}. The relevance of the terms D-15 of the recording D to the recorded clues is checked (step 508). If (step 510) a hint match is not found, the information unit does not contain the sentiment and the procedure goes back to step 502 to wait for the next information item.
Jos (vaihe 510) vihjeosuma löytyy, SAIS tekee relevanssitarkistuk-sen, jossa se määrittää (vaihe 512) kontekstialueen osumatermin ympäriltä ja 20 tarkistaa (vaihe 514) kontekstialueella olevien termien ilmaisujen ja vihjeen konteksti-ilmaisujen osuvuuden. Jos (vaihe 516) relevanssiosumaa ei löydy, vihjettä ei voida yhdistää mihinkään vaikutusalueella olevaan termiin ja toimintosarja palaa vaiheeseen 508 etsimään lisää vihjeosumia. Jos (vaihe 516) re-levanssiosuma löytyy, sentimenttitermi taltioidaan (vaihe 518) ja siihen yhdis-25 tetty vaikutusalue määritetään (vaihe 520). Vaikutusalueelta etsitään (vaihe 522) kohdetermejä. Jos (vaihe 524) kohdetermiä ei löydy, ei ole ainuttakaan o termiä, johon sentimentti voidaan yhdistää ja toimintosarja palaa takaisin vai- iJ. heeseen 508 etsimään lisää vihjeosumia. Jos (vaihe 524) kohdetermi löytyy, ^ SAIS määrittää (vaihe 526) sentimentin tekijän, ja laskee (vaihe 528) liittyvän ™ 30 vihjeen viitepolariteettiarvon perusteella kohdetermille polariteettiarvon. Tieto £ vaikutusalueesta, tekijästä, kohdetermi ja laskettu polariteettiarvo tallennetaan (vaihe 530) sentimenttitietueen tietoelementeiksi ja ne annetaan (vaihe 532) S SAIS:in sentimenttitietokantaan. Toimintosarja siirtyy sitten vaiheeseen 522 et- § simään toista kohdetermiä sentimenttitietuetta varten.If (hint 510) a hint match is found, SAIS performs a relevance check where it determines (step 512) the context area around the hit term and 20 checks (step 514) the relevance of the term expressions and hint context expressions in the context area. If a relevance match is not found (step 516), the hint cannot be associated with any term in the affected area, and the procedure returns to step 508 to search for more hint hits. If (step 516) a re-levance match is found, the sentiment term is recorded (step 518) and the associated range of influence is determined (step 520). The target area is searched (step 522) for target terms. If (step 524) no target term is found, there is no single term to which the sentiment can be combined and the procedure returns. 508 to search for more clue hits. If (step 524) the target term is found, ^ SAIS determines (step 526) the sentiment factor, and calculates (step 528) the associated ™ 30 hint from the reference polarity value for the target term polarity value. Information about the range of action, the factor, the target term, and the calculated polarity value are stored (step 530) as data elements of the sentiment record and are given (step 532) to the sentiment database of S SAIS. The procedure then proceeds to step 522 to search for another target term for the sentiment record.
CMCM
35 Kuten edellä mainittiin, sentimentin erotustoimintosarjalle viitetieto kanta edustaa staattista yksikköä, joka tarjoaa joukon vihjeitä ja vihjekonteksti- 20 ilmaisuja, joita voidaan käyttää vertailuissa. Vihjetietokanta, joka mahdollistaa ilmaisujen kontekstitietoisen erottelun, tarjoaa tietorakenteen, jossa sekä viitteet että niihin yhdistetyt kontekstit voidaan myös helposti säilyttää ihmismielen minimaalisella rinnakkaisella tuella tai jopa ilman sitä. Edellisessä suoritus-5 muodossa oletettiin, että asiantuntija oli syöttänyt vihjeet tietokantaan ja niitä tallennettiin siellä jatkokäyttöä varten sentimenttierottelutoiminnoissa.35 As mentioned above, the reference database for the Sentiment Separation Procedure represents a static unit that provides a set of clues and clue context expressions that can be used in comparisons. The Hints Database, which enables context-conscious separation of expressions, provides a data structure in which both references and their associated contexts can also be easily retained with or without minimal parallel support of the human mind. In the previous embodiment, it was assumed that the expert had entered the cues into the database and stored them for further use in sentiment separation operations.
On kuitenkin selvää, että mitä tahansa täysimittaista järjestelmää varten yksinomaan ihmisen syöttämiin vihjeisiin perustuva vihjetietokanta ei tule olemaan teknisesti toimintakykyinen. Automatisoidumpi lähestymistapa saa-10 daan mahdolliseksi erottamalla vihjeitä merkitystä sentimenttitiedosta. Olettakaamme, että SAIS käsittää vihjeenhallinnan toiminnallisen lisäelementin CM. Oletetaan lisäksi, että asiantuntija syöttää CM:ään joukon lauseita, jotka on merkitty joko positiiviseksi tai negatiiviseksi. Lauseet voisivat olla esimerkiksi: Ί think Idoc is a very good MP3 player’, 15 The theater has a good sound system’However, it is clear that for any full-scale system, a hints database based solely on man-made hints will not be technically operational. A more automated approach is made possible by separating clues from meaningful sentiment information. Assume that SAIS includes a CM additional functional element for tip management. It is further assumed that the expert enters a set of sentences in the CM that are marked either positive or negative. The sentences could be: Ί think Idoc is a very good MP3 player ', 15 The theater has a good sound system'
The new Swecar performed well in tests’ ja kukin niistä olisi merkitty positiiviseksi. Viitteiden havaitsemiseksi CM käsittää vihjeen havaitsemisfunktion ja erottaa syötetyistä lauseista adjektiivit ’’new” ja ’’good” ja muodostaa niistä positiivisia (polariteetti^) globaaleja vihjekandi-20 daatteja, joiden väljyys on nolla. c_0=(1,0,(“good”),{}) c_1=(1,0,(“new”),{}) CM määrittää sitten näiden vihjekandidaattien taajuuden merkityissä lauseissa. Adjektiivin ’’good” taajuus on 2/3 (lauseet) ja adjektiivin ’’new” taa-25 juus on 1/3. CM voi sitten joko hyväksyä tai hylätä kandidaatit niiden taajuuksi-en perusteella.The new Swecar performed well in tests' and each of them would be marked positive. To detect references, CM includes a hint detection function and separates adjectives "" new "and" good "from the entered sentences and generates positive (polarity ^) global hint candidate dates with zero spacing. c_0 = (1,0, ("good"), {}) c_1 = (1,0, ("new"), {}) CM then determines the frequency of these Hint candidates in the tagged sentences. The adjective '' good 'has a frequency of 2/3 (sentences) and the adjective' 'new' has a frequency of 1/3. The CM can then either accept or reject the candidates based on their frequency.
o Automatisoidun toimintosarjan ongelmana on, että tuotetut vihjeet ^ eivät välttämättä käsitä kontekstitietoa, jota tarvitaan tarkempien tulosten ai- ^5 kaansaamiseksi.The problem with an automated procedure is that the tips generated may not contain the context information needed to obtain more accurate results.
C\JC \ J
30 Keksinnön mukainen järjestelmä tarjoaa kuitenkin itseohjautuvanHowever, the system according to the invention provides self-steering
£ mekanismin, jossa olemassa olevaa vihjetietokantaa ja sentimenttierotinta SE£ mechanism with the existing hint database and sentiment separator SE
käytetään tuottamaan uusia vihjeitä, joissa on kontekstitietoa. Kuvio 6 esittää S itseohjaavan toimintosarjan, jota voidaan käyttää kuvion 3 SAIS:issä. Itseoh- o jäävässä toimintosarjassa CM vastaanottaa tallenteen ja olemassa olevan vih-is used to generate new clues with context information. Figure 6 shows an S self-controlling procedure that can be used in the SAIS of Figure 3. In a self-ignoring procedure, the CM receives the recording and the existing
CMCM
35 jeen ja erottaa tallenteesta yhden tai useampia sentimenttitietueita, kuten edellä kuvioissa 4 ja 5 kuvattiin. Kuvion 6 esimerkissä syötetty lause 60 on ‘Idoc 21 nono is a good MP3 player because it is so small’, ja vihjetietokanta CDB käsittää yhden vihjeen c=(1,0,(“good”),{}). Kun tätä vihjettä käytetään edellä kuvatulla tavalla, SE antaa sentimenttitietueen: s_0=({(“ldoc”,0),(“nono”,1),(“be”,2),("a”,3),(“good”,4),(“MP3”,5),(“player”,6),(“be 5 cause”,7),(“it”,8), (“be”,9),(“so”, 10),(“small”, 11),(“.”, 12)},A,{(“ldoc”,0),(“nono”, 1)}, 1/3) jonka kohdetermit ovat (“ldoc”,0), (“nono”,1) ja polariteetti 1/3. Sen lisäksi, että sentimenttitietue annetaan sentimenttitietokantaan, sentimentti s_0 välitetään myös CM:lle, joka erottaa vaikutusalueelta ilmaisut ’’good” ja ’’small” 63 ja luo 10 niistä positiiviset ja negatiiviset kandidaattivihje-ilmaisut 64 (“good”,1), (“good”,-1), (“small”, 1), (“small”,-1).35 and extract one or more sentiment records from the recording, as described above in Figures 4 and 5. In the example of Figure 6, the input 60 is 'Idoc 21 is not a good MP3 player because it is so small', and the hint database CDB comprises one hint c = (1,0, ("good"), {}). When using this hint as described above, SE will provide a sentiment record: s_0 = ({("ldoc", 0), ("nono", 1), ("be", 2), ("a", 3), (" good ", 4), (" mp3 ", 5), (" player ", 6), (" be 5 cause ", 7), (" it ", 8), (" be ", 9), (" so ", 10), (" small ", 11), (". ", 12)}, A, {(" ldoc ", 0), (" nono ", 1)}, 1/3) with target terms ("Ldoc", 0), ("nono", 1) and polarity 1/3. In addition to providing the sentiment record to the sentiment database, the sentiment s_0 is also passed to CM, which distinguishes between "good" and "small" 63, and create 10 of them as positive and negative candidate hints 64 ("good", 1), ("good", - 1), ("small", 1), ("small", - 1).
CM voidaan järjestää hyväksymään vain vihjeilmaisut, jotka esiintyvät teksteissä usein ja siten ennen ilmaisujen ’’good” ja ’’small” hyväksymistä, CM tarkistaa esiintyvätkö ne tarpeeksi usein toimitetussa tallenteessa. CM 15 täydentää kandidaatti-ilmaisutietueita 65 käsittämään ilmaisun kandidaatin esiintymistaajuudesta positiivisissa ja negatiivisissa sentimenteissä ("good”, 0/1, -1), (’’good”, 1/1, 1), (’’small”, 0/1, -1), (’’small”, 1/1, 1). Koska opetusmateriaali käsittää yhden tallenteen positiivisen sentimentin, positiiviset kandidaatit saavat taajuudeksi 1/1, koska kummatkin adjektiivit esiintyvät kerran positiivi-20 sessa sedimentissä. Vastaavasti negatiivisten sentimenttien taajuudeksi tulee nolla, ja negatiiviset kandidaatit näin ollen eliminoituvat. Jäljelle jäävät vihje-kandidaatit 66 ovat siten (’’good”, 1/1, 1) ja ("small”, 1/1, 1).CM can be arranged to accept only the cue expressions that appear frequently in the texts and thus before accepting the expressions "good" and "small", CM checks to see if they occur frequently enough in the delivered recording. CM 15 complements candidate expression records 65 to include expression of the candidate's frequency in positive and negative sentiments ("good", 0/1, -1), ("" good ", 1/1, 1), (" "small", 0/1 , -1), ('' small ', 1/1, 1) Since the teaching material comprises a positive sentiment of one recording, positive candidates get a frequency of 1/1, since both adjectives appear once in a positive-20 sediment. zero, and negative candidates are thus eliminated, so the remaining hint candidates 66 are ('' good ', 1/1, 1) and (' small ', 1/1, 1).
CM tarkistaa myös ovatko vihjekandidaatit uusia. Kuvion 6 esimerkissä kandidaatin ("good”, 1/1, 1) ilmaisu esiintyy jo sellaisenaan olemassa 25 olevassa vihjeessä, ja vihjettä, jossa on viite ’’good” ei siten tarvitse lisätä enää vihjetietokantaan. Adjektiivi ’’small” on kuitenkin uusi ja ilmaisua ’’small” pide-o tään näin ollen kandidaatti-ilmaisuna 67 vihjeen viitteeksi.CM will also check if the hint candidates are new. In the example of Figure 6, the expression for "candidate" ("good", 1/1, 1) already exists in the existing 25 clues, and thus the clue with the reference "good" does not need to be added to the clue database anymore. the expression '' small '' is therefore to be considered as a candidate expression for the purpose of 67 clues.
CMCM
^ Kohdetermit kontekstianalyysia varten määritetään sentimenttitietu- 1 een vaikutusalueesta samalla tavoin kuin sentimenttien erotuksessa, esimer-^ Target terms for context analysis are defined from the area of influence of the sentiment record in the same way as in the separation of sentiment, e.g.
CQCQ
^ 30 kiksi taltioimalla kaikki substantiivit (”ldoc”, ”nono”, ”MP3”, ’’Player”) vaikutus- £ alueelta. Nämä substantiivit lisätään vihjeeseen joukkona viitekonteksti- -r- ilmaisuja. Täysin automaattisessa vihjetuotannossa vihjekandidaatin 67 ilmaisu ja viitekonteksti-ilmaisut kootaan suoraan vihjeeksi 68, joka voidaan taltioida 00 o vihjetietokantaan CDB. Polariteettiarvo viitettä varten voidaan saada suoraan ^ 35 tai laskemalla vihjekandidaatin polariteettiarvosta. Lisäsäätönä toimintosarjaan 22 voidaan lisätä vaihe, jossa asiantuntija tarkistaa vihjeen 68 ennen sen tallennusta vihjetietokantaan CDB.^ 30 why by recording all the nouns ("ldoc", "nono", "MP3", "" Player ") in the region of influence. These nouns are added to the hint as a set of reference context -r expressions. In fully automated cue production, the expression of the hint candidate 67 and the reference context expressions are compiled directly into a hint 68, which can be stored in the 00 o hint database CDB. The polarity value for the reference can be obtained directly from 3535 or by calculating the polarity value of the hint candidate. As an additional control, procedure 22 may include adding a step of checking the tip 68 by a specialist before storing it in the tip database CDB.
Alan ammattilaiselle on ilmeistä, että tekniikan kehittyessä keksinnön perusajatus voidaan toteuttaa monin eri tavoin. Keksintö ja sen suoritus-5 muodot eivät siten rajoitu yllä kuvattuihin esimerkkeihin vaan ne voivat vaihdella patenttivaatimusten puitteissa.It will be obvious to a person skilled in the art that as technology advances, the basic idea of the invention can be implemented in many different ways. The invention and its embodiments are thus not limited to the examples described above, but may vary within the scope of the claims.
δδ
CMCM
1^ o1 ^ o
CDCD
CMCM
XX
cccc
CLCL
CMCM
LOLO
0000
Oo
Oo
CMCM
Claims (15)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FI20085421A FI122369B (en) | 2008-05-07 | 2008-05-07 | information |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FI20085421A FI122369B (en) | 2008-05-07 | 2008-05-07 | information |
FI20085421 | 2008-05-07 |
Publications (3)
Publication Number | Publication Date |
---|---|
FI20085421A0 FI20085421A0 (en) | 2008-05-07 |
FI20085421A FI20085421A (en) | 2009-11-08 |
FI122369B true FI122369B (en) | 2011-12-30 |
Family
ID=39523076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FI20085421A FI122369B (en) | 2008-05-07 | 2008-05-07 | information |
Country Status (1)
Country | Link |
---|---|
FI (1) | FI122369B (en) |
-
2008
- 2008-05-07 FI FI20085421A patent/FI122369B/en not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
FI20085421A0 (en) | 2008-05-07 |
FI20085421A (en) | 2009-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11514235B2 (en) | Information extraction from open-ended schema-less tables | |
WO2015185019A1 (en) | Semantic comprehension-based expression input method and apparatus | |
Ek et al. | Named entity recognition for short text messages | |
CN104573099B (en) | The searching method and device of topic | |
Phandi et al. | SemEval-2018 task 8: Semantic extraction from CybersecUrity REports using natural language processing (SecureNLP) | |
Jiang et al. | Factoring fact-checks: Structured information extraction from fact-checking articles | |
JP2010181993A (en) | Evaluation analysis server, method, and program for evaluating text file containing pictorial symbol | |
Murray et al. | Interpretation and transformation for abstracting conversations | |
Oramas et al. | ELMD: An automatically generated entity linking gold standard dataset in the music domain | |
Abdallah et al. | Multi-domain evaluation framework for named entity recognition tools | |
González et al. | Siamese hierarchical attention networks for extractive summarization | |
Serigos | Applying corpus and computational methods to loanword research: new approaches to Anglicisms in Spanish | |
Algur et al. | Sentiment analysis by identifying the speaker's polarity in Twitter data | |
Reshadat et al. | A new open information extraction system using sentence difficulty estimation | |
US9639524B2 (en) | Linguistic based determination of text creation date | |
Tran et al. | Semi-supervised approach based on co-occurrence coefficient for named entity recognition on twitter | |
Chopra et al. | Named entity recognition in Punjabi using hidden Markov model | |
CN110008314B (en) | Intention analysis method and device | |
Dadoun et al. | Sentiment Classification Techniques Applied to Swedish Tweets Investigating the Effects of translation on Sentiments from Swedish into English | |
Oudah et al. | Person name recognition using the hybrid approach | |
Ezhilarasi et al. | Designing the neural model for POS tag classification and prediction of words from ancient stone inscription script | |
Fenogenova et al. | A general method applicable to the search for anglicisms in russian social network texts | |
Tayal et al. | DARNN: Discourse Analysis for Natural languages using RNN and LSTM. | |
FI122369B (en) | information | |
Lek et al. | Sentix: An aspect and domain sensitive sentiment lexicon |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FG | Patent granted |
Ref document number: 122369 Country of ref document: FI |
|
MM | Patent lapsed |