FI120755B - Behandling av datapost för att finna motsvarande in en referensdatamängd - Google Patents

Behandling av datapost för att finna motsvarande in en referensdatamängd Download PDF

Info

Publication number
FI120755B
FI120755B FI20030855A FI20030855A FI120755B FI 120755 B FI120755 B FI 120755B FI 20030855 A FI20030855 A FI 20030855A FI 20030855 A FI20030855 A FI 20030855A FI 120755 B FI120755 B FI 120755B
Authority
FI
Finland
Prior art keywords
synonym
data field
value
data
candidate
Prior art date
Application number
FI20030855A
Other languages
English (en)
Finnish (fi)
Other versions
FI20030855A (sv
FI20030855A0 (sv
Inventor
Pentti Pulkkinen
Timo Surakka
Original Assignee
Tieto Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tieto Oyj filed Critical Tieto Oyj
Priority to FI20030855A priority Critical patent/FI120755B/sv
Publication of FI20030855A0 publication Critical patent/FI20030855A0/sv
Priority to US10/559,386 priority patent/US7958129B2/en
Priority to EP04735585A priority patent/EP1631923A1/en
Priority to PCT/FI2004/000331 priority patent/WO2004109546A1/en
Publication of FI20030855A publication Critical patent/FI20030855A/sv
Application granted granted Critical
Publication of FI120755B publication Critical patent/FI120755B/sv

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Claims (30)

1. Ett förfarande för behandling av en datapost för att hitta en motpart i en referensdatamängd, förfarandet bestäende av: bestämma värdet pä ett datafält i dataposten, där datafältet representerar en identifierare, bestämma ätminstone en synonymkandidat för värdet pä datafältet frän en mängd av förutbestämda identifierarvärden, bestämma om en synonymkandidat och värdet pä datafältet uppfyller ett pä förhand uppställt kriterium för godkännande av en synonym där formuleringsvariationer tas med i beräkningen, och om det pä förhand uppställda kriteriet för godkännande av en synonym där formuleringsvariationer tas med i beräkningen uppfylls, associeras värdet pä datafältet och synonymkandidaten som synonymer och en automatisk uppdatering av en synonymmängd som är associerad med referensdatamängden genom värdet pä datafältet sker, och sökning av en motpart för dataposten genom att jämföra värdet pä datafältet med referensdatamängden och/eller med den uppdaterade synonymmängden efter bestämning av synonymkandidaten för värdet pä datafältet och bestämning att det uppställda kriteriet för godkännande av en synonym är uppfyllt.
• · : 2. Ett förfarande säsom definierat i patentkrav 1, väri ätminstone en • · : synonymkandidat bestäms genom att använda det uppställda kriteriet för • ♦ \v godkännande av en synonym som är beroende av ätminstone värdet pä datafältet #***· *···* och det förutbestämda identifierarvärdet som anses vara en synonymkandidat. • · » m · • · • M
• · *···' 3. Ett förfarande säsom definierat i patentkrav 2, väri det uppställda kriteriet för ... godkännande av en synonym vidare tar med i beräkningen hur likartat en • « t synonymkandidat och värdet pä datafältet läter. « · • φ ··· ··*
4. Ett förfarande säsom definierat i patentkrav 2, väri det uppställda kriteriet för \ * godkännande av en synonym specificerar att ätminstone en förutbestämd del av V·! värdet pä datafältet är identisk med en förutbestämd del av det förutbestämda identifierarvärdet.
5. Ett förfarande säsom definierat i nägot av patentkrav 2 - 4, väri det uppställda kriteriet för godkännande av en synonym vidare tar med i beräkningen även ett ytterligare datafält i dataposten, där det ytterligare datafältet representerar en and ra identifierare.
6. Ett förfarande säsom definierat i nägot av föregäende patentkrav, väri ätminstone en kvalitetsparameter är utvärderad för en synonymkandidat, där det uppställda kriteriet för godkännande av en synonym tar ätminstone en kvalitetsparameter med i beräkningen.
7. Ett förfarande säsom definierat i patentkrav 6, väri ätminstone en kvalitetsparameter tar med i beräkningen ätminstone en av de följande kvantiteterna: antalet ändringar som krävs för att konvertera värdet pä datafältet tili att bli identiskt med en synonymkandidat; andelen identiska tecken i värdet pä datafältet och i en synonymkandidat; och skillnaden mellan längden av värdet pä datafältet och längden pä en synonymkandidat.
8. Ett förfarande säsom definierat i patentkrav 7, väri antalet ändringar som krävs för att konvertera värdet pä datafältet tili att bli identiskt med en synonymkandidat : är beräknat genom användning av Levenshtein avständet. • m 9 · · • · 9 ··· · • Φ *·*·: 9. Ett förfarande säsom definierat i patentkrav 7, väri andelen av identiska tecken ··· • m ]*··* tar med tecknens ordning i beräkningen.
• ·** 9
· • · ··· • · ***** 10. Ett förfarande säsom definierat i nägot av patentkrav 6-9, väri en första ... kvalitetsparameter är utvärderad för varje synonymkandidat och ätminstone en • · · andra kvalitetsparameter är utvärderad ätminstone för den synonymkandidat eller • 9 *.** kandidater som har den bästa första kvalitetsparametern. • · φ φ • # φ φ
\ * 11. Ett förfarande säsom definierat i nägot av patentkrav 6-10, väri det uppställda φ φ :.*·· kriteriet för godkännande av en synonym kräver att det bara finns en φ *:*‘: synonymkandidat som har den bästa ätminstone en kvalitetsparameter.
12. Ett förfarande säsom definierat i nägot av patentkrav 6-11, väri ätminstone tvä kvalitetsparametrar är utvärderade för varje synonymkandidat och det uppställda kriteriet för godkännande av en synonym specificerar en tröskel för en av de ätminstone tvä kvalitetsparametrarna, där tröskeln är beroende av en annan av de ätminstone tvä kvalitetsparametrarna.
13. Ett förfarande säsom definierat i nägot av föregäende patentkrav, väri sökningen efter motparter involverar en jämförelse av värdet pä datafältet med synonymmängden som relaterar tili identifieraren, där nämdä medlemmarna i synonymmängden hänvisar tili respektive förutbestämda identifierarvärden, och när det uppställda kriteriet för godkännande av en synonym är uppfyllt, läggs värdet pä datafältet tili synonymmängden som en medlem hänvisande tili den synonym som är associerad med värdet pä datafältet innan sökningen av en motpart päbörjas.
14. Ett förfarande säsom definierat i nägot av föregäende patentkrav, väri fastställandet av ätminstone en synonymkandidat är förkastat, om ett förutbestämt förkastningskriterium är uppfyllt.
15. Ett förfarande säsom definierat i patentkrav 14, väri det förutbestämda • · : förkastningskriteriet specificerar att värdet pä datafältet är identiskt med en av de • · : förutbestämda identifierarvärdena. * 1 • · · • · • · *·· • · !1··'
16. Ett förfarande säsom definierat i patentkrav 14, väri sökningen efter motparten * 1 · involverar synonymmängden och det förutbestämda förkastningskriteriet • 1 ***** specificerar att värdet pä datafältet är ätminstone en av de följande: ett av de ... förutbestämda identifierarvärdena, och en medlem av synonymmängden.
• · · · · • · · • · * · *" 17. Ett förfarande säsom definierat i nägot av patentkrav 14 - 16, väri det ··· ·...·1 förutbestämda förkastningskriteriet tar ett värde pä ett andra datafält i dataposten * med i beräkningen. • · • · · • ·· • · « *
18. Ett förfarande säsom definierat i nagot av föregäende patentkrav, väri information som indikerar att ätminstone en synonym associerad med värdet pä datafältet läggs tili i dataposten.
19. Ett förfarande säsom definierat i patentkrav 18, väri en kopia av dataposten görs för varje synonym associerad med värdet pä datafältet.
20. Ett förfarande säsom definierat i nägot av föregäende patentkrav, väri identifieraren relaterar tili ett namn pä en av de följande: en geografisk enhet, en person och en organisation.
21. Ett förfarande for behandling av en synonymmängd för sökning efter motparter i en referensdatamängd för dataposter, en datapost innehällandes ett datafält som representerar en identifierare, medlemmar av synonymmängden som är första identifierarvärden och refererar tili respektive andra identifierarvärden, där de andra identifierarvärdena är förutbestämda identifierarvärden, och sökningen efter en motpart involverar en jämförelse av ett värde pä datafältet med synonymmängden, förfarandet bestär av att fastställa ätminstone en synonymkandidat som relaterar tili värdet pä datafältet i dataposten ibland de förutbestämda identifierarvärdena, och, om värdet pä datafältet och en synonymkandidat uppfyller ett pä förhand uppställt kriterium för godkännande av • · · en synonym, automatiskt uppdatering synonymmängden som är associerad med • * \v referensdatamängden genom att lägga tili värdet pä datafältet tili *·« synonymmängden som en medlem som hänvisar tili synonymkandidaten innan M · : *.: sökningen efter en motpart tili en datapost päböijas. * ·· • · • ♦ ♦ ··
22. Ett förfarande säsom definierat i patentkrav 21, väri synonymmängden är torn • · · **[/ innan värdet pä datafältet läggs tili i synonymmängden. • · • · ··· ♦ ·♦·
23. Ett förfarande säsom definierat i patentkrav 21, väri synonymmängden innehäller ätminstone en medlem innan värdet pä datafältet läggs tili i :\{ synonymmängden. • ·
24. Ett datorprogram bestaende av programinstruktioner för att fä en dator att genomföra förfarandet i nägot av patentkrav 1 - 20.
25. Ett datorprogram sasom definierat i patentkrav 24, inkorporerat pä ett datorläsbart lagringsmedia.
26. Ett datorprogram bestäende av programinstruktioner för att fä en dator att genomföra förfarandet i nägot av patentkrav 21 - 23.
27. Ett datorprogram säsom definierat i patentkrav 26, inkorporerat pä ett datorläsbart lagringsmedia.
28. Ett databehandlingssystem för behandling av dataposter för att hitta motparter i en referensdatamängd, systemet bestaende av: - medel för att ta emot dataposter, - medel för att lagra referensdatamängden, - medel för att lagra förutbestämda identifierarvärden för en identifierare, - medel för att fastställa värdet pä ett datafält i dataposten, där datafältet representerar identifieraren, - medel för att associera värden pä datafältet och respektive förutbestämda • · · identifierarvärden som synonymer innan sökningen av motparter päbörjas, där • · : nämda medlen är konfigurerade tili att fastställa ätminstone en • · v.: synonymkandidat för ett värde pä datafältet frän det förutbestämda ··· identifierarvärdena, tili att fastställa om en synonymkandidat och värdet pä M · : datafältet uppfyller ett pä förhand uppställt kriterium för godkännande av en • m *···* synonym som tar formuleringsvariationer med i beräkningen, och om det pä förhand uppställda kriteriet för godkännande av en synonym som tar • · · formuleringsvariationer med i beräkningen uppfylls, tili att associera värdet pä » t *;** datafältet och synonymkandidaten som synonymer, och ·*· ·...· - medel för att söka efter motparter frän referensdatamängden i dataposterna, nämndä sökningen involverande en jämförelse av poster i referensdatamängden med värdena pä datafälten och/eller synonymer som är *:·*: associerade med värdena pä datafälten.
29. Ett databehandlingssystem sasom definierat i patentkrav 28, vidare bestäende av - medel för att lagra en synonymmängd, där medlemmar av synonymmängden hänvisartill respektive förutbestämda identifierarvärden, väri medlen för att associera värden pä datafältet och respektive förutbestämda identifierarvärden som synonymer är konfigurerade tili att lägga tili en medlem som refererar till den synonym som är associerad med värdet pä datafältet tili synonymmängden innan medlen för sökning efter motparter aktiveras.
30. Ett databehandlingssystem för behandling av en synonymmängd för sökning efter motparter i en referensdatamängd för dataposter, väri en datapost bestäende av ett datafält representerar en identifierare, medlemmar av synonymmängden är första identifierarvärden och hänvisar tili respektive andra identifierarvärden, de andra identifierarvärdena är förutbestämda identifierarvärden, och sökningen involverar en jämförelse av värdet pä datafältet med synonymmängden, systemet bestäende av: - medel för att lagra synonymmängden, - medel för att lagra förutbestämda identifierarvärden för identifieraren, - medel för att ta emot dataposter, - medel för fastställande av värden pä datafält i dataposterna, och • « * - medel för att lägga tili ett värde pä datafältet och respektive förutbestämda 9 9 · identifierarvärden associerade som synonymer tili synonymmängden innan • · \v sökningen efter motparter i referensdatamängden päbörjas, väri nämnda ·*· medlen är konfigurerade tili att fastställa ätminstone en synonymkandidat för ett ·* · J V värde pä datafältet frän de förutbestämda identifierarvärdena, tili att fastställa • ##*· *···’ om en synonymkandidat och värdet pä datafältet uppfyller ett pä förhand uppställt kriterium för godkännande av en synonym som tar · · formuleringsvariationer med i beräkningen, och om det pä förhand uppställda • * *·;·* kriteriet för godkännande av en synonym som tar formuleringsvariationer med i beräkningen uppfylls, automatiskt uppdatera synonymmängden som är "*’* associerad med referensdatamängden genom att associera värdet pä datafältet och värdet pä synonymkandidaten som synonymer. 9 9
FI20030855A 2003-06-06 2003-06-06 Behandling av datapost för att finna motsvarande in en referensdatamängd FI120755B (sv)

Priority Applications (4)

Application Number Priority Date Filing Date Title
FI20030855A FI120755B (sv) 2003-06-06 2003-06-06 Behandling av datapost för att finna motsvarande in en referensdatamängd
US10/559,386 US7958129B2 (en) 2003-06-06 2004-06-01 Processing data records for finding counterparts in a reference data set
EP04735585A EP1631923A1 (en) 2003-06-06 2004-06-01 Processing data records for finding counterparts in a reference data set
PCT/FI2004/000331 WO2004109546A1 (en) 2003-06-06 2004-06-01 Processing data records for finding counterparts in a reference data set

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FI20030855 2003-06-06
FI20030855A FI120755B (sv) 2003-06-06 2003-06-06 Behandling av datapost för att finna motsvarande in en referensdatamängd

Publications (3)

Publication Number Publication Date
FI20030855A0 FI20030855A0 (sv) 2003-06-06
FI20030855A FI20030855A (sv) 2004-12-07
FI120755B true FI120755B (sv) 2010-02-15

Family

ID=8566219

Family Applications (1)

Application Number Title Priority Date Filing Date
FI20030855A FI120755B (sv) 2003-06-06 2003-06-06 Behandling av datapost för att finna motsvarande in en referensdatamängd

Country Status (4)

Country Link
US (1) US7958129B2 (sv)
EP (1) EP1631923A1 (sv)
FI (1) FI120755B (sv)
WO (1) WO2004109546A1 (sv)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7937396B1 (en) 2005-03-23 2011-05-03 Google Inc. Methods and systems for identifying paraphrases from an index of information items and associated sentence fragments
US7937265B1 (en) 2005-09-27 2011-05-03 Google Inc. Paraphrase acquisition
CN101281522B (zh) * 2007-04-06 2010-11-03 阿里巴巴集团控股有限公司 一种处理相关关键词的方法及系统
US8037086B1 (en) 2007-07-10 2011-10-11 Google Inc. Identifying common co-occurring elements in lists
US8001136B1 (en) * 2007-07-10 2011-08-16 Google Inc. Longest-common-subsequence detection for common synonyms
US8103506B1 (en) * 2007-09-20 2012-01-24 United Services Automobile Association Free text matching system and method
DE102007057248A1 (de) * 2007-11-16 2009-05-20 T-Mobile International Ag Verbindungsschicht für Datenbanken
US7962486B2 (en) 2008-01-10 2011-06-14 International Business Machines Corporation Method and system for discovery and modification of data cluster and synonyms
JP2010015554A (ja) * 2008-06-03 2010-01-21 Just Syst Corp 表構造解析装置、表構造解析方法および表構造解析プログラム
US9092517B2 (en) * 2008-09-23 2015-07-28 Microsoft Technology Licensing, Llc Generating synonyms based on query log data
US20100293179A1 (en) * 2009-05-14 2010-11-18 Microsoft Corporation Identifying synonyms of entities using web search
US8533203B2 (en) * 2009-06-04 2013-09-10 Microsoft Corporation Identifying synonyms of entities using a document collection
US9600566B2 (en) 2010-05-14 2017-03-21 Microsoft Technology Licensing, Llc Identifying entity synonyms
US8468119B2 (en) 2010-07-14 2013-06-18 Business Objects Software Ltd. Matching data from disparate sources
US8745019B2 (en) 2012-03-05 2014-06-03 Microsoft Corporation Robust discovery of entity synonyms using query logs
US10032131B2 (en) 2012-06-20 2018-07-24 Microsoft Technology Licensing, Llc Data services for enterprises leveraging search system data assets
US9594831B2 (en) 2012-06-22 2017-03-14 Microsoft Technology Licensing, Llc Targeted disambiguation of named entities
US9229924B2 (en) 2012-08-24 2016-01-05 Microsoft Technology Licensing, Llc Word detection and domain dictionary recommendation
JP6063217B2 (ja) * 2012-11-16 2017-01-18 任天堂株式会社 プログラム、情報処理装置、情報処理システム、および情報処理方法
US9081785B2 (en) 2012-12-07 2015-07-14 International Business Machines Corporation Inferring valid values for objects in a glossary using reference data
AU2016369586B2 (en) * 2015-12-19 2019-03-28 SWVL, Inc. Method and device for correlating multiple tables in a database environment
EP3785133A4 (en) 2018-04-24 2022-01-19 Von Drakk, Viktor IMPROVED METHOD AND APPARATUS FOR CORRELING MULTIPLE TABLES IN A DATABASE ENVIRONMENT
CN115080553B (zh) * 2022-07-21 2022-11-08 广东广物优车科技有限公司 一种出口货物智能监测方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5551049A (en) * 1987-05-26 1996-08-27 Xerox Corporation Thesaurus with compactly stored word groups
EP0437615B1 (en) * 1989-06-14 1998-10-21 Hitachi, Ltd. Hierarchical presearch-type document retrieval method, apparatus therefor, and magnetic disc device for this apparatus
US5220625A (en) * 1989-06-14 1993-06-15 Hitachi, Ltd. Information search terminal and system
US5210868A (en) * 1989-12-20 1993-05-11 Hitachi Ltd. Database system and matching method between databases
US5572423A (en) * 1990-06-14 1996-11-05 Lucent Technologies Inc. Method for correcting spelling using error frequencies
US5649221A (en) * 1995-09-14 1997-07-15 Crawford; H. Vance Reverse electronic dictionary using synonyms to expand search capabilities
US5956711A (en) * 1997-01-16 1999-09-21 Walter J. Sullivan, III Database system with restricted keyword list and bi-directional keyword translation
US6523028B1 (en) 1998-12-03 2003-02-18 Lockhead Martin Corporation Method and system for universal querying of distributed databases
US6918086B2 (en) * 2000-03-28 2005-07-12 Ariel S. Rogson Method and apparatus for updating database of automatic spelling corrections
AU2001253403A1 (en) * 2000-04-14 2001-10-30 Justaddsales. Com, Inc. Computer-based interpretation and location system
GB2367917A (en) * 2000-10-12 2002-04-17 Qas Systems Ltd Retrieving data representing a postal address from a database of postal addresses using a trie structure
CN1310172C (zh) 2001-07-26 2007-04-11 国际商业机器公司 生成候补同义词的数据处理方法和系统
US7231343B1 (en) * 2001-12-20 2007-06-12 Ianywhere Solutions, Inc. Synonyms mechanism for natural language systems
US20040024760A1 (en) * 2002-07-31 2004-02-05 Phonetic Research Ltd. System, method and computer program product for matching textual strings using language-biased normalisation, phonetic representation and correlation functions
US7440941B1 (en) * 2002-09-17 2008-10-21 Yahoo! Inc. Suggesting an alternative to the spelling of a search query
US20040064447A1 (en) * 2002-09-27 2004-04-01 Simske Steven J. System and method for management of synonymic searching
US20040088157A1 (en) * 2002-10-30 2004-05-06 Motorola, Inc. Method for characterizing/classifying a document
US20040107205A1 (en) * 2002-12-03 2004-06-03 Lockheed Martin Corporation Boolean rule-based system for clustering similar records

Also Published As

Publication number Publication date
US20060218136A1 (en) 2006-09-28
FI20030855A (sv) 2004-12-07
FI20030855A0 (sv) 2003-06-06
EP1631923A1 (en) 2006-03-08
WO2004109546A1 (en) 2004-12-16
US7958129B2 (en) 2011-06-07

Similar Documents

Publication Publication Date Title
FI120755B (sv) Behandling av datapost för att finna motsvarande in en referensdatamängd
US7707023B2 (en) Method of finding answers to questions
US5680628A (en) Method and apparatus for automated search and retrieval process
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US6026398A (en) System and methods for searching and matching databases
US8855998B2 (en) Parsing culturally diverse names
US5715469A (en) Method and apparatus for detecting error strings in a text
JP4301515B2 (ja) 文章表示方法、情報処理装置、情報処理システム、プログラム
US8041560B2 (en) System for adaptive multi-cultural searching and matching of personal names
US7856598B2 (en) Spelling correction with liaoalphagrams and inverted index
US20160055150A1 (en) Converting data into natural language form
CA2750609C (en) Methods and systems for matching records and normalizing names
US8849653B2 (en) Updating dictionary during application installation
US20080065671A1 (en) Methods and apparatuses for detecting and labeling organizational tables in a document
US9098487B2 (en) Categorization based on word distance
CN110851559A (zh) 数据元自动识别方法和识别系统
Rehman et al. Morpheme matching based text tokenization for a scarce resourced language
US8219905B2 (en) Automatically detecting keyboard layout in order to improve the quality of spelling suggestions
JP7040155B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP6623840B2 (ja) 同義語検出装置、同義語検出方法及び同義語検出用コンピュータプログラム
JPH05151261A (ja) 時制推敲支援システム
US12032609B1 (en) System, method, and computer program for performing semantic type-ahead suggestions for natural language database searches
JP3591109B2 (ja) キーワード設定装置
Samsuri et al. A comparison of distributed, pam, and trie data structure dictionaries in automatic spelling correction for indonesian formal text
KR100508353B1 (ko) 검색 질의의 철자를 체크하는 방법

Legal Events

Date Code Title Description
PC Transfer of assignment of patent

Owner name: TIETO OYJ

Free format text: TIETO OYJ

FG Patent granted

Ref document number: 120755

Country of ref document: FI

MM Patent lapsed