BG66255B1 - Natural language formalization - Google Patents

Natural language formalization Download PDF

Info

Publication number
BG66255B1
BG66255B1 BG10109996A BG10999607A BG66255B1 BG 66255 B1 BG66255 B1 BG 66255B1 BG 10109996 A BG10109996 A BG 10109996A BG 10999607 A BG10999607 A BG 10999607A BG 66255 B1 BG66255 B1 BG 66255B1
Authority
BG
Bulgaria
Prior art keywords
text
language
natural language
model
words
Prior art date
Application number
BG10109996A
Other languages
English (en)
Other versions
BG109996A (bg
Inventor
Ivaylo Popov
Krasimir Popov
Original Assignee
Ivaylo Popov
Krasimir Popov
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ivaylo Popov, Krasimir Popov filed Critical Ivaylo Popov
Priority to BG10109996A priority Critical patent/BG66255B1/bg
Priority to KR1020107013115A priority patent/KR101506757B1/ko
Priority to CN200880115885A priority patent/CN101855630A/zh
Priority to CA2705345A priority patent/CA2705345A1/en
Priority to EA201070614A priority patent/EA201070614A1/ru
Priority to JP2010533390A priority patent/JP2011503730A/ja
Priority to PCT/BG2008/000022 priority patent/WO2009062271A1/en
Priority to EP08850309A priority patent/EP2220572A4/en
Publication of BG109996A publication Critical patent/BG109996A/bg
Publication of BG66255B1 publication Critical patent/BG66255B1/bg
Priority to JP2014031296A priority patent/JP2014139799A/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

Област на техниката
Изобретението се отнася до въвеждане на знания в машина чрез естествен език, машинни преводачи на естествен език.
Предшестващо ниво на техниката
От US 6014680 (“Method and apparatus for generating structured document” Sato Yoshifumi et al.) е известен метод, при който предварително дефинирана структура на документ се променя така, че да съответства на структура, създадена от извлечени от неструктуриран документ ключови думи, интерпретиране на документа съгласно променената структура и използване на данни за извършените промени в предварително дефинираната структура, за да се генерира структуриран документ съгласно предварително дефинираната структура на документ. Въпреки че ключовите думи могат да се смятат за еднозначно определени, както и дефинирания модел може да се интерпретира по един и само по един начин, документът от нивото на техниката се отличава от настоящата заявка по това, че в заявката за създаване на еднозначен модел се използват базисни понятия, имащи етикет, описание на естествен език и списък от думи и текстове, които представят базисното понятие на различни естествени езици, както и че генерацията се прави на естествен език, също и че съставения еднозначен модел на текста не отразява само структурата на текста (реда на изреченията в него), но и показва понятията, които могат да се намерят в текста и взаимовръзките между тях.
Известен е също метод, описан в WO 0227524 “A Method And System For Describing And Identifying Concepts In Natural Language Text For Information Retrieval And Processing” Pass Daniel C et al., при който потребителят предварително дефинира понятия, които представляват дума и описание, описанието се дава на специализиран език за описания на понятията, който дава възможност на дума да се съпоставят синоними, текст или правила за търсене. Целта е дадено понятие, така както е дефинирано от потребите ля да може да се открие в даден текст с помощта на неговото описание. Обработените по метода текстове могат да се анотират с откритите по метода понятия за по-лесно бъдещо търсене. Съгласно WO 0227524 понятието се определя от потребителя и се представя от начина му на търсене. Съгласно настоящото изобретение базисно понятие е същност или действие еднакво схващани от всички хора, независимо от използвания от тях език. Базисното понятие се определя от неговото описание на естествен език. Описанието на естествен език служи не за търсене, а за обратна връзка с човек, етикета на базисното понятие служи за адресиране на базисното понятие от машина, а прикаченият списък с думи и текстове, които представят даденото понятие на различни езици служат за търсене на понятието при обработка на текст на естествен език и за генерация на текст на естествен език. Когато се дефинират базисните понятия се използват сравнения на описанията на синонимите на дадена дума, дадени в тълковен речник. Въпреки че това са “потребителски” дефиниции, те не могат да служат за търсене на понятието в текст. Описанията се сравняват и се определят подобни текстове, подобните текстове потенциално описват базисно понятие, решението дали подобните по съвпадение на думи текстове са и смислово идентични се взема от човек, с което не се намира, а се създава базисно понятие.
Най-разпространени са схемите, при които машините интерпретират определено множество от думи на естествен език - такива са всички изкуствени езици. Има опити да се определи граматичното значение на думите. Има разработки, при които се задава предметната област за даден текст, който определя и предпочитаното значение на думите и се получават много по-добри резултати, например при машинен превод. Има опити да се определи значението на дадена дума по думите, които са заедно с нея в текста и статистика на такива срещания. Има опити на думите в даден език да се присвоят цифрови значения и на думите от друг естествен език да се присвоят цифрови значения от същото множество, така че думи от двата езика с една и съща присвоена стойност да имат еднакво значение.
Не е решен въпросът за еднозначното интерпретиране на естествен език от машина, ко
66255 Bl ето пречи за въвеждане на знания и данни в машина чрез естествен език. Не може да се разчита на машина за официален превод на документ. Не може да се създаде текст на естествен език, който да има еднозначна интерпретация от различни хора, а това е особено необходимо при писане на учебници и на заявки за патенти. Не може компютър да се програмира чрез естествен език, тъй като едно изречение на естествен език има множество допустими от формална гледна точка значения, т.е. граматично правилни изречения могат да се интерпретират по различен начин. Не може оптимално да се използва натрупаното човешко знание, защото няма формализъм, чрез който машина да обработва директно знание, написано на естествен език.
Техническа същност на изобретението
Интерпретацията на естествен език винаги включва построяването на машинен модел на интерпретираните знания. Текстът на естествен език се обработва с различни средства, за да се определят граматичните части на речта, смисълът на изречението и на думите в него. Въпросът е, че няма обратна връзка и човекът не може да влияе на формирания модел. Това е така, защото няма база за сравнение между модела и текста на естествен език. Един вид моделът представлява отново структура, която не може да се интерпретира по един единствен начин. Техническата същност на предложението е точно метод за формиране на единственост на модела. Така формираният модел може да се интерпретира по един и само по един начин.
Методът има пет стъпки.
На първата стъпка се изследва множеството естествени езици, като целта е да се определи базиса понятия, с които борави човечеството. Трябва да се има предвид, че дума на даден език не е базисно понятие. Базисното понятие е обозначение на някаква същност или действие. Обикновено с една и съща дума на естествен език се обозначават няколко различни базисни понятия - т.е. думите имат различно значение. Предложението от нивото на техниката да обозначим “слънце= 1 ” и “sun=1 ” може да спомогне за машинен превод, но не и да се направи смислен еднозначен превод. При такива системи се получават преводи от рода “User rights = правата на наркомана”, всъщност става въпрос в дадения контекст за правата на потребителя. Такова номериране на думите просто създава междинен език с нееднозначно тълкуване. Предложението е да се номерират не думите, а същностите. Същностите съгласно метода имат единствени имена, те може да са цифри, но може да са и думи от широко разпространен естествен език. Трябва да се отбележи обаче, че дадена дума на естествен език може да се използва само един единствен път за обозначаване на същност. Така “слънце” може да има значение само на звезда, а за всички други значения на думата “слънце” да се изберат други думи. Трябва да се разбере, че такова назоваване на същностите по никакъв начин не повлиява естествения език. Същностите съгласно метода се характеризират с техните описания. Описанията на същностите се дават на естествен език, по същия начин както се прави тълковен речник на естествен език. Към всяка същност има списък от думи, с които тя може да бъде представена в даден естествен език - т.е. синонимен речник, но не на дума, а на същност.
Втора стъпка от метода е да се изгради модел на текста на естествен език с използване само на базисни понятия. При тази стъпка на метода се използват всички приложими методи от нивото на техника, които дават възможност да се определи граматичното и смислово значение на думите в текста и да се изгради модел. При изграждането на модела може да се използва глобална статистика за използването на думите в техните различни значения, или локална статистика за всеки отделен потребител на метода. Могат да се използват и сходни текстове с вече уточнен смисъл на думите. Човешки превод на даден текст от един език на друг език също може да се използва за уточняване на базисните понятия, използвани в текста на естествения език, чрез изследване на подбраните думи при превода и сравняването им с думите на оригиналния текст по значение.
Трета стъпка от метода е обратната връзка. При тази стъпка създадения на втората стъпка модел се използва като база за генериране на текст на същия естествен език, на който е и оригиналният текст. На оператор се дава възможност, чрез компютърна програма да извърши промени в генерирания модел, така че моделът да отговаря на неговото разбиране за текста. Това може да
66255 Bl стане чрез директна промяна на модела, като се работи директно със същности, представени например чрез дърво на връзките между отделните същности, което изисква сериозно обучение или може да стане чрез опит да се обясни на компютъра, кое значение трябва да се промени. Възможно е оригиналният текст да се сравни с генерирания текст и да се маркират различията между оригиналният текст и генерираният текст. За всяка маркирана дума от синонимен речник се извежда списък от синоними, като е възможно да се филтрират онези синоними, които са синоними по линията на вече отхвърлената като неточна същност. Операторът избира от списъка със синоними и процесът се повтаря в реално време т.е. има нова генерация и възможна нова поправка. Изборът на синоними, обаче не винаги е достатъчен за описване на дадена същност. Затова могат да се предвидят средства за промяна на интерпретацията на взаимовръзката между две базисни понятия в даден текст. Така чрез визуални средства като маркиране и посочване може да се дефинира взаимоотношение. Например може да се уточни кой е подлога в изречението или кое е средството и кое е пояснението. Възможно е да се създаде средство, с което да се указват времевите зависимости в текста. Възможно е да се задават външни характеристики на текста, така че да се управлява по-добре интерпретацията и генерацията. Например, могат да се посочват случаите, в които истинската интерпретация се отличава от стандартната интерпретация, като играта на думи, сарказма - в такъв случай трябва да се дават двете интерпретации - стандартната и модифицираната съгласно външната характеристика и те да стават част от еднозначния модел. Могат да се създадат множество такива средства с цел средно образован човек да покаже на компютъра какво е имал предвид. Целта е да се стигне до еднозначен модел, който най-точно предава същността на изложението.
Четвърта стъпка на метода генерираният еднозначен модел на текста на естествен език се прикача към файла с текст на естествен език. Това прави еднозначно тълкованието на текста на естествен език, което е особено полезно при патентни заявки и при машинен превод. Когато текст на учебник е създаден по метода с прикачен еднозначен модел е възможно компютърна програма да генерира обяснения на произволно ниво на сложност като използва определенията на същностите използвани в текста, както и рекурсивно използване на определенията на същностите, използвани за определяне на същностите от по-горно ниво.
Пета стъпка от метода е използването на еднозначните модели на текстовете на естествен език за машинно обучение и изкуствено създаване концепции и теории на базата на формализираното знание, извлечено чрез еднозначните модели на текстове на естествен език.
Примери
Примерна реализация на първа стъпка от метода
С компютърна програма се определят базисните понятия на езика, като за всяка дума от изследвания естествен език се разглежда списъка от нейните синоними. Описанията на всяка дума от езика, които са дадени в тълковен речник се сравняват с описанията на нейните синоними, дадени също в тълковен речник. Сравнението на описанията се прави чрез просто сравняване на текстовете и търсене на подобни текстове. Целта е да се определят различните значения на дадената дума съгласно синонимите на всяко значение. Именно чрез сравнение на описанието на думата с описанието на нейния синоним, дадени в тълковен речник се определят съответните подобни текстове от двете описания те формират същност. Описанието на тази същност по принцип се формира от подобните текстове в описанията на двата синонима. При откриване на такава същност се прави проверка в база от данни дали вече не е регистрирана подобна същност на базата на сравнение на описанията на регистрираните същности с описанието на новооткритата същност. Ако новооткритата същност не е регистрирана в базата от данни, се регистрира.
След автоматично формиране на база от същности с техните описания, се предлага на експерти да дефинират етикети на същностите и да прецизират техните описания. Към същностите се задава списък от думи, които могат да ги представят при определени условия, които зависят от текста, съдържащ думата и от външните за текста характеристики, като това дали той е научен текст, дали е игра на думи и други.
66255 Bl
Възможно е при вече налична база от всички същности за даден език да се направи описанието на всяка същност чрез еднозначен модел на описанието й на естествен език. Това може да се направи от експерти филолози, които на базата на автоматично формираното описание на естествен език на същността да създадат еднозначен модел, като използват базисните понятия на езика. След откриване на базисните понятия в един естествен език, следващият естествен език използва формираната база от базисни понятия. Най-лесно е филолози да определят как на съответния език могат да се представят регистрираните същности и евентуално множеството от същности, които допълнително трябва да се добавят в базата. При всяко добавяне на същност в базата филолозите, които поддържат съответствието на естествените езици към базата трябва да бъдат уведомявани, за да дадат подходящо представяне на новата същност на езика, за който отговарят. Може да се наложи представянето на новата същност да е описателно.
Възможно е да се автоматизира изследването на втори и следващ естествен език. Прилага се същата процедура, като за първия изследван език. Получава се нова база с регистрирани същности. Представянията, които може да получи същност от новата база са думи от втория език. От речник от втория език към първия се намират възможните преводи на всяко представяне на същност от втората база. За всеки превод на първия език от първата база се изваждат същностите, които могат да се представят с този превод. Правят се псевдо-преводи на описанието на същността от втория език, като се генерират всички комбинации от замествания на всяка дума от описанието с всички възможни преводи на първия език. Псевдо-преводите на описанието на същността от втория език се сравняват с описанията на извадените същности от първата база. Намира се най-добро съответствие и се маркира. Всяко намерено по този начин съответствие трябва да се одобри от филолог. След одобряване на съответствие от втората база се изтрива същността, а списъка с представянията й на втория език се маркира, че е на втория език и се добавя към съответната същност от първата база. След обработка на всички съответствия, останалите във втората база същности или се регистрират като нови същности в първата база или човек намира тяхно съответствие в първата база.
При официални документи, трябва да се постигне единственост на генерирания текст на естествен език от еднозначния модел. Това може да се направи дори с цената на обедняване на генерирания текст на естествен език, т.е. възможно е от езикова гледна точка да има множество генерации на текст на естествен език, който да има значението и да предава знанието, носено от еднозначния модел, но работа на филолозите е да добавят в еднозначния модел толкова характеристики на текста, колкото са необходими, за да се постигне еднозначна генерация. Такъв подход е особено важен за превод на официални документи от един език на друг и особено на патентни заявки. От друга страна при превод на художествена литература е добре да има множество генерации на текстове на естествен език от еднозначния модел и да се подбира най-подходящата за конкретния език конструкция като се използват статистически данни от художествената литература на съответния език.
Примерна реализация на втора стъпка на метода
Текстът може да се представи като списък от дървета, като всяко дърво представлява едно изречение от текста. Възможно е да има връзки между отделните дървета. Всеки елемент от дървото е обект, който има добавени свойства, които или са извлечени автоматично от текста, или са добавени ръчно от оператор. Част от тези свойства са отношенията на всеки елемент от дървото с другите елементи на дървото. Някои елементи от дърво представящо изречение в текста, например местоименията, могат да имат връзка с елементи от други дървета. Подредбата на дърветата в списъка е от значение, тя дава подредбата на изреченията в оригиналния текст и в евентуално генерирания текст от еднозначния модел.
Примерна реализация на трета стъпка от метода
Създава се надстройка на текстов редактор с допълнителни възможности, чрез които с леснотата на форматиране на текст се прави промяна в автоматично формирания еднозначен модел на текста. Например екранът се разделя на три области. Едната област е за оригиналния текст в цялост - обикновен текстов редактор. Втората област е за обратна връзка при изграждане на
66255 Bl еднозначен модел. В нея се разполага машинно генерирания текст на обработваното изречение от текста. При задържане на маркера на мишката над дадена дума от генерирания машинно текст, като кратко помощно съобщение (хинт) се дава описателя на базовата същност, която е назована чрез съответната дума. Същото изречение се маркира по подходящ начин в оригиналния текст. Третата област е панел с инструменти за промяна на еднозначния модел, които са приложими върху втората област. Тези инструменти включват промяна на интерпретираната същност чрез задаване на синоним на думата, която е синоним за друга същност назовавана от разглежданата дума, възможно е като хинт да се задава описателя на базовата същност назована със синонима. Включва избор на особеност на текста като игра на думи, шега, поезия или научен текст. Включва задаване на точни значения за заместване на използваните местоимения например кой всъщност е Той, Тя или пък Което. Точното значение може да се задава в рамките на целия текст като се указва връзката дадена с определено местоимение към предни изречения в текста. Текстът се разглежда последователно от началото до края, като се задават всички необходими характеристики и връзки, така че да се формира еднозначен модел. Дадено изречение се обработва докато машинната генерация не даде текст, който поне има същото значение като оригиналния текст. Процесът се състои от множество поправки и генерации.
Примерна реализация на четвърта стъпка от метода
Генерираният еднозначен модел за даден текст се прикрепя към оригиналния файл. Такова прикрепване може да се направи по множество начини. Възможно е в оригиналния файл да се добави линк към еднозначния модел на текста. Възможно е файлът на оригиналния текст и файлът на еднозначния модел да се запишат в един архивен пакет. Трябва да се има предвид, че по принцип даден текст на естествен език е възможно да има множество формирани еднозначни модели. Това е така защото многообразието на интерпретации на даден текст на естествен език се филтрира от човек, т.е. оператор, който използва собственото си разбиране за да преведе текста на естествен език в еднозначен машинен модел. Така, че е възможно да се предвиди свързване на един текст на естествен език към множество еднозначни модели. Когато става въпрос за патентна заявка е естествено обект на защита да е само един единствен еднозначен модел на текста на заявката, такъв какъвто е заявен.
Примерна реализация на пета стъпка от метода
Еднозначните модели на текстове на естествен език се поддават на формална обработка. Възможно е да се създадат различни видове представяния на еднозначен модел, които са подходящи за различни видове машинни обработки. Еднозначните модели могат да се разглеждат като нов вид компютърен софтуер, защото към тях може да се приложи формална интерпретация. По този начин може да се реализира машинно обучение като се извличат факти и връзки от еднозначни модели на текстове на естествен език. Като могат да се приложат еднозначно и формално всички механизми, които са изучени в естествения интелект. По този начин традиционния софтуер ще бъде заместен от експертни системи, които контактуват с обикновения потребител на естествен език с лесно добавяне на еднозначен модел и дават услугите за генерация на приложен софтуер съобразно нуждите на потребителя.
Приложение
Описаният в настоящата заявка метод се изпълнява от специализиран компютърен софтуер. Специалистите могат да използват една компютърна програма, за да създадат и поддържат базата от данни с базисни понятия, които се използват от човечеството. Друг компютърен софтуер може да се използва от всички потребители, които създават и използват еднозначни модели на текстове на естествен език. Последният софтуер трябва да има възможност да осъществява връзка към база от данни, съдържаща базисни понятия.
Приложението на изобретението може да е в машинния превод, в търсенето на знания, където търсенето не е по думи, съдържащи се в текста както е сегашното ниво на техника, а търсене на подобни еднозначни модели на еднозначния модел на търсения текст. Възможно е да се направи и търсене с използване на анализ на еднозначни модели на текстове - така търсачка
66255 Bl та ще може да отговори на въпрос като търсене на информация за прехвърляне на имоти на чуждестранни граждани съгласно българските закони. Особено важно би било приложението в областта на патентната система не само за точното дефиниране на обекта на закрила и възможността за автоматичен сърч (автоматично търсене) и експертиза, но и заради възможността за машинна обработка на най-новото и ценно знание на човечеството, което да доведе до автоматична генерация на ново знание за човечеството.

Claims (17)

  1. Патентни претенции
    1. Метод за формиране на еднозначен модел на текст на естествен език, включващ създаване на структура от данни, съдържаща думите от текста и смислови и граматически връзки между тях съхраняване на формираната структура от данни в машинно-четима памет, характеризиращ се с това, че включва още и:
    а) създаване на еднозначен модел на текста на естествен език чрез заместване на думи и/или текст с базисни понятия, които са уникални обозначения на същност или действие;
    б) използване на еднозначния модел за генерация на нов текст на естествен език чрез прилагане на обратна връзка за избиране на алтернативни базисни понятия в еднозначния модел;
    в) сравняване на генерирания текст с оригиналния текст за маркиране на различията и проверка на смисловото съответствие на еднозначния модел с текста на естествен език;
    г) свързване на генерирания еднозначен модел на текста към файла с текста на естествения език.
  2. 2. Метод съгласно претенция 1, характеризиращ се с това, че базисните понятия, заместващи думите в еднозначния модел на текста на естествен език:
    а) са уникален етикет - число или дума и имат описание на естествен език и имат за всеки естествен език, който ще се обработва по метода, прикачен списък с думи или текст, които ги представят на съответния естествен език;
    б) се търсят с помощта на списъците от думи или текст, които представят дадено базисно понятие на съответния естествен език.
  3. 3. Метод съгласно претенция 1, характеризиращ се с това, че към всяко базисно понятие в еднозначния модел на текста на естествен език се добавя списък, включващ смислови и граматически характеристики, тип на текста (научен, проза, поезия), както и указатели към алтернативни базисни понятия в случаи като сарказъм и игра на думи.
  4. 4. Метод съгласно претенция 1, характеризиращ се с това, че прилагането на обратна връзка включва:
    редактиране на еднозначния модел чрез посочване на базисно понятие от алтернативните базисни понятия, които имат същото представяне на съответния език като базисното понятие, което е автоматично избрано и/или редактиране на еднозначния модел чрез посочване на синоним на представянето на съответния език на базисното понятие, което е автоматично избрано;
    и/или редактиране на еднозначния модел чрез посочване на зависимости в текста.
  5. 5. Метод съгласно претенция 1, характеризиращ се с това, че прилагането на обратна връзка за установяване на смисъла на думите, частите на речта, и смисловите и граматически връзки включва:
    използване на глобална статистика за употребата на думите в техните различни значения и/ или използване на локална статистика за всеки отделен потребител на метода и/или използване на сходен текст с вече уточнен смисъл на думите и/или използване на превод на оригиналния текст, създаден от човек на един или повече езици.
  6. 6. Метод съгласно претенция 1, характеризиращ се с това, че свързването на текста на естествен език с еднозначния модел се осъществява чрез линк или чрез архивен пакет, в който са записани файлът с текст на естествен език и файлът със структурата от данни.
  7. 7. Метод съгласно претенция 1, характеризиращ се още и с генериране на текст на език, различен от езика на оригиналния текст.
    66255 Bl
  8. 8. Метод съгласно претенция 1, характеризиращ се още и с генериране на текст на изкуствен език от еднозначния модел, като изкуственият език е език за програмиране, информационен език, използван в различни системи за обработка на информация, формализиран език, предназначен за символичен запис на научни факти и теории в областта на науката.
  9. 9. Метод съгласно претенция 1, характеризиращ се още и с това, че описанията на естествен език на базисните понятия имат също представяне чрез еднозначен модел.
  10. 10. Метод за определяне на множество базисни понятия на естествен език, включващ намиране на синонимите за всяка дума от естествен език от синонимен речник, записан в машинночетима памет, характеризиращ се с това, че включва:
    а) сравняване за всяка двойка дума - синоним на описанията, дадени в тълковен речник, записан в машинночетима памет за думата и за синонима;
    б) извеждане като релевантно базисно понятие на всяка двойка подобни текстове, които съдържат над определен процент еднакви думи или думи синоними;
    в) проверяване в база данни за всяко релевантно базисно понятие дали вече е регистрирано, като се сравняват намерените на предната стъпка подобни текстове с описанията на базисните понятия в базата и при процент еднакви думи или думи синоними над зададен процент извеждане на базисното понятие като вече регистрирано заедно с намереното описание на това базисно понятие и другите две подобни описания, които са станали причина за проверката;
    г) проверяване дали изведените по съвпадение на думи текстове си съответстват смислово и, при съответствие, едната или двете думи синоними се добавят към представянето на регистрираното базисно понятие;
    д) добавяне на ново базисно понятие към базата от данни, в случай че проверката на предходната стъпка е била неуспешна, като от двата подобни текста се избира един или се въвежда ново описание.
  11. 11. Метод съгласно претенция 10, за добавяне на друг естествен език към вече формирано множество от базисни понятия, включващ:
    а) определяне на ново множество базисни понятия за този естествен език, като в случаите когато не може да бъде автоматично определено базисно понятие, то се въвежда;
    б) намиране за всяко базисно понятие, определено на предната стъпка на възможните преводи на всяко негово представяне с използване на речник, записан в машинно-четима памет от този език към съществуващ във вече формираното множество от базисни понятия език;
    в) намиране във вече формираното множество от базисни понятия на онези базисни понятия, които имат прикачени към тях представяния, съответстващи на преводите от стъпка б);
    г) създаване на псевдо-преводи на описанията на базисните понятия от този език, обработени в стъпка б) като се генерират всички комбинации от замествания на всяка дума от описанието с всички възможни преводи на езика от вече формираното множество, въз основа на речник, съществуващ в машинно-четима памет;
    д) сравняване на псевдо-преводите на описанията на базисните понятия от този език, създадени в стъпка г) по процент еднакви думи или думи-синоними с описанията на намерените базисни понятия на стъпка в) от вече формираното множество базисни понятия;
    е) подреждане в низходящ ред на сходните текстове по процент съвпадение;
    ж) проверяване дали намерените сходни описания по подобни думи имат смислово съответствие;
    з) изтриване на базисното понятие от новото множество базисни понятия, ако на предходната стъпка е намерено смислово съответствие между описанията и добавяне към съответното съществуващо базисно понятие от вече формираното множество, на описанието и представянията на този език на изтритото базисно понятие от новото множество и маркиране на добавения списък от представяния, че е на този език;
    и) регистриране като нови базисни понятия във вече формираното множество или намиране на съответствие във вече формираното множество за всички останали в новото множество базисни понятия след прилагане на предходните стъпки;
    й/ намиране на подходящо представяне на този език на всички базисни понятия от вече формираното множество, които не са получили
    66255 Bl представяне след прилагане на предходните стъпки.
  12. 12. Използване на така създаден еднозначен модел на текст на естествен език за машинна обработка на същия текст на естествен език.
  13. 13. Използване съгласно претенция 12 на така създаден еднозначен модел на текст на естествен език за машинен превод от един естествен език на друг естествен език, чрез създаване на еднозначен модел на текста на първия естествен език и генериране от еднозначния модел на текст на втория естествен език.
  14. 14. Използване съгласно претенция 12 на така създаден еднозначен модел на текст на естествен език за генериране на текст с предварително зададено ниво на сложност посредством описанията на базисните понятия, използвани в текста, както и рекурсивно чрез описания на базисните понятия, участващи в еднозначния модел на описанието им и последващо заместване на съответно базисно понятие с неговото описание.
  15. 15. Използване съгласно претенция 12 на така създаден еднозначен модел на текст на естествен език за генерация на текст на изкуствен език.
  16. 16. Използване съгласно претенция 12 на така създаден еднозначен модел на текст на естествен език за търсене в еднозначните модели на текстове на естествен език за генерация на текст на естествен или изкуствен език от намерен еднозначен модел или за маркиране на съответствие в текста на естествен език, чиито еднозначен модел е намерен.
  17. 17. Използване съгласно претенция 12, като създадените еднозначни модели на текстове на естествен език се обработват и резултатите се въвеждат в база от знания за директно извличане на данни, факти и взаимовръзки.
BG10109996A 2007-11-14 2007-11-14 Natural language formalization BG66255B1 (en)

Priority Applications (9)

Application Number Priority Date Filing Date Title
BG10109996A BG66255B1 (en) 2007-11-14 2007-11-14 Natural language formalization
KR1020107013115A KR101506757B1 (ko) 2007-11-14 2008-11-12 자연어로 된 본문의 명확한 모델을 형성하는 방법
CN200880115885A CN101855630A (zh) 2007-11-14 2008-11-12 自然语言的形式化
CA2705345A CA2705345A1 (en) 2007-11-14 2008-11-12 Method for the creation of an unambiguous model of a text in a natural language
EA201070614A EA201070614A1 (ru) 2007-11-14 2008-11-12 Формализация естественного языка
JP2010533390A JP2011503730A (ja) 2007-11-14 2008-11-12 自然言語の定式化
PCT/BG2008/000022 WO2009062271A1 (en) 2007-11-14 2008-11-12 Formalization of a natural language
EP08850309A EP2220572A4 (en) 2007-11-14 2008-11-12 FORMALIZING A NATURAL LANGUAGE
JP2014031296A JP2014139799A (ja) 2007-11-14 2014-02-21 自然言語テキストの一義的モデルを作成する方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
BG10109996A BG66255B1 (en) 2007-11-14 2007-11-14 Natural language formalization

Publications (2)

Publication Number Publication Date
BG109996A BG109996A (bg) 2009-05-29
BG66255B1 true BG66255B1 (en) 2012-09-28

Family

ID=40638266

Family Applications (1)

Application Number Title Priority Date Filing Date
BG10109996A BG66255B1 (en) 2007-11-14 2007-11-14 Natural language formalization

Country Status (8)

Country Link
EP (1) EP2220572A4 (bg)
JP (2) JP2011503730A (bg)
KR (1) KR101506757B1 (bg)
CN (1) CN101855630A (bg)
BG (1) BG66255B1 (bg)
CA (1) CA2705345A1 (bg)
EA (1) EA201070614A1 (bg)
WO (1) WO2009062271A1 (bg)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2798531A1 (en) * 2011-12-27 2014-11-05 Koninklijke Philips Electronics N.V. Text analysis system
EP3100174A1 (de) * 2014-01-28 2016-12-07 Somol Zorzin GmbH Verfahren zur automatischen sinnerkennung und messung der eindeutigkeit von text
CN111401033B (zh) * 2020-03-19 2023-07-25 北京百度网讯科技有限公司 事件抽取方法、事件抽取装置和电子设备
CN112861548B (zh) * 2021-02-10 2023-06-23 百度在线网络技术(北京)有限公司 自然语言生成及模型的训练方法、装置、设备和存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0969101A (ja) * 1995-08-31 1997-03-11 Hitachi Ltd 構造化文書生成方法および装置
AU9513198A (en) 1997-09-30 1999-04-23 Ihc Health Services, Inc. Aprobabilistic system for natural language processing
WO2002027538A2 (en) * 2000-09-29 2002-04-04 Gavagai Technology Incorporated A method and system for adapting synonym resources to specific domains
CN1484217A (zh) * 2003-07-11 2004-03-24 中国科学院声学研究所 层次分类与逻辑相结合的自然口语对话描述方法
WO2006128238A1 (en) 2005-06-02 2006-12-07 Newsouth Innovations Pty Limited A method for summarising knowledge from a text

Also Published As

Publication number Publication date
BG109996A (bg) 2009-05-29
EP2220572A1 (en) 2010-08-25
JP2014139799A (ja) 2014-07-31
KR20100108338A (ko) 2010-10-06
WO2009062271A1 (en) 2009-05-22
KR101506757B1 (ko) 2015-03-27
CA2705345A1 (en) 2009-05-22
EA201070614A1 (ru) 2010-10-29
EP2220572A4 (en) 2011-03-09
CN101855630A (zh) 2010-10-06
JP2011503730A (ja) 2011-01-27

Similar Documents

Publication Publication Date Title
KR102033395B1 (ko) 심층 자연어 질문 분석 기반 구조화된 지식베이스 질의응답 시스템 및 그 방법
US5442546A (en) System and method for automatically generating translation templates from a pair of bilingual sentences
Bjarnadóttir The database of modern Icelandic inflection (Beygingarlýsing íslensks nútímamáls)
US20030149692A1 (en) Assessment methods and systems
US20120101803A1 (en) Formalization of a natural language
JP2005535007A (ja) 文書検索システム用の知識抽出のための自己学習システムの合成方法
KR20030094632A (ko) 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치
RU2544739C1 (ru) Способ преобразования структурированного массива данных
BG66255B1 (en) Natural language formalization
Ganfure et al. Design and implementation of morphology based spell checker
RU2571405C1 (ru) Способ предварительного преобразования структурированного массива данных
JP2006039881A (ja) 質問応答システム、方法及びプログラム
JP7167997B2 (ja) 文献検索方法および文献検索システム
Curto Automatic generation of multiple-choice tests Geraçao automatica de testes de escolha m ultipla
JP2011503730A5 (bg)
Válková Building Czech textbook corpora (UcebKo) for word-formation research of Czech as a second language
Kilgarriff Putting the corpus into the dictionary
RU2572367C1 (ru) Способ поиска информации в предварительно преобразованном структурированном массиве данных
Elleuch et al. Lexical data mining‐based approach for the self‐enrichment of LMF standardized dictionaries: Case of the syntactico‐semantic knowledge
RU2571407C1 (ru) Способ формирования карты связей компонентов преобразованного структурированного массива данных
Luthfita et al. Digitalizing a local language dictionary: Challenges and opportunities.
JP7515094B2 (ja) 自然言語に変数を埋め込んだリテラルからなるホーン節を学習するコンピュータプログラム、方法及び装置
Strobl et al. Enhanced Entity Annotations for Multilingual Corpora
Klein et al. DiET in the Context of MT Evaluation
Prihantoro Check for The Architecture of SANTI-Morf's Guesser Module