BG66255B1 - Natural language formalization - Google Patents
Natural language formalization Download PDFInfo
- Publication number
- BG66255B1 BG66255B1 BG10109996A BG10999607A BG66255B1 BG 66255 B1 BG66255 B1 BG 66255B1 BG 10109996 A BG10109996 A BG 10109996A BG 10999607 A BG10999607 A BG 10999607A BG 66255 B1 BG66255 B1 BG 66255B1
- Authority
- BG
- Bulgaria
- Prior art keywords
- text
- language
- natural language
- model
- words
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Област на техникатаTechnical field
Изобретението се отнася до въвеждане на знания в машина чрез естествен език, машинни преводачи на естествен език.The invention relates to the introduction of knowledge in a machine through natural language, machine translators in natural language.
Предшестващо ниво на техникатаBACKGROUND OF THE INVENTION
От US 6014680 (“Method and apparatus for generating structured document” Sato Yoshifumi et al.) е известен метод, при който предварително дефинирана структура на документ се променя така, че да съответства на структура, създадена от извлечени от неструктуриран документ ключови думи, интерпретиране на документа съгласно променената структура и използване на данни за извършените промени в предварително дефинираната структура, за да се генерира структуриран документ съгласно предварително дефинираната структура на документ. Въпреки че ключовите думи могат да се смятат за еднозначно определени, както и дефинирания модел може да се интерпретира по един и само по един начин, документът от нивото на техниката се отличава от настоящата заявка по това, че в заявката за създаване на еднозначен модел се използват базисни понятия, имащи етикет, описание на естествен език и списък от думи и текстове, които представят базисното понятие на различни естествени езици, както и че генерацията се прави на естествен език, също и че съставения еднозначен модел на текста не отразява само структурата на текста (реда на изреченията в него), но и показва понятията, които могат да се намерят в текста и взаимовръзките между тях.US 6014680 ("Method and apparatus for generating structured document" by Sato Yoshifumi et al.) Is a known method in which a predefined document structure is modified to conform to a structure created by unstructured document-derived keywords of the document according to the changed structure and using data about the changes made in the predefined structure to generate a structured document according to the predefined document structure. Although the keywords may be considered uniquely defined, and the defined model can be interpreted in one and only one way, the prior art document differs from the present application in that it is interpreted in the unique model request. use basic concepts having a label, natural language description, and a list of words and texts that represent the basic concept in different natural languages, and that the generation is made in natural language, and that the uniquely constructed model of the text does not reflect not only the structure of the text (the order of the sentences in it), but also shows the concepts that can be found in the text and the relationships between them.
Известен е също метод, описан в WO 0227524 “A Method And System For Describing And Identifying Concepts In Natural Language Text For Information Retrieval And Processing” Pass Daniel C et al., при който потребителят предварително дефинира понятия, които представляват дума и описание, описанието се дава на специализиран език за описания на понятията, който дава възможност на дума да се съпоставят синоними, текст или правила за търсене. Целта е дадено понятие, така както е дефинирано от потребите ля да може да се открие в даден текст с помощта на неговото описание. Обработените по метода текстове могат да се анотират с откритите по метода понятия за по-лесно бъдещо търсене. Съгласно WO 0227524 понятието се определя от потребителя и се представя от начина му на търсене. Съгласно настоящото изобретение базисно понятие е същност или действие еднакво схващани от всички хора, независимо от използвания от тях език. Базисното понятие се определя от неговото описание на естествен език. Описанието на естествен език служи не за търсене, а за обратна връзка с човек, етикета на базисното понятие служи за адресиране на базисното понятие от машина, а прикаченият списък с думи и текстове, които представят даденото понятие на различни езици служат за търсене на понятието при обработка на текст на естествен език и за генерация на текст на естествен език. Когато се дефинират базисните понятия се използват сравнения на описанията на синонимите на дадена дума, дадени в тълковен речник. Въпреки че това са “потребителски” дефиниции, те не могат да служат за търсене на понятието в текст. Описанията се сравняват и се определят подобни текстове, подобните текстове потенциално описват базисно понятие, решението дали подобните по съвпадение на думи текстове са и смислово идентични се взема от човек, с което не се намира, а се създава базисно понятие.Also known is the method described in WO 0227524 Pass Daniel C et al., In which the user pre-defines terms that represent word and description, description is given in a specialized language for term descriptions, which allows a word to match synonyms, text, or search rules. The purpose is a concept as defined by the user so that it can be found in a text using its description. Texts processed by the method can be annotated with the concepts discovered by the method for easier future search. According to WO 0227524, the term is defined by the user and represented by his search method. According to the present invention, a basic concept is an essence or action equally understood by all people, regardless of the language they use. The basic concept is defined by its description in natural language. The natural language description is not for search, but for human feedback, the basic concept label serves to address the basic concept from a machine, and the attached list of words and texts that represent the concept in different languages serves to search for the concept in natural language text processing and natural language text generation. When defining basic terms, comparisons of the synonyms of a word given in an interpretative dictionary are used. Although these are "user" definitions, they cannot serve to search for the term in text. Descriptions are compared and similar texts are identified, similar texts potentially describe a basic concept, the decision of whether similarly worded texts are and meaningfully identical is taken by a person who is not located, but creates a basic concept.
Най-разпространени са схемите, при които машините интерпретират определено множество от думи на естествен език - такива са всички изкуствени езици. Има опити да се определи граматичното значение на думите. Има разработки, при които се задава предметната област за даден текст, който определя и предпочитаното значение на думите и се получават много по-добри резултати, например при машинен превод. Има опити да се определи значението на дадена дума по думите, които са заедно с нея в текста и статистика на такива срещания. Има опити на думите в даден език да се присвоят цифрови значения и на думите от друг естествен език да се присвоят цифрови значения от същото множество, така че думи от двата езика с една и съща присвоена стойност да имат еднакво значение.The most common are the schemes in which machines interpret a certain set of words in natural language - such are all artificial languages. There are attempts to determine the grammatical meaning of words. There are developments that set the subject area for a text, which also defines the preferred meaning of words and produces much better results, such as machine translation. There are attempts to determine the meaning of a word in the words that accompany it in the text and statistics of such occurrences. There are attempts to assign numerical meanings to words in a given language and to assign numerical meanings to words in another natural language so that words from two languages with the same assigned meaning have the same meaning.
Не е решен въпросът за еднозначното интерпретиране на естествен език от машина, коThe issue of unambiguous interpretation of natural language by a machine, which is not resolved, has not been resolved
66255 Bl ето пречи за въвеждане на знания и данни в машина чрез естествен език. Не може да се разчита на машина за официален превод на документ. Не може да се създаде текст на естествен език, който да има еднозначна интерпретация от различни хора, а това е особено необходимо при писане на учебници и на заявки за патенти. Не може компютър да се програмира чрез естествен език, тъй като едно изречение на естествен език има множество допустими от формална гледна точка значения, т.е. граматично правилни изречения могат да се интерпретират по различен начин. Не може оптимално да се използва натрупаното човешко знание, защото няма формализъм, чрез който машина да обработва директно знание, написано на естествен език.66255 Bl here are barriers to the introduction of knowledge and data into a machine through natural language. Cannot rely on a machine to officially translate a document. Natural language text that cannot be interpreted uniquely by different people can be created, and this is especially necessary when writing textbooks and patent applications. A computer cannot be programmed in natural language, since a natural language sentence has many formal meanings, ie. grammatically correct sentences can be interpreted differently. The accumulated human knowledge cannot be optimally used because there is no formalism through which the machine can process direct knowledge written in natural language.
Техническа същност на изобретениетоSUMMARY OF THE INVENTION
Интерпретацията на естествен език винаги включва построяването на машинен модел на интерпретираните знания. Текстът на естествен език се обработва с различни средства, за да се определят граматичните части на речта, смисълът на изречението и на думите в него. Въпросът е, че няма обратна връзка и човекът не може да влияе на формирания модел. Това е така, защото няма база за сравнение между модела и текста на естествен език. Един вид моделът представлява отново структура, която не може да се интерпретира по един единствен начин. Техническата същност на предложението е точно метод за формиране на единственост на модела. Така формираният модел може да се интерпретира по един и само по един начин.Natural language interpretation always involves the construction of a machine model of interpreted knowledge. Natural language text is processed by various means to determine the grammatical parts of speech, the meaning of the sentence and the words in it. The point is that there is no feedback and one cannot influence the formed model. This is because there is no basis for comparison between the model and the natural language text. One type of model is again a structure that cannot be interpreted in a single way. The technical essence of the proposal is precisely the method of forming the uniqueness of the model. The model thus formed can be interpreted in one and only one way.
Методът има пет стъпки.The method has five steps.
На първата стъпка се изследва множеството естествени езици, като целта е да се определи базиса понятия, с които борави човечеството. Трябва да се има предвид, че дума на даден език не е базисно понятие. Базисното понятие е обозначение на някаква същност или действие. Обикновено с една и съща дума на естествен език се обозначават няколко различни базисни понятия - т.е. думите имат различно значение. Предложението от нивото на техниката да обозначим “слънце= 1 ” и “sun=1 ” може да спомогне за машинен превод, но не и да се направи смислен еднозначен превод. При такива системи се получават преводи от рода “User rights = правата на наркомана”, всъщност става въпрос в дадения контекст за правата на потребителя. Такова номериране на думите просто създава междинен език с нееднозначно тълкуване. Предложението е да се номерират не думите, а същностите. Същностите съгласно метода имат единствени имена, те може да са цифри, но може да са и думи от широко разпространен естествен език. Трябва да се отбележи обаче, че дадена дума на естествен език може да се използва само един единствен път за обозначаване на същност. Така “слънце” може да има значение само на звезда, а за всички други значения на думата “слънце” да се изберат други думи. Трябва да се разбере, че такова назоваване на същностите по никакъв начин не повлиява естествения език. Същностите съгласно метода се характеризират с техните описания. Описанията на същностите се дават на естествен език, по същия начин както се прави тълковен речник на естествен език. Към всяка същност има списък от думи, с които тя може да бъде представена в даден естествен език - т.е. синонимен речник, но не на дума, а на същност.The first step is to explore the many natural languages, with the aim of defining the basis of concepts used by humanity. It should be borne in mind that a word in a language is not a basic concept. A basic concept is a designation of some essence or action. Usually, the same word in natural language denotes several different basic concepts - ie. words have different meanings. The suggestion of the prior art to designate "sun = 1" and "sun = 1" may help machine translation but not make meaningful unambiguous translation. Such systems receive translations of the type "User rights = drug addicts", in fact it is in the given context of the consumer's rights. Such numbering of words simply creates an intermediate language with ambiguous interpretation. The proposal is to number not the words but the entities. The entities according to the method have unique names, they can be numbers, but they can also be words in widespread natural language. It should be noted, however, that a word in natural language can only be used one single way to indicate an entity. Thus, "sun" can only mean a star, and for all other meanings of the word "sun" to choose other words. It must be understood that such naming of entities does not in any way affect natural language. The entities according to the method are characterized by their descriptions. The descriptions of the entities are given in natural language, in the same way as an interpreted dictionary in natural language. Each entity has a list of words with which it can be presented in a natural language - ie. a synonymous dictionary, not of a word, but of essence.
Втора стъпка от метода е да се изгради модел на текста на естествен език с използване само на базисни понятия. При тази стъпка на метода се използват всички приложими методи от нивото на техника, които дават възможност да се определи граматичното и смислово значение на думите в текста и да се изгради модел. При изграждането на модела може да се използва глобална статистика за използването на думите в техните различни значения, или локална статистика за всеки отделен потребител на метода. Могат да се използват и сходни текстове с вече уточнен смисъл на думите. Човешки превод на даден текст от един език на друг език също може да се използва за уточняване на базисните понятия, използвани в текста на естествения език, чрез изследване на подбраните думи при превода и сравняването им с думите на оригиналния текст по значение.The second step of the method is to build a natural language text model using only basic concepts. In this step of the method, all applicable techniques of the prior art are used to determine the grammatical and semantic meaning of the words in the text and to construct a model. When building the model, global statistics can be used to use words in their different meanings, or local statistics for each individual user of the method. Similar texts may be used with the meaning of the words already specified. Human translation of a text from one language into another language can also be used to clarify the basic concepts used in natural language text by examining selected words in translation and comparing them with the words of the original text by meaning.
Трета стъпка от метода е обратната връзка. При тази стъпка създадения на втората стъпка модел се използва като база за генериране на текст на същия естествен език, на който е и оригиналният текст. На оператор се дава възможност, чрез компютърна програма да извърши промени в генерирания модел, така че моделът да отговаря на неговото разбиране за текста. Това може даThe third step of the method is feedback. In this step, the model created in the second step is used as the basis for generating text in the same natural language as the original text. An operator is allowed, through a computer program, to make changes to the generated model so that the model is consistent with his understanding of the text. This can
66255 Bl стане чрез директна промяна на модела, като се работи директно със същности, представени например чрез дърво на връзките между отделните същности, което изисква сериозно обучение или може да стане чрез опит да се обясни на компютъра, кое значение трябва да се промени. Възможно е оригиналният текст да се сравни с генерирания текст и да се маркират различията между оригиналният текст и генерираният текст. За всяка маркирана дума от синонимен речник се извежда списък от синоними, като е възможно да се филтрират онези синоними, които са синоними по линията на вече отхвърлената като неточна същност. Операторът избира от списъка със синоними и процесът се повтаря в реално време т.е. има нова генерация и възможна нова поправка. Изборът на синоними, обаче не винаги е достатъчен за описване на дадена същност. Затова могат да се предвидят средства за промяна на интерпретацията на взаимовръзката между две базисни понятия в даден текст. Така чрез визуални средства като маркиране и посочване може да се дефинира взаимоотношение. Например може да се уточни кой е подлога в изречението или кое е средството и кое е пояснението. Възможно е да се създаде средство, с което да се указват времевите зависимости в текста. Възможно е да се задават външни характеристики на текста, така че да се управлява по-добре интерпретацията и генерацията. Например, могат да се посочват случаите, в които истинската интерпретация се отличава от стандартната интерпретация, като играта на думи, сарказма - в такъв случай трябва да се дават двете интерпретации - стандартната и модифицираната съгласно външната характеристика и те да стават част от еднозначния модел. Могат да се създадат множество такива средства с цел средно образован човек да покаже на компютъра какво е имал предвид. Целта е да се стигне до еднозначен модел, който най-точно предава същността на изложението.66255 Bl occurs by directly changing the model, working directly with entities represented by, for example, a tree of relationships between individuals, which requires serious training or can be done by trying to explain to the computer what is the meaning of the change. It is possible to compare the original text with the generated text and mark the differences between the original text and the generated text. For each highlighted word from the synonym dictionary, a list of synonyms is displayed, it is possible to filter those synonyms that are synonyms along the lines of the already rejected inaccurate entity. The operator chooses from the list of synonyms and the process is repeated in real time ie. there is a new generation and a possible new fix. Choosing synonyms, however, is not always sufficient to describe an entity. Therefore, means can be provided to change the interpretation of the relationship between two basic concepts in a given text. Thus, by visual means such as marking and pointing, a relationship can be defined. For example, one can specify who is the subject of the sentence or what is the mean and what is the explanation. It is possible to create a means of indicating time dependencies in the text. It is possible to set the external characteristics of the text to better manage interpretation and generation. For example, there may be cases where true interpretation differs from standard interpretation, such as word play, sarcasm - in which case both interpretations must be given - the standard and the modified according to the external characteristic and they become part of the unambiguous model. Many such tools can be created for the average educated person to show to the computer what he meant. The aim is to come up with a unique model that most accurately conveys the essence of the exhibition.
Четвърта стъпка на метода генерираният еднозначен модел на текста на естествен език се прикача към файла с текст на естествен език. Това прави еднозначно тълкованието на текста на естествен език, което е особено полезно при патентни заявки и при машинен превод. Когато текст на учебник е създаден по метода с прикачен еднозначен модел е възможно компютърна програма да генерира обяснения на произволно ниво на сложност като използва определенията на същностите използвани в текста, както и рекурсивно използване на определенията на същностите, използвани за определяне на същностите от по-горно ниво.The fourth step of the method, the generated one-page natural language text model is attached to the natural language text file. This makes unambiguous the interpretation of the text in natural language, which is especially useful for patent applications and for machine translation. When a textbook is created using the unambiguous model method, it is possible for a computer program to generate explanations of any complexity using the definitions of the entities used in the text, as well as the recursive use of the definitions of the entities used to define the entities of the upper level.
Пета стъпка от метода е използването на еднозначните модели на текстовете на естествен език за машинно обучение и изкуствено създаване концепции и теории на базата на формализираното знание, извлечено чрез еднозначните модели на текстове на естествен език.The fifth step of the method is the use of one-sided natural language text models for machine learning and artificially creating concepts and theories based on formalized knowledge extracted through one-sided natural language text models.
ПримериExamples
Примерна реализация на първа стъпка от методаExample implementation of the first step of the method
С компютърна програма се определят базисните понятия на езика, като за всяка дума от изследвания естествен език се разглежда списъка от нейните синоними. Описанията на всяка дума от езика, които са дадени в тълковен речник се сравняват с описанията на нейните синоними, дадени също в тълковен речник. Сравнението на описанията се прави чрез просто сравняване на текстовете и търсене на подобни текстове. Целта е да се определят различните значения на дадената дума съгласно синонимите на всяко значение. Именно чрез сравнение на описанието на думата с описанието на нейния синоним, дадени в тълковен речник се определят съответните подобни текстове от двете описания те формират същност. Описанието на тази същност по принцип се формира от подобните текстове в описанията на двата синонима. При откриване на такава същност се прави проверка в база от данни дали вече не е регистрирана подобна същност на базата на сравнение на описанията на регистрираните същности с описанието на новооткритата същност. Ако новооткритата същност не е регистрирана в базата от данни, се регистрира.A computer program defines the basic concepts of the language, and for each word of the studied natural language the list of its synonyms is considered. The descriptions of each word in the language given in the dictionary are compared with the descriptions of its synonyms, also given in the dictionary. Comparison of descriptions is made by simply comparing texts and searching for similar texts. The purpose is to define the different meanings of a word according to the synonyms of each meaning. It is by comparing the description of the word with the description of its synonym given in an interpretative dictionary that the corresponding similar texts are determined from the two descriptions and they form an essence. The description of this essence is, in principle, formed by similar texts in the descriptions of the two synonyms. When such an entity is detected, it is checked in a database whether such an entity has already been registered based on a comparison of the descriptions of the registered entities with the description of the newly discovered entity. If the newly discovered entity is not registered in the database, it is registered.
След автоматично формиране на база от същности с техните описания, се предлага на експерти да дефинират етикети на същностите и да прецизират техните описания. Към същностите се задава списък от думи, които могат да ги представят при определени условия, които зависят от текста, съдържащ думата и от външните за текста характеристики, като това дали той е научен текст, дали е игра на думи и други.After automatically forming a base of entities with their descriptions, it is suggested that experts define the labels of the entities and refine their descriptions. The entities are given a list of words that can represent them under certain conditions, which depend on the text containing the word and on the external characteristics of the text, such as whether it is a scientific text, whether it is a word game and more.
66255 Bl66255 Bl
Възможно е при вече налична база от всички същности за даден език да се направи описанието на всяка същност чрез еднозначен модел на описанието й на естествен език. Това може да се направи от експерти филолози, които на базата на автоматично формираното описание на естествен език на същността да създадат еднозначен модел, като използват базисните понятия на езика. След откриване на базисните понятия в един естествен език, следващият естествен език използва формираната база от базисни понятия. Най-лесно е филолози да определят как на съответния език могат да се представят регистрираните същности и евентуално множеството от същности, които допълнително трябва да се добавят в базата. При всяко добавяне на същност в базата филолозите, които поддържат съответствието на естествените езици към базата трябва да бъдат уведомявани, за да дадат подходящо представяне на новата същност на езика, за който отговарят. Може да се наложи представянето на новата същност да е описателно.With a database of all entities already available for a given language, it is possible to make the description of each entity using a unique model of its description in natural language. This can be done by expert philologists who, on the basis of the automatically-formed description of the natural language of the essence, create a unique model using the basic concepts of the language. After discovering the basic concepts in one natural language, the next natural language uses the formed base of basic concepts. It is easiest for philologists to determine how registered entities can be represented in the respective language, and possibly the set of entities that need to be added to the database. Every time an entity is added to the database, philologists who maintain the correspondence of natural languages to the database must be notified in order to give a proper presentation of the new entity in the language for which they are responsible. The presentation of the new entity may need to be descriptive.
Възможно е да се автоматизира изследването на втори и следващ естествен език. Прилага се същата процедура, като за първия изследван език. Получава се нова база с регистрирани същности. Представянията, които може да получи същност от новата база са думи от втория език. От речник от втория език към първия се намират възможните преводи на всяко представяне на същност от втората база. За всеки превод на първия език от първата база се изваждат същностите, които могат да се представят с този превод. Правят се псевдо-преводи на описанието на същността от втория език, като се генерират всички комбинации от замествания на всяка дума от описанието с всички възможни преводи на първия език. Псевдо-преводите на описанието на същността от втория език се сравняват с описанията на извадените същности от първата база. Намира се най-добро съответствие и се маркира. Всяко намерено по този начин съответствие трябва да се одобри от филолог. След одобряване на съответствие от втората база се изтрива същността, а списъка с представянията й на втория език се маркира, че е на втория език и се добавя към съответната същност от първата база. След обработка на всички съответствия, останалите във втората база същности или се регистрират като нови същности в първата база или човек намира тяхно съответствие в първата база.It is possible to automate the study of second and next natural language. The same procedure applies as for the first language studied. A new base of registered entities is obtained. The representations that a new base can receive are words in a second language. From the dictionary from the second language to the first one, there are possible translations of any representation of an entity from the second base. For each translation into the first language, the entities that can be represented by this translation are subtracted from the first base. Pseudo-translations of the description of the entity from the second language are made, generating all combinations of substitutions for each word of the description with all possible translations in the first language. The pseudo-translations of the description of the entity from the second language are compared with the descriptions of the extracted entities from the first base. Finds the best match and is marked. Any correspondence found in this way must be approved by a philologist. After approval of conformity from the second base, the entity is deleted and the list of its representations in the second language is marked as being in the second language and added to the corresponding entity from the first base. After processing all the correspondences, the others in the second base of entities either register as new entities in the first base or a person finds their correspondence in the first base.
При официални документи, трябва да се постигне единственост на генерирания текст на естествен език от еднозначния модел. Това може да се направи дори с цената на обедняване на генерирания текст на естествен език, т.е. възможно е от езикова гледна точка да има множество генерации на текст на естествен език, който да има значението и да предава знанието, носено от еднозначния модел, но работа на филолозите е да добавят в еднозначния модел толкова характеристики на текста, колкото са необходими, за да се постигне еднозначна генерация. Такъв подход е особено важен за превод на официални документи от един език на друг и особено на патентни заявки. От друга страна при превод на художествена литература е добре да има множество генерации на текстове на естествен език от еднозначния модел и да се подбира най-подходящата за конкретния език конструкция като се използват статистически данни от художествената литература на съответния език.For official documents, the uniqueness of the generated text in natural language of the unambiguous model must be achieved. This can be done even with the cost of depleting the generated text in natural language, ie. From a linguistic point of view, there may be multiple generations of natural language text that are meaningful and convey the knowledge borne by the unambiguous model, but it is the job of philologists to add in the unambiguous model as many text features as are needed to achieve unambiguous generation. Such an approach is particularly important for the translation of official documents from one language to another, and in particular patent applications. On the other hand, when translating fiction, it is advisable to have multiple generations of natural language texts of the unique model and to select the most appropriate language-specific construction using statistical literature in the relevant language.
Примерна реализация на втора стъпка на методаExample implementation of the second step of the method
Текстът може да се представи като списък от дървета, като всяко дърво представлява едно изречение от текста. Възможно е да има връзки между отделните дървета. Всеки елемент от дървото е обект, който има добавени свойства, които или са извлечени автоматично от текста, или са добавени ръчно от оператор. Част от тези свойства са отношенията на всеки елемент от дървото с другите елементи на дървото. Някои елементи от дърво представящо изречение в текста, например местоименията, могат да имат връзка с елементи от други дървета. Подредбата на дърветата в списъка е от значение, тя дава подредбата на изреченията в оригиналния текст и в евентуално генерирания текст от еднозначния модел.The text can be represented as a list of trees, each tree representing one sentence of the text. There may be links between individual trees. Each element of the tree is an object that has properties that are either automatically extracted from the text or manually added by an operator. Part of these properties is the relationship of each element of the tree to the other elements of the tree. Some elements of a tree representing a sentence in the text, such as pronouns, may have links to elements of other trees. The ordering of the trees in the list is important, it gives the ordering of the sentences in the original text and in the possibly generated text from the univocal model.
Примерна реализация на трета стъпка от методаExample implementation of the third step of the method
Създава се надстройка на текстов редактор с допълнителни възможности, чрез които с леснотата на форматиране на текст се прави промяна в автоматично формирания еднозначен модел на текста. Например екранът се разделя на три области. Едната област е за оригиналния текст в цялост - обикновен текстов редактор. Втората област е за обратна връзка при изграждане наAn additional text editor is created, with the help of which the text formatting makes it easy to make changes to the automatically formed single text model. For example, the screen is divided into three areas. One area is for the original text as a whole - a plain text editor. The second area is for feedback when building
66255 Bl еднозначен модел. В нея се разполага машинно генерирания текст на обработваното изречение от текста. При задържане на маркера на мишката над дадена дума от генерирания машинно текст, като кратко помощно съобщение (хинт) се дава описателя на базовата същност, която е назована чрез съответната дума. Същото изречение се маркира по подходящ начин в оригиналния текст. Третата област е панел с инструменти за промяна на еднозначния модел, които са приложими върху втората област. Тези инструменти включват промяна на интерпретираната същност чрез задаване на синоним на думата, която е синоним за друга същност назовавана от разглежданата дума, възможно е като хинт да се задава описателя на базовата същност назована със синонима. Включва избор на особеност на текста като игра на думи, шега, поезия или научен текст. Включва задаване на точни значения за заместване на използваните местоимения например кой всъщност е Той, Тя или пък Което. Точното значение може да се задава в рамките на целия текст като се указва връзката дадена с определено местоимение към предни изречения в текста. Текстът се разглежда последователно от началото до края, като се задават всички необходими характеристики и връзки, така че да се формира еднозначен модел. Дадено изречение се обработва докато машинната генерация не даде текст, който поне има същото значение като оригиналния текст. Процесът се състои от множество поправки и генерации.66255 Bl unambiguous model. It contains the machine-generated text of the processed sentence from the text. When you hover your mouse pointer over a word from the generated machine text, a descriptor of the underlying entity that is named by the corresponding word is given as a short hint. The same sentence is appropriately marked in the original text. The third area is a panel of single-digit model change tools that apply to the second area. These tools include changing the interpreted entity by assigning a synonym to a word that is synonymous with another entity named by the word in question, possibly as a hint to specify the descriptor of the underlying entity named by the synonym. Includes choosing a text feature such as word play, joke, poetry or scholarly text. It involves setting precise meanings to replace the pronouns used, such as who actually is He, She, or What. The exact meaning can be specified throughout the text by indicating the link given by a particular pronoun to the preceding sentences in the text. The text is viewed sequentially from start to finish, setting all the necessary characteristics and links to form a unique pattern. A sentence is processed until the machine generates text that has at least the same meaning as the original text. The process consists of many fixes and generations.
Примерна реализация на четвърта стъпка от методаExample implementation of step four of the method
Генерираният еднозначен модел за даден текст се прикрепя към оригиналния файл. Такова прикрепване може да се направи по множество начини. Възможно е в оригиналния файл да се добави линк към еднозначния модел на текста. Възможно е файлът на оригиналния текст и файлът на еднозначния модел да се запишат в един архивен пакет. Трябва да се има предвид, че по принцип даден текст на естествен език е възможно да има множество формирани еднозначни модели. Това е така защото многообразието на интерпретации на даден текст на естествен език се филтрира от човек, т.е. оператор, който използва собственото си разбиране за да преведе текста на естествен език в еднозначен машинен модел. Така, че е възможно да се предвиди свързване на един текст на естествен език към множество еднозначни модели. Когато става въпрос за патентна заявка е естествено обект на защита да е само един единствен еднозначен модел на текста на заявката, такъв какъвто е заявен.The generated unique model for a text is attached to the original file. Such attachment can be done in a variety of ways. It may be possible to add a link to the unique text model in the original file. It is possible to save the original text file and the unique model file in one archive package. It should be borne in mind that, in principle, a text in natural language may have multiple unambiguous patterns. This is because the diversity of interpretations of a text in natural language is filtered by humans, ie. an operator who uses his or her own understanding to translate text into natural language into a single machine model. Thus, it is possible to envisage linking a single text in natural language to multiple unambiguous patterns. When it comes to a patent application, it is natural that only one unique model of the text of the application, as claimed, is subject to protection.
Примерна реализация на пета стъпка от методаExample implementation of step five of the method
Еднозначните модели на текстове на естествен език се поддават на формална обработка. Възможно е да се създадат различни видове представяния на еднозначен модел, които са подходящи за различни видове машинни обработки. Еднозначните модели могат да се разглеждат като нов вид компютърен софтуер, защото към тях може да се приложи формална интерпретация. По този начин може да се реализира машинно обучение като се извличат факти и връзки от еднозначни модели на текстове на естествен език. Като могат да се приложат еднозначно и формално всички механизми, които са изучени в естествения интелект. По този начин традиционния софтуер ще бъде заместен от експертни системи, които контактуват с обикновения потребител на естествен език с лесно добавяне на еднозначен модел и дават услугите за генерация на приложен софтуер съобразно нуждите на потребителя.Uniform natural language texts are amenable to formal processing. It is possible to create different types of single model representations that are suitable for different types of machining. Unambiguous models can be considered as a new type of computer software because they can be formally interpreted. In this way machine learning can be realized by extracting facts and links from unambiguous models of natural language texts. All mechanisms that have been studied in natural intelligence can be applied unambiguously and formally. In this way traditional software will be replaced by expert systems that contact the ordinary user in natural language with the easy addition of a unique model and provide services for generating application software according to the needs of the user.
ПриложениеApplication
Описаният в настоящата заявка метод се изпълнява от специализиран компютърен софтуер. Специалистите могат да използват една компютърна програма, за да създадат и поддържат базата от данни с базисни понятия, които се използват от човечеството. Друг компютърен софтуер може да се използва от всички потребители, които създават и използват еднозначни модели на текстове на естествен език. Последният софтуер трябва да има възможност да осъществява връзка към база от данни, съдържаща базисни понятия.The method described in this application is executed by specialized computer software. Specialists can use a computer program to create and maintain a database of basic concepts used by humanity. Other computer software can be used by all users who create and use unique models of natural language texts. The latest software should be able to link to a database containing basic concepts.
Приложението на изобретението може да е в машинния превод, в търсенето на знания, където търсенето не е по думи, съдържащи се в текста както е сегашното ниво на техника, а търсене на подобни еднозначни модели на еднозначния модел на търсения текст. Възможно е да се направи и търсене с използване на анализ на еднозначни модели на текстове - така търсачкаThe application of the invention may be in machine translation, in the search for knowledge, where the search is not in words contained in the text as is the current state of the art, but in the search for similar unambiguous models of the unambiguous model of the searched text. It is also possible to do a search using the analysis of unique text models - so a search engine
66255 Bl та ще може да отговори на въпрос като търсене на информация за прехвърляне на имоти на чуждестранни граждани съгласно българските закони. Особено важно би било приложението в областта на патентната система не само за точното дефиниране на обекта на закрила и възможността за автоматичен сърч (автоматично търсене) и експертиза, но и заради възможността за машинна обработка на най-новото и ценно знание на човечеството, което да доведе до автоматична генерация на ново знание за човечеството.66255 Bl will be able to answer a question like searching for information on transfer of property of foreign nationals according to the Bulgarian laws. Of particular importance would be the application in the field of the patent system not only for the precise definition of the object of protection and the possibility of automatic heart (automatic search) and expertise, but also because of the possibility of machine processing the latest and most valuable knowledge of humanity, which led to the automatic generation of new knowledge about humanity.
Claims (17)
Priority Applications (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
BG10109996A BG66255B1 (en) | 2007-11-14 | 2007-11-14 | Natural language formalization |
EA201070614A EA201070614A1 (en) | 2007-11-14 | 2008-11-12 | FORMALIZATION OF THE NATURAL LANGUAGE |
PCT/BG2008/000022 WO2009062271A1 (en) | 2007-11-14 | 2008-11-12 | Formalization of a natural language |
CN200880115885A CN101855630A (en) | 2007-11-14 | 2008-11-12 | Formalization of a natural language |
KR1020107013115A KR101506757B1 (en) | 2007-11-14 | 2008-11-12 | Method for the formation of an unambiguous model of a text in a natural language |
CA2705345A CA2705345A1 (en) | 2007-11-14 | 2008-11-12 | Method for the creation of an unambiguous model of a text in a natural language |
EP08850309A EP2220572A4 (en) | 2007-11-14 | 2008-11-12 | Formalization of a natural language |
JP2010533390A JP2011503730A (en) | 2007-11-14 | 2008-11-12 | Natural language formulation |
JP2014031296A JP2014139799A (en) | 2007-11-14 | 2014-02-21 | Method for creating unambiguous model of natural language text |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
BG10109996A BG66255B1 (en) | 2007-11-14 | 2007-11-14 | Natural language formalization |
Publications (2)
Publication Number | Publication Date |
---|---|
BG109996A BG109996A (en) | 2009-05-29 |
BG66255B1 true BG66255B1 (en) | 2012-09-28 |
Family
ID=40638266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BG10109996A BG66255B1 (en) | 2007-11-14 | 2007-11-14 | Natural language formalization |
Country Status (8)
Country | Link |
---|---|
EP (1) | EP2220572A4 (en) |
JP (2) | JP2011503730A (en) |
KR (1) | KR101506757B1 (en) |
CN (1) | CN101855630A (en) |
BG (1) | BG66255B1 (en) |
CA (1) | CA2705345A1 (en) |
EA (1) | EA201070614A1 (en) |
WO (1) | WO2009062271A1 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013098701A1 (en) * | 2011-12-27 | 2013-07-04 | Koninklijke Philips Electronics N.V. | Text analysis system |
CA2938064A1 (en) * | 2014-01-28 | 2015-08-06 | Somol Zorzin Gmbh | Method for automatically detecting meaning and measuring the univocality of text |
CN111401033B (en) * | 2020-03-19 | 2023-07-25 | 北京百度网讯科技有限公司 | Event extraction method, event extraction device and electronic equipment |
CN112861548B (en) * | 2021-02-10 | 2023-06-23 | 百度在线网络技术(北京)有限公司 | Training method, device, equipment and storage medium for natural language generation and model |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0969101A (en) * | 1995-08-31 | 1997-03-11 | Hitachi Ltd | Method and device for generating structured document |
AU9513198A (en) | 1997-09-30 | 1999-04-23 | Ihc Health Services, Inc. | Aprobabilistic system for natural language processing |
AU2001293596A1 (en) * | 2000-09-29 | 2002-04-08 | Gavagai Technology Incorporated | A method and system for adapting synonym resources to specific domains |
CN1484217A (en) * | 2003-07-11 | 2004-03-24 | 中国科学院声学研究所 | Hierarchical classifying and logic combined natural colloquial conversation dessription method |
US20100049703A1 (en) * | 2005-06-02 | 2010-02-25 | Enrico Coiera | Method for summarising knowledge from a text |
-
2007
- 2007-11-14 BG BG10109996A patent/BG66255B1/en unknown
-
2008
- 2008-11-12 CA CA2705345A patent/CA2705345A1/en not_active Abandoned
- 2008-11-12 CN CN200880115885A patent/CN101855630A/en active Pending
- 2008-11-12 EP EP08850309A patent/EP2220572A4/en not_active Withdrawn
- 2008-11-12 WO PCT/BG2008/000022 patent/WO2009062271A1/en active Application Filing
- 2008-11-12 JP JP2010533390A patent/JP2011503730A/en active Pending
- 2008-11-12 KR KR1020107013115A patent/KR101506757B1/en active IP Right Grant
- 2008-11-12 EA EA201070614A patent/EA201070614A1/en unknown
-
2014
- 2014-02-21 JP JP2014031296A patent/JP2014139799A/en active Pending
Also Published As
Publication number | Publication date |
---|---|
JP2014139799A (en) | 2014-07-31 |
KR20100108338A (en) | 2010-10-06 |
EP2220572A1 (en) | 2010-08-25 |
WO2009062271A1 (en) | 2009-05-22 |
BG109996A (en) | 2009-05-29 |
CN101855630A (en) | 2010-10-06 |
JP2011503730A (en) | 2011-01-27 |
EA201070614A1 (en) | 2010-10-29 |
CA2705345A1 (en) | 2009-05-22 |
KR101506757B1 (en) | 2015-03-27 |
EP2220572A4 (en) | 2011-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5640575A (en) | Method and apparatus of translation based on patterns | |
KR102033395B1 (en) | Question answering system and method for structured knowledge-base using deep natrural language question analysis | |
US5442546A (en) | System and method for automatically generating translation templates from a pair of bilingual sentences | |
Bjarnadóttir | The database of modern Icelandic inflection (Beygingarlýsing íslensks nútímamáls) | |
US20070011160A1 (en) | Literacy automation software | |
US20030149692A1 (en) | Assessment methods and systems | |
US20120101803A1 (en) | Formalization of a natural language | |
JP2005535007A (en) | Synthesizing method of self-learning system for knowledge extraction for document retrieval system | |
KR20030094632A (en) | Method and Apparatus for developing a transfer dictionary used in transfer-based machine translation system | |
RU2544739C1 (en) | Method to transform structured data array | |
BG66255B1 (en) | Natural language formalization | |
Ganfure et al. | Design and implementation of morphology based spell checker | |
RU2571405C1 (en) | Method for preliminary conversion of structured data array | |
Curto | Automatic generation of multiple-choice tests Geraçao automatica de testes de escolha m ultipla | |
JP2011503730A5 (en) | ||
KR100910895B1 (en) | Automatic system and method for examining content of law amendent and for enacting or amending law | |
Válková | Building Czech textbook corpora (UcebKo) for word-formation research of Czech as a second language | |
Kilgarriff | Putting the corpus into the dictionary | |
RU2572367C1 (en) | Method of searching for information in pre-transformed structured data array | |
Elleuch et al. | Lexical data mining‐based approach for the self‐enrichment of LMF standardized dictionaries: Case of the syntactico‐semantic knowledge | |
Debbarma et al. | Morphological Analyzer for Kokborok | |
Neme | An arabic language resource for computational morphology based on the semitic model | |
Luthfita et al. | Digitalizing a local language dictionary: Challenges and opportunities. | |
Klein et al. | DiET in the context of MT evaluation | |
Zhu | Graph-based interactive bibliographic information retrieval systems |