EP3100174A1 - Verfahren zur automatischen sinnerkennung und messung der eindeutigkeit von text - Google Patents

Verfahren zur automatischen sinnerkennung und messung der eindeutigkeit von text

Info

Publication number
EP3100174A1
EP3100174A1 EP14757840.5A EP14757840A EP3100174A1 EP 3100174 A1 EP3100174 A1 EP 3100174A1 EP 14757840 A EP14757840 A EP 14757840A EP 3100174 A1 EP3100174 A1 EP 3100174A1
Authority
EP
European Patent Office
Prior art keywords
sentence
words
sense
text
meaning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
EP14757840.5A
Other languages
English (en)
French (fr)
Inventor
Luciano Zorzin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Speech Sensz GmbH
Original Assignee
Somol Zorzin GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Somol Zorzin GmbH filed Critical Somol Zorzin GmbH
Publication of EP3100174A1 publication Critical patent/EP3100174A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation

Definitions

  • the claimed method of the computer-implemented invention "right-sense check" is: automatically, deterministically for each sentence of a text of a natural high-level language
  • Meaning of the words is based on the sense categories and at least the following steps are performed: a) reading the text with input words into a data processing device, b) comparing all input words with the words in the
  • homophone words Doctrine - Void; or DAX badger; also, especially in German, in upper and lower case, e.g. dare (be brave) - wagon (vehicle); because of (reason) - ways (plural / dative of way);
  • the number of homophonic words are, for example, in German about 8000 words, in
  • Homonyms and homophones are among their most frequently used words in all languages. For example, In German, of the 2000 most frequently used words, about 80% are homonyms and about 15% are homophones. In other high-level languages, these values are z.
  • sense signals are associations in a numerical way, they are not associations themselves.
  • Human-machine dialogues a precise - meaningful - capture and processing of the input - even in the form of automatically generated, based on the input, meaningful, interactive dialogues - which does not exist so far.
  • the computer implemented procedure of the invention can be. purely formal, that face a right-writing exam.
  • the abstracted flowchart of the (new) right-sense check (B) is very similar to that of the (known) automatic right-write check ⁇ : (A).
  • Image 1
  • Processing which automatically calculates the relevance of all possible associations of a word to its context, registered in sense signals.
  • Sense signals are the underlying data for each individual word and each of its different meanings. Sense signals are fixed : and are multi-dimensional, numerical
  • Fields which can be compared with each other, numerically and logically. In the invention are relevant to all relevant; Words of a high level language meaning signals and automatically
  • a sense signal of a word is in the context of "valid" (Fig .1, box on line 3, right) / if it only has a sense signal ,: - ⁇ :. Either because it has only one meaning, or because the sense-signal of at least one other word in the context, has several matches with it, and indeed much more / than other words in the context.Words that mutually "validate” each other in their meaning, are within the scope of the invention (Complementary definition is given in the beginning of section 2)
  • Words of each sentence can have more than 1 association in context because:
  • Homonyms are used more frequently in all languages, compared to non-homonyms.
  • sentence particles are i.d.R. Homonyms that have multiple, mostly position-dependent meanings and syntactic functions, depending on which word or phrase they are assigned. , .. ... ..
  • Disambiguation "spoken or” reduction of ambiguity ". But it is formally, logically incorrect or very misleading to say that one can "disambiguate” a word, or that one can "ambiguity” a word
  • a word in a sentence or sentence is ambiguous or: they are not. This can only be the author of the sentence and the context of. Fix sentence.
  • SenSzCöre Sentence sense determinatii by Computing of complementary, associative, semanticrelationships. Without a right-sense check or without SenSzCore it is not possible, for example for speech recognition or translation, to perform really precise, automatic, meaningful-correct work with the texts - in and of themselves. Without a right-to-sense test, there are always blatant automatic meaning processes
  • the implicit information of the sentence is: only. monolinguäl 1 , and on informatics processable associations
  • Associated digitized sense meaning signals of words in their context allows a computer-aided processing, similar to how a CCD camera is by pixelation of exposed, light-sensitive surfaces, a prerequisite for the informatic processing of images.
  • sense signals are structurally and structurally much more complicated than the short, numerical information of image pixels resulting from a photosensitive surface.
  • Figure 1 of the "Law-Sense Examination” are all relevant senses of words of a language, including all their relevant inflections (modification of words after
  • the creation of the sense signals is a manual, one-time operation in advance.
  • the resulting database corresponds to about 50 million words in High German, about the size of 20 monolingual large dictionaries, is therefore about 1000 x smaller, as data stocks the e.g. used in translation programs according to the prior art.
  • the invention is a local measurement - as in a digital meter by adding up
  • sense signals of a word are - via its written form as text - retrievable from the database; no matter in which flexion it is present.
  • a sense signal is present in a standardized, alphanumeric, arithmetically evaluable, multidimensional form. (Component parts of the sense signals, see Figure 3.1;
  • the word string is treated as a single word.
  • the invention is i.a. the linguistic, language-independent fact that underlies:
  • the sense signal structure in the invention is constructed as a result of empirical experiments such that the complementarity occurs in the same cases as an average educated person intuitively determines when reading a sentence.
  • the meaning signal of the word can, in many of its meanings, be formed as much as possible from the addition of the sense signals: its components.
  • the meaning signal of "Horse Carriage” is the / Addition of the sense signal of "Horse 1" ⁇ zool> and
  • a sense signal is a numeric memory of normalized associations.
  • a meaning definition is a chain of words that can evoke associations in the brain when reading. See comparisons in Figure 3.1 ...
  • the sense signals in the invention consist of 512 sense individual categories and 15 basic signal groups ( Figure 3.1). These figures given are merely an empirically determined, pragmatic value, which gives good results in the new method when calculations of the invention with the
  • the invention has a database of about 50 million words (about 0.1% of the volume of words in statistical translation programs of the prior art), which consists of the inflected forms of about 1 million different Put together words in basic form, which in turn consist of sense signals, which can be composed of approximately 20,000 relevant basic meaning signals of a high-level language.
  • Words A, ⁇ ⁇ , ... with the same sense signal and differently written like another word B are synonyms of B.
  • Words A, A ... with different sense signal and the same as another word B are homonyms of B.
  • Words A, A ... with a largely similar, but shorter, sense signal than another word B can be hyperonyms of B.
  • Words A, A ... with a largely similar but longer sense signal than another word B can be hyponyms of B.
  • Synonym groups with an average of about 8 synonyms.
  • Words of a high-level language that have no relevant synonyms are referred to below as "loners”.
  • synonyms are usually just spelling variants of a word (eg photo / photo).
  • words with sense signals which have an overlap of> 85% to each other are performed as synonyms.
  • synonyms are words that can be interchanged in a sentence, without; to change the sentence meaning relevant.
  • sense signals Another important property; of sense signals is that they are language invariant. It follows that all words of equivalent synonym groups have the same sense signals in all languages.
  • Sense signals are partially additive. Within a sense. Signals are also multidimensional valence references between Sense single categories possible and available (see
  • the sense signal of "trousers” carries values in several sense signal categories, which also agree with assigned categories of: sense : signal of "änziehl”: “put on clothes”.
  • AI modulates a complementary meaning of "put on” and : automatically validates a single, definite, different, correct measurement, making it automatically processable
  • the homonym becomes: "validated” by the general partner :.
  • SenSzCore respond in a similar way to complementary. eg "Rock 2 ⁇ clothing>”, “Salaries ⁇ econ>”, “Arm ⁇ anat>”, “Elastic screw ⁇ mech>”, “Brake 3 ⁇ mech>” uva also lead to a correct / automatic calculation of the local, transitive Meaning of "put on” / like the one above
  • Example A4 "He is on,” in which the intransitive 7th meanings of "putting on” must be used.
  • Trousers have namely in ⁇ ; Meaning signal no values in categories such as “can drive force” or / “can actively change material structure” which attract in intransitive,
  • train This is the typical one Result of a statistical procedure to determine the "meaning" In the example Bl, even each of the 3 homonyms train, barrel and bullet is misinterpreted in the sense and thus translated incorrectly.
  • floor is used, meaning the floor of a house and not the projectile.
  • hazard exit and building are the complements for "floor” of a building ("floor”) and thus give the correct translation of the invention into English: "The floor must have an emergency exit on the rear of the building.”
  • Translation is determined inter alia by the fact that homonyms in the target language also find the correct complementaries of the other language in the sentence. This, too, is automatic by the structure and structure of the invention
  • Synonym groups which are assigned the same meaning signal in all languages, " ⁇ .
  • the meaning complementarity of the words remains compulsory after the translation.
  • Processable text reaches the computer-implemented system of law-meaning testing (Sections 4.5 to 4.13 in Figure 4).
  • pure letter signals are converted into sense signals by means of a measuring device which a) determines whether the text input is unique and
  • the legal ⁇ sense check processes the text sentence by sentence.
  • the invention now has a text without semantic information e.g. 2.1. AI converted into a text with semantic information 2.1.A2, which was calculated exclusively from the comparison of the meaning signals between the words of the sentence and in the input sentence - explicitly - was not previously included. See also further information in picture 2.
  • a text without semantic information e.g. 2.1. AI converted into a text with semantic information 2.1.A2, which was calculated exclusively from the comparison of the meaning signals between the words of the sentence and in the input sentence - explicitly - was not previously included. See also further information in picture 2.
  • indexing is advantageously carried out via the sense signal itself, but can also be supplemented or replaced by other, user-specific codes that retrieve the meaning signal only when used later from coupled data.
  • a sentence coded in this way can now advantageously be further processed in the listed functions 4.14 to 4.19.
  • Serial processing will be done for translations (4.14) and user dialogs (4.16), as well as search engines (4.17).
  • Speech Recognition (4.15), Spell Check (4.18) or Word Recognition (4.19).
  • the processes 4.5.1 and 4.5.2 play a stronger role in the interaction with the user than in the other functions.
  • a very important operational advantage of the invention is that with interactive operation, it is always clear to the user how good his text is in terms of semantic uniqueness and that he can intervene immediately. Persons who write well, in the sense of comprehensibility, grammar and syntax hardly receive
  • Modulator (3) of Figure 6 represents the multiple recursive passes until the analysis of the sentence itself, in syntactic, morphological sense, and its uniqueness measurement is completed. In this sense, Figure 4 contains a strong operational representation of the invention for a better explanation of the individual functions.
  • the table of Figure 3.1 is figurative, as the 2-. Dimensional sketch of a more than 3-dimensional
  • a meaning signal is the content of a column in Figure 3.1, starting at column "D".
  • Sense signals provide a computerized tool that allows the software algorithms of the invention - which are automatically controlled by the existing text and context - to extract implicit information from texts.
  • Figure 3.1 shows an extract of the sense signals for 9 words that can be read in 2 dimensions. (Words: see coordinates Dl to Ml): Figure 3.1 is also an aid to Figure 3.2 easier
  • Lines 9 to 42 show for each word an excerpt (cca 10% of the total) of its sense signal.
  • Columns B and C represent a verbal assignment - that is, a description of features - of the respective sense signal single value. They are only too
  • Line 7 shows the number of occupied fields in the sense signal for each word and the number of restriction references (EV) to the right of the slash. For example, for "write 1" 86 ⁇ 3.
  • Restriction references represent situational attributes according to which the values of categories in sense signals can be automatically switched on or off depending on the context 1 .
  • Attributes are e.g. activated by the restriction references (EV), if in the vicinity of the word sense signals
  • Calculations are automatically retrieved, and automatically combined over multiple sentences, or until the paragraph's end of a text
  • Occupies positions that contain social-political components which in turn are linked to the restriction reference professional practice.
  • categorizations are always arbitrary and relative, the categorization of meaning signals can not claim to be absolute. For each categorization, at the most, its usefulness can be assessed in relation to its referenced application.
  • the primary benefit of this form of categorizing the meaning signals for words is that it is constructed in such a way that:
  • Category 1 precedes Category 2.
  • Category 3 is included in category 2 for reasons of space.
  • Category 4 represents the indication that the creators read sense signals - when creating the data of the invention - to assign a value to the sense signal or not.
  • the work volume to create meaning signals corresponds approximately to the effort to create a clinicalwöftbuch, but with a very special, numeric notation ..
  • the assignment of the individual values in the sense signal is in most cases blurred (rather yes, rather no) and in Case of yes, with values greater than 1, if there is "much" of the Eirtzel association, for example other forms of association
  • XX means that computational, logical and or
  • Percentages represent the sense modulation level of the sense signals of the words intersecting in the field.
  • the cells marked with XX in this case specifically refer to the fact that a. in "write 1," the verb does not allow any motor activity by the subject of the sentence, if this is a thing: then only one function can be exercised, as here
  • Tool / Device - can not be applied to an animal as a subject ("pen")
  • SSIR meaning-signal intersection ranking
  • Autotranslation ⁇ it shows each of the alternatives by displaying the relevant words by their most common synonyms (underlined in the examples): of the homonym in the context of the user's input language become.
  • the value 66% is an empirically determined value which, depending on the ontology and language: can be determined individually and represents a lower, relative relevance limit for meaning modulation: '':
  • Autotranslation The apprentice does not write down.
  • Autotranslation The steppke does not write down.
  • SenSzcore will automatically offer the user Option 1 to take over and automatically note the remaining options in ii. and iii.
  • the numerical modulation values are based on the properties of the sense signals, which are "taught” and stored in advance for the system, so that the values of the sense signal reflect the associations of "a" person, namely the person who created the affected sense signals and not an absolute decision in itself. Consequently, of course, the modulation value of 2 sense signals is not absolute, but a relative statement.
  • Table 5 shows the comparison of the best, market-standard programs (as of January 2014), based on 5 example sentences: I) The pen buys a pen.
  • the pen buys a pen.
  • the pen buys a pen.
  • the starting point is a computer-implemented method "law-sense-examination", which automatically converts the semantic meanings of the words of the sentence into numbers that are not explicitly found in a sentence of natural language - called sense signals - and the following: correct meanings for the sentence context all words of the set charged with the sense signals deterministic, characterized in that: a non-transitory it in.,: machine-readable
  • Storage medium is stored and equipped with computer-executable instructions that when executed by a computer processor cause, for a sentence to be analyzed - begun and terminated according to valid rules of natural language - a text of natural language, all available, according to the invention Meaning signals for each word automatically from the.
  • Constraint modulator (3) is calculated, which sentence score "SS" they have, if present in the sense signals
  • Paragraph in the form of meaning signals of restriction references is updated in a rolling and hierarchical retrievable.
  • Can be used word processors to 'visually define the status of the word from the Autotranslätion memory (5) or the error message storage (6) for each affected word eg ⁇ on the data display of the user and as "Moüse-Gver" information on Generate the user 's data display device.
  • Procedure according to at least one of the Nos. 1 to 11, characterized in that based on interactions of the user based on the user Interaktioris Ma . rodents (7) Proposals for corrections originating from the autotranslation memory (5) or the error message memory (4), the text in the sentence is updated, and a new calculation run for No. 1 for the sentence is performed, with all entries in the
  • Method according to No. 15, - called “Autotranslation” characterized in that when the user marks a sentence with score 1 - for example, with the mouse on his sicht réelle-, formulated from the tagged information of the sentence, automatically a grammatically correct sentence in which, for example, the inflective homonyms of the sentence are replaced by their most common synonyms be replaced:.
  • Target language of the user takes place, taking into account the given, unique meaning signals of all words and all additional information with which they are tagged.
  • Error message memory (6) is tagged.
  • Prior art speech recognition can not recognize homophones, as well as upper and lower case.
  • sequence shown in No. 26 can be with all known homophones of a natural language, which are registered in database of the database system (1) (eg, about 10.00 in German and sometimes very common as he / she is / eats, sudden / je, she / he, field / falls, etc.
  • database system (1) eg, about 10.00 in German and sometimes very common as he / she is / eats, sudden / je, she / he, field / falls, etc.
  • 10,000 - English -, to 25,000 - : Japanese - the correct spellings are identified in sentence context via their sense signals. This reduces that
  • Possibilities are found to reformulate the sentence by correctly spelling incorrect words. This can eg; according to "sound-like” methods or similar search algorithms based on data from the database system (1), starting with priority based on words similar to homophone groups, or omissions of letters or typical ones
  • search term This reduces the number of hits in search engines by over 99% if the search term is a homonym. In addition, it automatically searches for the valid inflections of the search term and all of its synonyms, on request also in foreign languages. This significantly increases the quality of the search result, especially for business intelligence applications, and reduces the user's reading effort to select the final hits, inversely proportional to the quality gain.
  • Method according to No. 47 characterized in that the spoken Ihput of a user, by use of the No. 26,. 34, 39, 04 by the answering computer : is detected as text.
  • the method according to No. 47 or 48 characterized in that a division of the input text into individual sentences by the.
  • the answering computer performs an automatic evaluation, which statement and which question sets are. For example, by the presence of question marks at: Set the end or not, or those typical sentence structure.
  • Answering computer responds - according to certain rules - the user receives to read from it more detailed information on his questions and to ask more specific questions to the answering computer, the user in the
  • Intervention of a human is required, e.g. by
  • Method according to no. 55 characterized in that the automatic execution of at least one of the numbers 1 to 22 is carried out, but without the sentence having the meaning signals itself being tagged, after having reached sentence score> 0. Of the Text is only checked for spelling errors and interactively corrected by the user, but without
  • each activated e.g. Keyfobes that were made for the input of each word of the sentence.
  • a check of the existing input is carried out according to at least one of the numbers 1 to 22 and is calculated by using the key sequence from the log file of the ;: pressed keyboard shortcuts and key assignments, whether other hits of words in the database of
  • suggestions and options are shown for written word just visually on the visual display unit of the user, for example via the viewing: the written word, in semi-transparent mode.
  • Encryption of sentences a natural language, using : "law-and-purpose test" for at least one of the numbers 1 to 21. This is claimed in claim 35 67.
  • Method according to No. 66 characterized in that: 1. Text is read in whose sentences do not necessarily have sentence score 1, but each contains at least 3 words with status SW> 0.
  • start sets of the user are stored taking into account the original order on: the user's system, as well as a log file of all
  • Changes are saved as variants; were created, i.a. stating each change at least, with content of the change and position: in each sentence.
  • the number of sentences of the text is increased to at least 7 if there are fewer than 7 sentences for encrypting via input text plus variants according to No. 68. This may advantageously be e.g. through sentences that are detected via no. 71.
  • the No. 65 is particularly advantageous as an addition to commercially available encryption systems usable.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zur automatischen Sinnmustererkennung in einem Text mit einer Vielzahl von Input- Wörtern, insbesondere einem Text mit mindestens einem Satz, mit einem Datenbanksystem umfassend Wörter einer Sprache, eine Vielzahl von vordefinierten Sinnkategorien zur Beschreibung der Eigenschaften der Wörter und Sinn-Signale zu allen in der Datenbank gespeicherten Wörtern, wobei ein Sinn-Signal eine eindeutige numerische Charakterisierung der Bedeutung der Wörter anhand der Sinnkategorien ist.

Description

Verfahren zur automatischen Sinnerkennung und
Messung der Eindeutigkeit von Text.
1. Allgemeine Punkte 1.1 Zusammenfassung
Das beanspruchte Verfahren der computerimplementierten Erfindung „Recht-Sinn-Prüfung" ist: für jeden Satz eines Textes einer natürlichen Hochsprache automatisch, deterministisch
festzustellen, ob er eindeutig formuliert ist, indem automatisch berechnet wird, ob für jedes Wort, das den Satz bildet, - rechnerisch - jeweils nur 1 einzige, relevante Bedeutung des Wortes im Kontext vorliegt und welche diese Bedeutung ist.
Die Bedeutungen und gekoppelten Assoziationen aller relevanten Wörter der natürlichen Hochsprache in welcher der Satz verfasst ist, sind in speziellen, vorab erzeugten, normierten,
numerischen Feldern - so genannten Sinn-Signalen - abgespeichert und automatisch abrufbar.
Diese werden in der Erfindung - nur durch den eingegebenen Satz und seinem Kontext an sich gesteuert - automatisch, arithmetisch so kombiniert und vergleichend analysiert, dass als Ergebnis des Ablaufes entweder ein Formulierungsfehler gemeldet wird - wenn der Satz nicht eindeutig ist -, oder jedes Wort mit dem
einzigen, zugehörigen Sinn-Signal fest verknüpft ist, das in diesem Kontext für das Wort gültig ist.
Dies entspricht, der Aufgabenstellung dem Satz Informationen zu entnehmen, die in ihm nicht explizit vorhanden sind, sondern i.d.R. nur implizit.
Diese implizite Information des Satzes, die von der Erfindung im Kontext berechnet werden kann, liegt im erfindungsgemäßen
Verfahren der arithmetischen und logischen Kombination der Sinn- Signale der vorhandenen Wörter des Satzes einzig und allein gesteuert durch die spezielle Anordnung und Morphologie die die Wörter im Satz haben. Anmerkung zu Fachbegriffen:
Spezielles Fachvokabular und erfindungsspezifische, neue
Begriffe (wie z.B. Sinn-Signal, Komplementär oder Wort-Ligatur), sind in Tabelle 4 gelistet. Standard-Fachbegriffe der Linguistik und Computerlinguistik in Tabelle 7 gelistet.
1.2 Grundlegende Vorgehensweise
1.2.1. Verfahren zur automatischen Sinnmustererkennung in einem Text mit einer Vielzahl von Input-Wörtern, insbesondere einem Text mit mindestens einem Satz, mit einem Datenbanksystem umfassend Wörter einer Sprache (Zeile 1 in Bild 3.1), eine
Vielzahl von vordefinierten Sinnkategorien zur Beschreibung der Eigenschaften der Wörter (Spalten 1-4 in Bild 3-1, siehe Bild 3.1 und Erläuterungen dazu in Abschnitt 3.2), Sinn-Signalen zu allen in der Datenbank gespeicherten Wörtern, wobei ein Sinn- Signal eine eindeutige numerische Charakterisierung der
Bedeutung der Wörter anhand der Sinnkategorien ist und wobei mindestens folgende Schritte durchgeführt werden: a) Einlesen des Textes mit Input-Wörtern in eine Vorrichtung zur Datenverarbeitung, b) Vergleich aller Input-Wörter mit den Wörtern im
Datenbanksystem, c) Zuordnung mindestens eines Sinn-Signals zu jedem der Input- Wörter, wobei im Fall von Homonymen zwei oder mehr Sinn-Signale zugeordnet werden; d) in dem Fall, dass die Zuordnung der Sinn-Signale zu den
Input-Wörtern eindeutig ist, ist die Sinnmustermusterkennung abgeschlossen, e) in dem Fall, dass einem Input-Wort im Kontext mehr als ein Sinn-Signal zugeordnet werden konnte , werden die relevanten Sinn-Signale ausschließlich kontext-gesteuert miteinander verglichen, wobei f) anhand der Kombination der Sinn-Signale der Input-Wörter untereinander festgestellt wird, ob ein Widerspruch oder eine Übereinstimmung -insbesondere bei Homonymen- in der Bedeutung des Input-Wortes zum Kontext vorliegt;
g) Sinn-Signal Kombinationen, die zu Widersprüchen führen, werden aussortiert (siehe Bild 3.2 und Erläuterungen dazu in Abschnitt 3.3), Sinn-Signal Kombinationen für Übereinstimmungen werden nach dem Grad der Übereinstimmung (Sinnmodulation) anhand eines vorgegebenen Relevanz-Kriteriums (siehe Abschnitt 3.3) automatisch numerisch bewertet und registriert, h) automatische Zusammenstellung aller Input-Wörter, die sich aus den Schritten d) und g) ergeben, werden als das Sinnmuster bzw. die numerische Sinnintersektions-Matrix (Bild 3.2) des Textes, insbesondere des Satzes, ausgegeben. i) bei Text mit Anwesenheit von Wörtern mit Homofonen z.B. aus Spracherkennung und bei entsprechender Triggerung, u.a.
Überprüfung des Sinn-Signal-Übereinstimmungsgrades, jedoch auch morphologisch-syntaktische Kompatibilität des vorhandenen Wortes und seiner weiteren homofonen Schreibweisen im Bezug zum Kontext und ggf. automatischer Ersatz bzw. Fehlermeldung bei nicht ausreichender Differenzierung unter den Sinn-Signalen der Wörter einer gleichen Homofongruppe im Kontext des geprüften Satzes.
1.2.2 Gelöstes Problem
Die „Recht-Sinn-Prüfung" löst das technische Problem bei der automatischen Verarbeitung von Texten, dass insbesondere bei deren Wörtern mit mehreren Bedeutungen (= Homonyme) nicht explizit vorliegt, in welcher seiner Bedeutungen das Homonym vom Autor des Satzes im Text tatsächlich verwendet wurde.
Bei gesprochenen Texten löst „Recht-Sinn-Prüfung", die gleiche Problematik wie für Homonyme auch für Homofone. Für Homofone liegt beim Hören eines Textes die Schreibweise des benutzten Wortes nicht fest.
Beispiele für Homofone Wörter: Lehre - Leere; oder DAX - Dachs; auch, speziell im Deutschen, in Groß-Kleinschreibung z.B. wagen (mutig sein) - Wagen (Fahrzeug) ; wegen (Grund) - Wegen (Plural/ Dativ von Weg) ;
im Englischen z.B. to - two - too; oder knew - new - gnu.
Aber auch Wort-Ligaturen (keine Komposita): z.B. „an die" - „Andy" ;
oder z.B. im Spanischen „del fin" (i.e. „vom Ende") - delfin (Säugetier) .
Die Anzahl homofoner Wörter (ohne häufige Wort-Ligaturen mitzuzählen) sind z.B.: Im Deutschen ca. 8000 Wörter, im
Englischen ca. 15.000 Wörter, im Französischen 20.000 Wörter, im Japanischen ca. 30.000 Wörter).
Diese nicht explizite Information eines Satzes z.B. bezüglich Homonymen und Homofonen - die aber in jedem eindeutigen Satz einer natürlichen Sprache implizit über die Kombination der verwendeten Wörter selbst, in Satz und Kontext, vorliegt - kann bis heute nur von Menschen zuverlässig festgestellt werden, die die Sprache beherrschen, in welcher der Satz erzeugt wurde (sei es nun phonetisch oder alfanumerisch) .
Homonyme und Homofone gehören in allen Sprachen zu deren am häufigsten verwendeten Wörtern. Z.B. im Deutschen sind von den 2000 am häufigsten benutzten Wörtern ca. 80% Homonyme und ca. 15% Homofone. In anderen Hochsprachen sind diese Werte z.T.
deutlich größer.
Will man z.B. die Bedeutung jedes Wortes eines Satzes in einer einem vollkommen unbekannten Sprache deuten, muss man für jedes Wort des Satzes seine Bedeutungen in seiner Grundform ausfindig machen - z.B. mittels eines Wörterbuches - und dann - in der einem unbekannten Sprache - ermitteln, welche der Bedeutungen vom Autor des Satzes im Zusammenhang mit den anderen Wörtern des Satzes wohl gemeint war.
Dies ist umso schwieriger, je mehr Homonyme der Satz enthält.
Es ist bereits bei Sätzen mit 5 oder 8 Wörtern gängig, dass hunderte, bis tausende, prinzipielle Kombinations-Möglichkeiten des Sinns der Wörter eines Satzes vorliegen können, obwohl nur eine einzige der möglichen Kombinationen im Kontext richtig ist. Siehe z.B. in Bild 2 die Sätze 2.1. AI und 2.1.A2.
In Satz 2.1.A2 ist nach Anwendung der Erfindung, die Bedeutung jedes Wortes identifiziert und durch Hochzahlen am jeweiligen Wort erkennbar. (Siehe Einzelbedeutungen im Kasten rechts daneben)
Dieser Satz aus Bild 2 ist eindeutig, obwohl fast 2 Millionen prinzipielle Sinn-Kombinationsmöglichkeiten der Bedeutungen seiner Wörter für ihn bestehen. Siehe Informationen dazu in den Feldern J4-J6 und J15-J17 in Bild 2. Weitere Informationen im Einzelnen zu anderen Bedeutungen der Homonyme dieses Beispiels in Tabelle 1.
Dieses Problem - das Ermitteln der Grundform, der möglichen Bedeutungs-Varianten, und das Berechnen der richtigen Sinn- Kombination eines Wortes in jedem beliebigem Satz und Kontext - für alle Wörter, die in den an die Erfindung gekoppelten
Datenbeständen mit Sinn-Signalen registriert sind, löst die Erfindung automatisch.
Und zwar einzig und allein, durch automatische Analyse und numerischen Abgleich der Sinn-Signale des eingegebenen Textes (Satz + Satzkontext) an sich und ohne irgendwelche anderen Text- Datenbestände, Korpora, Lexika usw. analysieren zu müssen; weder statistisch, noch graphenbezogen (z.B. Berechnung von
Kantenlängen in euklidischen Vektorräumen) noch mittels
künstlicher neuronaler Netze usw.
Hier von Sinn-Signalen zu sprechen ist wichtig, denn die
gewählte Struktur und Arithmetik zum informatischen Umgang mit Sinn-Signalen, entspricht dem rechnerischen Umgang mit
numerischen Mustern, im Gegensatz zu einem eher neurologischen Begriff wie „Assoziationen". Sinn-Signale stellen zwar auf numerische Art Assoziationen dar, sind aber selbst keine Assoziationen.
Auch die Analogie der Vorgehensweise des gegenseitigen
Modulierens der Sinn-Signale aus der Nachrichtentechnik, sowie die Existenz von elektrischen „Strömen" im Gehirn, beim
Verarbeiten von Assoziationen, wenn Sprache von Menschen
wahrgenommen wird, empfiehlt die Benutzung des neuen Ausdrucks „Sinn-Signale" .
1.3 Technische Anwendungsmöglichkeiten / Vergleich zum Stand der Technik
Eine unmittelbare, praktische Anwendung davon, über die Recht- Sinn-Prüfung hinaus sind z.B.:
• Automatische Übersetzungsmaschinen hoher Qualität denn:
zum einen können nur eindeutige Sätze korrekt übersetzt werden. Zum anderen kann man einem eindeutigen Satz nur korrekte
Übersetzungen zuordnen, wenn man die - einzige - relevante
Bedeutung jedes einzelnen Wortes des Satzes im Kontext kennt. Wahrgenommener Stand der Technik anhand namhafter Produkte - egal ob kostenlos oder nicht - = 50% falsche Übersetzungen, z.B. bei statistischen Übersetzungsmaschinen. Der zu durchsuchende Datenbestand bei der Erfindung ist trotzdem um den Faktor
500...1000 kleiner, als bei gängigen, auf Statistik basierten Übersetzungsmaschinen, bei gleichzeitiger Steigerung der
Übersetzungsqualität auf besser 95%. (vergl. Tab 5 + 6)
• Das Kennen der relevanten, einzigen Bedeutung jedes Wortes im Kontext erlaubt u.a. eine neuartige, automatische, semantische Indizierung von Text-Datenbeständen nach Sinn, die dann sehr viel präzisere Suchergebnisse von Suchmaschinen erlaubt (Faktor 99% bis 99,99% weniger irrelevante Treffer), als der Stand der Technik. Wahrgenommener Stand der Technik anhand namhafter
Produkte = ist das Suchwort ein Homonym, werden Treffer für alle Bedeutungen des Wortes und nicht nur für die eine, beabsichtigte Bedeutung angezeigt. • Des Weiteren erlaubt diese Kenntnis der relevanten, einzigen Bedeutung jedes Wortes im Kontext bei Spracherkennung oder
Mensch-Maschine-Dialogen eine präzise - sinnhafte - Erfassung und Weiterverarbeitung des Inputs - auch in Form automatisch generierter, auf den Input bezogener, sinnhafter, interaktiver Dialoge - die es so bislang nicht gibt.
Wahrgenommener Stand der Technik anhand namhafter Produkte = 100% fehlerhafte Interpretation von Homofonen, sowie keine zuverlässige Erfassung von Wörtern die für logische inferenzen von Bedeutung sind. Siehe auch Beispiel 2.2 Sätze 2.2. Bl und 2.2.B2.
1.4 Zusammengefasste Beschreibung
Den computerimplementierten Ablauf der Erfindung kann man. rein formell, dem einer Recht-Schreib-Prüfung gegenüberstellen. Das abstrahierte Flüssdiagramm der (neuen) Recht-Sinn-Prüfung (B) ist sehr ähnlich, wie das der (bekannten) automatischen Recht- Schreib-Prüfung :(A) . Bild 1
(B) - der Erfindung - liegt eine neuartige, numerische
Verarbeitung zu Grunde, die die Relevanz aller möglichen, in Sinn-Signalen registrierten Assoziationen eines Wortes zu seinem Kontext automatisch berechenbar macht.
Sinn-Signale sind die zugrunde gelegten Daten für jedes einzelne Wort und jede seiner unterschiedlichen Bedeutungen. Sinn-Signale sind fest vorgegeben :und sind mehrdimensionale, numerische
: Felder: die untereinander, numerisch und logisch verglichen werden können. In der Erfindung sind für alle relevanten; Wörter einer Hochsprache Sinn-Signale definiert und automatisch
abrufbar - Bild 4.7.
Ein Sinn-Signal eines Wortes wird im Kontext „gültig" (Bild .1, Kasten in Zeile 3, rechts)/ wenn es nur ein Sinn-Signal hat,: - :. entweder, weil es nur eine einzige Bedeutung hat, oder weil das Sinn-Sighal mindestens eines weiteren Wortes im Kontext, mehrere Übereinstimmungen mit ihm aufweist und: zwar deutlich mehr/ als andere Wörter im Kontext. Wörter die sich in ihrer Bedeutung gegenseitig „gültig" machen, werden im Rahmen der Erfindung „Komplementäre" genannt. (Ausführliche Definition erfolgt im Anfang von Abschnitt 2)
Wörter jedes Satzes können mehr als 1 Assoziation im Kontext haben denn:
In allen Sprachen existieren 10-tausende von Wörtern (z.B.
Deutsch ca. 3:5.000, Englisch ca. 50.000), die bei exakt gleicher Schreibweise mehrere unterschiedliche Bedeutungen haben (genannt Homonyme): Z.B. Lauf [13 Bedeutungen], Zug [43], Geschoss [4], anziehen [12 ] .
Homonyme werden in allen Sprachen besonders häufig verwendet, im Vergleich zu Nicht-Homonymen.
Auch Satz-Partikel sind i.d.R. Homonyme, die mehrere, meistens stellungsabhängige Bedeutungen und syntaktische Funktionen haben, je nachdem welchem Wort oder Satzteil sie zugeordnet sind. . .. .. . ..
Allein für Satzpartikel gibt es somit insgesamt ca. 5300
Homonyme, wenn man Adverbien (sie sind in ihrer Funktion nicht flektierbare Wörter) dazuzählt.
Fast jeder Satz Text einer natürlichen Sprache enthält Homonyme. Die reih lexikalischen7 Analysemöglichkeiten des Standes der Technik der EDV - faktisch gleich einem Setzkasten von Gutenberg mit 255 ASCII-Zeichen - sind damit bezüglich sinnhafter ;
Verarbeitung .von Text bei weitem unzureichend.
Das gilt für alle gesprochenen, natürlichen Hochsprachen.
Die: Bedeutung die einem Homonym durch den Autor eines Textes zugewiesen ist, ist durch den Kontext bestimmt, in welchem das Homonym auftritt, sie ist dem Text an sich aber nicht explizit zu entnehmen. . ...
Erst nach der Anwendung von der Recht-Sinn-Prüfung (B) ist bekannt (Im Bild 2 Wandlung des Textes 2.1. AI in die indizierte Form 2.1.A2), ob und welche Bedeutung jedes Homonyms, einen relevanten Sinn im Satz-Kontext hat. . Diese Eigenschaft von natürlichen Sprachen - dass der eindeutige Sinn der verwendeten Wörter mit mehreren Bedeutungen dem Text selbst nicht explizit zu entnehmen ist, sondern nur implizit zum Kontext durch Sprachkenntnisse assoziiert werden kann - hat international keine allgemein gültige Definition in der
Linguistik.
Innerhalb der Fachrichtung Satzsemantik, wird diese Eigenschaft; im weitesten Sinne umschrieben, u.a. über die Begriffe
„Äquivökation7", „Homonymie7", „Ambiguität7" und „Polysemie7". Im Stand der Technik wird üblicherweise von „Wort Sinn
Disambiguierung (word-sense-disambiguation) " gesprochen oder „Reduzierung der Ambiguität". Es ist aber formell, logisch inkorrekt bzw. sehr irreführend, zu sagen, dass man ein Wort „disambiguieren kann" oder dass man die „Ambiguität eines
Satzes" reduzieren kann,
denn:
Ein Wort in einem Satz oder ein Satz sind ambig oder :sie sind es nicht. Das kann nur der Autor des Satzes und des Kontextes des . Satzes beheben.
D.h. man kann die Ambiguität eines Satzes lediglich
a) als Mensch feststellen oder
b) mit den geeigneten Verfahren (beanspruchte Erfindung) ;
maschinell berechnen.
Im folgenden Text wird deshalb das gesamte,- neue, beanspruchte : Verfahren, das in der Lage: ist, trotz der in natürlicher Sprache immer vorhandenen „Äquivökation", „Homonymie", „Ambiguität" und „Polysemie" die: Anzahl der verwendeten Bedeutungen aller Wörter eines Satzes zu berechnen, und welche, mit folgendem Namen benannt:
„Determination des impliziten Sinns eines Satzes, durch
Berechnung der komplementären, assoziierbaren, semantischen. Verknüpfungen zwischen seinen Wörtern".
Auf Englisch, abgekürzt:
SenSzCöre - Sentence sense determinatiori by Computing of complementary, associative, semantical rel tionships . Ohne Recht-Sinn-Prüfüng bzw. ohne SenSzCore ist es nicht möglich z.B. für Spracherkennung öder Übersetzungen, wirklich präzise, automatische, sinn-orientiert-korrekte Arbeit mit den Texten - an sich - durchzuführen. Ohne Recht-Sinn-Prüfung treten bei automatischer Sinnverarbeitung ständig eklatante
Interpretationsfehler auf - wie es bei Anwendung des Standes der Technik der Fall ist.
Recht-Sinn-Prüfung mit SenSzCore ist; für die automatische
Verarbeitung von Texten mit Erfassung der Bedeutung der Wörter entscheidend und stellt die operative Voraussetzung dar, für elektronische Sinnverarbeitung (ESV4) von Texten natürlicher Hochsprachen,, im Gegensatz zum Stand der Technik: elektronische Datenverarbeitung (EDV) . Stellungnahme zu Übersetzuhgs-Software öder
Spracherkennungssoftware nach dem Stand der Technik:
Alle Anmeldungen, die den Sinn von Sätzen auf der Analyse von Wörtern selbst basieren - und nicht auf derer Assoziationen im Kontext und egal wie groß die Menge analysierter Wörter ist - können nur in ca. 50% der Fälle die korrekte Bedeutung der analysierten Wörter im Kontext treffen.
Beweis :
Ca.- 50% Trefferrate z.B. marktüblicher Übersetzungsmaschinen .
Ursache :
Die Analyse expliziter. - also rein lexikalischer - Daten des Satzes, vorliegend in der Form von 255 ASCII-Zeichen - z.B.
durch statistische Methoden mit anderen, ähnlichen Sätzen - kann
- per se - keine implizite Information liefern - weil diese naturgemäß nicht in den alfanumerischen Zeichenkombinationen vorhanden ist, sondern im Kopf des Lesers des Textes, im Moment wo er diesen Text liest; vorausgesetzt, er hat ; ausreichend gute Sprachkenntnisse in der Sprache in welcher der Text geschrieben ist .
In anderen Worten: Die implizite Information des Satzes ist :nur . monolinguäl 1, und über informatisch verarbeitbare Assoziationen
- ähnlich derer im Gehirn eines Lesers des Textes - zwischen den Wörtern der Sprache in welcher der Text geschrieben ist, informatisch erfassbar.
In übertragenen Sinne liegt mit der Erfindung also ein
neuartiges Verfahren vor, welches mit der Anwendung von
„assoziierbar digitalisiertem Sinn" (Sinn-Signale) von Wörtern in ihrem Kontext eine informatische Verarbeitung zulässt, ähnlich wie eine CCD-Kamera durch Verpixelung von belichteten, lichtsensiblen Flächen, Voraussetzung für die informatische Verarbeitung von Bildern ist.
Sinn-Signale sind allerdings logisch und strukturell um ein vielfaches komplizierter aufgebaut, als die kurze, numerische Information von Bildpixeln die aus einer lichtempfindlichen Fläche resultieren.
Weitere Beispiele zu diesem Sachverhalt sind im nächsten
Abschnitt enthalten.
1.5 Funktions-Prinzip und Vergleich zum Stand der Technik
Treten für einen Menschen im Kontext eines Satzes (Z.B. „Wir werden die Preise anziehen."), Wörter auf (hier: Preise), die für alle Bedeutungs-Assoziationen seiner Homonyme (hier:
anziehen) nur jeweils 1 Bedeutung gültig machen, so ist der Satz für einen Leser eindeutig.
Inhalt der Erfindung ist, diese Art Entscheidung, die bei
Menschen sehr schnell und unbewusst abläuft, automatisch herbeizuführen und zwar nur über die informatische Verarbeitung des Satzes selbst, seines Kontextes und seiner dazugehörenden, erfindungsspezifischen Sinn-Signale.
Speziell bei Übersetzungen oder Spracherkennung werden Mängel bei der automatischen Bedeutungsfestlegung von Wörtern schnell deutlich:
Automatische Übersetzungsmaschinen nach dem Stand der Technik übersetzen z.B. den Satz:
„Ich nahm einen langen Zug aus der Zigarette."
vollkommen falsch, mit:
„I took a long train from the cigarette." Oder den Satz (Bild 2.1. AI):
„Der Züg im Lauf verleiht dem Geschoss eine Drehung um seine
Längsachse."
vollkommen falsch, mit:
„The train in the course gives the floor a rotation about its longitudinal axis." (Bild 2 Koordinate H8). Siehe. auch die Einzelbedeutungen der Wörter in Tabelle 1.
Es sei denn, der Satz und sei e korrekte Übersetzung liegt bei den Programmen als Textkonserve vor, weisen
Übersetzungsprogramme nach Stand der Technik diese Art
gravierende Fehler in ca. 50 % ihrer Übersetzungen auf.
Bislang sind im Stand der Technik nur indirekte Verfahren der 'Bedeutungszuordnung in Übersetzungsmaschinen bekannt (Z.B. US 8548795, US8260605 B2,US 8190423 B2 ). Diese versuchen die korrekte Zuordnung von Wörtern im Kontext,,, automatisch, nach : statistischen oder graphenbezogenen Methoden durch Analyse großer Text-Korpora (Sammlungen großer Mengen Text z.B.
Übersetzte EU-Protokolle, mit Millionen von Sätzen.) oder sogenannten „World-Knowledge-Dätabases" zu bestimmen.
Es wird im Stand: der Technik gar nicht erst: versucht, den eigentlichen, assoziierbaren Sinn des Inputtextes - an sich - direkt zu erfassen.
Um im Stand der : Technik eine korrekte Übersetzung ; zuzuordnen (=indirekte Sinnerfassung), wird nur versucht Sätze oder
Satzstücke zu finden, die häufig mit dem Inpüttext der einen Sprache, in der anderen Spräche - parallel - auftreten und diese zu einer halbwegs gut lesbaren Übersetzung zusammenzufügen.
Das Ergebnis ist: nachweislich lunvorhersehbar bezüglich Qualität: Nur etwa 50% der übersetzten Sätze von Übersetzungsmaschinen nach dem Stand der Technik sind sinnbezogen und grammatikalisch korrekt. (Siehe auch Beispiele in Tabelle 5)
Nach dem neuen Verfahren (B) Bild 1 der „Recht-Sinn-Prüfung" sind alle relevanten Sinne von Wörtern einer Sprache, inklusive aller ihrer relevanten Flexionen (Abwandlung vört Worten nach
grammatischen Regeln, z . B. : Deklination, Pluralbildüng usw. : der Zug, des Zuges, die Züge, den Zügen ... gehen, ging, gegangen, gehend/ am gehen, ... ) numerisch erfasst und in einer computerimplementierten Datenbank (z.B. Bild 4.7) einzeln, sozusagen als digitale Sinn-Signale, fest gespeichert.
Die Erstellung der Sinn-Signale ist ein manueller, einmaliger Arbeitsgang vorab. Der daraus resultierende Datenbestand entspricht mit etwa 50 Mio. Wörtern im Hochdeutschen, etwa dem Umfang von 20 einsprachigen Großwörterbüchern, ist also ca. 1000 x kleiner, als Datenbestände die z.B. in Übersetzungsprogrammen nach dem Stand der Technik verwendet werden.
Durch Vergleichen der Wörter eines Satzes untereinander, mittels aller ihrer in der o.g. Datenbank gespeicherten Sinn-Signale, kann für alle Wörter automatisch berechnet werden, welche ihre korrekten Bedeutungen im Satzkontext, im Einzelnen sind. Für beliebige Sätze und in beliebigem Kontext.
Dies stellt eine neue, direkte, deterministische Vorgehensweise dar .
Sie erlaubt die Verwendung reiner Arithmetik und benötigt keine statistischen oder graphenbezogenen Algorithmen die den Satz, oder Teile von ihm mit großen Korpora vergleichen, um
statistische Schlussfolgerungen zu bilden.
Bei der Erfindung wird der Satz nicht mit anderen Sätzen
verglichen - wie im Stand der Technik -, sondern die Bedeutungen seiner Wörter mit denen der anderen Wörter des Satzes selbst und ggf. denen seines unmittelbaren Kontexts und zwar numerisch, auf Ebene von Worten oder Wortketten.
Im engeren Sinne erfolgt mit der Erfindung eine lokale Messung - wie bei einem digitalen Messgerät durch Aufaddieren von
digitalen Signalen aus einer Signalquelle- hier aus einer
Datenbank - (inhaltlicher Auszug siehe Tabelle 1) indem Sinn- Signale abgerufen werden (Bild 3.1), die bestimmten Wörtern und all deren korrekten Flexionen fest zugeordnet sind.
Bei Wörtern mit nur einer Bedeutung liegt nur ein einziges, komplettes Sinn-Signal des Wortes und aller seiner Flexionen in der Datenbank vor. Bei Wörtern mit „n" Bedeutungen (Homonyme) liegen „n" und nur „n" unterschiedliche Sinn-Signale des einzelnen Wortes und aller seiner Flexionen in der Datenbank vor .
Alle Sinn-Signale eines Wortes sind - über seine geschriebene Form als Text - aus der Datenbank abrufbar; egal in welcher Flexion es vorliegt. Ein Sinn-Signal liegt in einer normierten, alphanumerischen, arithmetisch auswertbaren, mehrdimensionalen Form vor. (Bestand-Teile der Sinn-Signale, siehe Bild 3.1;
Erläuterungen Abschnitt 3.2)
Um das kontextuell korrekte Sinn-Signal eines Homonyms mit „n" Bedeutungen innerhalb des Kontexts eines Satzes zu bestimmen, werden die „n" Sinn-Signale in allen seinen Kategorien jeweils mit denen aller anderen Sinn-Signale der Wörter des Satzes paarweise, arithmetisch aufaddiert (siehe Bilder 3.2 und Bild 5) . Dies geschieht so oft, wie unterschiedliche
Bedeutungskombinationen aller Homonyme und Wörter im Satz vorhanden sind. Das durch die arithmetische Operation veränderte Sinn-Signal des Homonyms wird jeweils - für späteren Vergleich - temporär abgespeichert. Z.B. matriziell, wie in Bild 3.2.
Kann nach dem arithmetischen Verfahren der Erfindung unter den Rechenergebnissen vom Satz, im lokalen Kontext ein Homonym festgestellt werden, das in allen seinen Sinn-Signalen durch keines der anderen Wörter des Satzes relevant verändert wird, dann ist der Satz nicht eindeutig und es erfolgt automatisch - ähnlich wie bei einer Rechtschreibprüfung - eine Meldung an den Benutzer, dass kein zulässig formulierter Text im eingegebenen Satz vorliegt (Bild 1, Bild 4, Bild 6) . Mit der Erfindung erfolgt damit sozusagen eine automatische -„Recht-Sinn-Prüfung" - des Satzes. (Vergleich zu einer Recht-Schreib-Prüfung siehe Bild 1)
Sinn-Signale können nicht nur einzelnen Wörtern fest zugeordnet werden, sondern auch vordefinierten Wortketten (u.a. sogenannte „Wendungen" z.B. „schwer auf Draht sein" = „fit sein"). Wenn im Folgenden von „Wort" oder „Wörtern" gesprochen wird, gelten sämtliche Aussagen auch für Wortketten, die kürzer sind, als der Satz selbst, in dem sie auftreten. Ist ein Wort in einer
Wortkette enthalten, für die ein eigenes Sinn-Signal existiert, so. wird für die arithmetischen Berechnungen die Wortkette wie ein einziges Wort behandelt.
Uneindeutige Sätze können weder korrekt übersetzt noch korrekt indiziert werden; sind also unbrauchbar für eine „elektronische Sinnverarbeitung" = ESV.
Deshalb ist es für „intelligente" Verarbeitung von Sprache entscheidend, ein Verfahren zu haben, das die Eindeutigkeit von Sätzen messen kann.
2. Theoretischer Hintergrund und erfindungsspezifische
Begrifflichkeiten
Der Erfindung liegt u.a. der linguistische, sprachunabhängige Sachverhalt zugrunde dass:
in Sätzen mit Homonymen - oder deren unmittelbarem Kontext - mindestens ein weiteres Wort der gleichen Hochsprache je Homonym existieren muss, : welches ein und nur- ein Sinn-Signal der :
■Homonyme jeweils gültig macht, damit der Satz einen eindeutigen Sinn in dieser bestimmten Hochsprache bekommt.
Diese Wörter - die eines der Sinn-Signale eines Homonyms im ; : Kontext „gültig" machen - werden im Folgenden.
„Sinnkomplementäre", bzw. „Komplementäre" genannt.
In der Linguistik ist der Begriff Komplement aus der
strukturellen Syntax bekannt und hat eine vollkommen andere . Funktion, als das hier heu definierte : Sinnkomplementär . Es wird, außerdem die Neutrum-Form gewählt „das Komplementär", um. eine ■■: Unterscheidung zu „der Komplementär" aus dem Wirtschaftsrecht herzustellen.
Sinnkomplementäre verändern das Sinn-Signal eines. Homonyms in Einzel-Kategorien größer Null numerisch Je größer die
arithmetische Veränderung im Sinn-Signal eines Homonyms durch andere Wörter,: desto stärker ihre Komplementarität zueinander. In Worten der Nachrichtentechnik:
Erfahren die „n" Sinn-Signale eines Homonyms in einem Satz durch seinen Kontext, in allen seinen Bedeutungsvarianten keine
Amplitudenmodulation in Amplituden seines Sinn-Signals die >0 sind, dann ist der Satz nicht eindeutig.
Im Folgenden wird beim Überlagern von Sinn-Signalen von
„Modulation" gesprochen, da dies den Vorgang am besten
umschreibt. .::
Jedes Wort kann für beliebig viele, andere Wörter ein
Komplementär sein. Deshalb muss jedes Wort einer Spräche ein eigenes. Sinn-Signal besitzen, um von Recht-Sinn-Prüfung. mit SenSzCore erkannt zu werden.
Die Sinn-Signal-Struktür in der Erfindung ist als Ergebnis empirischer Versuche so aufgebaut, dass die Komplementarität in. den gleichen Fällen auftritt, wie es ein durchschnittlich gebildeter Mensch beim Lesen eines Satzes intuitiv feststellt.
Die Sinn-Signal-Struktur ist in der Definition und Position von/ Sinn-Einzelkategorieri für alle Wörter gleich (Bild 3.1) . Sinn- Signale unterscheiden sich. lediglich in den Werten ihrer :
Einzelkategorien .
Sinn-Signale kann man sich wie mehrdimensionale, numerische Felder vorstellen;
Wörter; mit wenig Sinn, wie:„Dings" (kann fast alles bedeuten) haben in fast allen Sinn-Einzelkategorien Werte = 0.
Abstrakte Wörter: wie z.B. „Heldenmut", oder , Wörter mit: vielen Bedeutungs-Facetten wie z.B. „Lehrling" haben in vielen
Positionen Werte größer 0. Bei Komposita kann das Sinn-Signal■ des Wortes in manchen ihrer Bedeutungen weitestgehend aus der Addition der Sinn-Signale: seiner Komponenten gebildet werden.
Z.B. das Sinn-Signal von „Pferdewagen" ist die/Addition des Sinn-Signals von „Pferd 1" <zool> und
„Wagen 3" <2D Gefährt mit Roll_RädernXkein eigen_Antrieb> . Dieses Beispiel soll den grundlegenden Unterschied zwischen einem Sinn-Signal und der Definition des Wortes verdeutlichen.
- Ein Sinn-Signal ist ein numerischer Speicher von normierten Assoziationen.
- Eine Bedeutungs-Definition ist hingegen eine Kette Wörter die im Gehirn, beim Lesen Assoziationen hervorrufen kann. Siehe Vergleiche in Bild 3.1 ...
Aktuell bestehen die Sinn-Signale in der Erfindung aus 512 Sinn- Einzelkategorien und 15 Grund-Signal-Gruppen (Bild 3.1). Diese angegebenen Zahlen sind lediglich ein empirisch ermittelter, pragmatischer Wert, der im neuen Verfahren gute Ergebnisse liefert, wenn man Berechnungen der Erfindung mit den
Wahrnehmungen von Menschen - zur Eindeutigkeit von Sätzen - vergleicht. Es kann aber auch mit anderen Werten gearbeitet werden. Weniger als 50 Einzelkategorien und weniger als 3 Grund- Signal-Gruppen führen jedoch i.d.R. zu unbrauchbaren
Ergebnissen, die darum ähnlich schlecht sind, wie z.B.
Übersetzungsmaschinen nach dem Stand der Technik.
Für die deutsche Sprache liegt der Erfindung eine Datenbank von ca. 50 Millionen Wörtern vor (ca. 0,1% gegenüber dem Volumen an Wörtern in statistischen Übersetzungsprogrammen nach dem Stand der Technik), die sich aus den flektierten Formen von ca. 1 Million unterschiedlichen Wörtern in Grundform zusammensetzen, die wiederum aus Sinn-Signalen bestehen, die man aus ca. 20.000 relevanten Grund-Sinn-Signälen einer Hochsprache zusammensetzen kann.
Diese feine Auflösung entspricht dem Sprachgebrauch aus dem geschäftlichen Alltag - technisch, kaufmännisch,
wissenschaftlich.
Eingeschränktere Fach-Sprachräume wie z.B. die Gastronomie könnten bereits mit 1/10 dieses Wortvolumens ausreichend gut beschrieben werden. Für gute Ergebnisse in eingeschränkten
Ontologien7 muss aber der volle Umfang aller Homonyme von
Allgemeinsprache und dem eingeschränkten Fach-Sprachraum mit in der Auswahl enthalten sein. 2.1 Strukturelle Hinweise zum SenSzCore Datenbestand:
Wörter A, Αλ, ... mit gleichem Sinn-Signal und unterschiedlich geschrieben wie ein anderes Wort B sind Synonyme von B.
Wörter A, A ... mit unterschiedlichem Sinn-Signal und gleich geschrieben wie ein anderes Wort B sind Homonyme von B.
Wörter A, A ... mit weitgehend ähnlichem, aber kürzerem Sinn- Signal als ein anderes Wort B können Hyperonyme von B sein
Wörter A, A ... mit weitgehend ähnlichem, aber längerem Sinn- Signal als ein anderes Wort B können Hyponyme von B sein.
Es existieren je Hochsprache ca. 50.000 relevante
Synonymgruppen mit durchschnittlich ca. 8 Synonymen.
Wörter einer Hochsprache die keine relevanten Synonyme haben, werden^ im Folgenden „Einzelgänger" genannt.
100%ige Synonyme sind i.d.R. lediglich Schreibvarianten eines Wortes (z.B. Photo/Foto). In den- Datenbeständen der Erfindung werden Wörter mit Sinn-Signalen die zueinander eine Überdeckung Von > 85% haben, als Synonyme geführt. Die Entscheidung wird aber bei Erstellung der Daten -vorab- manuell1 getroffen und folgt der Regel: Synonyme sind Wörter, die in einem Satz untereinander ausgetauscht werden können, ohne; den Satz-Sinn relevant zu verändern.
Eine weitere wichtige Eigenschaft; von Sinn-Signalen ist, dass sie sprachinvariant sind. Daraus folgt: Alle Wörter äquivalenter ■Synonymgruppen haben in allen Sprachen die gleichen Sinn- Signale .
Die Berechnungen von „Recht-Sinn-Prüfung" anhand von ;Sinn- ■. Signalen, können also unabhängig von der Ausgangssprache;
erfolgen .
Sinn-Signale sind bereichsweise additiv. Innerhalb eines Sinn- . Signales sind, ebenfalls mehrdimensionale Valenzbezüge zwischen Sinn-Einzelkategorien möglich und vorhanden (siehe
Einschränkungsverweise (EV) in Bild 3.1; Abschnitt 3.2).
2.2 Hinweise zu Funktion und Begrifflichkeiten anhand von
Beispielen Beispiel AI : „Wir; werden sie anziehen": :
Hier liegt für den Satz eine transitive Bedeutung des Verbs „anziehen" vor, für die in der SenSzCore Datenbank 10
unterschiedliche, transitive Sinn-Signale enthalten sind.
U.a. (stark vereinfachte Darstellung) Homonym Kurzbeschreibung Beispiel anzlehenl ;= Kleidung anlegen, ... (z.B. Hose)
anziehen2 = Kraftschluss erhöhen, ... (z.B. Schraube) anzie.hen3 = Wertstellung erhöhen, ... (z.B.' Preise)
anziehen4 = attraktive Feld-Kraft ausüben, ...
(z.B. mit Magnet) anziehen5 = auf jdri. mental attraktiv wirken, (z.B. durch Worte] anziehenö = Daten verfügbar machen, ... (z.B. Zitat)"1 ·
anziehen7 = retrahieren, nicht strecken, ... (z.B. Bein) anziehen8 = mittelbare, attraktive-Kraft ausüben, ;!...
(z.B. Klotz mit Seil)
Im Beispiel AI: „Wir werden sie anziehen" würde das Hinzufügen z.B. von „Hose" Eindeutigkeit schaffen:
„Wir werden die Hose anziehen".
Das Sinn-Signal von „Hose" trägt in mehreren Sinn-Signal- Kategorien Werte, die auch mit belegten Kategorien vom: Sinn- : Signal von „änziehenl": „Kleidung anlegen" übereinstimmen.
Das Sinn-Signal von „anziehen" in der Bedeutung „Kleidung anlegen" ändert sich also durch die Anwesenheit von „Hose" im : Satz siqnifikant . ; „Hose" und „anziehen" sind deshalb im Satz „Wir werden die Hose anziehen." komplementär.
Die Sinn-Signale von „Hose" und „anziehen" modulieren sich signifikant in jeweils 1 ihrer Bedeutungsmöglichkeiten. In allen anderen ihrer Bedeutungen modulieren sie sich gegenseitig nicht oder: deutlich schwächer.:
Desgleichen entstünde Eindeutigkeit des Satzes, mit den jeweils anderen Sinn-Signalen von „anziehen", wenn man schreibt: :
Wir werden die Preise anziehen." (=erhöhen) , oder
Wir werden die Beine anziehen" (=anwinkeln) , oder
Wir werden die Schraube anziehen" (=festziehen) usw.
Jedes der : hinzugefügten Wörter zu Beispiel : AI moduliert als Komplementär eine andere Bedeutung von „anziehen" und: validiert automatisch eine einzige, bestimmte, andere, korrekte Messung und macht sie damit automatisch verarbeitbar. Das Homonym wird : durch das Komplementär „gültig gemacht":.
Bei jedem Satz der „anziehen" - transitiv - enthält, wird
SenSzCore in einer ähnlichen Form auf Komplementäre reagieren. z.B. „Rock 2 <Kleidung>", „Gehälter <econ>", „Arm <anat>", „Dehnschraube <mech>", „Bremse 3 <mech>" u.v.a. führen genauso zu einer korrekten/ automatischen Berechnung der lokalen, transitiven Bedeutung von „anziehen"/ wie die bereits oben
: genannten Komplementäre in Beispiel AI.
Würde man die genannten Komplementäre in einen: Satz davor schreiben:
Beispiel A2 :
„Wir haben die Marktpreise sorgfältig geprüft. Wir werden si anziehen.", so erkennt die. Erfindung den Bezug zwischen „sie vom Satz 2 und „Marktpreise" vom Satz 1 und berechnet die
Bedeutung :„erhöhen" von „anziehen" automatisch als relevant.
Diesen Zustand nennen wir im Folgenden: „Satzübergreifende
Komplementarität". Diese tritt sehr häufig mit .„deiktischen Verweisen im Satz. auf. Die Funktion der Erfindung erlaubt auch die automatische Auswahl der korrekten Bedeutung eines Homonyms, wenn mehrere
Komplementäre im Satz vorkommen:
Beispiel A3:
„Er nimmt den Schraubenschlüssel aus der Hose und wird die Schraube anziehen."
Hier wird „Schraube" und nicht „Hose" das Komplementär von „anziehen". Die Erfindung erkennt durch die Konjunktion „und" das Subjekt „Schraube" im zweiten Hauptsatz, wodurch die Suche nach Komplementären auf diesen zweiten Hauptsatz beschränkt wird.
Sind mehrere Homonyme syntaktisch voneinander nicht scharf getrennt (z.B. wie es durch Konjunktionen der Fall wäre), erfolgt grundsätzlich die gleiche Standard-Prozedur, wie wenn der Satz nur ein einziges Homonym hat. Alle Sinn-Signale der Wörter des Satzes werden mit allen Sinn-Signalen aller anderen Wörter syntaktisch abgrenzbarer Satzteile verglichen. I.d.R. treten die Komplementäre in dieser Art Sätze nur in
unmittelbarer Nähe zu ihren Homonymen auf - ansonsten wären diese Sätze nämlich nur sehr schwer verständlich. Deshalb wird in der Erfindung bei Sequenzen von mehreren Homonymen die
Distanz im Satz zueinander mitbewertet. I.d.R. kann bei diesem Vorgehen auch die Subjekt-Ob ekt-Relation hilfreich sein.
Moduliert ein Homonym mit mehreren anderen Homonymen, dann. wird dasjenige Sinn-Signal der anderen Homonyme bevorzugt, worin sie sich untereinander am meisten ähneln. Diesen Zustand nennen wir im Folgenden „multiple Komplementarität". Bestehen zum Abschluss der Berechnungen mehr als eine gleichwertige Möglichkeit, ist der Sinn des Satzes nicht eindeutig und die „Recht-Sinn-Prüfung" erzeugt automatisch eine Fehler-Meldung.
Zur Vollständigkeit noch ein Beispiel.
Beispiel A4: „Er ist am anziehen", bei dem die intransitiven7. Bedeutungen von "anziehen" verwendet werden müssen.
Diese sind:
Homonym Kurzbeschreibung Beispiel anziehenll = antriebsbehaftete Kraft ausüben, ...
(z.B. Lokomotive) anziehenl2 = stoffliche Struktur aktiv verändern, ...
; (z.B. Klebstoff)
Hier ist der Satz A4 an sich logischerweise nicht eindeutig . : ■Erst passende Komplementäre des Sinn-Signals von
antriebsbehafteten Objekten wie „Lok" für anziehenll „Die Lok ist am anziehen", oder chemisch aktive Materialien wie „Kleber" für anziehenl2 „Der Kleber ist am anziehen", führen mit in der Erfindung zu einer korrekten Sinn-Zuordnung. Die Verwendung z.B. von „Hose" in „Die Hose ist am anziehen" führt hingegen - mangels Komplementarität - zu einer Fehler-Meldung der „Recht- Sinn-Prüfung".
Hose hat nämlich im■; Sinn-Signal keine Werte in- Kategorien wie „kann antriebsbehaftete Kraft ausüben" oder/„kann stoffliche Struktur aktiv verändern" die anziehen in intransitiver,
syntaktischer Funktion modulieren.
2.3 Hinweise zu Funktion und. Begrifflichkeiten anhand von
Beispielen mit Übersetzungen nach dem Stand der Technik
Besonders eindrucksvoll wird die Schwierigkeit der
automatischen, elektronischen Sinnverarbeitung „ESV" und die präzise, einfache Funktion der Erfindung deutlich, durch
typische Fehler von namhaften Übersetzungsmaschinen nach dem Stand der Technik. '
/Zuerst Bemerkungen zum Stand der Technik: (Tabelle 2 )
In Bl und;B2 wird offensichtlich die häufigste Verwendung von Zug in der Übersetzung verwendet: "train". Dies ist das typische Ergebnis einer statistischen Vorgehensweise um den „Sinn" zu ermitteln. Im Beispiel Bl ist sogar jedes der 3 Homonyme Zug, Lauf und Geschoss im Sinn falsch erfasst und somit falsch übersetzt .
In Bl wird für „Lauf" der Sinn von „Rennen" verwendet, anstatt der Bedeutung des „Gewehrlaufes".
In Bl wird für „Geschoss" die Bedeutung „floor" verwendet, also das Geschoss eines Hauses und nicht das Projektil.
In B3 und B4 wird für „Geschoss" die Bedeutung „bullet"
verwendet, anstatt die des Geschosses eines Hauses, „floor".
Durch „Recht-Sinn-Prüfung" erhält man in diesen 4 Beispielen ausschließlich korrekte Interpretationen, weil in jedem Beispiel ausreichend Komplementäre enthalten sind, die die Eindeutigkeit jedes Satzes arithmetisch bestimmen:
In Bl : verleiht „Geschoss" den Bedeutungen von „Zug" und „Lauf" eine hohe Priorität in deren „waffenbezogenen" Bedeutungen, (engl.: „groove" für Zug und „barrel" für Feuerwaffen-Lauf) und ergibt damit - unter Verwendung multipler Komplementarität - die korrekte Übersetzung der Erfindung ins Englische: „In the groove of the barrel the projectile gets a rotation around his
longitudinal axis." Siehe auch Bild 2 und Tabelle 1.
In B2 verleiht „Zigarette" dem „Zug" vom „Lungenzug" die
Priorität. (Engl. = „puff") und ergibt damit die korrekte
Übersetzung von SenSzCore ins Englische: „In the course of the last minute I took just one deep puff from the; cigarette . "
In B3 sind Gefahrenausgang und Gebäude die Komplementäre für „Geschoss" eines Gebäudes (engl, „floor") und ergeben damit die korrekte Übersetzung der Erfindung ins Englische: „The floor must have an emergency exit on the rear of the building."
In B4 sind „Personen" und „sperren" die Komplementäre für „Geschoss" eines Gebäudes (engl, floor). Im zweiten Satzteil verleiht das Wort „Sturm" u.a. über seine Mobilitäts- und
Dimensions-Werte im Sinn-Signal der Wortgruppe „im Anzug sein" die Komplementarität von der Synonymgruppe „heranziehen" (engl. „be approaching") und ergibt damit: die korrekte Übersetzung von SenSzCore ins Englische: „The floor wasibarred for persons, because a storm was approaching." Man beachte, dass eine
Komplementarität für Anzug im Sinne Kleidung, in diesem Satz nicht vorhanden ist.
Wichtige Anmerkung:
Die Qualität einer : Übersetzung wird u.a. dadurch bestimmt, dass Homonyme in der Zielsprache auch die korrekten Komplementäre der anderen Sprache im Satz vorfinden. Auch dies ist durch die Struktur und den Aufbau der Erfindung automatisch
sichergestellt: Durch Auswahl der Übersetzungen aus
Synönymgruppen, die in allen Sprachen einem gleichen Sinn-Signal zugeordnet sind,"■. bleibt die Sinnkomplementärität der Wörter nach der Übersetzung zwangsweise erhalten.
Zur Übersicht typischer Schwierigkeiten der Sinnzuordnungen im Stand der Technik, gegenüber der Erfindung sind die letzten Beispiele nochmals in Tabelle 3 zusammengefasst .
3. Detaillierte Beschreibung der Erfindung Die Bilder
3.1 .: Übersicht der Struktur und inhaltlichem Aufbau von
Sinn-Signalen ' ··
3.2 : Typische Werte-Abgleich-Matrix für den Abgleich von
: Sinn-Signalen .
4 u. 6 : -System-Übersicht von Recht-Sinn-Prüfung:
5 : Flussdiagramm : zur Berechnung der Sinn-Scores von Wörtern
(Ablauf Box 4.11 in Bild 4)
erläutern die Grundbausteine und die Abläufe der Erfindung im : Detail.
3.1 Erläuterung der Abläufe in Bildern 4 + 6 :
Über eine Dateneingabe z.B. mittels eines Datensichtgerätes oder eine Spracherkennung und entsprechende Signalumwandlung, erreicht verarbeitbarer Text das computerimplementierte System Recht-Sinn-Prüfung (Bildabschnitte 4.5 bis 4.13 in Bild 4) ..
Die Erfindung kann auch in abstrakter Form als:
„computerimplementierter, kontext-sensitiver Signal-Wandler + Messgerät" beschrieben werden.
In der Erfindung werden nämlich reine Buchstaben-Signale in Sinn-Signale umgewandelt, mit Hilfe eines Messgerätes, das a) feststellt ob der Text-Input eindeutig ist und
b) wenn ja, zu jeder Buchstabenkette ohne Leerzeichen ein korrektes Sinn-Signal - bezogen auf den Kontext des Satzesverknüpft.
Die Recht-^Sinn-Prüfung verarbeitet den Text Satzweise.
:Die Verarbeitung von Einzelwörtern ist nicht vorgesehen, · es sei denn, es sind Sätze der Länge = l_Wort die eine besondere, semantische/syntaktische Funktion haben (z.B. Interjektionen wie „Hallo!", „Bitte!"; oder unpersönliche Verben z.B. in
romanischen Sprachen: Spanisch: „Llueve.", Italienisch: „Piove." ... = „Es regnet.").
Nachdem in 4.5.1 : die Existenz aller Wörter des Satzes mit den Daten des EDV-Systems 4.7 abgeglichen und positiv ist; (also alle Fälle, wo die Buchstabenkömbination selbst nicht zum Ausschluss führt, z.B. „haven" anstatt „haben" oder „haken" usw.), erfolgt ein rekursiver, automatischer Arbeitsgang, in dem für alle
Wörter, deren Syntaktische Funktion im Satz ermittelt wird.
Dafür ist die Nützung klassischer „Parse-Trees" nicht
erforderlich. Über die Sinn-Signale von Partikeln und der nachfolgenden Wörter ist in über 85% { Eigene, empirische
Auswertungen von tausenden von Sätzen.} der praktischen Fälle die Bestimmung der syntaktischen Funktion jedes Wortes möglich, wenn keine strukturellen Rechtschreibfehler vorliegen
(strukturelle Rechtschreibfehler = falsche Buchstaben) .
Ist die Bestimmung der syntaktischen Funktion jedes Wortes nicht möglich (ca. 15% der Fälle = alle: Wörter existieren, :aber. deren syntaktische Funktion ist nicht eindeutig feststellbar) wird sie mit der Berechnung vört Sinn-Signalen in einzelnen Wort-Paarungen unterstützt, deren. syntaktische Funktion nicht; ausschließlich über ihre Position zueinander bestimmt werden kann.
Dies berücksichtigt auch bereits eventuelle syntaktische
Rechtschreibfehler, von Wörtern die z.B. im Deutschen sowohl Groß- und Kleinschreibung eines Wortes zulassen, die aber beim vorliegenden Satz nicht korrekt ist (z.B. „Wir Karren den Mist vom Hof."). Hier sind mehrere rekursive Schleifen zwischen 4.5.1 und 4.5.2 möglich.
Z.B. „Die liegen am Pool waren Besetzt." ... wird 2 Durchläufe erfordern. (Die komplett falsche, strukturelle Rechtschreibung ist ja bereits über 4.5.1 ausgeschlossen).
Man beachte, dass gängige Rechtschreibprüfungen nach dem Stand der Technik z.B. bei „Wir Karren den Mist vom Hof.", im
Gegensatz zu SenSzCore - vom Funktionsprinzip her -, keinen Fehler anzeigen können ... und es auch nicht tun.
Besteht keine Eindeutigkeit in der Syntax selbst - d.h. ein Wort kann z.B. nur ein Substantiv sein, wird aber mit einem Adverb benutzt, z.B. „Ich will schnell Auto.", erfolgen automatische Benutzerdialoge 4.9 bzw. über den Benutzer-Interaktions-Manager Bild 6 (7) auf höherer Ebene, welche die grundsätzliche, syntaktische Fehlerhaftigkeit des Satzes anzeigen. Es erfolgt die automatische Anzeige der Ausschlusskriterien, jedoch in diesem Falle keine Angabe von Korrekturmöglichkeiten.
Ist die Syntax des Satzes eindeutig, erfolgt eine Recht-Sinn- Prüfung 4.11 nach dem in Bild 5 dargestellten, automatischen Ablauf.
Dieser wird durch das EDV-System 4.7 und entsprechende
Datenbestände, Zwischenspeicherungsmöglichkeiten, sowie
arithmetischen Berechnungsfunktionen unterstützt. (Siehe auch Erläuterungen zu Bild 3.1 und 3.2).
Es ist zu berücksichtigen, dass SenSzCore zunächst keine
Uneindeutigkeiten bewertet, die rein logischer Natur sind:
Z.B. der Satz „Meine alte Freundin hatte gestern Husten.": Nach Sinn-Signalen ist der Satz eindeutig. Ob nun die „Freundin alt ist" oder es sich um „eine langjährige Freundin handelt" bleibt ein Geheimnis des Autors des Satzes. Diese logische
Uneindeutigkeit wird bei Übersetzungen mit SenSzCore
aufrechterhalten, ohne dass sie zu einem semantischen Fehler in der anderen Sprache führt. Es ist u.a. ein Qualitätsmerkmal jeder Übersetzung, dass logische Inhalte des Satzes in der Zielsprache nicht unnötig verändert werden.
Mit SenSzCore liegen nach Abschluss der Berechnungen 4.11 - wenn der Satz eindeutig ist - nun auch für alle Wörter, deren gängigste Synonyme vor. Diese werden dem Benutzer auf Wunsch in der Autotranslation 4.8 angezeigt. Hat der Benutzer z.B. den Satz eingegeben: „Ich nahm einen tiefen Zug aus der Zigarette", erhält er über die Autotranslation, 4.8 einen Satz, bei dem die flektierbaren Homonyme durch ihre relevantesten Synonyme aus der Datenbank 4.7 ersetzt sind. In diesem Fall erhält der User: „Ich nahm einen tiefen , Lungenzug λ aus der , Filterzigarette . Diese Funktion soll dem Nutzer auf Wunsch - in seiner Sprache - anzeigen, dass der Sinn den er ausdrücken wollte, von SenSzCore korrekt erkannt wurde, indem es sinngemäß korrekte Synonyme ersetzt.
Man beachte nochmals den fundamentalen Unterschied zwischen den Aussagen 4.4 (-vor- Recht-Sinn-Prüfung) und 4.12 (-nach- Recht- Sinn-Prüfung) in den Positionen 1) und 2).
Die Erfindung hat nun einen Text ohne semantische Informationen z.B. 2.1. AI in einen Text mit semantischen Informationen 2.1.A2 umgewandelt, die ausschließlich aus dem Abgleich der Sinn- Signale zwischen den Wörtern des Satzes berechnet wurde und im Inputsatz - explizit - vorher nicht enthalten war. Siehe auch weitere Informationen in Bild 2.
Nach Abschlüss der Berechnungen kann für den Satz, informatisch eine Ersatz-Darstellung mit codierten Werten erstellt werden, die den Sinn-Signalen der Wörter entsprechen (Bild 4.13) inklusive ihrer syntaktischen und morphologischen Information die ja auch von SenSzCore ermittelt wurde. Diese Zusatz- Information ist damit auf mehrfache Art indizierbar.
Entscheidend ist, dass die mathematische Univozität zwischen Sinn-Signalen und codierten Werten der Indizierung
informationstechnisch bekannt bleibt. Die Indizierung erfolgt vorteilhafterweise über das Sinn-Signal selbst, kann aber auch durch andere, userspezifische Codes ergänzt, bzw. ersetzt werden, die das Sinn-Signal erst bei späterer Nutzung aus gekoppelten Daten abrufen. Ein so codierter Satz kann nun vorteilhaft in den gelisteten Funktionen 4.14 bis 4.19 weiterverarbeitet werden.
Eine serielle Verarbeitung wird bei Übersetzungen (4.14) und User-Dialogen (4.16), sowie Suchmaschinen (4.17) erfolgen.
Bei den anderen Funktionen wird häufig bereits vorher, ein rekursiver Ablauf mit (4.7), (4.9), (4.11) erforderlich sein. Rekursive Schleifen vorab, geschehen insbesondere bei der
Spracherkennung (4.15), der Rechtschreibprüfung (4.18) oder der Worterkennung (4.19). Hier spielen auch die Abläufe 4.5.1 und 4.5.2 eine stärkere Rolle in der Interaktion mit dem Benutzer als bei den anderen Funktionen.
Ein ganz wichtiger, operativer Vorteil der Erfindung ist, dass bei interaktiver Arbeitsweise für den Benutzer ständig klar ist, wie gut sein Text im Sinne semantischer Eindeutigkeit ist und dass er sofort eingreifen kann. Personen die gut schreiben, im Sinne Verständlichkeit, Grammatik und Syntax erhalten kaum
Rückfragen des Systems.
Erfolgt die Benutzung offline, z.B. beim Übersetzen großer
Mengen Text, kann das System so geschaltet werden, dass
sämtliche Rückfragen im Batch, als Nacharbeit abgearbeitet werden können.
Erläuterungen zu BILD 6
Für die Zuordnung der Ansprüche in Abschnitt 4, wurde die
Darstellung in Bild 6 gewählt. In Bild 6 ist die Rekursivität der Abläufe der Schritte 4.5 bis 4.11 formeller dargestellt und mit Einzelergebnissen verknüpft um die Ansprüche einfacher formulieren zu können. Für das Verständnis der Abläufe an sich, im System, sind mit Bild 4 die einfacheren Erläuterungen für einen Fachmann möglich.
Modulator (2) von Bild 6 stellt praktisch die mehrfachen
Durchläufe 4.5 bis 4.11 dar, bis kein Wort mehr mit
grundsätzlichen Rechtschreibfehlern vorliegt. Modulator (3) von Bild 6 stellt die mehrfachen rekursiven Durchläufe dar, bis die Analyse des Satzes selbst, in syntaktischem, morphologischen Sinne, sowie seiner Eindeutigkeits-Messung abgeschlossen ist. In diesem Sinne enthält Bild 4 eine stark operative Darstellung der Erfindung zur besseren Erläuterung der Einzelfunktionen.
Bild 6. enthält eine formell vereinfachte Darstellung der
Erfindung zur besseren Darstellung unterschiedlicher,
beanspruchter Anweridungsmöglichkeiten der Erfindung.
Bilder 4 und 6 weisen also nur Unterschiede im Abstraktionsgrad der Darstellung auf, jedoch keine funktionellen Unterschiede.
3.2 Erläuterungen zu BILD 3.1
Die Tabelle von Bild 3.1 ist im übertragenen Sinne, wie die 2- . Dimensionale-Prinzipskizze eines mehr als 3-dimensionalen
Zählenräümes zu sehen. Sie erläutert das Aufbau-, Anordnungsund Züördnüngsprinzip von Sinn-Signalen, nicht aber eine visuell erfassbare Struktur an sich.
Auf stark vereinfachte Form ausgedrückt, ist ein Sinnsignal der Inhalt einer Spalte in Bild 3.1 ab Spalte „D" .
Sinn-Signale stellen ein informatisches Hilfsmittel dar, das den Softwarealgorithmen der Erfindung erlaubt - die durch den vorhandenen Text und Kontext automatisch gesteuert werden — implizite Informationen^ aus Texten zu extrahieren.
Bild 3.1 zeigt ein in 2 Dimensionen lesbaren Auszug der Sinn- Signale für 9 Wörter. (Wörter .siehe Koordinaten Dl bis Ml) : Bild 3.1 ist auch eine Hilfestellung um Bild 3.2 einfacher
nachyollziehen zu können . Dort wird der Satz: „Der . Stift :
schreibt nicht ;; analysiert . Diese Wörter sind in : Bild 3.1 gelistet .
In den Kopfzeilen C1-M5 sind allgemeine Erlauterungen zu den Wörtern enthalten. Ab Zeile 6 sind erfindungsspezifische Inhalte dargestellt. Man beächte, dass die Informationen in Zeile 3, übliche Wörterbuch-Informationen darstellen, die keine
erfindungsspezifische Relevanz haben, da mit ihnen keine
Modulation zwischen Homonymen und Komplementären berechnet werden kann. Zeilen 9 bis 42 zeigen für jedes Wort einen Auszug (cä. 10% des Gesamtumfangs) seines Sinn-Signals. Spalten B und C (Sinnsignal-Kategorie 2 und Sinn-Signal-Kätegorie 4) stellen eine verbale Zuordnung - also eine Merkmalsbeschreibung - des j eweiligen Sinn-Signal-Einzelwertes dar. Sie sind nur zu
Erläuterungszwecken dargestellt. In Zeile 7 steht für jedes Wort die Anzahl belegte Felder im Sinn-Signal Und rechts neben dem Schrägstrich die Anzahl Einschränkungsverweise (EV) . Z.B. für „schreiben 1" 86 \ 3.
Einschränkungsverweise stellen situative Attribute dar, nach denen die Werte von Kategorien in Sinn-Signalen in Abhängigkeit des Kontextes1 automatisch zu- oder abgeschaltet werden können. Z.B. sind einem Gebäude („Stift 4.1". Spalte I, Zeilen 10, 37., : 39, 41) während der Herstellung Eigenschaften (= Merkmale + : Werte) mit dem Kürzel H (von Herstellung) zugeordnet, die das Gebäude während seiner späteren Nützung nicht hat, sondern nur: während seiner Bauzeit.
Der Zusatz F, z.B. in Zelle F27 bei „Stift 1" vermerkt eine Funktionsanforderung. Homonyme eines Wortes ohne regelmäßige, feste Oberfläche werden mit Stift 1 schlechter modulieren, als die, die eine feste, regelmäßige Oberfläche haben.
Andere: Attribute werden z.B. durch die Einschränkungs^Verweise (EV) aktiviert, wenn im Umfeld des Wortes Sinn-Signale
auftreten, die den Triggerworten in Zeile 6 des Sinn-Signals zugeordnet sind.
Man beachte, dass auf diese Weise im Satz auch ein Muster der Einschränkungsverweise (EV) entsteht, welches ebenfalls - wie die Modulation von Homonymen mit. Komplementären - nicht
explizite,: kontextuelle Information erzeugt.
Z.B. ist im Satz: „Der Stift (3) hört dem Lehrer nicht zu." ein (EV) -Muster von u.a. „Schule 9 (Institution oder Gebäude)" enthalten, welches wiederum für andere Homonyme im Kontext des Satzes ais Sinn-Signal zum Komplementär werden: kann. Die Sinn- Signale von (EV) -Mustern werden von SenSzCore bei den
Berechnungen automatisch abgerufen, und über mehrere Sätze, oder bis zum Absatzende eines Textes kombiniert, automatisch
gespeichert bzw. laufend ergänzt.
Diese Effekte sind Grundlage dafür, dass mit Sinn-Signalen über (EV) auch logische Schlüsse aus dem Kontext gezogen werden können. (EV) sind also auch eine der Grundlagen, dass SenSzCore bei eindeutigen Sätzen, auch automatisch „zwischen den Zeilen" lesen kann.
Vor allem auch bei Kombination mit z.B. Adverbien aller Art, zeitlichen\örtlichen\begründenden\bzw. modalen Präpositionen oder logischen Operatoren (nicht, und, oder, usw. ) , können in vielen Sätzen logische Inferenzen erkannt und zur
Weiterverarbeitung in geeigneter Weise gespeichert
werden. (Ausführungsformen Nr. 44 -47)
Da für (EV) die Sinn-Signale bekannt sind, können auch alle Synonyme, Hyperonyme und Hyponyme des (EV) auf die gleiche Weise aktiv werden, inklusive aller ihrer Flexionen, wie der explizit angegebene (EV) selbst. Z.B., wenn „Gebäude" in einem Wort als (EV) eingetragen ist, werden auch z.B. „Bauwerk", „Hochhaus", „Haus", „Regierungsgebäude", usw. sowie alle ihre Deklinationen und Plurale in der „Recht-Sinn-Prüfung" automatisch aktiviert sein, wobei auch zwischen allgemeineren Ausdrücken oder
konkreteren wie Regierungsgebäude im Sinn-Signal Unterschiede vorhanden sind. Im Regierungsgebäude sind im Sinn-Signal
Positionen belegt, die Sozial-Politische Komponenten enthalten, die wiederum mit dem Einschränkungsverweis Berufsausübung verknüpft sind.
Man beachte, dass in der operativen Ausführung, die Markierung der (EV) mit nicht-numerischen Zeichen in einer anderen Index- Ebene stattfindet. Sinn-Signale enthalten also immer, im
arithmetischen Teil arithmetisch verarbeitbare Werte. Alle anderen Komponenten sind in anderen Index-Dimensionen enthalten und automatisch abrüfbar bzw. kombinierbar.
Die Merkmale in Spalten A, B und C der einzelnen Sinn-Signal- Werte stellen keine Teildefinitionen der Wörter an sich dar, sondern u.a. Assoziationen des gesunden Menschenverstandes, in etwa, wie wenn man eine Bildgeschichte zum jeweiligen Wort zeichnen würde. Es muss in dieser Bildgeschichte dargestellt sein, welche Merkmale - auch in abstrahierter Form- assoziiert werden. Es muss dargestellt sein, welche handelnden Subjektarten / Objektarten, welche Trigger, welche Dimensionen beim Gebrauch des Wortes relevant assoziiert werden, usw. Zum Verständnis der Struktur von Sinn-Signalen können im weitesten Sinne auch die Grundzüge des Aufbaus von Konstruktionskatalogen { Konstruieren mit Konstruktionskatalogen ISBN 3-540-67026-2} dienen.
Da Kategorisierungen immer willkürlich und relativ sind, kann auch die Kategorisierung für Sinn-Signale keinen absoluten Anspruch erheben. Für jede Kategorisierung kann höchstens ihr Nützlichkeitsgrad in Bezug zu ihrer bezogenen Anwendung bewertet werden. Der primäre Nutzen dieser Form der Kategorisierung der Sinn-signale für Wörter ist, dass sie so aufgebaut ist, dass:
1. So wenige Merkmale genutzt werden müssen wie nötig.
2. So viele Merkmale enthalten sind, dass für alle Wörter einer Sprache, ausreichend viele, relevante Assoziationen vermerkt sind, so dass Homonyme nur durch die richtigen
Komplementäre moduliert werden.
3. Verknüpfungsebenen enthalten sind, welche je nach
Applikationsumfeld des Wortes das Sinn-Signal beeinflussen können (= Einschränkungs-verweise (EV) in Zeile 6) . Man beachte, dass alle Triggerworte der (EV) in Homonym-Notation auftreten (= Wort + lfd. Homonym- ummer in unseren
Datenbeständen) . Damit ist auch jeweils ihr eigenes Basis-Sinn- Signal fixiert, egal in welcher Flexion sie auftreten.
4. Die Modulation von Homonymen eines Satzes durch
Komplementäre mit maximaler Häufigkeit im Satz/Kontext so ausfällt, wie sie ein Mensch mit guten Kenntnissen der
Hochsprache den Satz bezüglich Eindeutigkeit beurteilt hätte.
Die Herleitung der Sinn-Signal-Kategorien selbst, basiert in weiten Teilen auf einer Baumstruktur, aufbauend auf den
Grundelementen Materie, Informationen, Energie, und Zeit ergänzt durch emotionale, vegetative, Trigger-, Ablauf- und Raum\Ort- Merkmale. Kategorie 1 ist Kategorie 2 vorgeschaltet. Kategorie 3 ist in dieser Darstellung - aus Platzgründen- in Kategorie 2 enthalten. Kategorie 4 stellt den Hinweis dar, den die Ersteller von Sinn-Signalen lesen - beim Erstellen des Datenbestandes der Erfindung -, um dem Sinn-Signal einen Wert zuzuordnen oder nicht. Das Arbeitsvolumen Sinn-Signale zu erstellen, entspricht etwa dem Aufwand ein Großwöfterbuch zu erstellen, allerdings mit einer ganz speziellen, numerischen Notation .. Die Zuordnung der Einzelwerte im Sinn-Signal erfolgt in den meisten Fällen unscharf (eher ja, eher nein) und im Falle von ja, mit Werten die größer als 1 sind, wenn von der Eirtzel-Assoziation „viel" vorhanden ist. Andere Zuordnurtgsformen werden z.B. bei
Materieeigenschaften wie Dichte zu Wasser verwendet (Bild 3.1 Zeile 17). Hier sagt der Wert 1 = leichter, 2 = gleich, 3= schwerer. Genauso bei Luft.
Solche Werte haben zur Folge, z.B. im Satz: „Das Fahrzeug:, schwebt in der Luft.", dass das Sinn-Signal eines Zeppelins mit dem (EV) „Nutzung" eine höhere Modulation mit „schweben" erhält, als z.B. ein "Auto" oder ein „Flugzeug . Im Falle von Auto oder Flugzeug, sogar : eine Kömpatibilitäts-Rückfrage eines Logik- Inferenz-Programms ausgelöst werden kann.
3.3 Erläuterungen zu Bild 3.2:
Zu sehen ist der Auszug der Berechnungen für den Satz: „ Der Stift schreibt nicht." Dieser Satz ist nicht eindeutig.
Das Verb „schreiben" hat 4 Bedeutungen und „Stift" hat 12. : Felder, 1.1 bis 4.20 sind irrelevant, denn sie sind symmetrisch zu den belegten, ohne Zusatzinformation.
Schwarze, diagonale Felder sind irrelevant, da Vergleich jedes Wortes mit sich selbst..
Felder 1.1 bis 4.4 und 6.6 bis 20.20 sind hier; ebenfalls
irrelevant, da sie lediglich Bedeutungen eines Homonyms .
untereinander vergleichen.
In der Matrix sind 35 Zellen mit „XX" . Markiert . Weitere Felder.: enthalten Zahlen zwischen 30% und 100%.
„XX" bedeutet, dass rechnerische, logische und oder
morphologische/syntaktische Vergleiche zwischen den Sinn- Signalen der beteiligten Bedeutungen zum Ausschluss der
Kombination geführt haben.
Prozent-Werte stellen den Sinn-Modulationsgrad der Sinn-Signale der Wörter dar, die sich im Feld kreuzen. Die mit XX markierten Zellen verweisen in diesem Fall konkret darauf, dass a. bei „schreiben 1" , das Verb keine motorische Tätigkeit vom Subjekt des Satzes zulässt, wenn dieses eine Sache ist: dann kann lediglich eine Funktion ausgeübt werden, wie hier
„schreiben 3"
b. „schreiben 3" - also die Schreibfunktion eines
Werkzeuges/Gerätes - kann nicht auf ein Lebewesen als Subjekt („Stift") appliziert werden
c. bei „das Stift" (Zeilen 9, 10, 13, 14, 15, 16) z.B. hinzukommt, dass der Artikel (Genus) mit dem des Beispiel-Satzes nicht übereinstimmt.
d. In Zeile 4 sind keine „XX" eingetragen, da die Variante insgesamt entfällt (Im Beispielsatz liegt keine reflexive
Anwendung von schreiben vor) .
Schreibt man nun automatisch eine Liste, die die Modulations^ Ergebnisse nach Größe absteigend sortiert, erhält man ein Sinn- Sig al-Intersection-Ranking (SSIR) .
Um die verbleibenden Möglichkeiten übersichtlich anzuzeigen, wird die Funktion , Autotranslation λ genutzt: sie zeigt jede einzelne der Alternativen, indem die relevanten Wörter durch deren gängigsten Synonyme (in den Beispielen unterstrichen): des Homonyms im Kontext in. der Input-Sprache des Nutzers angezeigt werden.
Der Anzahl und dem Wert der größten 'Werte folgend, wird aus dem SSIR folgende; Analyse bzw. Autotranslation automatisch
generiert .. Der Wert 66% ist ein empirisch festgelegter Wert, der je nach Ontologie und Sprache : individuell festgelegt werden kann und eine untere, relative Relevanzgrenze für Sinn-Modulation darstellt:' ' :
1. Der: Satz ,: Der . Stift schreibt nicht . λ ist nicht eindeutig und lässt [5] : relevante Interpretations-Möglichkeiten ; >66% zu. :
(Unterstrichehe Wörter = Synonyme für Stift oder schreiben) i. schreiben 3 (als Funktion), mit Stift 1 (Schreibstift) . Autotranslation: Der Schreibstift funktioniert nicht. ii. schreiben 2 (lesbares Opus mit Text erstellen), mit Stift 3 (Lehrling) oder Stift 5 (Steppke, Göre) Autotranslation : Der Lehrling schriftstellert nicht. Autotranslation : Der Steppke schriftstellert nicht. iii. schreiben 1 (motorische Tätigkeit), mit Stift 3
(Lehrling) oder Stift 5 (Steppke, Göre)
Autotranslation: Der Lehrling schreibt nicht auf. Autotranslation: Der Steppke schreibt nicht auf .
Die restlichen Kombinationen ergeben niedrigere Werte.
Als Übersetzungs-Maschine z.B. im Anwendungsbereich
Geschäftsalltag (technische, kaufmännische, wissenschaftliche Sprache), würden die Varianten ii. und iii. ausgeschlossen, da „Stift 3" im Sinn-Signal nur für <regionale Anwendung>, bzw. „Stift 5" als <Scherzhaft> definiert ist. Es bleibe also nur die Interpretation, dass der Schreibstift nicht funktioniert.
2. Dem Benutzer wird von SenSzcore automatisch die Option 1 zur Übernahme angeboten und es erfolgt ein automatischer Hinweis auf die verbleibenden Möglichkeiten in ii. und iii.
Wichtige Anmerkung: die numerischen Modulations-Werte beruhen auf den Eigenschaften der Sinn-Signale, die für das System vorab, manuell „geteacht" und fest gespeichert sind. Insofern spiegeln die Werte des Sinn-Signals die Assoziationen „einer" Person wieder, nämlich der, die die betroffenen Sinn-Signale erstellt hat und keine absolute Entscheidung an sich. Folglich ist natürlich auch der Modulationswert von 2 Sinn-Signalen keine absolute, sondern eine relative Aussage.
Außerdem liegt bei der Entscheidung für i. auch keine
statistische Bewertung vor, denn es wurde konkret gezählt - nicht hochgerechnet - und Alternativen z . B. unterhalb der Grenze 66% verworfen.
Erläuterungen zu Tabelle 5
Tabelle 5 zeigt den Vergleich von den besten, marktüblichen Programmen (Stand Januar 2014), anhand von 5 Beispielsätzen: I) Der Stift kauft ein Stift.
II) Der Stift kauft einen Stift.
III) Das Stift kauft einen Stift.
IV) Der Stift schreibt nicht.
V) Das Stift wurde in einem Zug geräumt.
Die 13 unterschiedlichen Bedeutungen für Stift sind in Bild 3.2 registriert. Insgesamt liegen bei den 5 Beispielsätzen 21 mögliche, relevante Bedeutungen vor. Im Stand der Technik sind nur 3 von 189 Möglichkeiten korrekt erkannt / übersetzt.
Der Vergleich zeigt deutlich, dass marktübliche Programme - egal ob gratis oder nicht-, mehrere grundlegende Fakten für
Sinnerkennung nicht/bzw. zu selten berechnen können, so dass bei diesen; Beispielen eine durchschnittliche Trefferrate von
lediglich 1.5 % auftritt:
Zum Beispiel scheitern Programme nach dem Stand der Technik - neben zahlreichen anderen Schwächen - bei:
a) Erfassung: des Genus der Substantive, sogar bei vorhandenem Artikel .
b) Differenzierung zwischen totem Objekt / Lebewesen /
Institution.
c) Zulässige Handlungen des Aktanden (z.B. können Sachen nichts "kaufen") . :
d) : Erfassung: der relativen Proportionen von Subjekt und bjekt: was passt wo hinein? Z.B. passt „das Stift"
(Institution) nicht in einen Zug (Satz Nr. V).
e) Differenzierung von Homonymen und derer korrekten
Übersetzung.
f) Warnung des Benutzers, wenn Fehler im Text, oder
Uneindeutigkeit vorliegen .
u.v.a.
Weitere., vergleichende Details zu Schwächen von . Programmen nach dem Stand der Technik anhand von .Beispielen, siehe unteren
Kasten in Tabelle 5 „linguistic comparison" ab Koordinate C34).
Weitere typische, verfahrensbedingte Fehler des Standes der Technik bei Übersetzungssoftware der: größten Unternehmen der Branche siehe Tabelle 6.
Es wird deutlich, dass mit diesem Stand der. Technik (an welchem seit über 25 Jahren optimiert wird, kein ernsthaftes Arbeiten möglich ist. Egal welche die Ausgangssprache und Zielsprache - z.B. innerhalb europäischer Sprachen - ist.
Im Folgenden werden einige unterschiedliche Ausführurigsformen der Erfindung in strukturierter Form beschrieben.
1. Ausgangspunkt ist ein computerimplementiertes Verfahren „Recht-Sinn-Prüfung", welches automatisch die in einem Satz natürlicher Sprache nicht explizit vorhandenen, semantischen Bedeutungen der Wörter des Satzes in Zahlen umwandelt - genannt Sinn-Signale - und die : für den Satzkontext korrekten Bedeutungen aller Wörter des Satzes mit den Sinn-Signalen deterministisch berechnet , gekennzeichnet dadurch dass: es in. einem nichttransitorischen,: maschinenlesbaren
Speichermedium gespeichert ist und mit durch einen Computer ausführbaren Anweisungen ausgestattet ist dass, wenn diese durch einen Computerprozessor ausgeführt werden bewirken dass, für einen zu analysierenden Satz - begonnen und beendet nach gültigen Regeln der natürlichen Sprache - eines Textes der natürlichen Sprache, alle verfügbaren, erfindungsgemäßen Sinn- Signale für jedes Wort automatisch aus dem.
computerimplementierten Speicher (1) entnommen: werden und der arithmetische und logische Vergleich der Sinn-Signale aller Wörter des Satzes untereinander - nur durch die Wörter selbst und durch deren spezifische Anordnung im analysierten Satz gesteuert - in den Sinn-Modulatoren (2) und (3) so durchgeführt wird, das jedes Wort über seine für diesen Kontext als gültig berechneten Sinn-Signale, durch für jedes Wort separat, dem Wort zuordenbare, bei der Analyse automatisch, erstellten,
gekoppelten, ; verarbeitungsreleyanten Vergleichsdat.en |zu anderen Sinn-Signalen mit anderen Wörtern des Satzes, anschließend explizit mit der Information maschinenlesbar getaggt ist, dass diesem Tagging automatisch entnommen werden kann, ob das Wort im Kontext korrekt geschrieben ist und ob das Wort, nur eine oder mehrere Sinn-Signale im Kontext hat und welche diese Sinn- Signale sind. 2. Verfahren nach Nr. 1, dadurch gekennzeichnet, dass nachdem für alle Wörter eines Satzes im Sinn-Modulator (2) deren Sinn- Score berechnet wurde, folgende Informationen maschinenlesbar verfügbar werden:
2.1. Ist der Sinn-Score „SW" für ein Wort des Satzes gleich 0 (Null) so ist das Wort falsch geschrieben und der Satz erhält den Satz-Score „SS" = 0.
2.2. Ist der Sinn-Score „SW" für ein Wort des Satzes größer 1, so ist der analysierte Satz falsch, bzw. uneindeutig formuliert, denn Wörter mit SW > 1 haben mehr als 1 mögliche Bedeutung im Satz. Der Satz erhält den Satz-Score „SS" = „SW". Haben mehr als 1 Wort des Satzes Sinn-Scores > 1, so wird der der Satz-Score „SS" auf den maximalen Wert „SW" der Sinn-Scores der Wörter des Satzes gesetzt.
2.3. Haben alle Wörter des Satzes einen Sinn-Score „SW"=1 so ist der Satz eindeutig und erhält den Satz-Score „SS" = 1
2.4. Haben Wörter einen Sinn-Score „SW" = -2, dann lassen sie sowohl Groß- als auch Kleinschreibung zu. Der Satz-Score SS bekommt dann den Wert SS = -2 , solange, bis über weitere, iterative Schritte die korrekte Groß-/Klein-Schreibweise der Wörter mit SW = -2, in diesem Satz, endgültig berechnet ist.
3. Verfahren nach Nr. 1 oder 2, dadurch gekennzeichnet, dass für Sätze die keine Wörter mehr mit SW=0 enthalten, in
Einschränkungs-Modulator (3) berechnet wird, welchen Satz-Score „SS" sie haben, wenn die in den Sinn-Signalen vorhandenen
Einschränkungsverweise (EV) angewendet werden und daraus
folgende Information maschinenlesbar verfügbar werden:
3.1. Ist der Sinn-Score „SW" für ein Wort des Satzes größer 1, so ist der analysierte Satz falsch bzw. uneindeutig formuliert, denn Wörter mit SW>1 haben mehr als 1 mögliche Bedeutung im Satz. Der Satz erhält den Satz-Score „SS" = „SW".
Haben mehr als 1 Wort des Satzes Sinn-Scores SW > 1, so wird der Satz-Score „SS" auf den maximalen Wert „SW" der Sinn-Scores der Wörter des Satzes gesetzt.
3.2. Haben alle Wörter des Satzes einen Sinn-Score „SW"=1 so ist der Satz eindeutig und erhält den Satz-Score „SS" = 1
4. Verfahren nach mindestens einer der Nr. 1 bis 3, dadurch gekennzeichnet, dass bei. Wörtern mit SW = 0, eine speicherbare Fehlermeldung gestartet wird, die insbesondere
Rechtschreibfehler aller Wörter des Satzes angibt, mit Nennung der relativen Wortposition im Satz, der Fehlerursache und
Anzeige von aus dem Speicher des Datenbanksystems (1)
berechneten Möglichkeiten zur Fehlerbehebung und im Fehler- Meldungs-Speicher (4) sequenziell gespeichert wird.
5. Verfahren nach Nr. 4, dadurch gekennzeichnet, dass bei
Wörtern mit SW: = -2 , eine speicherbare Fehlermeldung. gestartet wird, die insbesondere das Vorhandensein von Fehlern in der Groß-/Kleinschreibung aller Wörter des Satzes angibt, mit
Nennung der Wortposition im Satz, : Fehlerursache und Anzeige von aus Speicher des Datenbanksystems (1) berechneten Möglichkeiten zur Fehlerbehebung und im Fehler-Meldungs-Speicher (4)
sequenziell gespeichert wird.
6. Verfahren nach mindestens einer der Nr. 1 bis 5, dadurch gekennzeichnet, dass mit dem aktuellen Satz, je nach
Verfügbarkeit, bis zu „n" unmittelbar vorhergehende Sätze die bereits nach. Nr. 1 bearbeitet sind und Satz-Score .= SS = 1 haben , eingelesen werden und die Sinn-Signale von deren Wörtern im Sinn-Modulator (3) verarbeitet werden.
.7. Verfahren nach mindestens einer der Nr. 1 bis 6, dadurch gekennzeichnet, dass die syntaktischen Satzkomponenten, soweit im Satz vorhanden (Hauptsätze, Nebensätze, eingeschobene:
Nebensätze, Subjekte, Prädikate, Objekte, Text-Teile zwischen Gedankenstrichen, ; Textteile zwischen zwei Klammern (auf/zu) usw.) bestimmt und im Satzteil-Speicher (6) mit allen sie jeweils bildenden Wörtern, einzeln , sequenziell, abrüfbar abgespeichert wird.
8. Verfahren nach mindestens einer der Nr. 1 bis 7, dadurch gekennzeichnet, dass im Sinn-Modulator (3) das Haupt-Thema der laufenden 3 Sätze, wenn deren Satz-Score jeweils = 1 ist, - soweit vorhanden - rollierend aktualisiert wird.
9. Verfahren nach mindestens einer der Nr. 1 bis 8, dadurch gekennzeichnet, dass im Einschränkungs-Modulator (3) das Haupt- Thema - als häufigster, gültiger Einschränkungsverweis (EV) aus (3) z.B. auch in Form seines Sinn-Signals - des laufenden
Absatzes in Form der Sinn-Signale der Einschränkungs-Verweise rollierend aktualisiert und hierarchisch abrufbar gemacht wird.;
10. Verfahren nach mindestens einer der Nr.: 1 bis: 9, dadurch gekennzeichnet, dass bei Sätzen mit SS > 1 eine Autotranslation- Meldung generiert wird, welche die noch vorhandenen #SW
Bedeutungsmöglichkeiten jedes Wortes auflistet, und jeweils die gängigsten Synonyme jedes Wortes aus dem Datenbanksystem (1): über seine gültigen Sinn-Signale abruft und im Autotranslation^ Speicher (5) sequenziell abspeichert.
11. Verfahren nach mindestens einer der Nr. 1 bis 10, dadurch gekennzeichnet, dass für Wörter, bei denen SW üngleich 1 ist, im Fehler-Meldungs-Speicher und dem Benutzer-Interaktions-Manager (7) Formatierungs-Elemente, vorgegeben werden, welche in
Textverarbeitungsprogrammen verwendet werden können,: um den Status des Wortes aus dem Autotranslätion-Speicher (5) oder dem Fehlermeldungs-Speicher (6) für jedes betroffene Wort z.B. ■' optisch am Datensichtgerät des Benutzers zu hinterlegen und z.B. „Moüse-Gver" Informationen am Daten-Sichtgerät des Benutzers ' zu generieren .
12. Verfahren; nach mindestens einer der Nr. 1 bis 11, dadurch gekennzeichnet, dass aus Interaktionen des Benutzers bezogen über den- Benutzer-Interaktioris-Ma.nager (7) auf Korrekturvorschläge die aus dem Autotranslation-Speicher (5) oder dem Fehlermeldungs-Speicher (4) stammen, der Text im Satz aktualisiert wird, und ein neuer Berechnungslauf nach Nr. 1 für den Satz durchgeführt wird, wobei alle Einträge im
Autotranslation-Speicher (5) oder dem Fehlermeldungs-Speicher (4) auf den neuesten Abarbeitungs-Stand · des Satzes angeglichen werden .
13. Verfahren nach mindestens einer der Nr. 1 bis 12, dadurch gekennzeichnet, dass die laufende Thema-Struktur aus Modulator (3) dem Benutzer - laufend aktualisiert - über den Benutzer- Interaktions-Manager (7) in einem separaten Fenster z.B. am benutzten Datensichtgerät angezeigt wird.
14. Verfahren nach mindestens einer der Nr. 1 bis 13, dadurch gekennzeichnet, dass wenn der Satz den Score SS = 1 erreicht, eine Autotranslation generiert wird, die das nun einzige Sinn- Signal jedes Wortes aus dem Datenbanksystem (1) abruft und jeweils das gängigste Synonym jedes Wortes aus dem
Datenbanksystem (1) über das gültige Sinn-Signal abruft und jedes Wort des Satzes jeweils mit beiden Informationen, oder entsprechenden, maschinenlesbaren Ersatzbezeichnungen taggt (8).
15. Verfahren nach mindestens einer der Nr. 1 bis 14, dadurch gekennzeichnet, dass der Benutzer beim Freigeben der
Autotranslation, auch mehr als das gängigste der Synonyme des getaggten Wortes mit SW=1 aus dem Datenbanksystem (1) abfragen kann, um das Original-Wort des Satzes dann mit dem gewählten, aus diesen anderen Synonymen zu ersetzen.
16. Verfahren nach Nr. 15, - genannt „Autotranslation" - dadurch gekennzeichnet, dass wenn der Nutzer einen Satz mit Score 1 kennzeichnet - z.B. mit der Maus über sein Datensichtgerät- , aus den getaggten Informationen des Satzes, automatisch ein grammatisch korrekter Satz formuliert wird, in dem z.B. die flektierbaren Homonyme des Satzes durch ihre gängigsten Synonyme ersetzt werden:.
17. Verfahren nach mindestens einer der Nr. 1 bis 16 , dadurch gekennzeichnet, dass wenn der Nutzer ein Wort mit SW=1 bei. einem Satz- mit Satz-Score SS - 1 aktiv markiert - z.B. mit Doppelklick der Maus über sein Datensichtgerät-, aus der getaggten Information des Satzes, das: gängigste Synonym des aktivierten Wortes -im vorhandenen Kontext - automatisch angezeigt wird
18. Verfahren nach mindestens einem der vorhergehenden Nr. 1 bis 17, dadurch 'gekennzeichnet, dass für Wörter des Textes in Sätzen deren Score SW ungleich 1 ist, mit den für das jeweilige; Wort vorhandenen Informationen aus Autotranslation-Speicher (5) oder dem Fehlermeldungs^-Speicher (4) über, den Benutzer-Interaktions-: Manager (7) neu. taggt wann immer' in. diesen beiden Speichern die Information für das jeweilige Wort verändert wird.
19. Verfahren nach mindestens einer der Nr. 1 bis 18, ;
gekennzeichnet dadurch,, dass alle Informationen die aus Sätzen, davor, für den analysierten Satz erforderlich sind, um einen Score SS=1 zu erreichen am Satz, zur späteren Weiterverarbeitung getaggt werden . ,.;
20. Verfahren nach Nr. 19, gekennzeichnet dadurch, dass alle Korrekturen des Satzes für Wörter mit SW ungleich 1 automatischdurchgeführt werden, soweit die Korrektur des Wortes jeweils nur
1 gültige Möglichkeit in Modulator 1 öder Fehlerspeicher (4) aufweist
21. ' Verfahren nach mindestens Nr . 19 oder 20, gekennzeichnet dadurch, dass sämtliche Meldungen die bei der Verarbeitung des Satzes■ generiert werden und nicht nach Nr. 20 automatisch gelöst werden können, im Offline-Modus am Satz getaggt werden und das . Verfahren mit dem nächsten Satz mit Status Satz-Score SS = „unbekannt" fortfährt . 22. Computerimplementierte Übersetzungsmaschine zur Übersetzung von Sätzen einer natürlichen Spräche in eine andere, unter :: Verwendung von „Recht-Sinn-Prüfung" nach mindestens Nr. 1 bis Nr. 21.
23. Verfahren nach Nr. 22, gekennzeichnet dadurch, dass eine automatische Übernahme eines Satzes mit Score SS = 1 erfolgt, oder der Text nach Nr. 1 verarbeitet wird, solange, bis
mindestens 1 Satz mit Satz-Scöre=l vorliegt oder keine
unbearbeiteten Sätze mehr vorliegen.
24." Verfahren nach mindestens Nr. 22 ^oder 23, gekennzeichnet dadurch, dass die Übersetzung des Textes in die gewählte
Zielsprache des Benutzers erfolgt, unter Berücksichtigung der vorgegebenen, eindeutigen Sinn-Signale aller Wörter und allen Zusatzinformationen mit denen sie jeweils getaggt sind.
Dafür Verwendung des Datenbestandes des Datenbanksystems (1), de alle Sinn-Signale enthält, und damit gekoppelt, die
korrekten Übersetzungen aller Wörter in Start- und Zielsprache in Zusammenhang mit ihren gültigen Sinn-Signalen, in allen Flexionen^ in Start und Zielsprache.
25. Verfahren nach mindestens leiner der Nr. 1 bis:;24,
gekennzeichnet dadurch, dass eine Anwendung von Sprachpaarungs- bestimmten Regeln aus dem Datenbanksystem (1) erfolgt, die durch Anpassung der Reihenfolge der Wörter bezögen auf ihre
Morphologie und Flexion, und der Reihenfolge der Satzielemente aus- Nr. 7 in Speicher (6), den Satz in der Zielsprache in eine : Reihenfolge stellt, die in der Zielsprache semantisch, :
morphologisch, grammatikalisch und syntaktisch korrekt ist.:; Dabei besondere Berücksichtigung z.B. der getaggten Satz- Struktur der Start-Sprache aus Nr. 7, welche Sprachpaarungs- bedingt auch die korrekte, neue Reihenfolge der Satzteile in der Zielsprache vorgeben. 26. Computerimplementierte Verarbeitung von Texten stammend aus einer .: automatischen Spracherkennüng einer natürlichen Sprache, nach Stand der Technik, unter Verwendung von „Recht-Sinn- Prüfung" nach mindestens einer der Nr. 1 bis 21 gekennzeichnet durch :
27. Verfahren nach Nr. 24, gekennzeichnet dadurch, dass
automatisch Text mit Sätzen aus einem Spracherkennungsystem nach dem Stand der Technik übernommen wird.
28. Verfahren .nach Nr . 26 oder 27, gekennzeichnet dadurch, dass eine Berechnung der Existenz von Homöfonen in einem Satz/ durch Äbgleich der Wörter des Satzes mit den bekannten Homofön-Gruppen in der natürlichen Sprache des Benutzers aus Datenbestand: des Datenbanksystems: ( 1 ) erfolgt .
29. Verfahren nach mindestens einer der Nr. 24 bis 28,
gekennzeichnet dadurch,' dass eine Erzeugung von allen möglichen;' Satz-Varianten durch sequenzielles, gegenseitiges
Ersetzen/Austauschen der relevanten Homofon-Varianten im Satz erfolgt;.
30. Verfahren nach Nr. 29, gekennzeichnet dadurch, dass eine Bewertüng jedes Satzes nach mindestens einem Verfahren nach Nr. 1 bis 22 erfolgt; und mit Meldungen aus dem Autotranslatiön- Speicher (5) .öder dem Fehlermeldungs-Speicher (4) im Offline- Modus getaggt wird.
31. Verfahren nach Nr. 30, gekennzeichnet dadurch, dass eine Auswertung der Satz-Scores aller erzeugten Sätze erfolgt und. wenn nur ein einziger Satz von allen, den Score SS=1 aufweist, diesen Satz als Ergebnis verwertet und gemäß Nr. 14 taggt. 32. Verfahren nach Nr. 31, gekennzeichnet dadurch, dass : eine Auswertung der Satz-Scores aller erzeugten Sätze erfolgt und wenn mehr als 1 Satz Score = 1 hat, der mit der maximalen, arithmetischen Übereinstimmung bei allen Homofonen genommen wird.
33. Verfahren nach mindestens einer der Nr. 1 bis 32,
gekennzeichnet dadurch, dass wenn keine eindeutige Entscheidung möglich ist, weil keiner der Sätze Score SS = 1 hat, der Input- : Satz mit der Information der analysierten Homofone, den
Meldungen aus dem Autotranslation-Speicher (5) bzw. dem
Fehlermeldungs-Speicher (6) getaggt wird.
Vorteil dieser Variante gegenüber dem Stand der Technik:
Spracherkennung nach dem Stand der Technik kann Homofone, sowie Groß-/Kleinschreibung nicht erkennen. Durch den in Nr. 26 dargestellten Ablauf, können bei allen bekannten Homofonen einer natürlichen Sprache, die in Datenbestand des Datenbanksystems (1) registriert sind (z.B. ca. 10.00 im Deutschen und z.T. sehr häufige wie er/eher, ist/isst, jäh/je, sie/sieh, Feld/fällt, usw. In anderen Sprachen 10.000 - Englisch - , bis 25.000 - : Japanisch -) , die korrekten Schreibweisen im Satzkontext über ihre Sinn-Signale identifiziert werden. Dies reduziert den
Trainingsaufwand zum Betrieb der Software und erhöht die
Qualität des erkannten Textes erheblich'.
34. Computerimplementierte Verarbeitung / Rekonstruktion von verstümmelten Texten z.B. aus : automatischer Spracherkennung bei Hintergrundgeräuschen einer natürlichen Sprache, nach Stand der Technik, mit Rechtschreibfehlern aber keinen komplett fehlenden Wörtern unter Verwendung von:„Recht-Sinn-Prüfung" nach
mindestens einem der Ansprüche 1 bis 21.
35. Verfahren nach Nr. 34, gekennzeichnet dadurch, dass bei einem automatisch ; übernommenen Text , systematisch die
Möglichkeiten ermittelt werden, den Satz umzuformulieren, durch korrekte Rechtschreibung fehlerhafter Wörter. Dies kann z.B.; nach „Sounds-Like" Methoden oder ähnlichen Suchalgorithmen anhand von Daten aus dem Datenbahksystem (1) erfolgen. Zunächst mit Priorität basierend auf Wörtern die Homofon-Gruppen ähnlich sind, oder Auslassungen von Buchstaben oder typischen
Tippfehlern beim Bedienen einer Tastatur, inkl. Groß/Klein- Schreibung, Akzentuierung usw. entsprechen.
36. Verfahren nach Nr. 34 gekennzeichnet dadurch, dass mit den Möglichkeiten nach Nr. 35 ausprobiert wird, ob sich Sätze mit Satz-Score SS=1 ergeben.
37. Verfahren nach mindestens einer der Nr. 34 bis 36,
gekennzeichnet, dadurch,: dass ein Abbruch der Prozedur erfolgt, wenn sich nach einer vom Benutzer vorgegebenen: Zeit - z.B. 5 Sekunden - keine brauchbaren Treffer ermitteln lassen (Maßstab = ca. 500 ... 1000 Versuche pro Sekunde) .
38.; Verfahren nach mindestens einer der r.' 34 bis 37, ;
gekennzeichnet dadurch, dass der Input-Satz mit der Information der; analysierten Homofone, den Meldungen aus dem
Äutotranslation-Speicher (5) bzw. dem Fehlermeldungs-Speicher (6) getaggt wird. Liegen: nur Sätze mit Score ungleich 1 vor, werden diejenigen für das Tagging priorisiert, die die wenigsten Wörter mit SW=0 aufweisen.
39. .Computerimplementierter Betrieb von Suchmaschinen die in Datenbeständen suchen, deren Texte natürlicher Sprache dürch „Recht-Sinn-Prüfung"' nach mindestens einer der Nr. 1 bis 21 getaggt sind und auf dem Tagging basierend indexiert sind .
40. Verfahren nach Nr. 39, gekennzeichnet dadurch, dass eine automatische Datenbank-Indexierung nach den Sinn-Signalen aller seiner^ Wörter nach Nr. 1 erfolgt, vor dem Suchprozess und von allen Sätzen die nach mindestens einem Nr. 1 bis 21 einen Satz- Scöre SS=1 haben und entsprechend getaggt wurden. 41. Verfahren nach mindestens einer der Nr. 39 oder 40, gekennzeichnet dadurch, dass ein automatischer Einbezug aller gleichsprachigen Synonyme in allen ihren gültigen Flexionen in die Suche (gleiches Sinn-Signal wie Suchwort) einbezogen wird.
42. Verfahren nach mindestens einer der Nr. 39 bis 41,
gekennzeichnet dadurch, dass ein automatischer Einbezug von fremdsprachigen Synonymen in allen ihren gültigen Flexionen in die Suche (gleiches Sinn-Signal wie Suchwort) einbezogen wird.
43. Verfahren nach mindestens einer Nr. 39 bis 42,
gekennzeichnet dadurch, dass bei Verwendung mehrerer Suchwörter, eine Kombination der Sinn-Signal-Treffer nach der
Verknüpfungslogik der Suchwörter erfolgt.
Der Betrieb von Suchmaschinen nach der Nr. 39 bis 43
dargestellten Ablauf, hat den enormen Vorteil, dass bei der Suche nur noch Treffer entstehen, die dem Sinn-Signal des
Suchwortes entsprechen. Dies Reduziert die Anzahl Treffer in Suchmaschinen um über 99% wenn das Suchwort ein Homonym ist. Außerdem wird auch automatisch nach den gültigen Flexionen des Suchwortes und aller derer seiner Synonyme gesucht, auf Wunsch auch in Fremdsprachen. Dies erhöht die Qualität des Such- Ergebnisses vor allem für Business-Intelligence-Anwendungen maßgeblich und reduziert den Leseaufwand der Benutzer um die endgültigen Treffer auszuwählen, umgekehrt proportional zum Qualitätsgewinn.
44. Computerimplementierte, Bewertung der Nützlichkeit von
Aussagen in Form von Text in natürlicher Sprache zu einem vorgegebenen Thema nach mindesteins einer der Nr. 1 bis 21.
45. Verfahren nach Nr. 44, gekennzeichnet dadurch, dass bei einem automatisch übernommenen Satz mit Satz-Score SS=1 ein automatischer Vergleich der Sinn-Signale der Wörter des Satzes mit vorgegebenen Kombinationen bzw. Mustern von Sinn-Signalen, mit nach Nr. 1 getaggten Worten des Vergleichs-Themas
durchgeführt wird. 46. Verfahren nach Nr. 44 öder 45, gekennzeichnet dadurch, dass eine Wertung der Überdeckung der Sinn-Signale der Thema-Vorgabe und des Input-Satzes mit vorgegebenen Überdeckungsmustern erfolgt und dabei die Existenz von Sinn-Signalen von logischen Operatoren, (z.B. „nicht", „auch", „oder" usw. ) innerhalb: der Satz-Struktur des Inputsatzes nach einer der Nr. 1 bis 22 berücksichtigt werden.
47. Computerimplementierte Führung automatischer Dialoge von Computern/bzw. „antwortenden Computern" mit. humanen Benutzern, durch Kombination der Ansprüche von ; ;,Recht-Sinn-Prüfung" nach Nr. 26, 34, 39, 04.
48.; Verfahren nach Nr. ;47, gekennzeichnet dadurch, dass der gesprochene Ihput eines Benutzers, durch Nutzung der Nr. 26,. 34, 39, 04 durch den antwortenden Computer : als Text erfasst wird.
49. Verfahren nach Nr. 47 oder 48, gekennzeichnet dadurch, dass eine Aufteilung des Input-Textes in einzelne Sätze durch den . antwortenden Computer durchgeführt wird urid eine automatische Bewertung erfolgt, welche davon Aussage- und welche Fragesätze sind. Z.B. durch Anwesenheit von Fragezeichen am: Satzende, oder nicht, bzw. derer typischer Satzstruktur .
50. Verfahren nach mindestens einem der vorhergehenden Nr., •gekennzeichnet dadurch, dass ein Abgleich der Sinn-Signale der . Aussage- Und Frage-Sätze des Benutzers nach Nr. 1 durchgeführt wird, nach ihrem jeweiligen Matching/Übereinstimmung ;mit einem nach Nr. 47 getaggten Datenbestand der Aussage-Sätze,
Antwortsätze und Standard-Fragesätze einer maschinenlesbaren Text-Ontolögie des antwortenden/dialögbeteiligten Computers, welche in :der gleichen, natürlichen Sprache vorliegt, wie die natürliche Sprache, in welcher der Benutzer interagiert.
(Maßstab für die Ontologie des antwortenden Computers = z.B. 500 präzise Sätze eines FAQ-Datönbestandes einer Dienstleistung z.B. jeweils mit Satz-Score SS=1). 51. Verfahren nach mindestens einer der vorhergehenden Nr . , gekennzeichnet dadurch, dass bei atching-Werten der Sinn- Signale der Sätze des Benutzers oberhalb eines bestimmten Niveaus, mit der Computerontölogie des antwortenden Computers, die im Matching/Übereinstimmungs- ert jeweils am höchsten bewerteten Antwort- und Aussagesätze aus der Computerontölogie identifiziert werden.
52. Verfahren nach mindestens einer der vorhergehenden Nr., gekennzeichnet dadurch, dass durch den antwortenden Computer eine strukturierte, automatische Antwort für den Benutzer generiert wird, z.B. nach dem Muster: a) Bestätigen maximal der z.B. 2 höchstrangigsten Sätze A und B von Nr. 50 des Benutzers bezüglich der Computerontölogie . in gesprochener Form, durch den antwortenden Computer über ein Sprachausgabesystem nach Stand der Technik. (Z.B. „Wenn ich Sie richtig verstanden habe, sagten Sie das ... "Wortlaut von; Satz A ... und außerdem „Wortlaut . von Satz B" b) Anbieten des höchstrangigsten Antwort-Satzes der
Computerontölogie nach Nr. ; 50 und; Abschließen mit dem;
höchstrangigsten Antwortsatz aus Nr. 50 des/antwortenden.
Computers ; über ein Sprachausgabesystem nach Stand der Technik, welches dem Benutzer nach Abfrage; nur kontrollierte Antworten erlaubt, z.B. „Ja" oder „Nein". c) Alternativ mit der Versendung eines Links durch den
antwortenden Computer antwortet - nach bestimmten- Regeln-, den der User erhält, um daraus genauere Införmationen zu seinen Fragen abzulesen und gezieltere Fragen an den antwortenden Computer stellen zu können, die der Benutzer in der
Computerontölogie z.B. nur nach einigem, eigenen Suchaufwand selbst gefunden hätte. 53. Verfahren; nach mindestens einer der vorhergehenden Nr., gekennzeichnet dadurch, dass bei Matchingwerten unterhalb eines gewissen Niveaus, im antwortenden Computer z.B.. ein Standard- Dialog abgerufen wird, den der Benutzer nur mit Ja oder Nein beantworten kann, bzw. mit der Nennung von kontrolliert
vorgegebenen, gesprochenen, alphanumerischen Optionen.
54. Verfahren nach mindestens einer der vorhergehenden Nr., gekennzeichnet dadurch, dass im antwortenden Computer eine automatische Erkennung des Zeitpunktes erfolgt, ab dem das
Eingreifen eines Menschen erforderlich ist, z.B. durch
automatische Bewertung der Redundanz des Dialoges oder
inhaltlichen Mustern von Sinn-Signalen in den Reaktionen des Nutzers .
Man beachte die enorme Flexibilität der Nr. 47 im Vergleich zum Stand der Technik, die er dadurch erhält, dass mit Sinn-Signalen nach mindestens einem der Nr. 1 bis 21 gearbeitet wird:
- Der Benutzer kann relativ frei sprechen (Einschränkung sind lediglich
die Anzahl unterschiedlicher Sinn-Signale und deren
satzweisen
Kombinationen, die in der Computer-Ontologie enthalten sind) .
- Die Erkennungsrate in der Computer-Ontologie ist durch die Arbeit mit
Sinn-Signalen hoch und präzise, ohne dem großen
Programmieraufwand, der
heute mühsam, auf die Vorgabe von bestimmten Einzelwörtern eingeschränkt
ist, bzw. Limitierungen in den zulässigen Flexionsarten der erkannten
Wörter aufweist.
55. Computerimplementierte, erweiterte Rechtschreib-Prüfung, unter Verwendung von „Recht-Sinn-Prüfung" nach mindestenes einer der Nr. 1 bis 22.
56. Verfahren nach Nr. 55, gekennzeichnet dadurch, dass die automatische Ausführung mindestens einer der Nr. 1 bis 22 durchgeführt wird, aber ohne dass der Satz mit den Sinn-Signalen selbst getaggt wird, nachdem er Satz-Score > 0 erreicht hat. Der Text wird damit lediglich auf Rechtschreibfehler geprüft und interaktiv vom Benutzer korrigiert, ohne dass jedoch
notwendigerweise ein Tagging des Satzes mit Zusatzinformätionen erfolgt.
57- Computerimplementierte Worterkennung beim Eintippen von ' Wörtern über Tastaturen die mehrfach belegte Tasten enthalten können unter Verwendung von „Recht-Sinn-Prüfung" nach mindestens einer der Nr. 1 bis 21.
58. Verfahren nach Nr. 57, gekennzeichnet dadurch, dass eine automatische Übernahme des Textes aus einem untergeordneten System z.B. Smart-Phone mit Worterkennung, nach Stand der ■ Technik eines Benutzers erfolgt, getaggt mit dem Logfile der ;
: jeweils aktivierten z.B. Tästenfo.lgen die für die Eingabe jedes vorhandenen Wortes des Satzes getätigt wurden.
59. Verfahren nach Nr. 57 oder 58 gekennzeichnet dadurch, dass .· die z.B. Tastensignale direkt übernommen werden/ ohne dass eine Vorauswahl.. vön Wörtern über ein anderes : System: erfolgt .
60. Verfahren nach mindestens einer der Nr. 57 bis 59,
gekennzeichnet dadurch, dass eine Prüfung des vorhandenen Inputs nach mindestens einer der Nr. 1 bis 22 durchgeführt wird und durch Zuhilfenahme der Tasten-Sequenz aus dem Log-File der;: gedrückten Tastenkombinationen und Tästenbelegungen berechnet wird, ob andere Treffer von Wörtern im Datenbestand des
Datehbanksystem (1) für die Tastenkombination des Wortes, vorhanden sind, deren Sinn-Score in Bezug zu den vorhandenen Wörtern des Satzes bezüglich Rechtschreibung, Syntax und Sirin- Signa1-Matching eine bessere Wertigkeit haben, als die bereits vorhandenen .
61. Verfahren nach mindestens einer der Nr. 57. bis 60,
gekennzeichnet dadurch, dass dem Benutzer
Verbesserungsvorschläge zu seinem vorhandenen Text zur Übernähme angeboten werden, bezüglich Rechtschreibung, Flexion ..und Syntax des bereits vorhandenen Textes.
62. Verfahren nach mindestens einer der Nr. 57 bis 61,
gekennzeichnet dadurch, dass eine automatische Korrektur von Tippfehlern während der Text-Eingabe erfolgt, erkennbar als Buchstabensequenzen, die als Wortbeginn, in' dem Datenbestand des Datenbanksystems (1) nicht enthalten sind, es jedoch bei
Änderung der Buchstabenreihenfolge Groß-/Kleinschreibung z.B. nach typischen Tippfehlermustern sind, unter gleichzeitiger Berücksichtigung des Sinn-Signal-Matchings und der Syntax zu bereits vorhandenen Wörtern des Satzes.
63.: Verfahren nach mindestens einer der Nr. 57 bis 62,
gekennzeichnet dadurch, dass passende Wörter z.B. bei der
Eingabe des Textes vorgeschlagen werden, sobald nur eine, einzige, oder weniger als „n" Möglichkeiten für das Wort bestehen die nicht mehr als "m" % länger sind als das aktuelle Wort, „n" >= 1; „m" < 75% und z.B. auch bezüglich ihrer Sinn- Signale ein hohes Matching zu anderen, bereits vorhandenen
Wörtern des Satzes aufweisen.
64. Verfahren nach mindestens einer der Nr. 57 bis 63,
gekennzeichnet dadurch,: dass Vorschlage bzw. Optionen zum gerade geschriebenen Wort optisch auf dem Datensichtgerät des Benutzers angezeigt werden, z.B. über dem gerade : geschriebenen Wort, im halbdurchsichtigen Modus.
65. Verfahren nach mindestens einer der Nr. 57 bis 6 ,
gekennzeichnet dadurch, dass der Text über eine Spracherkennung nach Nr. 26 oder Nr. 34 erfolgt.
66. Computerimplementiertes System zur semantischen
: Verschlüsselung von Sätzen: einer natürlichen Sprache, unter : Verwendung von „Recht-Sinn-Prüfung" nach mindestens einer der Nr. 1 bis 21. Dies wird beansprucht, in Anspruch 35 67. Verfahren nach Nr. 66, gekennzeichnet dadurch,1 dass. Text eingelesen wird, dessen Sätze nicht unbedingt Satz-Score 1 haben, jedoch jeder jeweils, mindestens 3 Wörter mit Status SW > 0 enthält.
68. Verfahren nach Nr. 66 oder 67, gekennzeichnet dadurch, dass „m" Wörter in jedem Satz grammatikalisch passend ausgetauscht werden bzw. „n" Wörter grammatikalisch passend hinzugefügt werden, die geeignete Sinn-Signale besitzen, im Vergleich zu ihrem unmittelbaren Umfeld, die anzeigen, dass z.B.: durch
Einfügung, Negation, Relativierung oder Weglassung bzw.. durch Verwendung derer Antonyme aus dem Datenbestand des
Datenbanksystems (1) der Satz-Sinn maßgeblich verändert werden kann, jedoch ohne dass der Satz-Score verändert wird . „m" >-l bzw. „*h" >= 0.
69. Verfahren nach mindestens einer der Nr. 66: bis 68;,
gekennzeichnet dadurch,: dass für alle alfanümerischen Ketten Eigennamen und/oder Datumsangaben und/oder reine Zahlen sind, die/eigene Sinn-Signale aufweisen, oder besonders durch den Benutzer, vorab gekennzeichnete Einzelworte, jeweils durch codierte Zahlenkombinationen ausgetauscht werden, die sich im gesamten Text jeweils als Ganzes nicht wiederholen.
70.: Verfahren nach mindestens einer der Nr.; 67 bis 69,
gekennzeichnet dadurch, dass die Start-Sätze des Benutzers unter Berücksichtigung der Original-Reihenfolge auf: dem System des Benutzers gespeichert werden, sowie ein Log-File aller
Änderungen gespeichert wird, die als Varianten; erstellt wurden, u.a. unter Angabe jeder Änderung mindestens, mit Inhalt der Änderung und Position :im jeweiligen Satz.
71. Verfahren nach mindestens einer der Nr 67 bis 70, das den Benutzer dabei unterstützt, aus anderen Text-Datenbeständen seines Besitzes als dem aktuellen Text selbst, Sätze zu :
identifizieren, die den Sätzen im/zu verschlüsselnden,- Input-Text ähnlich sind, z.B, durch Anwendung von Nr. 44 und die einen Satz-Score SS = 1 haben.
72. Verfahren nach mindestens einer der Nr. 67 bis 71,
gekennzeichnet dadurch, dass die Anzahl Sätze des Textes auf mindestens 7 erhöht wird, falls über Input-Text plus Varianten nach Nr. 68 weniger als 7 Sätze zum Verschlüsseln vorliegen. Dies kann vorteilhafterweise z.B. durch Sätze geschehen, die über Nr. 71 ermittelt werden.
73. Verfahren nach mindestens einer der Nr. 67 bis 72,
gekennzeichnet dadurch, dass ein Text erstellt wird, welcher di Start-Sätze des Benutzers enthält, sowie „m" angehängte Sätze, ■ seiner nach Nr. 68 erstellten Varianten, der nach Nr.: 69 anonymisiert wird. "
74. Verfahren nach mindestens einer der Nr. 67 bis 73,
gekennzeichnet dadurch, dass eine stochastische Verwürfelung de Reihenfolge der vorliegenden Sätze durchgeführt wird und dem Hinzufügen der expliziten Reihenfolgeänderung; vor und nach der Verwür elung zum: Log-File von Nr. 70.
75. Verfahren nach mindestens einer der Nr.: 67 bis 74, .
gekennzeichnet dadurch, dass bei Vorliegen des unveränderten, aber verwürfelten Textes aus Nr. 73 und des: Log-Files aus Nr. 70, der : Originaltext fehlerlos rekonstruiert wird.
Im semantisch verschlüsseltem Text - der keinen einzigen, formell sinnloseren Satz zusätzlich enthält, im Vergleich zu denen, die der Benutzer selbst geschrieben hat - ist nun. die : ursprüngliche Start-Reihenfolge der Sätze des Benutzers nur unter enormen Aufwand mit manuellem lesen, identifizierbar. Z.B. bei 10 Start-Sätzen und 10 zusätzlichen Satz-Varianten, ist die Original-Reihenfolge nur 1 Möglichkeit unter den
Permutationen von 20, also 20! = 2.4329 * 1018 ,
also etwa 1:2.5 Trillionen. Möglichkeiten . Jeder Empfänger des Textes kann ausschließlich mit der Information des Log-Files vom Text-Ersteller, die Start-Sätze jedoch auf einfache Art wieder herstellen.
Die Nr. 65 ist besonders vorteilhaft auch als Zusatz zu marktüblichen Verschlüsselungssystemen verwendbar.
Sollte der Code der marktüblichen Verschlüsselung geknackt werden, stünde derjenige der es tut, vor dem praktisch
unlösbaren Zeit-Problem durch die Menge der zu manuell zu analysierenden Sätze, den wahren Sinn des Gesamt-Textes zu ermitteln, denen außerdem jegliche Information zu Personen, Zeitangaben und Zahlen fehlt, die zudem auch noch veränderte Quäntifikatoren und Logische Operatoren gegenüber dem
Originaltext aufweist.
Hier bleibt als einziges Risiko die sichere Übermittlung des Codes der Start-Reihenfolge nach mindestens einem der
vorhergehenden Ansprüche, zusätzlich zur sicheren Übermittlung des marktüblichen Verschlüsselungscodes.
Auch mit Anwendung unseres eigenen Verfahrens nach Nr. 1 könnte keine Entschlüsselung erfolgen, da nur sinnvolle Sätze in relativem, Bezug zur Sinnhaftigkeit des Originaltextes in dem verwürfelten Text vorliegen.

Claims

Patentansprüche
1. Verfahren zur automatischen Sinnmustererkennung in einem Text mit einer Vielzahl von Input-Wörtern, insbesondere einem Text mit mindestens einem Satz, mit einem Datenbanksystem umfassend Wörter einer Sprache, eine Vielzahl von vordefinierten
Sinnkategorien zur Beschreibung der Eigenschaften der Wörter, Sinn-Signalen zu allen in der Datenbank gespeicherten Wörtern, wobei ein Sinn-Signal eine eindeutige numerische
Charakterisierung der Bedeutung der Wörter anhand der
Sinnkategorien ist und wobei mindestens folgende Schritte durchgeführt werden: a) Einlesen des Textes mit Input-Wörtern in eine Vorrichtung zur Dateneingabe, verknüpft mit einer Vorrichtung zur
Datenverarbeitung, b) Vergleich aller Input-Wörter mit den Wörtern im
Datenbanksystem, das mit dem System zur Datenverarbeitung direkt und/oder per Datenfernleitung gekoppelt ist, c) Zuordnung mindestens eines Sinn-Signals zu jedem der Input- Wörter, wobei im Fall von Homonymen zwei oder mehr Sinn-Signale zugeordnet werden; d) in dem Fall, dass die Zuordnung der Sinn-Signale zu den
Input-Wörtern eindeutig ist, ist die Sinnmustermusterkennung abgeschlossen, e) in dem Fall, dass einem Input-Wort mehr als ein Sinn-Signal zugeordnet werden konnte , werden die relevanten Sinn-Signale ausschließlich kontext-gesteuert miteinander verglichen, wobei f) anhand der Kombination der Sinn-Signale der Input-Wörter untereinander wird festgestellt, ob ein Widerspruch oder eine Übereinstimmung -insbesondere bei Homonymen- in der Bedeutung des Input-Wortes zum Kontext vorliegt; g) Sinn-Signal -Kombinationen, die zu Widersprüchen führen, werden aussortiert, Sinn-Signal Kombinationen für
Übereinstimmungen, werden nach dem Grad der Übereinstimmung ihrer Sinn-Signale anhand eines vorgegebenen Übereinstimmungs- Kriteriums automatisch numerisch bewertet und registriert , h) automatische Zusammenstellung aller Input-Wörter, die sich aus den Schritten d) und g) ergeben, werden als das Sinnmuster des Textes, insbesondere des Satzes, ausgegeben.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass in Abhängigkeit von dem vorgegebenen Übereinstimmungs-Kriterium automatisch entschieden wird, ob das Sinnmuster für mindestens ein Inpüt-Wort des Textes mehr als eine Verbleibende Bedeutung : aufweist, so dass kein eindeutiges Sinnmuster und/oder kein: eindeutiger Sinn des Satzes im Kontext vorliegt und eine Anzeige der Nichteindeütigkeit und deren Ursache erfolgt und/oder dem Benützer-Interaktiöns-Manager (7) bei Bedarf zur Verfügung steht .
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet,
■ dass der Text. mit; den Input-Wörtern eine Zeichenfolge; ist, die aus: : einem schriftlichen Text stammt und / oder aus einer:
sonstigen Quelle, wie akustisch aufgenommener Text mittels eines Spracherkennungsprogrammes , oder fotografierter Text,; OCR, usw..
4. Verfahren nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass ein weiterverarbeitbares Signal : für den Eindeutigkeitsgrad eines Textes generiert wird, wenn nach dem Schritt e) des Anspruchs, die verbleibende Anzahl Sinn- Signale für alle Input-Wörter eines Textes bekannt ist.
5. Verfahren nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass nachdem für alle Wörter des Textes, insbesondere denen eines Satzes durch einen Sinn-Modulator (2): ein Wort-Sinn-Score „SW" berechnet wird und ein Satz-sinn-Score „SS", wobei der Wort-Sinn-Score die Anzahl der Einträge des jeweiligen Wortes in dem Datenbankbahksystem ist, gekoppelt mit der Relevanz des Sinnmusters des jeweiligen Wortes im Kontext des Satzes :
a) Ist: der Sinn-Score „SW" für ein Wort des Satzes gleich 0 (Null) so ist das Wort falsch geschrieben und der Satz erhält den Satz-Score „SS" = 0,
:b) Ist der Sinn-Score „SW" für ein Wort des Satzes größer 1, so ist der analysierte Satz falsch, und/oder uneindeutig
formuliert, denn Wörter mit SW > 1 haben mehr als 1 mögliche Bedeutung im Satz und seinem Kontext, wobei dann der Satz-Score „SS" = „SW" gesetzt wird,
c) haben mehr als ein Wort des Satzes Sinn-Score „SW" > 1, so wird der Satz-Score „SS" auf den maximalen Wert „SW" der Sinn- Scores der Wörter des jeweiligen Satzes gesetzt, d) haben alle Wörter des Satzes einen Sinn-Score „SW"=1 so ist der Satz eindeutig und erhält den Satz-Score „SS" = 1 e) haben Wörter einen Sinn-Score „SW" =,-2, dann lasseh sie ; sowohl Groß- als auch Kleinschreibung zu, wobei der Satz-Score „SS" dann den Wert „SS" = -2 bekommt, solange, bis über;
weitere, iterative Schritte die körrekte Groß-/Klein- Schreibweise der -Wörter mit „SW" = -2 , in diesem Satz, endgültig berechnet ist,
f) handelt es sich um Text. aus Sprachinpüt und haben Wörter einen Sinnscore „SW" ungleich 1, und gehören zu einer
Homofongruppe - identifiziert aus Datenverarbeitungssystem (1 ) , dann erhalten sie den Sinn-Score „SW"=-3, und der Satz-Score „SS" behält den Wert -3, solange, bis über weitere, iterative Schritte, das korrekte Homofon der Gruppe in diesem Satz und seinem: Kontext, endgültig berechnet ist, g) haben Wörter des Satzes Sinn-Score „SW" >1, so wird mit Wörtern von beliebig vielen „v" vorhergehenden oder „n"
nachfolgenden Sätzen des Textes überprüft, ob hier Wörter enthalten sind, die durch die Modulation ihrer Sinn-Signale zu „SW" = 1 im Input-Satz führen, wobei für normale
Sprachanwendungen und gut verständliche Texte ist üblicherweise „v" =1 und „n" = 0.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass bei Wörtern mit SW = 0, eine speicherbare Fehlermeldung generiert wird, die insbesondere Rechtschreibfehler aller Wörter des Textes angibt und insbesondere die berechneten Möglichkeiten zur Fehlerbehebung und in einem Fehler-Meldungs-Speicher (4) sequenziell gespeichert werden und dem Benutzer-Interaktions- Manager (7) bei Bedarf zur Verfügung stehen.
7. Verfahren nach Anspruch 4 oder 5, dadurch gekennzeichnet, dass bei Wörtern mit „SW" = -2 , eine speicherbare Fehlermeldung gestartet wird, die insbesondere das Vorhandensein von Fehlern in der Groß-/Kleinschreibung aller Wörter des Satzes angibt, mit Nennung der Wortposition im Satz, Fehlerursache und Anzeige von aus dem Speicher des Datenbanksystems (1) berechneten
Möglichkeiten zur Fehlerbehebung und im Fehler-Meldungs-Speicher (4) sequenziell gespeichert wird und dem Benutzer-Interaktions- Manager (7) bei Bedarf zur Verfügung stehen.
8. Verfahren nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass für den Fall, dass für kein Wort SW=0 ist, ein Sinn-Modulator (3) das Haupt-Thema - als
häufigster, gültiger Einschränkungsverweis (EV) aus (3) in Form seines Sinn-Signals - des laufenden Absatzes in Form der Sinn- Signale der Einschränkungs-Verweise rollierend aktualisiert und hierarchisch abrufbar gemacht wird und dem Benutzer- Interaktions-Manager (7) bei Bedarf zur Verfügung stehen.
9. Verfahren nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass bei Sätzen mit SS > 1 eine
Autotranslation-Meldung generiert wird, welche die noch
vorhandenen #SW Bedeutungsmöglichkeiten jedes Wortes listet, und jeweils die gängigsten Synonyme jedes Wortes aus dem
Datenbanksystem (1) über seine gültigen Sinn-Signale abruft und im Autotranslation-Speicher (5) sequenziell abspeichert und dem Benutzer-Interaktions-Manager (7) bei Bedarf zur Verfügung stellt.
10. Verfahren nach mindestens einem der vorhergehenden
Ansprüche, dadurch gekennzeichnet, dass es Teil einer
computerimplementierten Übersetzungsvorrichtung zur Übersetzung von Texten, insbesondere Sätzen einer natürlichen Sprache in eine Zielsprache, unter Verwendung von „Recht-Sinn-Prüfung" ist, wobei eine automatische Übernahme eines Satzes mit Score SS = 1 erfolgt, oder der Text verarbeitet wird, solange, bis mindestens ein Satz mit Satz-Score=l vorliegt, und / oder keine
unbearbeiteten Sätze mit SS ungleich 1 mehr vorliegen.
11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, dass die Übersetzung des Textes in die gewählte Zielsprache erfolgt, unter Berücksichtigung der vorgegebenen, eindeutigen Sinn- Signale aller Wörter und allen Zusatzinformationen die in den Speichern (4), (5), (6) und Interatkions-Manager (7) verfügbar sind.
12. Verfahren nach Anspruch 10 oder 11, gekennzeichnet durch eine Anwendung von Sprachpaarungs-bestimmten Regeln aus dem Datenbanksystem (1), die durch Anpassung der Reihenfolge der Wörter im Input-Satz, bezogen auf ihre Morphologie und Flexion, und der Reihenfolge der Satzelemente, Hauptsätze, Nebensätze, eingeschobene Nebensätze, Subjekte, Prädikate, Objekte, Text- Teile zwischen Gedankenstrichen, Textteile zwischen zwei
Klammern (auf/zu) usw. bestimmt und in Speicher (6), den Satz in der Zielsprache in eine Reihenfolge, stellt, die in der Zielsprache semantisch, morphologisch, grammatikalisch und syntaktisch mindestens so korrekt ist wie der Inputsatz und Berücksichtigung aller satzbezogenen Einträge in Speichern ( (6) und (7) .
13. Verfahren nach mindestens ..einem der vorhergehenden
Ansprüche, dadurch gekennzeichnet, dass eine Anzeige und / oder akustische Widergabe, oder durch andere Sinnesorgane
wahrnehmbare Darstellung der Ergebnis-Wörter der Übersetzung auf einem Ausgabemittel erfolgt.
14. Verfahren nach mindestens einem der vorhergehenden
Ansprüche, dadurch gekennzeichnet, dass bei Anwesenheit von Wörtern mit Homofonen in einem Satz und entsprechender Vorgabe,, eine Überprüfung des Sinn-Signal-Übereinstimmungsgrades des vorhandenen Wortes und aller seiner weiteren homofonen
Schreibweisen aus Datenbanksystem (1) im Bezug zum Kontext automatisch durchgeführt wird, und daraufhin ein automatischer Ersatz durch das Homofon mit der höchsten Sinn-Modulation im Satz, und / oder Fehlermeldung über Fehlermeldüngsspeicher (4) und Interaktions-Manager (7) erfolgt, wenn keine ausreichende, rechnerische Differenzierung unter: den Sinn-Signalen der Wörter einer gleichen Homofongruppe im Kontext vorliegt.
15. Verfahren nach : mindestens einem der vorhergehenden
Ansprüche, dadurch gekennzeichnet, dass zur Verarbeitung und / oder Rekonstruktion von verstümmelten Texten aus automatischer . Spracherkennung bei Hintergrundgeräuschen einer natürlichen Sprache, und/oder Text mit Tippfehlern, OCR, usw. und bei der Bedingung für mindestens ein Wort SS=0, systematisch,
automatisch die Möglichkeiten ermittelt werden, den Satz
umzuformulieren, durch korrekte Rechtschreibung fehlerhafter Wörter, insbesondere nach „Sounds-Like" oder „Looks-Like"
Methoden oder ähnlichen Suchalgorithmen anhand von Daten aus dem Datenbanksystem (1) ierfolgen, wobei zunächst mit Priorität, : basierend auf Wörtern die Homofonen des betreffenden Wortes ähnlich sind, oder Auslassungen von Buchstaben, Leerzeichen ode typischen Tippfehlern beim Bedienen einer Tastatur, inkl.
Groß/Klein-Schreibung, Akzentuierung usw. entsprechen.
16. Verfahren nach Anspruch 15., gekennzeichnet dadurch, dass mit den Sinn-Signalen korrigierbarer Wörter ausprobiert wird, o sich Sätze mit Satz-Score SS=1 ergeben die der Benutzer dann al priorisierten Output erhält, und/oder ein Abbruch der Prozedur erfolgt, wenn sich nach einer vom Benutzer vorgegebenen Zeit - z.B. 5 Sekunden - keine brauchbaren Treffer ermitteln lassen (Maßstab = ca. 500 ... 1000 Ausprobier-Versuche pro Sekunde), wobei dann der Input-Satz mit der Information der zur Korrektur analysierten Wörter getaggt wird und liegen nur Sätze mit Score ungleich 1 vor, diejenigen für das Tagging priorisiert werden, die die wenigsten Wörter mit SW=0 aufweisen, wobei das
ermittelte Gesamtergebnis über Fehlermeldungsspeicher (4) und Autotranslationspeicher (5) dem Benutzer-Interaktions-Manager (7) zur Verfügung gestellt wird.
17. Verfahren nach mindestens einem der vorhergehenden
Ansprüche, dadurch gekennzeichnet, dass für eine Suchmaschine zur Suche in Datenbeständen, deren Texinhalte durch „Recht-Sinn Prüfung" getaggt sind und auf dem automatischen Tagging basierend automatisch abfragbar sind.
18. Verfahren nach Anspruch 17, gekennzeichnet dadurch, dass eine automatische Datenbank-Ergänzung entsprechend der Sinn- Signale aller seiner Wörter erfolgt, vor dem Suchprozess und insbesondere - jedoch nicht ausschließlich -, von allen Sätzen die einen Satz-Score SS=1 haben und entsprechend automatisch getaggt wurden.
19. Verfahren nach mindestens einem der vorhergehenden
Ansprüche, gekennzeichnet dadurch, dass ein automatischer
Einbezug aller, gleichsprachigen Synonyme und fremdsprachigen Synonyme in allen ihren gültigen Flexionen in die Suche (gleiches Sinn-Signal wie gesuchter Begriff) einbezogen wird.
20. Verfahren nach mindestens einem der vorhergehenden
Ansprüche, gekennzeichnet dadurch, dass bei Verwendung mehrerer Suchwörter, eine Kombination der Sinn-Signal-Treffer nach der Verknüpfungslogik der Suchwörter erfolgt.
21. Verfahren nach mindestens einem der vorhergehenden
Ansprüche, gekennzeichnet dadurch, dass es eine
computerimplementierte, Bewertung der Nützlichkeit von Aussagen in Form von Text in natürlicher Sprache zu einem schriftlich vorgegebenen Thema vornimmt, indem bei einem automatisch übernommenen Satz mit Satz-Score SS=1 ein automatischer
Vergleich der Sinn-Signale der Wörter des Satzes mit
vorgegebenen Kombinationen bzw. Mustern von Sinn-Signalen, mit getaggten Wörtern des Vergleichs-Themas durchgeführt wird.
22. Verfahren nach Anspruch 21, gekennzeichnet dadurch, dass eine Wertung der Überdeckung der Sinn-Signale der Thema-Vorgabe und des Input-Satzes mit vorgegebenen Sinn-Modulations-Mustern erfolgt und dabei die Existenz von Sinn-Signalen von logischen Operatoren und/oder Disjunktoren und/oder andere Junktoren, (z.B. „nicht", „auch", „oder", „immer", „nie", "selten", „aber nicht" usw. ) innerhalb der Satz-Struktur des Inputsatzes berücksichtigt werden.
23. Verfahren nach mindestens einem der vorhergehenden
Ansprüche, gekennzeichnet durch eine computerimplementierte Führung automatischer Dialoge von Computern und/oder
„antwortenden Computern" mit Benutzern, so dass der gesprochene Input eines Benutzers durch den antwortenden Computer als Text erfasst wird und nach mindestens einem der vorhergehenden
Ansprüche mit „Recht-Sinn-Prüfung" bearbeitet ist.
24. Verfahren nach Anspruch 23 , gekennzeichnet dadurch, dass eine Aufteilung des Input-Textes in einzelne Sätze durch den antwortenden Computer durchgeführt wird und eine automatische Bewertung erfolgt, welche davon Aussage-, Fragesätze,
Exklamationssätze, usw. sind, z.B. durch Anwesenheit von dafür typischen Satzzeichen - am Satzende und / oder am Satzende und / oder im Satz, wie , Fragezeichen, Hochkommas, Ausrufezeichen, Gedankenstrichen usw., und / oder derer typischer Satzstruktur und /oder Sinngebung.
25. Verfahren nach mindestens einem der vorhergehenden
Ansprüche, gekennzeichnet dadurch, dass ein Abgleich der Sinn- Signale der Aussage- und Frage-Sätze des Benutzers durchgeführt wird, nach ihrem jeweiligen Matching/Übereinstimmung mit einem getaggten Datenbeständ der Aussage-Sätze, Antwortsätze und
Standard-Fragesätze einer maschinenlesbaren Text-Ontologie des antwortenden/dialogbeteiligten Computers, welche in der
gleichen, natürlichen Sprache vorliegt - aber nicht
zwingenderwiese-, wie die natürliche Sprache, in welcher der Benutzer interagiert, wobei mindestens einer der folgenden
Schritte durchgeführt wird: a): bei Matching-Werten der Sinn-Signale der. Input-Sätze des Benutzers oberhalb eines bestimmten Niveaus, mit der
Computerontologie des antwortenden Computers, die im
atching/Übereinstimmungs-Wert jeweils am höchsten bewerteten Antwort-, Aussagesätze usw. aus der jeweils genutzten
Computerontologie identifiziert werden, b) durch den -antwortenden Computer eine strukturierte,
automatische Antwort für den Benutzer generiert wird, durch Bestätigen der höchstrangigsten Sätze des Benutzers bezüglich der Computerontologie durch den antwortenden Computer über ein Sprachausgabesystem nach Stand der Technik und / oder anderen sensoriell erfassbaren Übertragungsverfahren, c) anbieten des höchstrangigsten Antwort-Satzes der
Computerontologie des antwortenden Computers über ein
Sprachausgabesystem nach Stand der Technik und / oder anderen sensoriell erfassbaren Übertragungsverfahren, welches dem Benutzer nach Abfrage nur kontrollierte Antworten erlaubt, z.B. „Ja" oder „Nein", d) versenden eines Links und / oder sensoriell erfassbarer Information durch den antwortenden Computer - nach bestimmten Regeln der Ontologie und passend zum Sinn der Fragen des
Benutzers -, den der Benutzer erhält, um daraus genauere
Informationen zu seinen Fragen abzurufen und / oder abzulesen und dann gezieltere Fragen an den antwortenden Computer stellen zu können, die der Benutzer ansonsten in der für Ihn lesbaren Computerontologie nur nach einigem, eigenem Suchaufwand selbst gefunden hätte, e) bei Matchingwerten der Sinn-Signale unterhalb eines gewissen Übereinstiummüngs-Niveaus, im antwortenden Computer ein auf seinen vorhergehenden Fragen basierter Standard-Dialog abgerufen wird, den der Benutzer nur mit „Ja" oder „Nein" beantworten kann, und /oder mit der Nennung von kontrolliert vorgegebenen, insbesondere gesprochenen, alphanumerischen, hörbaren, fühlbaren oder optisch wahrnehmbaren Optionen, und / oder dass im
antwortenden Computer eine automatische Erkennung des
Zeitpunktes erfolgt, ab dem das Eingreifen eines Menschen erforderlich ist, durch automatische Bewertung der Redundanz des Dialoges oder inhaltlichen Mustern wie Ärger oder Ungeduld, von Sinn-Signal-Mustern in den verbalen Reaktionen des Nutzers während des Dialoges und / oder optisch wahrnehmbarer Reaktionen des Nutzers über eine Kamera im unmittelbaren Umfeld seines Dateneingabegerätes.
26. Verfahren nach mindestens einem der vorhergehenden
Ansprüche, gekennzeichnet durch eine computerimplementierte, erweiterte Rechtschreib-Prüfung, unter Verwendung der „Recht- Sinn-Prüfung", wobei insbesondere eine automatische Ausführung erfolgt, aber ohne dass der Satz mit den Sinn-Signalen selbst getaggt wird, nachdem er Satz-Score > 0 erreicht hat,
gleichbedeutend damit, dass der Text lediglich auf
Rechtschreibfehler geprüft und interaktiv vom Benutzer
korrigiert wird, ohne dass jedoch notwendigerweise ein Tagging des Satzes mit z.B. semantischen oder logischen ZusatzInformationen erfolgt.
27. Verfahren nach mindestens einem der vorhergehenden
Ansprüche, gekennzeichnet durch eine computerimplementierte-;
Worterkennung beim Eintippen von Wörtern über Tastaturen die z.B. mehrfach belegte Tasten enthalten können unter Verwendung von „Recht-Sinn-Prüfung" und automatischem Ergänzen der Wörter mit Wörtern aus dem Datenbanksystem (1), die am besten zu der zu diesem Zeitpunkt vorhandenen Syntax und .Kontext passen.
; 28.. Cömputerimplementiertes Verfahren zur semantischen
Verschlüsselung von Sätzen einer natürlichen Sprache, unter /Verwendung von „Recht-Sinn-Prüfung" nach mindestens einer der
Nr. 1 bis 31. , gekennzeichnet dadurch, dass. ,ΠΓ Wörter in.:jedem:
Satz grammatikalisch/semantiseh passend .ausgetauscht werden .
und/oder „n" Wörter ::grammatikalisch/semantisch: passend
hinzugefügt werden/ die geeignete Sinn-Signale besitzen, . im
Vergleich zu ihrem unmittelbaren, kontextuellen Umfeld, die anzeigen, dass durch Einfügung, Negation, Relativierung oder Weglassung Und /;oder durch Verwendung derer Antonyme aus dem ..· Datenbestand des Datenbanksystems (1 ) der Satz-Sinn maßgeblich verändert werden kann, jedoch ohne dass der Sätz-Seore verändert wird, gleichtbedeutend damit , :dass der Text nach der .
automatischen- Veränderung keine zusätzlichen semantisch/fachlich sinnloseren Sätze enthält, als das Original aus dem er erzeugt wird, mit >=1 bzw.: ,η' >= 0 und wobei mindestens einer der: folgenden Schritte durchgeführt ird: a) alle alfanumerischen . Ketten> die Eigennamen und/oder
Datumsangaben und/oder reihe Zahlen sind, die eigene Sinn- Signale aufweisen, oder' denen äütomatisch passende' Sinnsignäle .· automatisch zugewiesen werden können, und/oder .besonders: durch- : den Benutzer,: vorab gekennzeichnete Einzelworte, jeweils durch codierte, anonyme Schlüsselwörter ausgetauscht werden, denen zum Anonymisierungsgrad pässend, gekürzte Sinnsignale automatisch hinzugefügt werden, b) die Start-Sätze des Benutzers unter Berücksichtigung der Original-Reihenfolge auf dem System des Benutzers gespeichert werden, sowie ein Log-File aller Änderungen gespeichert wird, die als Satz-Varianten oder Anonymisierungen erstellt wurden, unter Registrierung jeder Änderung und ableitbarem Inhalt der Änderung und Position im jeweiligen Satz des Textes. c) der Benutzer wird dabei mit „Recht-Sinn-Prüfung" unterstützt, aus anderen, abrufbaren Text-Datenbeständen auf dem von ihm benutzten System, als dem aktuellen Text selbst, Sätze zu identifizieren, die Sätzen vom zu verschlüsselnden Input-Text semantisch ähnlich sind - jedoch nicht logisch-, und einen Satz- Score SS = 1 haben, d) die Anzahl Sätze des Original-Textes auf mindestens 7 erhöht wird, falls über Input-Text plus Satz-Varianten weniger als 7 Sätze zum Verschlüsseln vorliegen, e) ein Text erstellt wird, welcher die Start-Sätze des Benutzers enthält, sowie „m" angehängte Sätze, seiner automatisch
erstellten Varianten. f) eine stochastische Verwürfelung der Reihenfolge der
vorliegenden Sätze erfolgt und die explizite Reihenfolgeänderung vor und nach der Verwürfelung zu einem Log-File hinzugefügt wird, g) bei Vorliegen des unveränderten, aber verwürfelten Textes und der erzeugten Log-Files, der Originaltext, den der Benutzer ursprünglich eingab, fehlerlos - dem Original entsprechendrekonstruiert werden kann. h) eventuelle System-Rückfragen des verschlüsselten Textes so an den einzelnen Wörtern und Sätzen getaggt werden, dass sich nach Rekonstruktion des Originaltextes Autotranslation-Rückfragen, Fehlermeldungen und semantische Informationen der Sätze
gegenseitig, automatisch annulieren können, so dass
konktextbezogene Informationen, die durch die Verwürfelung zunächst nicht mehr im Zusammenhang stehen, im Originaltext automatisch rekonstruiert werden, und zwar ohne
Benutzerinteraktion, wenn diese im unverwürfelten Text nicht erforderlich war.
EP14757840.5A 2014-01-28 2014-07-29 Verfahren zur automatischen sinnerkennung und messung der eindeutigkeit von text Ceased EP3100174A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102014001119 2014-01-28
PCT/EP2014/002111 WO2015113578A1 (de) 2014-01-28 2014-07-29 Verfahren zur automatischen sinnerkennung und messung der eindeutigkeit von text

Publications (1)

Publication Number Publication Date
EP3100174A1 true EP3100174A1 (de) 2016-12-07

Family

ID=51429239

Family Applications (1)

Application Number Title Priority Date Filing Date
EP14757840.5A Ceased EP3100174A1 (de) 2014-01-28 2014-07-29 Verfahren zur automatischen sinnerkennung und messung der eindeutigkeit von text

Country Status (7)

Country Link
US (2) US10303769B2 (de)
EP (1) EP3100174A1 (de)
JP (2) JP2017511914A (de)
KR (1) KR102425917B1 (de)
CA (1) CA2938064C (de)
IL (1) IL246990B (de)
WO (1) WO2015113578A1 (de)

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9348812B2 (en) * 2014-03-14 2016-05-24 Splice Software Inc. Method, system and apparatus for assembling a recording plan and data driven dialogs for automated communications
US10019567B1 (en) * 2014-03-24 2018-07-10 Amazon Technologies, Inc. Encoding of security codes
WO2016147034A1 (en) * 2015-03-19 2016-09-22 Yandex Europe Ag Method of and system for processing a text stream
US9672206B2 (en) * 2015-06-01 2017-06-06 Information Extraction Systems, Inc. Apparatus, system and method for application-specific and customizable semantic similarity measurement
AU2017246552B2 (en) 2016-04-05 2019-08-29 Financial & Risk Organisation Limited Self-service classification system
US10891421B2 (en) * 2016-04-05 2021-01-12 Refinitiv Us Organization Llc Apparatuses, methods and systems for adjusting tagging in a computing environment
EP3474275A4 (de) * 2016-06-21 2019-11-06 Sony Corporation Informationsverarbeitungsvorrichtung und informationsverarbeitungsverfahren
US10318640B2 (en) * 2016-06-24 2019-06-11 Facebook, Inc. Identifying risky translations
DE102016114265A1 (de) * 2016-08-02 2018-02-08 Claas Selbstfahrende Erntemaschinen Gmbh Verfahren zum zumindest teilweise maschinellen Transferieren einer in einer Quellsprache abgefassten Wortfolge in eine Wortfolge einer Zielsprache
CA3038797A1 (en) 2016-09-30 2018-04-05 Rovi Guides, Inc. Systems and methods for correcting errors in caption text
US10380263B2 (en) * 2016-11-15 2019-08-13 International Business Machines Corporation Translation synthesizer for analysis, amplification and remediation of linguistic data across a translation supply chain
CN106650493B (zh) * 2016-12-14 2019-08-02 咪咕文化科技有限公司 一种行为数据的获取方法和装置
EP3358471A1 (de) * 2017-02-04 2018-08-08 Tata Consultancy Services Limited Systeme und verfahren zur beurteilung der qualität von eingabetexten unter verwendung rekurrenter neuronaler netze
JP7017027B2 (ja) * 2017-03-17 2022-02-08 富士フイルムビジネスイノベーション株式会社 検索装置、検索プログラム、および検索システム
WO2018175291A1 (en) * 2017-03-20 2018-09-27 Ebay Inc. Detection of mission change in conversation
US10796088B2 (en) * 2017-04-21 2020-10-06 International Business Machines Corporation Specifying a conversational computer agent and its outcome with a grammar
US11468234B2 (en) * 2017-06-26 2022-10-11 International Business Machines Corporation Identifying linguistic replacements to improve textual message effectiveness
US10657327B2 (en) * 2017-08-01 2020-05-19 International Business Machines Corporation Dynamic homophone/synonym identification and replacement for natural language processing
CN109558303B (zh) * 2017-09-25 2023-02-28 阿里巴巴集团控股有限公司 一种应用行为分析方法、装置及电子设备
CN110019994A (zh) 2017-11-13 2019-07-16 阿里巴巴集团控股有限公司 数据加密、解密及查询方法、数据加密解密及查询装置
CN108763462B (zh) * 2018-05-28 2021-11-12 深圳前海微众银行股份有限公司 平行语句库的更新方法、设备及计算机可读存储介质
KR102133825B1 (ko) 2018-06-22 2020-07-16 서강대학교 산학협력단 단어자질을 강화한 음성 대화 방법 및 시스템
WO2020021609A1 (ja) 2018-07-23 2020-01-30 富士通株式会社 生成方法、生成プログラムおよび情報処理装置
US10467344B1 (en) 2018-08-02 2019-11-05 Sas Institute Inc. Human language analyzer for detecting clauses, clause types, and clause relationships
US20220164678A1 (en) * 2018-09-26 2022-05-26 Entigenlogic Llc Curing a deficiency of a knowledge database
KR102219189B1 (ko) 2018-09-28 2021-02-23 주식회사 솔루게이트 버추얼 상담 시스템 및 이를 이용한 상담방법
KR102122560B1 (ko) * 2018-11-22 2020-06-12 삼성생명보험주식회사 글자 인식 모델의 업데이트 방법
US11593561B2 (en) * 2018-11-29 2023-02-28 International Business Machines Corporation Contextual span framework
KR102299001B1 (ko) * 2019-03-25 2021-09-07 김현진 문장의 중의성을 해결하고 생략된 문법 요소를 함께 표시하는 사용자 맞춤형 번역 방법 및 그 장치
US11397731B2 (en) * 2019-04-07 2022-07-26 B. G. Negev Technologies And Applications Ltd., At Ben-Gurion University Method and system for interactive keyword optimization for opaque search engines
US11295080B2 (en) 2019-06-04 2022-04-05 International Business Machines Corporation Automatic detection of context switch triggers
CN110457713B (zh) * 2019-06-19 2023-07-28 腾讯科技(深圳)有限公司 基于机器翻译模型的翻译方法、装置、设备和存储介质
CN110610000A (zh) * 2019-08-12 2019-12-24 央视国际网络无锡有限公司 一种关键人名语境错误检测方法及系统
CN112449057B (zh) * 2019-08-15 2022-07-29 腾讯科技(深圳)有限公司 消息的提示方法和装置、存储介质及电子装置
US11620535B2 (en) * 2019-09-25 2023-04-04 International Business Machines Corporation Heuristic ideation
CN110991196B (zh) * 2019-12-18 2021-10-26 北京百度网讯科技有限公司 多义词的翻译方法、装置、电子设备及介质
CN111191459B (zh) * 2019-12-25 2023-12-12 医渡云(北京)技术有限公司 一种文本处理方法、装置、可读介质及电子设备
US11316806B1 (en) * 2020-01-28 2022-04-26 Snap Inc. Bulk message deletion
CN112749251B (zh) * 2020-03-09 2023-10-31 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质
CN111651973B (zh) * 2020-06-03 2023-11-07 拾音智能科技有限公司 一种基于句法感知的文本匹配方法
CN111767733A (zh) * 2020-06-11 2020-10-13 安徽旅贲科技有限公司 一种基于统计分词的文献密级甄别方法
WO2022043675A2 (en) * 2020-08-24 2022-03-03 Unlikely Artificial Intelligence Limited A computer implemented method for the automated analysis or use of data
US11687724B2 (en) * 2020-09-30 2023-06-27 International Business Machines Corporation Word sense disambiguation using a deep logico-neural network
US11886794B2 (en) * 2020-10-23 2024-01-30 Saudi Arabian Oil Company Text scrambling/descrambling
KR102398980B1 (ko) * 2020-10-23 2022-05-17 주식회사 아이브랩 사용자 특성에 따른 정보 데이터 변환 방법 및 장치
CN112435651B (zh) * 2020-11-20 2023-05-02 昆明学院 一种语音数据自动标注的质量评估方法
CN112560511B (zh) * 2020-12-14 2024-04-23 北京奇艺世纪科技有限公司 台词翻译方法、装置及翻译模型训练方法、装置
US20220310081A1 (en) * 2021-03-26 2022-09-29 Google Llc Multilingual Re-Scoring Models for Automatic Speech Recognition
US11823427B2 (en) * 2021-06-24 2023-11-21 Accenture Global Solutions Limited Automatic artwork review and validation
US11989507B2 (en) 2021-08-24 2024-05-21 Unlikely Artificial Intelligence Limited Computer implemented methods for the automated analysis or use of data, including use of a large language model
US11989527B2 (en) 2021-08-24 2024-05-21 Unlikely Artificial Intelligence Limited Computer implemented methods for the automated analysis or use of data, including use of a large language model
US11977854B2 (en) 2021-08-24 2024-05-07 Unlikely Artificial Intelligence Limited Computer implemented methods for the automated analysis or use of data, including use of a large language model
US11681878B2 (en) * 2021-11-22 2023-06-20 Ernst & Young U.S. Llp Methods and apparatus for creating domain-specific intended-meaning natural language processing pipelines
CN114218393A (zh) * 2022-02-22 2022-03-22 北京新唐思创教育科技有限公司 数据分类方法、装置、设备和存储介质
DE102022128157A1 (de) 2022-10-25 2024-04-25 Bayerische Motoren Werke Aktiengesellschaft Computerimplementiertes Verfahren zur Standardisierung von Teilenamen
CN116882414B (zh) * 2023-09-05 2023-11-07 深圳爱马奇科技有限公司 基于大规模语言模型的评语自动生成方法及相关装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4330847A1 (de) * 1993-09-11 1995-03-16 Sel Alcatel Ag Vorrichtung und Verfahren zur Datenverarbeitung
US20020133347A1 (en) 2000-12-29 2002-09-19 Eberhard Schoneburg Method and apparatus for natural language dialog interface
US7184948B2 (en) 2001-06-15 2007-02-27 Sakhr Software Company Method and system for theme-based word sense ambiguity reduction
US6792323B2 (en) * 2002-06-27 2004-09-14 Openpeak Inc. Method, system, and computer program product for managing controlled residential or non-residential environments
US7302383B2 (en) * 2002-09-12 2007-11-27 Luis Calixto Valles Apparatus and methods for developing conversational applications
US8548795B2 (en) 2006-10-10 2013-10-01 Abbyy Software Ltd. Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system
US8145473B2 (en) * 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
BG66255B1 (en) * 2007-11-14 2012-09-28 Ivaylo Popov Natural language formalization
US8190423B2 (en) * 2008-09-05 2012-05-29 Trigent Software Ltd. Word sense disambiguation using emergent categories
US8260605B2 (en) 2008-12-09 2012-09-04 University Of Houston System Word sense disambiguation
AU2011274286A1 (en) 2010-06-29 2012-12-13 Springsense Pty Ltd Method and system for determining word senses by latent semantic distance
US8635059B2 (en) * 2010-11-15 2014-01-21 Google Inc. Providing alternative translations
WO2014011208A2 (en) * 2012-07-10 2014-01-16 Venor, Inc. Systems and methods for discovering content of predicted interest to a user
US20140067731A1 (en) * 2012-09-06 2014-03-06 Scott Adams Multi-dimensional information entry prediction

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
None *
See also references of WO2015113578A1 *

Also Published As

Publication number Publication date
KR20160114668A (ko) 2016-10-05
US20190332670A1 (en) 2019-10-31
KR102425917B1 (ko) 2022-07-26
IL246990A0 (en) 2016-09-29
US10303769B2 (en) 2019-05-28
IL246990B (en) 2020-07-30
CA2938064C (en) 2024-05-21
US11068662B2 (en) 2021-07-20
CA2938064A1 (en) 2015-08-06
WO2015113578A1 (de) 2015-08-06
US20160357731A1 (en) 2016-12-08
JP2017511914A (ja) 2017-04-27
JP2020098616A (ja) 2020-06-25

Similar Documents

Publication Publication Date Title
WO2015113578A1 (de) Verfahren zur automatischen sinnerkennung und messung der eindeutigkeit von text
Rudkowsky et al. More than bags of words: Sentiment analysis with word embeddings
Mart The algorithm as a human artifact: Implications for legal [re] search
DE112018004376T5 (de) Schützen kognitiver systeme vor auf gradienten beruhenden angriffen durch die verwendung irreführender gradienten
Cetto et al. Graphene: Semantically-linked propositions in open information extraction
DE102014113870A1 (de) Identifizieren und Anzeigen von Beziehungen zwischen Kandidatenantworten
CN104794169B (zh) 一种基于序列标注模型的学科术语抽取方法及系统
DE112017006151T5 (de) Anpassbare Verarbeitungskomponenten
DE112013005742T5 (de) Absichtsabschätzungsvorrichtung und Absichtsabschätzungsverfahren
Rodríguez-Ordóñez Reexamining differential object marking as a linguistic contact-phenomenon in Gernika Basque
Heinz et al. Topics in grammatical inference
DE112020004417T5 (de) Selektives tiefes parsing von inhalten in natürlicher sprache
Kraft Triggering models: Measuring and mitigating bias in german language generation
Zhang Evaluating the factual correctness for abstractive summarization
Marrville Gender and dominance in action: World view and emotional affect in language processing and use
Livermore et al. Language Model Interpretability and Empirical Legal Studies
Islam et al. Readability classification of bangla texts
Shekhar et al. Computational linguistic retrieval framework using negative bootstrapping for retrieving transliteration variants
DE102016125162B4 (de) Verfahren und Vorrichtung zum maschinellen Verarbeiten von Texten
DE112020002740T5 (de) Erkennen von stimmungen unter verwenden von medizinischen hinweisen
Litvin et al. Development of natural language dialogue software systems
Rudkowsky et al. Open Access: More than Bags of Words: Sentiment Analysis with Word Embeddings
CN112417241B (zh) 一种基于事件的神经影像学文献挖掘主题学习管道的方法
Kahusk et al. The Revision History of Estonian Wordnet.
Kaleem et al. Word order variation and string similarity algorithm to reduce pattern scripting in pattern matching conversational agents

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20160816

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

AX Request for extension of the european patent

Extension state: BA ME

DAX Request for extension of the european patent (deleted)
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

17Q First examination report despatched

Effective date: 20180613

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

APBK Appeal reference recorded

Free format text: ORIGINAL CODE: EPIDOSNREFNE

APBN Date of receipt of notice of appeal recorded

Free format text: ORIGINAL CODE: EPIDOSNNOA2E

APBR Date of receipt of statement of grounds of appeal recorded

Free format text: ORIGINAL CODE: EPIDOSNNOA3E

APAF Appeal reference modified

Free format text: ORIGINAL CODE: EPIDOSCREFNE

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: SPEECH SENSZ GMBH

REG Reference to a national code

Ref country code: DE

Ref legal event code: R003

APBT Appeal procedure closed

Free format text: ORIGINAL CODE: EPIDOSNNOA9E

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN REFUSED

18R Application refused

Effective date: 20211015