EP2856344A1 - Erzeugung von anfragen an ein datenverarbeitendes system - Google Patents

Erzeugung von anfragen an ein datenverarbeitendes system

Info

Publication number
EP2856344A1
EP2856344A1 EP12727293.8A EP12727293A EP2856344A1 EP 2856344 A1 EP2856344 A1 EP 2856344A1 EP 12727293 A EP12727293 A EP 12727293A EP 2856344 A1 EP2856344 A1 EP 2856344A1
Authority
EP
European Patent Office
Prior art keywords
data
query
lexeme
user
processing system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
EP12727293.8A
Other languages
English (en)
French (fr)
Inventor
Jörg Wurzer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iqser Holding AG
Original Assignee
Iqser IP AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iqser IP AG filed Critical Iqser IP AG
Publication of EP2856344A1 publication Critical patent/EP2856344A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2423Interactive query statement specification based on a database schema
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24522Translation of natural language queries to structured queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Definitions

  • the present invention relates to a method for the at least partially automatic generation of a request to a data processing system with a database, wherein the data base is based on a data model, which is used for selecting data from the database with a query language of the data processing system, a natural language query of a User, which by a user input of as a sequence of characters (hereinafter also called string) detected terms (hereinafter also called user terms), the semantic, which intended by the user results of the response of the data processing system to the query to be made to the data processing system describe, the natural language request of the user is analyzed and / or interpreted and translated into a query in the query language.
  • a natural language query of a User which by a user input of as a sequence of characters (hereinafter also called string) detected terms (hereinafter also called user terms)
  • the semantic which intended by the user results of the response of the data processing system to the query to be made to the data processing system describe
  • the natural language request of the user is analyzed and / or
  • the data base is based on a data model, which allows a query of data from the database by means of a query language of the data processing system.
  • data of a database are structured according to the respective data model, in particular in data classes according to a specific semantic classification regarding the content type and / or in data attributes relating to metadata.
  • CONFIRMATION COPY Request or query to the data processing system.
  • the user or user would first have to decide whether he should search for specific data classes, that is to say for a particular semantic classification with regard to the content type, for data attributes, ie metadata, or for links describing the sought-after information in terms of their content as a keyword , This will be explained in more detail with reference to the following examples:
  • Example 1 "Artist” is an object that contains the attribute “Artist”, that may be of the type “Artist” or a person that is related to artworks with the justification or description "Producer” or "Author”.
  • Example 2 An object that meets the description "Manufacturer of DVD players” may contain the text “Manufacturer of DVD players", the attribute “Products” with the value “DVD player” or the relation to products of the Type “DVD player” and have the same type of "company”.
  • the request has issues related to multilingual content. Furthermore, there are problems with a request or search for contents of a data class, of which only subordinate data classes are taken into account in the data stock. This will be explained in more detail with reference to the following examples:
  • Example 1 Search for objects that have an attribute with the name or the name “Job” and the value “Artist”. But it should also be found objects that have an attribute in the German variant with the name or the name “occupation and the value” artist ".
  • Example 2 Looking for objects that are of type "Document.” This includes objects that are, for example, of the type “Microsoft Word” or “Microsoft Excel.”
  • Example 3 A person can assume the role of an employee or a consultant in a project. Advisor could be a subclass of the data class "Employee”.
  • semantic search engine In the area of Internet search engines, concepts are known by the term "semantic search engine", wherein it is attempted to capture the semantics of a natural language query by a user's input and to translate it into one or more corresponding queries in the query language of the data processing system.
  • the previously known concepts are unsatisfactory both in terms of the degree of complexity of corresponding queries and with regard to the answers or results delivered to corresponding queries and have numerous restrictions, in particular language restrictions with regard to the evaluation.
  • the present invention is based on the invention, while avoiding the disadvantages described above, to enable a natural language request from users for data processing systems.
  • a method for at least partially automatic generation of a request to a data processing system with a database the data base is based on a data model, which is used to select data from the database with a query language of the data processing system , wherein a natural language request of a user, which by a user input of as a series of characters (string) detected terms (user terms), which terms the intended by the user results of the response of the data processing system to the query to be made to the data processing system semantically describe, the natural language request of the user is analyzed and / or interpreted and implemented in a query in the query language, proposed, which is characterized in that the recorded as a string natural language An in lexemes, these lexemes are sequentially processed according to their order in the string, with one Meaning of the respective lexeme is determined based on the data model, and from the query is formed in the query language.
  • a natural language request of a user which by a user input of as a series of characters (string) detected terms (user terms), which terms the
  • a lexeme in the sense of the present invention is a unit of meaning, linguistic units, which can manifest itself in different word forms and thereby disregards the concrete form of the linguistic unity as well as the concrete syntactic function of the linguistic unity.
  • lexemes largely correspond to syntactic words, with the difference that, in particular, Asian languages and the like, which do not know any syntactically recognizable separation of words in a sentence, are also taken into consideration.
  • Syntactic words in the sense of the present invention are units which can be shifted within a sentence, exchanged by others and / or can be separated from one another by the insertion of further words.
  • Words in the sense of the present invention are syntactic aspect least smallest displaceable and replaceable units of the sentence.
  • the use of the term lexeme in the context of the present invention takes into account that a given word can be reduced to a grammatical basic form and thus syntactic-grammatical variants can be compensated.
  • An inquiry or search request according to the invention is advantageously characterized in that the user or user intuitively describes the information he is looking for in an input field or text field with a plurality of words. This request is then broken down into its conceptual components and translated into an inquiry query language that goes beyond mere full-text search through a combination of keywords.
  • An advantageous embodiment of the invention provides that the user input is done by voice control or the like input help.
  • the data processing system advantageously has means for voice control and means for converting speech utterances into a sequence of characters.
  • An advantageous embodiment of the invention provides that it is checked for each currently used or to be processed lexeme, if there is a subsequent lexeme in the order, which is checked in this case, whether the lexeme currently being processed is the name of a data source, a data class of the data model, or a data attribute of the data model.
  • this first checks whether the natural language request of the user is a plurality of terms. If this is the case, the first term is advantageously checked to see whether there is a data source, a data class, ie a semantic classification with regard to a content type, or a data attribute, ie metadata, with this term or term.
  • a further advantageous embodiment of the invention provides that in the case of the designation of a data source or a data class, the designation is transformed into a parameter of the query language for selecting data from the dataset, wherein the parameter is the selection of data on data with the designation of Data source or data class limited.
  • the data source is checked only for the first lexeme in order.
  • a data source recognized in this way then restricts the search space for the request accordingly. For example, the term "Amazon" would only search in the data provided by the company Amazon, and if the first term corresponds to a data class, the search would be restricted to appropriately semantically classified content in terms of a content type "only search in the data classified as books by content type.
  • the information to the data processing system receives by using the available data model or in an optional embodiment of the invention advantageously of an ontology in which semantic content types representing data classes different names, so-called literate, contain or have in different languages.
  • the data processing system may further include or use dictionaries, vocabularies or the like as an ontology providing source of information.
  • a further advantageous embodiment of the invention provides that it is checked for each lexeme currently to be processed whether there is a subsequent lexeme in the sequence, in which case it is checked whether it is at the lexeme currently being processed is the name of a data source, a data class, or a data attribute of the data model.
  • a further advantageous embodiment of the invention provides that it is checked whether the lexeme currently to be processed or to be used is a noise word, that is to say a word with a low statement value, in which case the lexeme currently being processed is ignored and the following lexeme used or processed in the order.
  • the second term is thus analyzed or examined in the user's natural language query, where the second term may be a data class if the first term in the natural language query of the user has narrowed the query to a data source, or wherein the second term is a Search term if the first term in the user's natural language query corresponded to a data class representing a semantic content type, or where the second term may be a data attribute.
  • a further advantageous embodiment of the invention provides that in the case of the designation of a data attribute, the designation and the following lexeme is transformed in the order as a name-value pair into a parameter of the query language for selecting data from the dataset, the parameter limits the selection of data to data with the name of the data attribute.
  • the information is obtained by the data processing system by using the available data model or, in an optional embodiment of the invention, advantageously by an ontology, in which Data attributes (metadata) can contain or have different names, so-called literates, in different languages.
  • the data processing system may further include or use dictionaries, vocabularies or the like as an ontology providing source of data attributes.
  • a term of the natural language request of the user is the designation of a data attribute
  • the query or search is limited to the data processing system by supplementing the query with the attribute value or the metadata. This restriction is then used for the following term in the user's natural language query.
  • the designation of a data class it is checked whether the designation is also the designation of a data attribute, in which case the lexeme currently to be processed and the subsequent lexeme in the order of name-value pair in transforms a query language parameter to select data from the dataset, with the parameter narrowing down to additional datatype data for additional, alternative selection of data.
  • Both parameters which describe the data class on the one hand and the data attribute on the other hand, are therefore linked as an OR link for querying the data.
  • a further advantageous embodiment of the invention is characterized in that in the case of the designation of no data source, no data class, no data attribute or no remaining lexeme in the order of the string the lexeme currently being processed into a parameter of the query language to select data from the database
  • the parameter limits the selection of data to data with the currently processed lexeme as a free text search.
  • the next term in the natural language query of the user may be a keyword that neither represents a data class nor a data attribute and is therefore advantageously used for a restrictive free text search or full text search.
  • the method according to the invention advantageously limits the complexity of the query in the query language to a single relation.
  • the user-side input is carried out using at least one input help, in particular for the semi-automatic generation of complex queries.
  • the user or user is automatically guided in formulating the request.
  • the user-side input of the characters of the character string preferably the first input word
  • the user in the user-side input of the characters of the character string, preferably the first input word, to the input character string, the user becomes a list of possible data sources, data classes (semantic content types) and / or data attributes for a selection input made, for example, by clicking with a mouse pointer or the like displayed.
  • the user for the second word of the string of user-input is advantageously a list of possible data attributes (metadata) for example by clicking with a mouse pointer or the like selection input displayed.
  • the display of the possible selection inputs is advantageously carried out by visualization in the manner of a so-called "drop-down list", as it is known, for example, as functionality in so-called browsers.
  • the user-side input for complex or complex queries using a graphical user interface (GUI: Graphical User Interface) by creating a request tree.
  • GUI Graphical User Interface
  • the user or user can advantageously assemble a query tree or concatenate statements in the form of subject predicate object to be used in a list for the query.
  • a tree or graph representing such subject-predicate-object relationships is known, for example, from WO 2009/030288 A1, the disclosures of which are hereby expressly referenced.
  • the user advantageously first defines the root of the request tree. For this purpose, he can, for example, from a list, which is provided by the data processing system or the input help, the data class, ie the semantic classification of a content type to select, preferably from a graphical user interface using a so-called mouse pointer or the like.
  • the user can add any number of attributes.
  • the user can also select from a list of possible data attributes that exist for the previously selected data class as a semantic content type in the data model.
  • the data attributes are optionally linked by a logical "and" or "or".
  • For each attribute name or attribute designation advantageously, multiple attribute values can be specified which are linked by a logical "or.” If the user does not select an attribute name, the stored keywords advantageously initiate a free text search or full text search for the selected data class.
  • the user can add restrictive links to the object thus defined, consisting of the data class forming the root of the request tree and / or the data attributes for this data class. For this, the user can also select these restricting links for the defined object from a list. If the object linked in this way is defined, the user can limit the linkage himself by selecting a predicate, that is to say the reason for a link.
  • the data-processing system and / or the input assistant also provide him with a selection list again.
  • the user can save the request tree as a bookmark in a database or as a new data class of a semantic content type in an ontology, which ontology is subsequently usable by the data processing system for further requests and / or request trees.
  • the request tree created using the input help according to the invention is displayed graphically by the graphical user interface (GUI).
  • GUI graphical user interface
  • the user when a node of the request tree is selected, preferably by double-clicking on the nodes, the user is presented with a window with a list in which the data class and the data attributes as well as the attribute values can be defined.
  • a double-click on an edge of the request tree opens a selection list for the creation of the link, ie the predicate.
  • the subject matter of the present invention is furthermore a data processing system or a data processing device, comprising a processor, which is designed and / or set up to automatically or automatically execute a method according to the invention, in particular by loading a corresponding application program implementing the method from a storage means and executing the application program through the processor.
  • FIG. 1 shows a schematic diagram of an exemplary embodiment of a request according to the invention to a data-processing system
  • FIG. 2 in a flow chart (Fig. 2a to 2e) an embodiment of a
  • FIG. 3 shows in a flow chart an exemplary embodiment for a conversion of an input assistant according to the invention for the semi-automatic generation of a request to a data-processing system
  • FIG. 4 is a schematic diagram of an exemplary embodiment of an input assistant according to the invention for the semi-automatic generation of a request to a data-processing system
  • FIG. 5 shows in a flow chart an exemplary embodiment for a conversion of a reproduction of the results of a request according to the invention to a data-processing system.
  • FIG. 1 shows a data processing system 1 or 1 'having a database 2 which is based on a data model which can be used or processed for selecting data from the database 2 using a query language of the data processing system 1.
  • the data processing system 1 has a device 5 for analyzing and / or interpreting natural language queries 6 of users 3.
  • a natural language request of a user 3 is thereby captured by a user input 4 of user terms, wherein the user terms are detected as a sequence of characters.
  • the user terms semantically describe the intended by the user 3 results of the response of the data processing system 1 to the still to be made request to the data processing system 1.
  • the input 4 of the user terms can manually by the user 3 by pressing keys of an input device (not explicitly shown in FIG. 1) of the user 3 or by voice control (not explicitly shown in FIG. 1).
  • a natural language query 6 of a user 3 is analyzed and / or interpreted by the device 5 for analyzing and / or interpreting natural language queries 6.
  • the device 5 for the analysis and / or interpretation of natural language queries 6 uses the data model 7.
  • the metadata are part of the data processing system 1 (indicated in FIG. 1 by the reference numeral 1 ') or are used by the data processing system 1 via a communication link (not explicitly shown in FIG. 1).
  • the device 5 converts the natural language query 6 of the user 3 into a query 9 in the query language of the data processing system 1 and directs it to the index or the database of the database 2 of the data processing system 1.
  • the result of the query 9 in the query language to the index of the data stock 2 of the data processing system 1 is then delivered to the user, in particular by graphical representation of a display device (not shown in Fig. 1) of the user. 3
  • FIGS. 2 a to 2 e show in a flowchart (cf. FIGS. 2 a to 2 e) an exemplary embodiment for a conversion of a request according to the invention to a data processing system in an interrogation language of the data processing system - also referred to as a query below - by an algorithm.
  • the elements identified by hatching in FIGS. 2b and 2e are advantageously optional process variants and relate, on the one hand, to the option of a possible two-fold semantic interpretation of a word in the case of a link and, on the other hand, to the option of a filter for filler words more intuitive input, which corresponds to a natural language, as well as a more robust interpretation and thus allows a better result.
  • Embodiments of the method according to the invention in which the optional method variants are not used have, instead of the optional elements indicated by hatching, corresponding references from or to the respective corresponding elements of the flowchart which are not marked by hatching.
  • a simple search request is characterized in that the user in an input field (text field) intuitively describes the searched information with several words (keywords), that is, enters terms which the user's intended results of the response of the data processing system to the request to be made semantically describe the data processing system (see Fig. 2a, reference numeral 11).
  • This natural language query (search query 11) of the user is then broken down into its conceptual components, in the present case lexemes (see Fig. 2a, reference numeral 12) and into a query in the query language of the data processing system (see Fig. 2e, reference numeral 13 ) translated, which goes beyond a mere full-text search by combining the keywords.
  • a recognized data source would restrict the search space accordingly (see Fig. 2a, reference numeral 16).
  • the term "Amazon” would only result in a search in the data provided by Amazon.
  • a recognized data class (semantic classification (content type)) (see Fig. 2b, reference numeral 17, wherein the content type in Fig. 2 is referred to as object type OT) would be the search, that is, the query in the query language of the data processing system to correspondingly classified contents (content type or object type OT) (see Fig. 2b, reference number 18 or Fig. 2c, reference number 27), for example to the content type or the data class "book.”
  • the information is retrieved the data processing system 1 from the data model of the data processing system 1.
  • the requested content is restricted by a relation R with data corresponding to the data class (semantic classification (content type)) (see Fig. 2b, reference numeral 18).
  • the described method limits the complexity of the query Q to a data processing system in a query language of the data processing system (also called a query) to a single relation R.
  • a recognized data attribute or a recognized attribute name would limit the search to a corresponding attribute value (metadata) (see Fig. 2c, reference numerals 20 and 28, respectively).
  • a recognition is advantageously carried out as to whether the relation R with the corresponding attribute value is already part of the request Q or not. If the relation R is already a component or element of the request Q, the relation R of the request Q is delimited (see Fig. 2c, reference 20). Is the Relation R is not yet an element of the request Q, the request Q is delimited (see Fig. 2c, reference numeral 28).
  • next term of the user's natural language query is a keyword that does not represent either a data class (a content type) or a data attribute (attribute name), that term is used for a restrictive full-text search (see Fig. 2d, 21, and Fig 2e, reference numeral 29).
  • recognition is carried out as to whether the relation R of the request Q already contains a parameter which limits the request to the word W (n) to be used for a so-called full-text search. If this is not the case, recognition is made as to whether the word W (n) is a so-called stop word (FIG. 2e, reference numeral 26). If this is not the case, the query Q is supplemented with a full-text search with the word W (n) (FIG. 2e, reference numeral 29).
  • the flowchart according to FIG. 3 shows an exemplary embodiment for a conversion of an input assistant according to the invention for the semi-automatic generation of a request to a data-processing system.
  • the input by the user in an input field are the following input help complementary or optional provided that allow more or less a moderation of the query (query) in the query language of the data processing system:
  • the first word is a data class (semantic content type)
  • a selection of possible attribute names appears for the second word.
  • the visualization can be done by a drop-down list, for example, in a manner as it is already known by so-called browsers for the search field.
  • FIG. 3 shows how such an inventive moderation of the search request with accessibility can be implemented by means of proposals for object types, attribute names and attribute values via an algorithm.
  • Fig. 4 shows a visualization a corresponding input help (hereinafter also called Wizzard) for the user.
  • Wizzard In the case of an input help according to the invention - hereinafter also referred to as Wizzard - the user is guided in formulating the search query. There are two possibilities: The user assembles a query tree or he concatenates statements in the form subject-predicate-object in a list. The following steps are implemented:
  • the user defines the root of the request tree. For this he can select from a list the data class (semantic content type). In the embodiment of FIG. 4, for example, email Si.
  • the user can add any number of data attributes. It can also select from a list of possible attributes that exist for the selected content type. The attributes are optionally linked by a logical "and" or "or". For each attribute name, multiple attribute values can be specified, which are linked by a logical "or.” If the user does not select an attribute name, the stored keywords trigger a full-text search for the selected content type F possible data attributes for the data class Email Si reproduced.
  • a third step the user can add restrictive links to the object so defined.
  • the user proceeds in the same way for the definition of the linked objects as for the root of the request tree.
  • the user can limit the linkage himself by selecting a predicate, ie the reason for a link.
  • a predicate ie the reason for a link.
  • the user is likewise again provided with a selection list, which in particular is reproduced in a window corresponding to the window F of the data class Email ST becomes.
  • corresponding predicates of the data class Email St are identified by the edges P and P 1 2.
  • a graphical solution of this input help is advantageously given by a graphical representation of the request tree thus formed (see Fig. 4 shows the graph above the window F).
  • the user is presented with a window (see Fig. 4 reference F) with a list, in which the data class (content type) and the attribute names as well as the attribute values can be defined.
  • a double-click on an edge opens and shows, however, a selection list for the justification of the link (predicate).
  • FIG. 5 shows in a flow chart an exemplary embodiment for a conversion of a reproduction of the results of a request according to the invention to a data-processing system.
  • FIG. 2 describes, for example, an exemplary embodiment of the implementation of a complex query according to the invention, which was created, for example, with the input help (Wizzard).
  • the complex query is translated into combined subqueries. This means that the complex query, which represents a graph, is decomposed into relations (tuples), which are linked together.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Die vorliegende Erfindung betrifft ein Verfahren zur zumindest teilautomatischen Erzeugung einer Anfrage an ein datenverarbeitendes System (1) mit einem Datenbestand (2), wobei dem Datenbestand (2) ein Datenmodell zugrunde liegt, welches zur Auswahl von Daten aus dem Datenbestand (2) mit einer Abfragesprache des datenverarbeitenden Systems (1) verwendbar ist, wobei eine natürlichsprachliche Anfrage eines Nutzers (3), welche durch eine nutzerseitige Eingabe von als eine Folge von Zeichen (Zeichenfolge) erfasster Begriffe (Nutzerbegriffe), welche die von dem Nutzer (3) intendierten Ergebnisse der Antwort des datenverarbeitenden Systems (1) auf die zu erfolgende Anfrage an das datenverarbeitende System (1) semantisch beschreiben, erfolgt, die natürlichsprachliche Anfrage (6) des Nutzers (3) analysiert und/oder interpretiert und in eine Anfrage (9) in der Abfragesprache umgesetzt wird.

Description

Erzeugung von Anfragen an ein datenverarbeitendes System
Die vorliegende Erfindung betrifft ein Verfahren zur zumindest teilautomatischen Erzeugung einer Anfrage an ein datenverarbeitendes System mit einem Datenbestand, wobei dem Datenbestand ein Datenmodell zugrunde liegt, welches zur Auswahl von Daten aus dem Datenbestand mit einer Abfragesprache des datenverarbeitenden Systems verwendbar ist, wobei eine natürlichsprachliche Anfrage eines Nutzers, welche durch eine nutzerseitige Eingabe von als eine Folge von Zeichen (nachfolgend auch Zeichenfolge genannt) erfasster Begriffe (nachfolgend auch Nutzerbegriffe genannt), welche die von dem Nutzer intendierten Ergebnisse der Antwort des datenverarbeitenden Systems auf die zu erfolgende Anfrage an das datenverarbeitende System semantisch beschreiben, erfolgt, die natürlichsprachliche Anfrage des Nutzers analysiert und/oder interpretiert und in eine Anfrage in der Abfragesprache umgesetzt wird.
Im Bereich von sogenannten Information-Retrieval-Systemen, wie beispielsweise sogenannten Suchmaschinen beziehungsweise Internet-Suchmaschinen, sind verschiedene Methoden des Abrufs von Daten aus einem Datenbestand bekannt. Dem Datenbestand liegt dabei ein Datenmodell zugrunde, welches mittels einer Abfragesprache des datenverarbeitenden Systems eine Abfrage von Daten aus dem Datenbestand ermöglicht. In der Regel sind Daten eines Datenbestandes entsprechend dem jeweiligen Datenmodell strukturiert, insbesondere in Datenklassen nach einer bestimmten semantischen Klassifizierung betreffend den Inhaltstyp und/oder in Datenattributen betreffend Metadaten.
Kennt der Anwender beziehungsweise Nutzer eines datenverarbeitenden Systems nicht das dem Datenbestand zugrunde liegende Datenmodell, also die verfügbaren Datenklassen und/oder deren Datenattribute, ist es schwierig eine konkrete
BESTÄTIGUNGSKOPIE Anfrage beziehungsweise Suchanfrage an das datenverarbeitende System zu stellen. Der Anwender beziehungsweise Nutzer müsste zunächst entscheiden, ob er nach bestimmten Datenklassen, also nach einer bestimmten semantischen Klassifizierung hinsichtlich des Inhaltstyps, nach Datenattributen, also Metadaten, oder nach Verknüpfungen suchen soll, die die gesuchte Information hinsichtlich deren Inhalt in der Regel als Stichwort, beschreibt. Dies wird anhand der nachfolgenden Beispiele näher erläutert:
Beispiel 1 :„Künstler" ist ein Objekt, das das Attribut„Künstler" enthält, vom Typ„Künstler" sein kann oder eine Person, die in Relation zu Kunstwerken steht und zwar mit der Begründung beziehungsweise Beschreibung „Hersteller" oder„Autor".
Beispiel 2: Ein Objekt, das die Beschreibung„Hersteller von DVD-Playern" erfüllt, kann den Text„Hersteller von DVD-Playern" enthalten, das Attribut „Produkte" mit dem Wert „DVD-Player" besitzen oder die Relation zu Produkten vom Typ„DVD-Player" haben und gleichzeitig vom Typ„Firma" sein.
Darüber hinaus gibt es bei der Anfrage Probleme, die eine Mehrsprachigkeit von Inhalten betreffen. Ferner gibt es Probleme bei einer Anfrage beziehungsweise Suche nach Inhalten einer Datenklasse, von welcher im Datenbestand nur untergeordnete Datenklassen berücksichtigt sind. Dies wird anhand der nachfolgenden Beispiele näher erläutert:
Beispiel 1 : Es wird nach Objekten gesucht, die ein Attribut mit dem Namen beziehungsweise der Bezeichnung„Job" und dem Wert„Artist" besitzen. Es sollen aber auch Objekte gefunden werden, die ein Attribut in der deutschen Variante mit dem Namen beziehungsweise der Bezeichnung„Beruf und dem Wert„Künstler" besitzen.
Beispiel 2: Es werden Objekte gesucht, die vom Typ„Dokument" sind. Das schließt Objekte ein, die beispielsweise vom Typ „Microsoft Word" oder „Microsoft Excel" sind. Beispiel 3: Eine Person kann in einem Projekt die Rolle als Mitarbeiter oder auch als Berater einnehmen. Hierbei könnte Berater eine Unterklasse von der Datenklasse„Mitarbeiter" sein.
Im Bereich von Internet-Suchmaschinen sind unter der Begrifflichkeit„semantische Suchmaschine" Konzepte bekannt, wobei versucht wird, die Semantik einer durch Texteingabe eines Nutzers beziehungsweise Anwenders erfolgenden natürlichsprachlichen Anfrage zu erfassen und in eine oder mehrere entsprechende Anfragen in der Abfragesprache des datenverarbeitenden Systems umzusetzen. Die bisher bekannten Konzepte sind dabei sowohl hinsichtlich des Maßes der Komplexität entsprechender Anfragen als auch hinsichtlich der auf entsprechende Anfragen gelieferten Antworten beziehungsweise Ergebnisse unbefriedigend und weisen zahlreiche Beschränkungen auf, insbesondere Sprachenbeschränkungen hinsichtlich der Auswertung.
Vor diesem Hintergrund liegt der vorliegenden Erfindung die A u f g a b e zugrunde, unter Meidung der vorbeschriebenen Nachteile eine natürlichsprachliche Anfrage von Nutzern an datenverarbeitende Systeme zu ermöglichen.
Zur technischen L ö s u n g wird mit der vorliegenden Erfindung ein Verfahren zur zumindest teilautomatischen Erzeugung einer Anfrage an ein datenverarbeitendes System mit einem Datenbestand, wobei dem Datenbestand ein Datenmodell zugrunde liegt, welches zur Auswahl von Daten aus dem Datenbestand mit einer Abfragesprache des datenverarbeitenden Systems verwendbar ist, wobei eine natürlichsprachliche Anfrage eines Nutzers, welche durch eine nutzerseitige Eingabe von als eine Folge von Zeichen (Zeichenfolge) erfasster Begriffe (Nutzerbegriffe), welche Begriffe die von dem Nutzer intendierten Ergebnisse der Antwort des datenverarbeitenden Systems auf die zu erfolgende Anfrage an das datenverarbeitende System semantisch beschreiben, erfolgt, die natürlichsprachliche Anfrage des Nutzers analysiert und/oder interpretiert und in eine Anfrage in der Abfragesprache umgesetzt wird, vorgeschlagen, welches dadurch gekennzeichnet ist, dass die als eine Zeichenfolge erfasste natürlichsprachliche Anfrage in Lexeme zerlegt wird, diese Lexeme entsprechend ihrer Reihenfolge in der Zeichenfolge sequentiell verarbeitet werden, wobei eine Bedeutung des jeweiligen Lexems anhand des Datenmodells bestimmt wird, und daraus die Anfrage in der Abfragesprache gebildet wird.
Ein Lexem im Sinne der vorliegenden Erfindung ist eine Bedeutungseinheit, sprachlicher Einheiten, die sich in verschiedenen Wortformen manifestieren kann und dabei von der konkreten Form der sprachlichen Einheit sowie von der konkreten syntaktischen Funktion der sprachlichen Einheit absieht. Im Sinne der vorliegenden Erfindung entsprechen Lexeme weitestgehend syntaktischen Worten, mit dem Unterschied, dass insbesondere auch asiatische Sprachen und dergleichen Berücksichtigung finden, die keine syntaktisch erkennbare Trennung von Worten in einem Satz kennen. Syntaktische Wörter im Sinne der vorliegenden Erfindung sind Einheiten, die sich innerhalb eines Satzes verschieben, durch andere austauschen und/oder sich durch das Einfügen weiterer Wörter voneinander trennen lassen. Wörter im Sinne der vorliegenden Erfindung sind dabei unter syntaktischem Aspekt kleinste verschiebbare und ersetzbare Einheiten des Satzes. Darüber hinaus berücksichtigt die Verwendung des Begriffes Lexem im Sinne der vorliegenden Erfindung, dass ein vorgegebenes Wort auf eine grammatikalische Grundform reduziert und damit syntaktisch-grammatische Varianten ausgeglichen werden können.
Eine erfindungsgemäße Anfrage beziehungsweise Suchanfrage ist vorteilhafterweise dadurch charakterisiert, dass der Nutzer beziehungsweise Anwender in einem Eingabefeld beziehungsweise Textfeld die von ihm gesuchte Information mit mehreren Wörtern intuitiv beschreibt. Diese Anfrage wird im Anschluss in ihre begrifflichen Bestandteile zerlegt und in eine Anfrage in der Abfragesprache übersetzt, die über eine bloße Volltextsuche durch Kombination von Schlüsselwörtern hinausgeht. Eine vorteilhafte Ausgestaltung der Erfindung sieht vor, dass die Nutzereingabe durch Sprachsteuerung oder dergleichen Eingabehilfe erfolgt. Dazu weist das datenverarbeitende System vorteilhafterweise Mittel zur Sprachsteuerung und Mittel zur Umsetzung von sprachlichen Äußerungen in eine Folge von Zeichen auf.
Eine vorteilhafte Ausgestaltung der Erfindung sieht vor, dass für das jeweils aktuell zu verwendende bzw. zu verarbeitende Lexem überprüft wird, ob es ein nachfolgendes Lexem in der Reihenfolge gibt, wobei in diesem Fall überprüft wird, ob es sich bei dem aktuell zu verarbeitenden Lexem um die Bezeichnung einer Datenquelle, einer Datenklasse des Datenmodells oder eines Datenattributs des Datenmodells handelt. Erfindungsgemäß wird damit zunächst überprüft, ob es sich bei der natürlichsprachlichen Anfrage des Nutzers um mehrere Begriffe handelt. Ist das der Fall, wird vorteilhafterweise der erste Begriff dahingehend überprüft, ob es eine Datenquelle, eine Datenklasse, also eine semantische Klassifizierung hinsichtlich eines Inhaltstyps, oder ein Datenattribut, also Metadaten, mit diesem Begriff beziehungsweise dieser Begriffsbezeichnung gibt.
Eine weitere vorteilhafte Ausgestaltung der Erfindung sieht vor, dass in dem Fall der Bezeichnung einer Datenquelle oder einer Datenklasse die Bezeichnung in einen Parameter der Abfragesprache zur Auswahl von Daten aus dem Datenbestand transformiert wird, wobei der Parameter die Auswahl von Daten auf Daten mit der Bezeichnung der Datenquelle oder der Datenklasse eingrenzt. Vorteilhafterweise wird die Datenquelle nur für das erste Lexem in der Reihenfolge überprüft. Eine auf diese Weise erkannte Datenquelle schränkt dann den Suchraum für die Anfrage entsprechend ein. Beispielsweise würde der Begriff „Amazon" nur in den Daten suchen, die das Unternehmen Amazon zur Verfügung stellt. Falls der erste Begriff einer Datenklasse entspricht, würde die Suche auf entsprechend semantisch klassifizierte Inhalte hinsichtlich eines Inhaltstyps eingeschränkt werden. Zum Beispiel würde der Begriff „Buch" nur in den Daten suchen, die vom Inhaltstyp her als Bücher klassifiziert sind. Die Information dazu erhält das datenverarbeitende System durch Verwendung des verfügbaren Datenmodells oder in einer optionalen Ausgestaltung der Erfindung vorteilhafterweise von einer Ontologie, in der semantische Inhaltstypen repräsentierende Datenklassen unterschiedliche Bezeichnungen, sogenannte Literate, in unterschiedlichen Sprachen enthalten beziehungsweise aufweisen können. Alternativ und/oder ergänzend kann das datenverarbeitende System ferner Wörterbücher, Vokabulare oder dergleichen als eine Ontologie-gebende bzw. bereitstellende Informationsquelle aufweisen oder nutzen.
Eine weitere vorteilhafte Ausgestaltung der Erfindung sieht vor, dass für das jeweils aktuell zu verarbeitende Lexem überprüft wird, ob es ein nachfolgendes Lexem in der Reihenfolge gibt, wobei in diesem Fall überprüft wird, ob es sich bei dem aktuell zu verarbeitenden Lexem um die Bezeichnung einer Datenquelle, einer Datenklasse oder eines Datenattributs des Datenmodells handelt.
Eine weitere vorteilhafte Ausgestaltung der Erfindung sieht vor, dass überprüft wird, ob das aktuell zu verarbeitende bzw. zu verwendende Lexem ein Füllwort, das heißt ein Wort mit geringem Aussagewert, ist, wobei in diesem Fall das aktuell zu verarbeitende Lexem ignoriert und das nachfolgendes Lexem in der Reihenfolge verwendet bzw. verarbeitet wird.
In einer weiteren vorteilhaften Ausgestaltung der Erfindung ist vorgesehen, dass in dem Fall der Bezeichnung einer Datenklasse überprüft wird, ob die Anfrage in der Abfragesprache bereits einen Parameter enthält, der die Auswahl von Daten auf Daten mit der Bezeichnung der Datenklasse eingrenzt, wobei in diesem Fall das aktuell zu verarbeitende Lexem in einen Parameter der Abfragesprache zur Auswahl von Daten aus dem Datenbestand transformiert wird, wobei der Parameter eine Beziehung zwischen Datenobjekten, welche mit dem bereits in der Anfrage in der Abfragesprache enthaltenen Parameter beschrieben werden, und Datenobjekten, welche mit Parametern beginnend mit der Bezeichnung des aktuell zu verarbeitenden Lexems beschrieben werden, beschreibt. Erfindungsgemäß wird somit der zweite Begriff in der natürlichsprachlichen Anfrage des Nutzers analysiert bzw. untersucht, wobei der zweite Begriff eine Datenklasse sein kann, falls der erste Begriff in der natürlichsprachlichen Anfrage des Nutzers die Anfrage auf eine Datenquelle eingegrenzt hat, oder wobei der zweite Begriff ein Suchwort sein kann, falls der erste Begriff in der natürlichsprachlichen Anfrage des Nutzers einer einen semantischen Inhaltstyp repräsentierenden Datenklasse entsprach, oder wobei der zweite Begriff ein Datenattribut sein kann.
Eine weitere vorteilhafte Ausgestaltung der Erfindung sieht vor, dass in dem Fall der Bezeichnung eines Datenattributs die Bezeichnung und das nachfolgende Lexem in der Reihenfolge als Name-Wert-Paar in einen Parameter der Abfragesprache zur Auswahl von Daten aus dem Datenbestand transformiert wird, wobei der Parameter die Auswahl von Daten auf Daten mit der Bezeichnung des Datenattributs eingrenzt. Die Information dazu erhält das datenverarbeitende System durch Verwendung des verfügbaren Datenmodells oder in einer optionalen Ausgestaltung der Erfindung vorteilhafterweise von einer Ontologie, in der Datenattribute (Metadaten) unterschiedliche Bezeichnungen, sogenannte Literate, in unterschiedlichen Sprachen enthalten beziehungsweise aufweisen können. Alternativ und/oder ergänzend kann das datenverarbeitende System ferner Wörterbücher, Vokabulare oder dergleichen als eine Ontologie-gebende bzw. bereitstellende Informationsquelle für Datenattribute aufweisen oder nutzen. Handelt es sich bei einem Begriff der natürlichsprachlichen Anfrage des Nutzers um die Bezeichnung eines Datenattributs wird in diesem Fall erfindungsgemäß die Anfrage beziehungsweise Suche an das datenverarbeitende System durch Ergänzung der Anfrage mit dem Attributwert beziehungsweise dem Metadatum eingegrenzt. Diese Eingrenzung wird dann für den nachfolgenden Begriff in der natürlichsprachlichen Anfrage des Nutzers verwendet.
Gemäß einem weiteren vorteilhaften Vorschlag der Erfindung wird in dem Fall der Bezeichnung einer Datenklasse überprüft, ob die Bezeichnung auch die Bezeichnung eines Datenattributs ist, wobei in diesem Fall das aktuell zu verarbeitende Lexem und das nachfolgende Lexem in der Reihenfolge als Name- Wert-Paar in einen Parameter der Abfragesprache zur Auswahl von Daten aus dem Datenbestand transformiert wird, wobei der Parameter zur zusätzlichen, alternativen Auswahl von Daten auf Daten mit der Bezeichnung des Datenattributs eingrenzt. Beide Parameter, die zum einen die Datenklasse und zum anderen das Datenattribut beschreiben, werden also als ODER-Verknüpfung zur Abfrage der Daten verknüpft.
Eine weitere vorteilhafte Ausgestaltung der Erfindung ist dadurch gekennzeichnet, dass in dem Fall der Bezeichnung keiner Datenquelle, keiner Datenklasse, keines Datenattributs oder keines verbleibenden Lexems in der Reihenfolge der Zeichenfolge das aktuell zu verarbeitende Lexem in einen Parameter der Abfragesprache zur Auswahl von Daten aus dem Datenbestand transformiert wird, wobei der Parameter die Auswahl von Daten auf Daten mit dem aktuell zu verarbeitenden Lexem als Freitextsuche eingrenzt. Erfindungsgemäß kann der nächste Begriff in der natürlichsprachlichen Anfrage des Nutzers ein Stichwort sein, dass weder eine Datenklasse noch ein Datenattribut repräsentiert und daher vorteilhafterweise für eine einschränkende Freitextsuche beziehungsweise Volltextsuche verwendet wird. Handelt es sich hingegen bei dem nächsten Begriff in der natürlichsprachlichen Anfrage des Nutzers wieder um eine Datenklasse, also einen semantisch klassifizierten Inhaltstyp, wird dies erfindungsgemäß vorteilhafterweise so interpretiert, dass die mit der Anfrage gesuchten beziehungsweise intendierten Ergebnisse der Anfrage mit Inhalten von diesem Typ, also dieser Datenklasse, verknüpft sein müssen.
Vorteilhafterweise wird sogleich überprüft, ob die Datenklasse, welche eine Verknüpfung beschreibt, auch die Bezeichnung eines Datenattributs ist. Ist dies der Fall, wird der bisherige Teil der zu erzeugenden Anfrage in der Abfragesprache mit der Eingrenzung dieses neuen Datenattributs ergänzt und mit einem logischen „oder" zu der bis dahin teilweise erzeugten Anfrage in der Abfragesprache ergänzt. Vorteilhafterweise wird dabei der auf die Bezeichnung des Datenattributs (Attributname) folgende Begriff als Attributwert verwendet.
Mit dem erfindungsgemäßen Verfahren wird vorteilhafterweise die Komplexität der Anfrage in der Abfragesprache auf eine einzige Relation begrenzt.
Gemäß einer besonders vorteilhaften Ausgestaltung der Erfindung erfolgt die nutzerseitige Eingabe unter Verwendung wenigstens einer Eingabehilfe, insbesondere zur teilautomatischen Erzeugung komplexerer Anfragen. Vorteilhafterweise wird der Nutzer beziehungsweise Anwender bei der Formulierung der Anfrage automatisch geführt. Vorteilhafterweise wird dem Anwender bei der nutzerseitigen Eingabe der Zeichen der Zeichenfolge, vorzugsweise dem ersten eingegebenen Wort, zu der eingegebenen Zeichenfolge eine Liste von möglichen Datenquellen, Datenklassen (semantischen Inhaltstypen) und/oder Datenattributen für eine beispielsweise durch Anklicken mit einem Mauszeiger oder dergleichen erfolgenden Auswahleingabe angezeigt. Ist die eingegebene Zeichenfolge, also das erste Wort der nutzerseitigen Eingabe, eine Datenklasse, also ein semantischer Inhaltstyp, wird dem Anwender für das zweite Wort der Zeichenfolge der nutzerseitigen Eingabe vorteilhafterweise eine Liste von möglichen Datenattributen (Metadaten) für eine beispielsweise durch Anklicken mit einem Mauszeiger oder dergleichen erfolgenden Auswahleingabe angezeigt. Die Anzeige der möglichen Auswahleingaben erfolgt vorteilhafterweise durch Visualisierung nach Art einer sogenannten „Drop-Down"-Liste, wie sie beispielsweise als Funktionalität bei sogenannten Browsern bekannt ist. Gemäß einer weiteren vorteilhaften Ausgestaltung der Erfindung erfolgt die nutzerseitige Eingabe für komplexe bzw. komplexere Abfragen unter Verwendung einer graphischen Benutzeroberfläche (GUI: Graphical User Interface) durch Erstellung eines Anfrage-Baums. Dabei kann der Nutzer beziehungsweise Anwender sich vorteilhafterweise einen Anfrage-Baum zusammenstellen oder in einer Liste für die Anfrage zu verwendende Aussagen in der Form von Subjekt- Prädikat-Objekt miteinander verketten. Ein derartiger Subjekt-Prädikat-Objekt- Beziehungen repräsentierender Baum oder Graph ist beispielsweise aus der WO 2009/030288 A1 bekannt, deren Offenbarungen hiermit ausdrücklich referenziert werden. Bei der erfindungsgemäßen Erstellung eines Anfrage-Baums definiert der Nutzer vorteilhafterweise zunächst die Wurzel des Anfrage-Baums. Dafür kann er beispielsweise aus einer Liste, welche von dem datenverarbeitenden System beziehungsweise der Eingabehilfe bereitgestellt wird, die Datenklasse, also die semantische Klassifizierung eines Inhaltstyps, auswählen, vorzugsweise seitens einer graphischen Benutzeroberfläche mittels sogenanntem Mauszeiger oder dergleichen.
Zugleich oder alternativ kann der Nutzer beliebig viele Attribute hinzufügen. Dabei kann der Nutzer ebenfalls aus einer Liste von möglichen Datenattributen, die es für die zuvor gewählte Datenklasse als semantischen Inhaltstyp im Datenmodel gibt, auswählen. Die Datenattribute sind wahlweise durch ein logisches „und" oder „oder" verknüpft. Für jeden Attributnamen beziehungsweise jede Attributbezeichnung können vorteilhafterweise mehrere Attributwerte angegeben werden, die durch ein logisches„oder" verknüpft werden. Falls der Nutzer keinen Attributnamen auswählt, wird mit den hinterlegten Stichworten vorteilhafterweise eine Freitextsuche beziehungsweise Volltextsuche für die gewählte Datenklasse initiiert.
Anschließend kann der Nutzer zu dem so definierten Objekt, bestehend aus der die Wurzel des Anfrage-Baums bildenden Datenklasse und/oder den Datenattributen zu dieser Datenklasse, einschränkende Verknüpfungen hinzufügen. Dafür kann der Nutzer diese einschränkenden Verknüpfungen für das definierte Objekt ebenfalls aus einer Liste auswählen. Ist das so verknüpfte Objekt definiert, kann der Nutzer die Verknüpfung selbst durch die Wahl eines Prädikats, also der Begründung für eine Verknüpfung, einschränken. Vorteilhafterweise stellt ihm das datenverarbeitende System und/oder die Eingabehilfe ebenfalls wieder eine Auswahlliste zur Verfügung.
Sofern es mehrere einschränkende Verknüpfungen gibt, können diese vorteilhafterweise durch eine logisches„und" oder„oder" oder„und nicht" verknüpft werden.
Sofern der Nutzer seine Anfrage beziehungsweise seine Suche noch weiter verfeinern möchte, kann er vorteilhafterweise die Objekte in der zweiten Ebene seines Anfrage-Baums ebenfalls wieder durch Verknüpfungen einschränken.
In einer weiteren vorteilhaften Ausgestaltung der Erfindung kann der Nutzer den Anfrage-Baum als Lesezeichen in einer Datenbank oder als neue Datenklasse eines semantischen Inhaltstyps in einer Ontologie speichern, welche Ontotogie anschließend für weitere Anfragen und/oder Anfrage-Bäume von dem datenverarbeitenden System nutzbar ist.
In einer vorteilhaften Ausgestaltung der Erfindung wird der mit der erfindungsgemäßen Eingabehilfe erstellte Anfrage-Baum seitens der graphischen Benutzeroberfläche (GUI) graphisch dargestellt. In einer weiteren vorteilhaften Ausgestaltung der Erfindung wird bei Auswahl eines Knotens des Anfrage-Baums, vorzugsweise durch Doppelklick auf die Knoten, dem Nutzer ein Fenster mit einer Liste angezeigt, in der die Datenklasse und die Datenattribute sowie die Attributwerte definiert werden können. Vorteilhafterweise öffnet ein Doppelklick auf eine Kante des Anfrage-Baums eine Auswahlliste für die Begründung der Verknüpfung, also das Prädikat.
Gegenstand der vorliegenden Erfindung ist ferner ein Datenverarbeitungssystem bzw. eine Datenverarbeitungseinrichtung, aufweisend einen Prozessor, welcher ausgebildet und/oder eingerichtet ist, ein erfindungsgemäßes Verfahren automatisch bzw. automatisiert auszuführen, insbesondere durch Laden eines entsprechenden das Verfahren realisierenden Anwendungsprogramms aus einem Speichermittel und Ausführen des Anwendungsprogramms durch den Prozessor. Weitere Einzelheiten, Merkmale und Vorteile der Erfindung werden nachfolgend anhand der in den Figuren der Zeichnung dargestellten Ausführungsbeispiele näher erläutert. Dabei zeigen:
Fig. 1 in einer schematischen Prinzipdarstellung ein Ausführungsbeispiel für eine erfindungsgemäße Anfrage an ein datenverarbeitendes System;
Fig. 2 in einem Ablaufdiagramm (Fig. 2a bis 2e) ein Ausführungsbeispiel für eine
Umsetzung einer erfindungsgemäßen Anfrage an ein datenverarbeitendes System;
Fig. 3 in einem Ablaufdiagramm ein Ausführungsbeispiel für eine Umsetzung einer erfindungsgemäßen Eingabehilfe zur teilautomatischen Erzeugung einer Anfrage an ein datenverarbeitendes System;
Fig. 4 in einer schematischen Prinzipdarstellung ein Ausführungsbeispiel für eine erfindungsgemäße Eingabehilfe zur teilautomatischen Erzeugung einer Anfrage an ein datenverarbeitendes System; und
Fig. 5 in einem Ablaufdiagramm ein Ausführungsbeispiel für eine Umsetzung einer Wiedergabe der Ergebnisse einer erfindungsgemäßen Anfrage an ein datenverarbeitendes System.
Fig. 1 zeigt ein datenverarbeitendes System 1 bzw. 1' mit einem Datenbestand 2, dem ein Datenmodell zugrunde liegt, welches zur Auswahl von Daten aus dem Datenbestand 2 mit einer Abfragesprache des datenverarbeitenden Systems 1 verwendbar bzw. verarbeitbar ist. Das datenverarbeitende System 1 weist eine Einrichtung 5 zur Analyse und/oder Interpretation natürlichsprachlicher Anfragen 6 von Nutzern 3 auf. Eine natürlichsprachliche Anfrage eines Nutzers 3 wird dabei durch eine nutzerseitige Eingabe 4 von Nutzerbegriffen erfasst, wobei die Nutzerbegriffe als eine Folge von Zeichen erfasst werden. Die Nutzerbegriffe beschreiben dabei semantisch die von dem Nutzer 3 intendierten Ergebnisse der Antwort des datenverarbeitenden Systems 1 auf die noch zu erfolgende Anfrage an das datenverarbeitende System 1. Die Eingabe 4 der Nutzerbegriffe kann dabei durch den Nutzer 3 manuell durch Betätigung von Tasten einer Eingabeeinrichtung (in Fig. 1 nicht explizit dargestellt) des Nutzers 3 oder durch Sprachsteuerung (in Fig. 1 nicht explizit dargestellt) erfolgen.
Eine natürlichsprachliche Anfrage 6 eines Nutzers 3 wird von der Einrichtung 5 zur Analyse und/oder Interpretation natürlichsprachlicher Anfragen 6 analysiert und/oder interpretiert. Dazu verwendet die Einrichtung 5 zur Analyse und/oder Interpretation natürlichsprachlicher Anfragen 6 das Datenmodell 7. Die Metadaten sind dabei Bestandteil des datenverarbeitenden Systems 1 (in Fig. 1 durch das Bezugszeichen 1' gekennzeichnet) oder werden über eine Kommunikationsverbindung von dem datenverarbeitenden System 1 genutzt (in Fig. 1 nicht explizit dargestellt). Im Rahmen der Analyse und/oder Interpretation der natürlichsprachlichen Anfrage 6 setzt die Einrichtung 5 die natürlichsprachliche Anfrage 6 des Nutzers 3 in eine Anfrage 9 in der Abfragesprache des datenverarbeitenden Systems 1 um und richtet diese an den Index oder die Datenbank des Datenbestandes 2 des datenverarbeitenden Systems 1. Das Ergebnis der Anfrage 9 in der Abfragesprache an den Index des Datenbestandes 2 des datenverarbeitenden Systems 1 wird anschließend dem Nutzer ausgeliefert, insbesondere durch graphische Wiedergabe seitens einer Anzeigeeinrichtung (in Fig. 1 nicht explizit dargestellt) des Nutzers 3.
Fig. 2 zeigt in einem Ablaufdiagramm (vergleiche Fig. 2a bis 2e) ein Ausführungsbeispiel für eine Umsetzung einer erfindungsgemäßen Anfrage an ein datenverarbeitendes System in einer Abfragesprache des datenverarbeitenden Systems - nachfolgend auch Query genannt - durch einen Algorithmus. Die in Fig. 2b und 2e durch Schraffur kenntlich gemachten Elemente sind vorteilhafterweise optionale Verfahrensvarianten und betreffen zum einen die Option einer möglichen zweifachen semantischen Interpretation eines Wortes im Falle einer Verknüpfung und zum anderen die Option einen Filter für Füllwörter, welcher dem Anwender bzw. Nutzer eine intuitivere Eingabe, die einer natürlichen Sprache entspricht, sowie eine robustere Interpretation und damit ein besseres Ergebnis ermöglicht. Ausgestaltungen des erfindungsgemäßen Verfahrens, bei denen die optionalen Verfahrensvarianten nicht zum Einsatz kommen, weisen anstelle der durch Schraffur kenntlich gemachten optionalen Elemente entsprechende Verweise von bzw. auf die jeweiligen entsprechenden nicht durch Schraffur gekennzeichneten Elemente des Ablaufdiagramms auf. Eine einfache Suchanfrage ist dadurch charakterisiert, dass der Nutzer in einem Eingabefeld (Textfeld) die gesuchte Information mit mehreren Wörtern (Schlüsselwörter) intuitiv beschreibt, also Begriffe eingibt, welche die von dem Nutzer intendierten Ergebnisse der Antwort des datenverarbeitenden Systems auf die zu erfolgende Anfrage an das datenverarbeitende System semantisch beschreiben (vgl. Fig. 2a, Bezugszeichen 11). Diese natürlichsprachliche Anfrage (Suchanfrage 11) des Nutzers wird im Anschluss in ihre begrifflichen Bestandteile, vorliegend Lexeme, zerlegt (vgl. Fig. 2a, Bezugszeichen 12) und in eine Anfrage in der Abfragesprache des datenverarbeitenden Systems (vgl. Fig. 2e, Bezugszeichen 13) übersetzt bzw. umgesetzt, welche über eine bloße Volltextsuche durch Kombination der Schlüsselwörter hinausgeht.
Dabei wird solange das nächste Element (das heißt der nächste Begriff) der Liste L analysiert, solange die Differenz der Anzahl der Elemente (das heißt der Begriffe) der Liste L und Index N für das Element (das heißt den Begriff) der aktuellen Iteration größer 1 ist (vgl. Fig. 2a, Bezugszeichen 14).
Anschließend wird schrittweise überprüft, ob die in Fig. 2a mit dem Bezugszeichen 15, in Fig. 2b mit dem Bezugszeichen 17 und in Fig. 2c mit dem Bezugszeichen 19 gekennzeichneten Bedingungen zutreffen.
Eine erkannte Datenquelle (vgl. Fig. 2a, Bezugszeichen 15) würde den Suchraum entsprechend einschränken (vgl. Fig. 2a, Bezugszeichen 16). So würde der Begriff „Amazon" beispielsweise nur eine Suche in den Daten bewirken, die Amazon zur Verfügung stellt.
Eine erkannte Datenklasse (semantische Klassifizierung (Inhaltstyp)) (vgl. Fig. 2b, Bezugszeichen 17, wobei der Inhaltstyp in Fig. 2 als Objekt-Typ OT bezeichnet ist), würde die Suche, das heißt die Anfrage in der Abfragesprache des datenverarbeitenden Systems auf entsprechend klassifizierte Inhalte (Inhaltstyp bzw. Objekt-Typ OT) einschränken (vgl. Fig. 2b, Bezugszeichen 18 bzw. Fig. 2c, Bezugszeichen 27), zum Beispiel auf den Inhaltstyp bzw. die Datenklasse„Buch". Die Information holt sich das datenverarbeitende System 1 vom Datenmodell des datenverarbeitenden Systems 1. Falls die Anfrage bereits durch eine Datenklasse (semantische Klassifizierung (Inhaltstyp)) eingeschränkt wurde, werden die angefragten Inhalte durch eine Relation R mit Daten eingeschränkt, die der Datenklasse (semantische Klassifizierung (Inhaltstyp)) entsprechen (vgl. Fig. 2b, Bezugszeichen 18).
Im Falle der Erkennung einer Datenklasse (semantischen Inhaltstyp) [vgl. Fig. 2b, Bezugszeichen 17 und 18) für eine Relation R zu den mit der Anfrage angefragten Inhalten (Fig. 2b, Bezugszeichen 24) wird anschließend untersucht, ob der Begriff ferner ein Datenattribut ist (vgl. Fig. 2b, Bezugszeichen 22). Bejahendenfalls wird die Suche dann auf einen entsprechenden Attributwert (Metadatum) weiter beschränkt (vgl. Fig. 2b, Bezugszeichen 23). Dafür wird der bisherige Teil der Suchanfrage in der Abfragesprache des datenverarbeitenden Systems mit der Eingrenzung dieses neuen Datenattributs (Attribut) ergänzt und mit einem logischen „oder" zur vorher interpretierten Suchanfrage ergänzt (vgl. Fig. 2b, Bezugszeichen 23). Der auf den Attributnamen folgende Begriff wird dabei als Attributwert verwendet.
Falls sowohl die Anfrage Q durch eine Datenklasse (semantische Klassifizierung (Inhaltstyp)) bereits eingeschränkt wurde und bereits eine Relation R (Fig. 2b, Bezugszeichen 24) enthält, die diese Datenklasse (semantische Klassifizierung (Inhaltstyp)) aufweist, wird die Bezeichnung der Datenklasse (semantische Klassifizierung (Inhaltstyp)) als Schlüsselwort für eine Volltextsuche zur weiteren Eingrenzung der Relation R der Anfrage Q verwendet (Fig. 2b, Bezugszeichen 25).
Das beschriebene Verfahren grenzt die Komplexität der Anfrage Q an ein datenverarbeitendes System in einer Abfragesprache des datenverarbeitenden Systems (auch Query genannt) auf eine einzige Relation R ein.
Ein erkanntes Datenattribut bzw. ein erkannter Attributname (vgl. Fig. 2c, Bezugszeichen 19) würde die Suche auf einen entsprechenden Attributwert (Metadatum) beschränken (vgl. Fig. 2c, Bezugszeichen 20 bzw. 28). Dabei erfolgt vorteilhafterweise eine Erkennung dahingehend, ob die Relation R mit dem entsprechenden Attributwert bereits Bestandteil der Anfrage Q ist oder nicht. Ist die Relation R bereits Bestandteil bzw. Element der Anfrage Q erfolgt eine Eingrenzung der Relation R der Anfrage Q (vgl. Fig. 2c, Bezugszeichen 20). Ist die Relation R noch kein Element der Anfrage Q erfolgt eine Eingrenzung der Anfrage Q (vgl. Fig. 2c, Bezugszeichen 28).
Ist der nächste Begriff der natürlichsprachlichen Anfrage des Nutzers ein Stichwort, das weder eine Datenklasse (einen Inhaltstyp) noch ein Datenattribut (Attributnamen) repräsentiert, wird dieser Begriff für eine einschränkende Volltextsuche verwendet, (vgl. Fig. 2d, Bezugszeichen 21 , bzw. Fig. 2e, Bezugszeichen 29). Dabei erfolgt eine Erkennung ob die Relation R der Anfrage Q bereits einen Parameter enthält, der die Anfrage auf das für eine sogenannte Volltextsuche zu verwendende Wort W(n) beschränkt. Ist dies nicht der Fall, erfolgt eine Erkennung dahingehend, ob das Wort W(n) ein sogenanntes Stoppwort ist (Fig. 2e, Bezugszeichen 26). Ist dies nicht der Fall, wird die Anfrage Q auf eine Volltextsuche mit dem Wort W(n) ergänzt (Fig. 2e, Bezugszeichen 29).
Das Ablaufdiagramm gemäß Fig. 3 zeigt ein Ausführungsbeispiel für eine Umsetzung einer erfindungsgemäßen Eingabehilfe zur teilautomatischen Erzeugung einer Anfrage an ein datenverarbeitendes System. Die durch den Nutzer erfolgende Eingabe in einem Eingabefeld (Textfeld) sind dabei folgende Eingabehilfen ergänzend bzw. optional vorgesehen, die quasi eine Moderation der Suchanfrage (Query) in der Abfragesprache des datenverarbeitenden Systems ermöglichen:
Fängt der Anwender an, das erste Wort einzutippen, erscheint unter dem Eingabefeld eine Liste von möglichen Datenquellen und/oder Datenklassen (semantischen Inhaltstypen).
Ist das erste Wort eine Datenklasse (semantischer Inhaltstyp), erscheint für das zweite Wort eine Auswahl von möglichen Attributnamen. Die Visualisierung kann dabei durch eine Drop-Down-Liste erfolgen, beispielsweise in einer Art und Weise wie sie von sogenannten Browsern für deren Suchfeld bereits bekannt ist.
Fig. 3 zeigt wie eine solche erfindungsgemäße Moderation der Suchanfrage mit Eingabehilfen durch Vorschläge für Objekttypen, Attributnamen und Attributwerten, über einen Algorithmus umgesetzt werden kann. Fig. 4 zeigt eine Visualisierung einer entsprechenden Eingabehilfe (nachfolgend auch Wizzard genannt) für den Anwender.
Im Falle einer erfindungsgemäßen Eingabehilfe - nachfolgend auch Wizzard genannt - wird der Anwender bei der Formulierung der Suchanfrage geführt. Dabei gibt es zwei Möglichkeiten: Der Anwender stellt sich einen Anfrage-Baum zusammen oder er verkettet in einer Liste Aussagen in der Form Subjekt-Prädikat- Objekt. Dabei werden folgende Schritte umgesetzt:
1. Zuerst definiert der Anwender die Wurzel des Anfrage-Baums. Dafür kann er aus einer Liste die Datenklasse (semantischen Inhaltstyp) auswählen. Bei dem Ausführungsbeispiel gemäß Fig. 4 beispielsweise Email Si.
2. Zugleich oder alternativ kann der Anwender beliebig viele Datenattribute hinzufügen. Dabei kann er ebenfalls aus einer Liste von möglichen Attributen, die es für den gewählten Inhaltstyp gibt, auswählen. Die Attribute sind wahlweise durch ein logisches„und" oder„oder" verknüpft. Für jeden Attributnamen können mehrere Attributwerte angegeben werden, die durch ein logisches „oder" verknüpft werden. Falls der Anwender keinen Attributnamen auswählt, wird mit den hinterlegten Stichworten eine Volltextsuche für den gewählten Inhaltstyp ausgelöst. Bei dem Ausführungsbeispiel gemäß Fig. 4 sind in dem Fenster F dazu mögliche Datenattribute für die Datenklasse Email Si wiedergegeben.
3. In einem dritten Schritt kann der Anwender zu dem so definierten Objekt einschränkende Verknüpfungen hinzufügen. Hierbei geht der Anwender für die Definition der verknüpften Objekte genauso vor wie bei der Wurzel des Anfragebaumes.
4. Ist das Objekt definiert, kann der Anwender die Verknüpfung selbst durch die Wahl eines Prädikats, also der Begründung für eine Verknüpfung einschränken. Dafür steht dem Anwender ebenfalls wieder eine Auswahlliste zur Verfügung, die insbesondere in einem Fenster entsprechend dem Fenster F der Datenklasse Email ST wiedergegeben wird. In Fig. 4 sind entsprechende Prädikate der Datenklasse Email St durch die Kanten P und P12 gekennzeichnet.
5. Gibt es mehrere einschränkende Verknüpfungen, können diese durch ein logisches„und" oder„oder" verknüpft werden.
6. Will der Anwender seine Suche noch weiter verfeinern, kann er die Objekte in der zweiten Ebene seines Anfragebaumes ebenfalls wieder durch Verknüpfungen einschränken. In Fig. 4 sind dies das Projekt On und das Produkt O12, wobei Projekt O für die weitere Verfeinerung Subjekt S2 wird, welches über das die Kante des Graphen bildende Prädikat P21 mit dem Objekt Kunde O2 verknüpft ist. Diesen Query- Baum kann der Anwender als Lesezeichen in einer Datenbank oder als neuen semantischen Inhaltstyp, also als neue Datenklasse, in einer Ontologie speichern, die anschließend für weitere Suchanfragen und Anfrage-Bäume von dem datenverarbeitenden System genutzt werden kann.
Eine grafische Lösung dieser Eingabehilfe (Wizzard) ist vorteilhafterweise durch eine grafische Darstellung des so gebildeten Anfrage-Baums gegeben (vgl. Fig. 4 den Graphen oberhalb des Fensters F). Bei einer beispielsweise durch Doppelklick auf die Knoten (vgl. Fig. 4 Bezugszeichen S1, On, O12, S2, O2) erfolgende Auswahl wird dem Anwender ein Fenster (vgl. Fig. 4 Bezugszeichen F) mit einer Liste angezeigt, in der die Datenklasse (Inhaltstyp) und die Attributnamen sowie die Attributwerte definiert werden können. Ein Doppelklick auf eine Kante (vgl. Fig. 4 Bezugszeichen P , P12, P21) öffnet und zeigt hingegen eine Auswahlliste für die Begründung der Verknüpfung (Prädikat).
Fig. 5 zeigt in einem Ablaufdiagramm ein Ausführungsbeispiel für eine Umsetzung einer Wiedergabe der Ergebnisse einer erfindungsgemäßen Anfrage an ein datenverarbeitendes System.
Die in den Figuren der Zeichnung dargestellten Ausführungsbeispiele der Erfindung und die im Zusammenhang mit diesen beschriebenen Ausführungsbeispiele der Erfindung dienen lediglich der Erläuterung der Erfindung und sind für diese nicht beschränkend. Fig. 2 beschreibt dabei beispielsweise ein Ausführungsbeispiel für die erfindungsgemäße Umsetzung einer komplexen Abfrage, die beispielsweise mit der Eingabehilfe (Wizzard) erstellt wurde. Dabei wird die komplexe Abfrage in miteinander kombinierte Teilabfragen übersetzt. Das heißt, dass die komplexe Abfrage, welche einen Graphen repräsentiert, in Relationen (Tupel) zerlegt wird, die miteinander verknüpft werden.
Bezuqszeichenliste
1, 1' datenverarbeitendes System
2 Datenbestand (Index)
3 Nutzer (Anwender)
4 Eingabe Nutzerbegriffe als Zeichenfolge
5 Einrichtung zur Analyse und/oder Interpretation natürlichsprachlicher Anfragen (6)
6 natürlichsprachliche Anfrage
7 Datenmodell/Metadata (Literate, Wörterbücher, Vokabulare)
8 Abfrage/Nutzung Datenmodell/Metadata (7)
9 Anfrage in Abfragesprache
10 Antwort auf Anfrage in Abfragesprache
11 natürlichsprachliche Anfrage
12 Zerlegung natürlichsprachliche Anfrage in Lexeme/Begriffe
13 Ausgabe Anfrage in Abfragesprache datenverarbeitendes System
14 Überprüfung ob es mehrere Lexeme/Begriffe gibt
15 Erkennung Datenquelle
16 Ergänzung Anfrage in Abfragesprache durch Eingrenzung auf Datenquelle 17 Erkennung Datenklasse (semantischer Inhaltstyp/Objekt-Typ)
18 Ergänzung Anfrage in Abfragesprache durch Eingrenzung auf Datenklasse (semantischer Inhaltstyp/Objekt-Typ)
19 Erkennung Datenattribut
20 Ergänzung Anfrage in Abfragesprache durch Eingrenzung auf
Datenattribut
21 Ergänzung Anfrage in Abfragesprache durch Volltextsuche
22 Erkennung Datenattribut
23 Ergänzung Anfrage in Abfragesprache durch Eingrenzung auf
Datenattribut
24 Erkennung Datenklasse (semantischer Inhaltstyp/Objekt-Typ) schon
Element der Relation der Anfrage in Abfragesprache
25 Ergänzung Anfrage in Abfragesprache durch Volltextsuche
26 Erkennung Stoppwort
27 Ergänzung Anfrage in Abfragesprache durch Eingrenzung auf Datenklasse
(semantischer Inhaltstyp/Objekt-Typ)
28 Ergänzung Anfrage in Abfragesprache durch Eingrenzung auf
Datenattribut
29 Ergänzung Anfrage in Abfragesprache durch Volltextsuche F Fenster
OH Objekt Objekt
Objekt
Prädikat
Prädikat
Prädikat
Subjekt
Subjekt

Claims

Ansprüche
1. Verfahren zur zumindest teilautomatischen Erzeugung
einer Anfrage
an ein datenverarbeitendes System (1) mit einem Datenbestand (2),
wobei dem Datenbestand (2) ein Datenmodell zugrunde liegt, welches zur Auswahl von Daten aus dem Datenbestand (2) mit einer Abfragesprache des datenverarbeitenden Systems (1) verwendbar ist,
wobei
eine natürlichsprachliche Anfrage (6) eines Nutzers (3),
welche
durch eine nutzerseitige Eingabe (4)
von
als eine Folge von Zeichen (Zeichenfolge) erfasster
Begriffe (Nutzerbegriffe),
welche Begriffe
die von dem Nutzer (3) intendierten Ergebnisse
der Antwort des datenverarbeitenden Systems (1)
auf die zu erfolgende Anfrage an das datenverarbeitende System (1) semantisch beschreiben,
erfolgt,
die natürlichsprachliche Anfrage (6) des Nutzers (3)
analysiert und/oder interpretiert
und
in eine
Anfrage (9) in der Abfragesprache
umgesetzt wird,
dadurch gekennzeichnet,
dass
die als eine Zeichenfolge erfasste natürlichsprachliche Anfrage (6)
in Lexeme
zerlegt wird,
diese Lexeme
entsprechend ihrer Reihenfolge in der Zeichenfolge
sequentiell verarbeitet werden,
wobei
eine Bedeutung des jeweiligen Lexems
anhand des Datenmodells
bestimmt wird,
und
daraus (Bedeutung)
die Anfrage in der Abfragesprache
gebildet wird.
2. Verfahren nach Anspruch 1 , dadurch gekennzeichnet, dass für das jeweils aktuell zu verarbeitende Lexem überprüft wird, ob es ein nachfolgendes Lexem in der Reihenfolge gibt, wobei in diesem Fall überprüft wird, ob es sich bei dem aktuell zu verarbeitenden Lexem um die Bezeichnung einer Datenquelle, einer Datenklasse oder eines Datenattributs des Datenmodells handelt.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass in dem Fall der Bezeichnung einer Datenquelle oder einer Datenklasse die Bezeichnung in einen Parameter der Abfragesprache zur Auswahl von Daten aus dem Datenbestand (2) transformiert wird, wobei der Parameter die Auswahl von Daten auf Daten mit der Bezeichnung der Datenquelle oder der Datenklasse eingrenzt.
4. Verfahren nach Anspruch 2 oder Anspruch 3, dadurch gekennzeichnet, dass die Datenquelle nur für das erste Lexem in der Reihenfolge überprüft wird.
5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass überprüft wird, ob das aktuell zu verwendende Lexem ein Füllwort ist, wobei in diesem Fall das aktuell zu verarbeitende Lexem ignoriert und das nachfolgendes Lexem in der Reihenfolge verwendet wird.
6. Verfahren nach einem der Ansprüche 2 bis 5, dadurch gekennzeichnet, dass in dem Fall der Bezeichnung einer Datenklasse überprüft wird, ob die Anfrage in der Abfragesprache bereits einen Parameter enthält, der die Auswahl von Daten auf Daten mit der Bezeichnung der Datenklasse eingrenzt, wobei in diesem Fall das aktuell zu verarbeitende Lexem in einen Parameter der Abfragesprache zur Auswahl von Daten aus dem Datenbestand (2) transformiert wird, wobei der Parameter eine Beziehung zwischen Datenobjekten, welche mit dem bereits in der Anfrage in der Abfragesprache enthaltenen Parameter beschrieben werden, und Datenobjekten, welche mit Parametern beginnend mit der Bezeichnung des aktuell zu verarbeitenden Lexems beschrieben werden, beschreibt.
7. Verfahren nach einem der Ansprüche 2 bis 6, dadurch gekennzeichnet, dass in dem Fall der Bezeichnung eines Datenattributs die Bezeichnung und das nachfolgende Lexem in der Reihenfolge als Name-Wert-Paar in einen Parameter der Abfragesprache zur Auswahl von Daten aus dem Datenbestand (2) transformiert wird, wobei der Parameter die Auswahl von Daten auf Daten mit der Bezeichnung des Datenattributs eingrenzt.
8. Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass in dem Fall der Bezeichnung einer Datenklasse überprüft wird, ob die Bezeichnung auch die Bezeichnung eines Datenattributs ist, wobei in diesem Fall das aktuell zu verarbeitende Lexem und das nachfolgende Lexem in der Reihenfolge in der Zeichenfolge als Name-Wert-Paar in einen Parameter der Abfragesprache zur Auswahl von Daten aus dem Datenbestand (2) transformiert wird, wobei der Parameter die Auswahl von Daten auf Daten mit der Bezeichnung des Datenattributs alternativ eingrenzt, in der Abfrage also als ODER- Verknüpfung mit Abfrage der Daten einer Datenklasse kombiniert wird.
9. Verfahren nach einem der Ansprüche 2 bis 8, dadurch gekennzeichnet, dass in dem Fall der Bezeichnung keiner Datenquelle, keiner Datenklasse, keines Datenattributs oder keines verbleibenden Lexems in der Reihenfolge in der Zeichenfolge das aktuell zu verarbeitende Lexem in einen Parameter der Abfragesprache zur Auswahl von Daten aus dem Datenbestand (2) transformiert wird, wobei der Parameter die Auswahl von Daten auf Daten mit dem aktuell zu verarbeitenden Lexem als Freitextsuche eingrenzt.
EP12727293.8A 2012-05-24 2012-05-24 Erzeugung von anfragen an ein datenverarbeitendes system Ceased EP2856344A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2012/002227 WO2013174407A1 (de) 2012-05-24 2012-05-24 Erzeugung von anfragen an ein datenverarbeitendes system

Publications (1)

Publication Number Publication Date
EP2856344A1 true EP2856344A1 (de) 2015-04-08

Family

ID=46275762

Family Applications (1)

Application Number Title Priority Date Filing Date
EP12727293.8A Ceased EP2856344A1 (de) 2012-05-24 2012-05-24 Erzeugung von anfragen an ein datenverarbeitendes system

Country Status (3)

Country Link
US (2) US20150302050A1 (de)
EP (1) EP2856344A1 (de)
WO (1) WO2013174407A1 (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190034555A1 (en) * 2017-07-31 2019-01-31 Splunk Inc. Translating a natural language request to a domain specific language request based on multiple interpretation algorithms
US11494395B2 (en) 2017-07-31 2022-11-08 Splunk Inc. Creating dashboards for viewing data in a data storage system based on natural language requests
US10901811B2 (en) 2017-07-31 2021-01-26 Splunk Inc. Creating alerts associated with a data storage system based on natural language requests

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE466029B (sv) * 1989-03-06 1991-12-02 Ibm Svenska Ab Anordning och foerfarande foer analys av naturligt spraak i ett datorbaserat informationsbehandlingssystem
US6101490A (en) * 1991-07-19 2000-08-08 Hatton; Charles Malcolm Computer system program for creating new ideas and solving problems
CA2091658A1 (en) * 1993-03-15 1994-09-16 Matthew Lennig Method and apparatus for automation of directory assistance using speech recognition
US7181438B1 (en) * 1999-07-21 2007-02-20 Alberti Anemometer, Llc Database access system
SE517496C2 (sv) * 2000-06-22 2002-06-11 Hapax Information Systems Ab Metod och system för informationsextrahering
US7085708B2 (en) * 2000-09-23 2006-08-01 Ravenflow, Inc. Computer system with natural language to machine language translator
WO2002041169A1 (en) * 2000-11-17 2002-05-23 Invention Machine Corporation, Inc. Semantic answering system and method
US7526425B2 (en) * 2001-08-14 2009-04-28 Evri Inc. Method and system for extending keyword searching to syntactically and semantically annotated data
US7403938B2 (en) * 2001-09-24 2008-07-22 Iac Search & Media, Inc. Natural language query processing
GB0209563D0 (en) * 2002-04-26 2002-06-05 Univ Edinburgh Text processing method and system
US7840072B2 (en) * 2003-03-13 2010-11-23 Hewlett-Packard Development Company, L.P. Method and system for pattern matching
EP1738291A1 (de) * 2004-04-23 2007-01-03 Novauris Technologies Limited Baumindex gestützte methode zum zugreifen auf ein automatisches verzeichnis
EP1635273A1 (de) * 2004-09-10 2006-03-15 France Telecom Informationstechnische Erzeugung eines lexikalischen Baumes
JP4314221B2 (ja) * 2005-07-28 2009-08-12 株式会社東芝 構造化文書記憶装置、構造化文書検索装置、構造化文書システム、方法およびプログラム
US20080040345A1 (en) * 2006-08-07 2008-02-14 International Characters, Inc. Method and Apparatus for String Search Using Parallel Bit Streams
US7774198B2 (en) * 2006-10-06 2010-08-10 Xerox Corporation Navigation system for text
US9892111B2 (en) * 2006-10-10 2018-02-13 Abbyy Production Llc Method and device to estimate similarity between documents having multiple segments
JP5245255B2 (ja) * 2007-02-15 2013-07-24 富士通株式会社 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置
GB0703822D0 (en) * 2007-02-27 2007-04-11 Iti Scotland Ltd Methods and apparatus for term normalization
US7890318B2 (en) * 2007-05-23 2011-02-15 Xerox Corporation Informing troubleshooting sessions with device data
EP2188742A1 (de) 2007-09-03 2010-05-26 IQser IP AG Erfassung von zusammenhängen zwischen informationen repräsentierenden daten
US8332394B2 (en) * 2008-05-23 2012-12-11 International Business Machines Corporation System and method for providing question and answers with deferred type evaluation
US8738360B2 (en) * 2008-06-06 2014-05-27 Apple Inc. Data detection of a character sequence having multiple possible data types
US20100088674A1 (en) * 2008-10-06 2010-04-08 Microsoft Corporation System and method for recognizing structure in text
EP2306333A1 (de) * 2009-09-04 2011-04-06 Jentro Technologies GmbH Offline-Softwarebibliothek
US20110099052A1 (en) * 2009-10-28 2011-04-28 Xerox Corporation Automatic checking of expectation-fulfillment schemes
US8831947B2 (en) * 2010-11-07 2014-09-09 Nice Systems Ltd. Method and apparatus for large vocabulary continuous speech recognition using a hybrid phoneme-word lattice
US9110883B2 (en) * 2011-04-01 2015-08-18 Rima Ghannam System for natural language understanding
US8713037B2 (en) * 2011-06-30 2014-04-29 Xerox Corporation Translation system adapted for query translation via a reranking framework
US8516008B1 (en) * 2012-05-18 2013-08-20 Splunk Inc. Flexible schema column store
US9418151B2 (en) * 2012-06-12 2016-08-16 Raytheon Company Lexical enrichment of structured and semi-structured data
US9626358B2 (en) * 2014-11-26 2017-04-18 Abbyy Infopoisk Llc Creating ontologies by analyzing natural language texts
EP3464008B1 (de) * 2016-08-25 2023-12-06 Purdue Research Foundation System und verfahren zur steuerung eines selbstgeführten fahrzeuges
US10978053B1 (en) * 2020-03-03 2021-04-13 Sas Institute Inc. System for determining user intent from text

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
None *
See also references of WO2013174407A1 *

Also Published As

Publication number Publication date
WO2013174407A1 (de) 2013-11-28
US20150302050A1 (en) 2015-10-22
US11934391B2 (en) 2024-03-19
US20190179811A1 (en) 2019-06-13

Similar Documents

Publication Publication Date Title
DE69429866T2 (de) Verfahren und gerät zur modellierung und abfrage von datenbankenstrukturen mit natürlichen sprachartigen konstruktionen
DE69230814T2 (de) Datenbankauffindungssystem zur Beantwortung natursprachlicher Fragen mit dazugehörigen Tabellen
DE69712411T2 (de) Verfahren und System um Datenstrukturen zu vereinigen
DE69811066T2 (de) Datenzusammenfassungsgerät.
DE69812162T2 (de) Vorrichtung zur Verwendung bei der Identifizierung semantischer Mehrdeutigkeiten
DE3650417T2 (de) Informationsaufzeichnungs- und Wiederauffindungssystem.
DE69900854T2 (de) Ein suchsystem und verfahren zum zurückholen von daten und die anwendung in einem suchgerät
DE102013003055A1 (de) Verfahren und Vorrichtung zum Durchführen von Suchen in natürlicher Sprache
DE112007000053T5 (de) System und Verfahren zur intelligenten Informationsgewinnung und -verarbeitung
WO2009030288A1 (de) Erfassung von zusammenhängen zwischen informationen repräsentierenden daten
DE102019001267A1 (de) Dialogartiges System zur Beantwortung von Anfragen
DE112020005268T5 (de) Automatisches erzeugen von schema-annotationsdateien zum umwandeln von abfragen in natürlicher sprache in eine strukturierte abfragesprache
WO2009030247A1 (de) Erfassung von zusammenhängen zwischen informationen repräsentierenden daten
DE60101668T2 (de) Verfahren und gerät zum erzeugen eines auf einer formatvorlage basierten index für ein strukturiertes dokument
DE102009019319A1 (de) Verfahren zur Erzeugung mindestens einer Anwendungsbeschreibung
DE60310881T2 (de) Methode und Benutzerschnittstelle für das Bilden einer Darstellung von Daten mit Meta-morphing
EP2856344A1 (de) Erzeugung von anfragen an ein datenverarbeitendes system
DE102019108857A1 (de) Automatisiertes maschinelles Lernen auf Basis gespeicherten Daten
WO2009030245A1 (de) Erfassung von zusammenhängen zwischen informationen repräsentierenden daten
EP1685505B1 (de) Datenverarbeitungssystem
WO2009030248A1 (de) Erfassung von zusammenhängen zwischen informationen repräsentierenden daten
DE102012109096A1 (de) Verfahren zur sequenziellen Bereitstellung von personalisierte Informationen repräsentierenden Daten, insbesondere in Form von Videos und dergleichen, insbesondere für ein personalisiertes Fernsehprogramm
DE102014201540A1 (de) Verfahren und Vorrichtung zur Analyse von Texten
DE10112587A1 (de) Verfahren und Vorrichtung zum rechnergestützten Ermitteln der Ähnlichkeit einer elektronischen ersten Zeichenkette mit einer elektronischen zweiten Zeichenkette, Computerlesbares Speichermedium und Computerprogramm-Element
EP1784748B1 (de) Abfrageeinrichtung für elektronische archivsysteme sowie elektronische archivsysteme

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20150105

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

AX Request for extension of the european patent

Extension state: BA ME

DAX Request for extension of the european patent (deleted)
REG Reference to a national code

Ref country code: DE

Ref legal event code: R003

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN REFUSED

18R Application refused

Effective date: 20190117