EP1977349A2 - Verfahren zum computergestützten bearbeiten von quelldatenelementen, system und computerprogrammprodukt - Google Patents

Verfahren zum computergestützten bearbeiten von quelldatenelementen, system und computerprogrammprodukt

Info

Publication number
EP1977349A2
EP1977349A2 EP07702737A EP07702737A EP1977349A2 EP 1977349 A2 EP1977349 A2 EP 1977349A2 EP 07702737 A EP07702737 A EP 07702737A EP 07702737 A EP07702737 A EP 07702737A EP 1977349 A2 EP1977349 A2 EP 1977349A2
Authority
EP
European Patent Office
Prior art keywords
data element
source
source data
elements
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP07702737A
Other languages
English (en)
French (fr)
Inventor
Michael Berthold
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Universitaet Konstanz
Original Assignee
Universitaet Konstanz
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Universitaet Konstanz filed Critical Universitaet Konstanz
Publication of EP1977349A2 publication Critical patent/EP1977349A2/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web

Definitions

  • the present invention relates to a method for computer-aided processing of source data elements of a source data set, a system for processing source database elements of a source database and a
  • a method for computer-assisted processing of source data elements of a source data set comprises the steps of:
  • the weighted link may be an associative link, and vice versa, where each associative link or weighted link is weighted.
  • An associative link between two elements such as the demand data element and the source data element, consists of either a direct, heavily weighted connection or a sum of weighted paths that connect two or more elements together.
  • an associative link may be a direct link or aggregate, i. an indirect, concatenated, etc. linking between two elements.
  • An associative link can be a combination of direct and aggregated links.
  • these links or connections between information from different data sources may, for example, be of very different types or the information from different data sources may also be linked (very) differently.
  • the associative links may contain, in addition to purely numerical weights, one or more further annotations or information for each link bearing information about the origin, nature, and / or quality of the link.
  • multiple links can thus exist between two data source elements which differ and / or can be identified on the basis of these annotations.
  • connections may exist between two elements (eg, disease and gene) once, for example, from a gene expression experiment come and once for example from an article.
  • a separate connection or links is made between the same elements.
  • a link refers to text, and the other link refers to experimental data, for example.
  • connections between information can be made.
  • the query data item may be one or more search strings, such as a word, multiple words, a phrase, one or more chemical formula (s), one or more gene sequence (s), and so on.
  • the query data element may include further search parameters, in particular further freely selectable or open search parameters, so-called "wildcards".
  • the source data item (s) may be a hit string, such as a word, a sentence, a chemical formula, a gene sequence, etc.
  • an associative link between the query data element and one or more source data elements can be determined, and in particular the weight of this associative link can be determined.
  • weighted linkage based on an associative linkage is used in the sense of this invention such that each weighted linkage is weighted and determines the weighted linkage weight based on one or more associative links, for example is taken or calculated from a table. To determine the weight of the weighted
  • Linkage also includes context, such as positive and / or negative marks during interactive navigation.
  • connection is based between the demand data element and the source data item or source dataset not on indexes.
  • connection of the query data element with the source data element is based on the associative link and does not represent an index link of a search string with a source dataset.
  • the query data element ie the search string
  • the hit string can be connected to the query data elements by means of a different kind of association, the associative link, whereby a weight is assigned to the associative link.
  • the search string "Gen A" can be used as a query data element.
  • the source data element may be, for example, the hit string "protein B".
  • the source data element "Protein B” is output when using the inventive method due to the input of the demand data element "Gen A”, since an associative link between the demand data element "Gen A” and the source data element "Protein B
  • the associative linkage is based on the fact that the protein B can be synthesized by the gene A.
  • a hit would only be possible if the source data item were also "Gen A".
  • the information can still be present in appropriate databases, it is merely created a new connection between the information modules or the individual entries of the databases. Associations can be formed by means of automatic analysis by means of special release tools, that is to say by means of special algorithms which can run on one or more computers. Advantageously, additional analysis tools and information sources can be added later.
  • Determining the weighted combination of the query data element with at least one source data element may include calculating the links in real time. It is also possible that the link is merely interrogated, i. the link was already deposited.
  • a weighted link in the sense of this invention is an associative link, in particular a direct link to which a weight is assigned.
  • the outputting of the at least one source data element in accordance with its weighted link comprises, in particular, if one or more source data elements were found for one or more query data elements, output these source data elements according to their ranking.
  • the ranking is determined by the weighted link.
  • the weighted link may be in percent.
  • the weighted link may be specified as a fraction of a possible maximum value of a weighted link. In other words, with a very strong link, the corresponding source data item is placed higher in its hierarchy than a source data item with a weak link.
  • an associative link between the demand data element "Gen A” and the source data element “Protein B” can have a value of 0.9
  • an associative link between the demand data element "Gen A” and a source data element "Protein C” has a value of 0, second
  • the source data element "Protein B” is ranked higher than the source data element "Protein C”.
  • information can be made available on the basis of the method according to the invention, without it necessarily being necessary to formulate a clearly defined request.
  • connections between information sources (within and, if appropriate, outside a company) can also be provided.
  • the method does not model large information databases but rather relationships between all information sources, i. a variety of possible source data sets or a variety of possible source data elements created.
  • external or foreign databases and / or database structures may also be included, i. be provided with associative links.
  • Information from external or external database structures can be obtained by associative links with existing internal data structures, i. Source data sets are connected.
  • a reference data set is provided with reference data elements and a weighted link with at least one source data element of the source data set is generated for each reference data element.
  • the reference dataset may be equal to the source dataset, i. the reference dataset is identical to the source dataset. In other words, only a data amount representing both the source data amount and the reference data amount can be provided.
  • the individual elements of this dataset can be linked together using associative links.
  • the weighted link is an associative link.
  • the reference data quantity can be one or more reference data elements include.
  • the source data set may include one or more source data elements. For each reference data element, a link to each source data element can be produced in each case. It is also possible for a large number of reference data elements to establish a common weighted linkage with a source data element.
  • At least one reference data element corresponding to the query data elements and associating the link (s) of the at least one reference data element with the at least one source data element is associated with the query data element.
  • Demand Data Element at least one element of the data set to be determined which corresponds to the demand data elements and the link (s) of the at least one element of the single data set with further elements of the single data set are assigned to the demand data element.
  • only the source dataset can be provided, with associative ones
  • Demand data element at least one source data element is determined which, for example, may be identical to the demand data element.
  • Source data elements associated further source data elements can be output according to the weight of their weighted links.
  • all links between the reference data elements and the source data elements are created in advance, wherein the links are continuously expandable both automatically and manually.
  • the query data element is compared with the reference data elements of the reference data set, and at least one reference data element is selected which corresponds to the query data element equivalent. All links of the selected reference data element or the selected reference data elements are assigned to the entered demand data elements.
  • all source data elements which are associated with the selected reference data elements by associative linkage (s) are also assigned to the query data element.
  • the source data elements are output according to the weighted links to the reference data element or the reference data elements, the output of the source data elements being arranged hierarchically on the basis of the weighted link or the links to the reference data element (s).
  • the reference data element is identical to the demand data element.
  • an additional data element of an additional data quantity is assigned to each source data element.
  • the source data element may be a component of the additional data element, for example a word of a text or a web page.
  • the additional data element can be, for example, a text, a scientific publication, a book, a part of a book, a web page or a digital file, for example a PDF file.
  • Additional data element such as the web page or the text must be included, as must be the case conventionally. For example, after
  • the additional data element is provided upon the output of each source data element.
  • a hit string for example a word or a formula or another hit string of a web page or a text or another data structure
  • the entire data structure or an indication of the identity of the entire data structure will be output. It is also possible that only an indication, for example a link to this data structure is provided.
  • the hit string and web address of the webpage on which the hit string is available can be provided.
  • a file or a link to this file can be provided.
  • At least two query data elements are preferably input, one source data element is determined for each query data element, and the source data elements are output according to the weights of their weighted links with the associated query data elements.
  • the two or more demand data elements may be linked to a single source data item.
  • two or more demand data elements can be entered.
  • the corresponding source data element for example, the hit string” artisans "to be.
  • the demand data elements are not identical to the source data element.
  • a query data element may also be the search string "gene G1”
  • the second query data element may also be the search string "gene G2”.
  • an associative link with the hit string ie the source data element "protein P1”
  • the reference data set may comprise the reference data element "Gen G1” and an associative link may exist between the reference data element "Gen G1” and the source data element "Protein P1”.
  • the second query data element, ie the second search string "gene G2” may be assigned an associative link with a source data element "protein P2". According to the invention, both the source data element "protein P1" and the source data element "protein P2" are output.
  • the source data elements are output hierarchically one after the other, with the source data element having the larger value of the associative link being output first, for example.
  • an associative link to a source data element "protein P12” can also be assigned to the demand data element "Gen G1".
  • the demand data element "Gen G2” can be assigned an associative link with the source data element "Protein P12". Consequently, there is an associative link between the source data element "protein P12" and reference data element "gene G1" and the reference data element "gene G2".
  • the source data element "protein P12" is output, wherein the position in the hierarchy in which the hit string "protein P12” is output, from the associative links with the reference data element "gene G1" and the determinant data element "Gen G2".
  • a corresponding hint about the single link can also be output during the output of this source data element.
  • the demand data element is not directly linked to the source data element, but the reference data element corresponding to the demand data element. However, the linkage of this reference data element with the source data element is equated with a direct linkage of the demand data element with the source data element.
  • a link is generated in each case with each element from the set of permutations of the query data elements which are linked to the source data element.
  • a source data element may be linked to N reference data elements R 1 to R N.
  • a link between the source data element and each reference data element Ri to R N is preferably provided.
  • one or more source data element (s) and / or associative can: link (s) are displayed visually.
  • the source data elements 30 and, if appropriate, the links between the source data elements can be displayed.
  • the searchable data structure or the searchable network can be represented. It is possible in particular that the associative links and the values of the weights are shown.
  • At least one source data element is predetermined and the at least one predetermined source data element is assigned a positive or a negative potential.
  • Particularly preferred may be a plurality, in particular all
  • Source data elements and / or associative link (s) are displayed visually, the source data elements individually and / or grouped by a user optionally visually selected or selected and the selected
  • Source data elements each positive or negative potentials or activities are assigned.
  • further elements for example further source data elements
  • these elements can have a negative potential, i. be a negative activation and to a weakening of this associative link, i. lead to a lower weight of the weighted link.
  • the predetermining of the at least one source data element and the assignment of the positive or negative potential can be performed manually by a user.
  • a user For example, one or more may
  • Source data elements and / or associative links are selected by the user and corresponding potentials are assigned.
  • one or more source data elements and / or associative links may be selected by the user based on the visual representation, such as source data element (s) and / or associative links
  • Shortcut (s) on a computer screen the user can therefore determine the source dataset to be used, i. the relevant ones
  • the predetermining of the at least one Source data element and assigning the positive or negative potential by the user before entering the at least one demand data element is feasible.
  • the user may specify the source data items before the first request. After the first request, the user may specify further source data elements and / or associative links, and so on.
  • a potential can be assigned to each reference data element or each source data element.
  • the potential can be positive or negative. If, for example, a positive data potential is assigned to a source data element, all other source data elements associated with the source data element can be used for the output. If a positive potential is assigned analogously to a reference data element, all the source data elements associated with the reference data element and all other source data elements associated with these source data elements can be used for the output. If a negative potential is assigned to a source data element, all further source data elements directly linked to the source data element can not be used for the output. However, all other source data elements associated with the other source data elements can be used for output. In other words, by means of negative potentials, individual source data elements can be excluded during the search.
  • the amount of source data elements is carried out along a path via the links between the source data elements, this path is blocked on a source data element having a negative potential.
  • Direct links of these excluded source data elements with other source data elements which have no negative potential can be excluded, ie these source data elements (without negative potential) can not be reached via the source data elements with negative potential.
  • a linking of the source data elements without negative potential with other source data elements, for example, also without negative potential, however, is still possible. Consequently, these source data elements without negative potential can optionally be reached by other means. In other words, the negative potentials of individual source data elements can also influence other source data elements to which no negative potential is assigned.
  • this negative potential of the second source data element can also be automatically included in all further links of the first source data element.
  • the weights of all further direct and / or indirect links of the first source data element can be reduced or remain the same, but the sign of the weight is changed, ie made negative.
  • a linkage of a source data element can be made more difficult, or the weight of a weighted link can be small, since this source data element is linked to source data element (s) with negative potential via direct and / or indirect associative links.
  • Assignment of selected source data elements with a negative potential can therefore be expressed in that all direct links of source data elements with a negative potential are excluded when determining the links.
  • a direct linkage of a source data element Qj with a negative potential may be a link with the weight w, j - between the source data element Qi with negative potential and another source data element Qj.
  • the output is also advantageously not a static list of query results, but a visual representation of possible associations, i. Connections built by the analysis tools over time.
  • a first source data item is determined as described above, i. determines a reference data element of the reference data source for each query data element and assigns the link of the reference data element with the first source data element to the query data element.
  • the first source data element can be linked to one or more further source data elements.
  • the further source data element (directly linked to the first source data element) is then defined as the first source data element, i. a link is established between the reference data element and the further source data element, wherein the combination of the reference data element and the further source data element replaces the linkage of the reference data element with the first source data element.
  • the value of the weighted linkage of the reference data element with the further source data element may, for example, correspond to the value of the linkage of the first source data element with the further source data element.
  • the value of the weighted combination of the reference data element with the further source data element can also be determined or determined, in particular calculated, on the basis of the combination of the reference data element with the first source data element and the connection of the first source data element with the further source data element. Consequently, when outputting the source data element associated with the demand data element, the further source data element defined as the first source data element can now be used.
  • the iteration step is repeated.
  • the first source data element (s) is output after the last iteration step.
  • each first source data item is output according to the weight of its weighted association.
  • the demand data element (s) is particularly preferably output before the iteration step.
  • a link is generated in each case with each element from the set of permutations of the first source data elements which are linked to the further source data element.
  • the reference data quantity and the source data quantity can be constructed, for example, in the form of layers.
  • the reference data elements of the reference data set are arranged.
  • a plurality of source data elements of the source data set are arranged.
  • the reference data elements are linked by associative links to the source data elements, in particular directly linked.
  • further source data elements may be arranged, wherein the source data elements of the different layers are linked together by associative linkage.
  • any number of further layers of source data elements may follow, with the source data elements of the different layers being linked together by associative linking.
  • Source data elements in further layers have no direct link to reference data elements. If a demand data element is entered, a reference data element is determined or determined for this demand data element.
  • the reference data element is located in the layer of the set of reference data elements.
  • the reference data element is directly connected to at least one source data element of the layer of the source data elements adjacent to the layer of reference data elements.
  • This source data element is referred to as the first source data element.
  • the first source data element is in the first layer of the source data elements.
  • the first source data element is linked by means of an associative linkage with a further piece of data element of the layer adjacent to the first layer of the source data elements. Likewise, all source data elements of this layer may be linked to the source data elements of the subsequent layer, and so on.
  • links of the reference data element to source data elements in deeper layers i. further determined from the layer of reference data elements layers of source data elements are determined or determined.
  • links to source data elements in a lower layer can be determined. Consequently, advantageously from a demand data element or a reference data element corresponding to the demand data element a multiplicity of source data elements from different layers can be determined or a source data element can be output which does not have a direct link to the reference data element or the correspondingly assigned demand data element having.
  • each first source data item corresponding to its weighted association is output with the associated demand data item.
  • the source data amount is expandable, particularly preferably additional reference data elements are added based on additional source data elements and / or additional additional data elements of the reference data set, and weighted links are generated between the additional source data elements and the corresponding additional reference data elements.
  • new weighted links between existing reference data elements and existing source data elements can be added or the values, ie weights of already existing weighted links changed, using improved analysis methods or manually.
  • the source data quantity can either be extended by any user and / or special users with predefined access rights, for example an administrator.
  • a user can provide an additional additional data element in the form of a website or a publication, such as in particular a scientific publication and, for example, pass the corresponding files to an administrator or provide a link to these files.
  • weighted links are generated between the additional source data elements with the already existing reference data elements and / or weighted links are generated between the additional reference data elements and the already existing source data elements.
  • the reference data elements may substantially correspond to the source data elements.
  • additional additional data elements associative links can be created to the new, additional reference data elements and, where appropriate, the existing reference data elements.
  • the associative links can be generated manually or automatically. For example, in providing the additional source data elements and / or the additional additional data elements such links can already be provided. However, the associative links can also be generated automatically on the basis of various mathematical algorithms and / or different threshold values and / or different exclusion criteria, etc. For example, a user of the method according to the invention can provide additional information in the form of computer files, web pages, etc.
  • An administrator can link or add the files and / or the webpages with the already existing source data elements and / or additional data elements and by means of a Computer program to create the associative links, which are newly added, in order to incorporate the new additional data in the existing data structure.
  • the integration of new analysis tools and / or new sources of information and the complexity of the resulting information network can be expanded arbitrarily and continuously.
  • the possibility of manually post-processing associative links, for example by correcting or reentering such associative links, enables the successive modeling and thus storage of expert knowledge without loss of information in general.
  • the weight w i of the weighted link between a reference data element R, - and a source data element Q, - based on the frequency of occurrence of the reference data element R, - and the source data element Q j are each calculated as follows in a supplementary data element:
  • Z Q (QJ) represents the frequency of occurrence of the source data element Q / in the total of all additional data elements.
  • the additional data element can be, for example, a text.
  • the reference data element is a search string, which occurs for example in the text.
  • the source data element Q is a hit string, which occurs for example in the text.
  • the expression f (R it Qj) represents the frequency of coincidence of the hit string and the search string in the text.
  • the expression fo (Ri) is the frequency of occurrence of the search string in the entire set of all the additional data items. This can be eg the total amount of all texts to be searched.
  • fo (Qj) represents the frequency of occurrence of the hit string in the total of all texts to be searched.
  • the weight w, j -the weighted association between a reference data element R 1 - and a source data element Q is calculated as follows:
  • Source data element Q / for example, a gene B, described in the experiment x, wherein the frequency of the source data element Qy is greater than the threshold value ⁇ .
  • the frequency may be, for example, the quotient of the measured number of experiments in which this gene was detected with a reading greater than a threshold, over the total number of experiments.
  • the gene is considered in individual experiments as proven when a predetermined or predeterminable threshold ⁇ is exceeded.
  • a method of processing source data items in a source data set comprises the steps of:
  • a system for manipulating source database elements of a source database comprises:
  • an input device which is designed to input at least one query data element, in particular a search string
  • a microprocessor device which is designed to determine a weighted link of the query data element with at least one source database element, in particular with at least one hit string of the source database
  • an output device which is used to output the at least one source database element corresponding to a weight of the weighted link, preferably a hit probability of the query data element is designed with the at least one source database element
  • the microprocessor device is further configured to determine the weight of the link due to at least one associative link.
  • the system further comprises a reference database with reference database elements and
  • the microprocessor device is designed to generate a weighted link with at least one source database element of the source database for each reference database element.
  • microprocessor device is designed:
  • system further comprises an additional database, and each source database element is associated with an additional database element.
  • the output device is preferably designed to provide the additional database element in the output of each source database element.
  • the source database can preferably be expanded on the basis of additional source database elements and / or the additional database on the basis of additional additional database elements.
  • the microprocessor device is designed to generate additional reference database elements based on the additional source database elements and / or the additional additional database elements and to generate weighted links between the additional source database elements and the corresponding reference database elements.
  • the input device and / or the output device is designed such that one or more source data element (s) and / or associative link (s) are displayed visually.
  • the input device is designed to predetermine at least one source data element and to associate the at least one source data element with a positive or a negative potential.
  • the input device is designed such that the predetermining of the at least one source data element (62) and the assignment of the positive or negative potential of a user is manually feasible.
  • the input device is designed such that the predetermining of the at least one source data element (62) and the assignment of the positive or negative potential by the user can be carried out before the input of the at least one demand data element.
  • the input device in conjunction with the output device constitutes an interactive user interface by means of which the user can modify the source data elements and / or the associative links and can explore the output.
  • a computer program product which, when stored in the memory of a data management device, such as a computer programmer, initiates. a computer is loaded, the data processing device to carry out the inventive method.
  • Figure 1 is a flow chart of an embodiment of a preferred method of the invention
  • Figure 2 is a schematic view of an embodiment of a preferred
  • FIG. 3 shows a further schematic view according to FIG. 2;
  • FIG. 4 shows a further schematic view according to FIG. 3;
  • Figure 5 another schematic view of another preferred
  • FIG. 6 shows a schematic view according to FIG. 5
  • FIG. 7 shows a schematic view according to FIG. 5
  • 8 shows a schematic view according to FIG. 5
  • FIG. 9 shows a schematic view according to a further preferred embodiment
  • FIG. 10 a schematic view of a computer system.
  • An entity can be a node in a network.
  • a link can be a connection, in particular an associative connection, between two objects.
  • link in particular an associative connection
  • link is used interchangeably.
  • Weight can be the strength of a link or an association associated with a link.
  • An association corresponds to an associative link, as described above.
  • a pointer can be assigned to a link.
  • Each link may have one or more pointers pointing to an original source used to introduce the link.
  • a summary of this source may be added as an addition to the pointer (s), for example, when the original source is no longer available Is available or has been removed.
  • a pointer may represent a URL or an address on the World Wide Web.
  • An annotation may be added in addition to each link to provide further information, in particular a description of the links and / or the objects, a rationale or origin of the link, etc. Explanations are regularly introduced or edited manually by a user.
  • An activity can describe an object.
  • each object as a node of a network can have a certain level of activity.
  • the activity may be represented in the form of a negative or positive potential.
  • the activities may be interactively determined or changed by a user.
  • a label defines the context of a link.
  • a description can also be a relation to an instance or an ontology.
  • An analysis engine creates links to corresponding weights and pointers based on one or more sources of information.
  • an analyzer is an agent for extracting information based on which links are created.
  • FIG. 1 shows a flowchart of a preferred embodiment of the method according to the invention.
  • a first step S1 becomes a
  • Demand data element Nj for example, the search string "Gen A" entered.
  • Input can, for example, by means of a keyboard in a
  • a downstream data structure can take place directly.
  • the input can also be made via a terminal.
  • the terminal can be connected to the downstream data structure via a network.
  • the entry can also be sent by e-mail, SMS or other means to the downstream Data structure to be transferred.
  • the query data element Ni is assigned a reference data element Rj of a reference data set.
  • the reference data set comprises a plurality of entries, and in the example chosen here, an entry is searched which is identical or at least similar to the search string "Gen A". If such an entry is found in the reference data set, the corresponding reference data element Rj is assigned to the query data element Nj.
  • the reference data element Rj which corresponds for example to the search string "Gen A" has, for example, at least one link to a source data element Q j .
  • the reference data element R 1 may have the associative linkage with the weight Wy with the source data element Q j .
  • the source data element Qj may be, for example, the hit string "Gen B".
  • additional information about the hit string can be provided.
  • step S5 for example, an additional data element in the form of a URL with the address "www.Gen-B.com” is output at the same time or at the request of the user with the hit string.
  • any other information may be output, in particular a scientific publication, a section of a book, an ISBN number, PDF document, etc ..
  • FIG. 2 shows a schematic view of a system 10 according to a preferred embodiment of the invention.
  • the system 10 includes an input device 12 and an output device 14.
  • the input device 12 and the output device 14 are connected to a data management device 16.
  • the data manager 16 may be a local device such as a computer.
  • the data management device 16 can also be part of a larger network. In particular, the data management device must 16 have no physical connection with the input device 12 and the output device 14. Rather, the data management device 16 may have a decentralized network structure.
  • Part of the data management device 16 may also be a database, in particular a database cluster.
  • the input device 12 and the output device 14 may be part of a computer (not shown), a terminal (not shown), a mobile phone (not shown), a PDA (not shown), etc.
  • the input device 12 and the output device 14 may consist of a single unit.
  • a touch screen can serve as input device 12 and output device 14.
  • the system 10 may also include a plurality of input devices 12 and output devices 14.
  • search string is transferred to the data management device 16.
  • the search string is the term "gene A”. Consequently, by means of the input device 12, the term “gene A” is transferred to the data management device 16, for example by SMS or e-mail sent or transmitted by another protocol or entered directly via a keyboard.
  • the data management device 16 comprises a reference database 18 and a source database 20.
  • the reference database 18 and / or the source database 20 may each consist of one physical unit.
  • both the reference database 18 and the source database 20 may include a plurality of databases or be a decentralized database structure.
  • the individual components of the reference database 18 or of the source database 20 can be interconnected via one or more networks.
  • the reference database 18 includes, by way of example, 5 reference database elements 22, 24, 26, 28, 30.
  • the source database 20 includes, by way of example, FIG Source database elements 32, 34, 36, 38, 40.
  • the reference database elements 22, 24, 26, 28, 30 comprise 5 character strings, namely "gene A”, “gene B”, “protein A”, “cancer” and "breast cancer". These five reference database elements 22 are merely exemplary reference database elements.
  • Each reference database 18 may comprise substantially any number of reference database elements which may include substantially any content, such as a chemical formula, a character string, a mathematical expression, etc.
  • the source database 20 includes five source database elements 32, 34, 36, 38 and 40.
  • the source database elements 32, 34, 36, 38 and 40 are exemplified as character strings.
  • FIG. 2 also shows a link 42 between the reference database element 22 with the content "Gen A” and the source database element 34 with the content "Gen B".
  • the linkage 42 has the weight w- 2 .
  • the weight W 12 may have a numerical value, about 0.9.
  • the link 42 is an associative link 42.
  • the search string "gene A” is transferred to the data management device 16 via the input device 12
  • a reference database element is determined which corresponds to the search string "gene A”.
  • the reference database element 22 is determined.
  • the reference database element 22 is linked to the source database element 34 via the link 42.
  • the link 42 is assigned to the input search string.
  • the output device 14 therefore outputs the source data element 34.
  • the result string "Gen B” appears on the output device 14.
  • the hit probability can be output in the form of the value of the weight W 12 .
  • FIG. 3 shows a schematic view according to FIG. 2, wherein a further link 44 of the reference database element 22 with a further source database element, the source database element 38, is also indicated. Consequently, if the data management device 16 is supplied with the search string "Gen A" by means of the input device 12, both the source database element 34 and the source database element 38 are output. In other words, both the hit string "Gen B” and the hit string “Cancer” are output, the output being hierarchically ordered, and the hit string having the higher value of the link 42, 43 being output first.
  • the output of the hit string "Gen B" is before the output of the hit string "Krebs".
  • the value of the corresponding weights may also be indicated.
  • further information for example additional information, which are linked to the corresponding source database elements 34, 38, can be output.
  • FIG. 4 shows a further schematic view of a preferred system 10.
  • the source database elements 46, 48, 50, 52, 54 are also indicated.
  • links between the source database elements 32, 34, 36, 38, 40 and the source database elements 46, 48, 50, 52, 54 are possible.
  • only a link 56 between the source database element 34 and the source database element 50 and a link 58 between source database element 40 and the source database element 50 has been drawn.
  • the link 56 has the weight w 25
  • the link 58 has the weight W 45 .
  • a link 60 between the reference database element 28 and the source database element 40 is drawn.
  • the links 42, 56, 58, 60 can be generated manually or automatically.
  • the link 42 may be created on the basis of a scientific publication in which Both the string "Gen A” and the string “Gen B” are often used.
  • the link 60 between the reference database element 28 and the source database element 40 results, for example, from the fact that breast cancer is a form of cancer.
  • the weight w ⁇ of the link 42 may be established, for example, in terms of the frequency of using the string "Gen A” and the string "Gen B” in one or more texts.
  • the weight W 34 of the link 60 may, for example, have a fixed value, for example 1, 0, this value being assigned for example by an administrator or a person skilled in the art.
  • the source dataset can be stored in a database or various databases.
  • the layer form is merely a preferred embodiment.
  • the source data elements may all be arranged in one layer and source data elements may have multiple links, as illustrated, for example, for the source data element 22 and links 42, 44 in FIG. 3 and which may be shortcuts be tracked successively.
  • the data manager 16 consists of nodes 22-40, 46-54 and labeled edges.
  • Each node represents an object, which may be a concept of the field of application, e.g. a disease or metabolic pathway, or a designated object, such as a tumor. a gene, a protein or a specific target.
  • edges may be a concept of the field of application, e.g. a disease or metabolic pathway, or a designated object, such as a tumor. a gene, a protein or a specific target.
  • each edge includes a weight which is the strength of the
  • a link may also be derived from an ontology representing semantic links between the nodes. If both the search string "gene A” and the search string “cancer” are transferred to the data management device 16 by means of the input device 12, both the hit string “gene B” and the hit string “breast cancer” could be output on the basis of the output device 14. According to this example, however, it is not possible to assign a weight to the hit string “Gen B” using both search strings. Likewise, it is not possible to assign weight to the hit string "breast cancer” using both search strings. Consequently, these two hit strings do not represent ideal results. However, due to the links 56, 58, the hit string "protein A” can also be output.
  • the hit probability can be determined on the basis of the weights of the links 42, 56, 58, 60. Consequently, based on the values of one or more of the weights W 12 , W 34 , W 25 and W 45, a hit probability can be determined.
  • this new ideas can be created.
  • interesting and in particular non-obvious connections between information sources can be created and researched.
  • further information can be made available or the origin of the links can be self-explanatory.
  • expert experience or expert knowledge is also involved since links 42, 56, 58, 60 can be created both automatically and manually by specialists.
  • the weights W 12 , w 2 s, W 24 , W 45 can be assigned values automatically or by experts.
  • the links of all possible combinations of the individual source database elements 32-40, 46-54 can be created starting from the reference database elements 22-30, whereby, for example, the expert knowledge can be provided company-wide for all authorized persons. It may also, in particular via the Internet, be integrated with other sources of information or linked to the data management device 16 or the internal data structure with a higher-level data management device 16 may be connected.
  • the system 10 represents an extension of the knowledge or knowledge base of the user.
  • Links can be generated automatically or manually, whereby the weighted links can also be generated automatically or manually, or automatically generated links can also be modified manually, for example. Similarly, some of the joins can be generated automatically and another part of the joins generated manually.
  • analyzer such as one or more computers
  • links between existing nodes such as source database elements 32-40, 46-54
  • Each analyzer may have a specific task, eg repetitive occurrence of words in documents, correlations of genes in Gene expression experiments to find structural activity relationships through the analysis of cell-assay images, ie a large number of images or links between genes and diseases based on the analysis of patient information. In comparison, this would represent the collection and modeling of automatically derivable domains of knowledge.
  • Adding new analysis engines, such as new algorithms for creating or changing links allows the network to be continually maintained, improved and expanded.
  • Weights and links can also be added and / or changed by manual intervention of a user. For example, a user may mark links as false or insert new links with additional explanatory information.
  • This interactive enhancement allows expertise to be captured and further allows immediate "feedback" which allows the data management system 16 to model expertise within a company 10. Manual interaction should be handled in an intuitive way. In particular, a user must manually adjust or change numeric weights or create new links between abstract nodes.
  • the data management system 16 can be expanded both by adding further additional data, in particular further source database elements. It is also possible to expand the data management device 16 by adding new links of already existing reference data elements 22-30 and / or source database elements 32-40, 46-54.
  • FIG. 5 shows a schematic view of a data management device 16.
  • FIG. 5 can also represent an exemplary output of an input device 12 in which the content of the data management device 16 is schematically depicted.
  • FIG. 5 shows a multiplicity of source database elements 62, as well as links 64 between the source database elements 62.
  • the arrows of the links 64 show in which direction the linkage can take place.
  • a two-sided arrow shows that a link can be made in any direction.
  • a one-sided arrow shows that a link can be made in one direction only.
  • Solid lines represent strong joins, broken lines represent weak joins. In other words, the weights associated with joins are given a large numerical value for heavy joins. The weights of weak links are given a small numerical value.
  • a user may populate source database elements 62 with positive or negative potential. Negative potential means that these source database elements 62 are suppressed in the search for links. Positive potential means that these source database elements 62 should be given special attention.
  • one or more source database elements 62 may be populated with positive potential.
  • the source database element 62 named “Michael Jordan” and the term “Machine Learning” are populated with positive potential. This can be done by clicking, for example by means of a computer mouse.
  • source database elements 62 may also be populated with negative potential, in this case the source database element 62 labeled "Sport". Due to the negative occupancy of the source database element 62 labeled "Sport,” the set of possible associations or associative links 64 is restricted, as shown, for example, in FIG.
  • an associative link can be made between data different data sources are possible, in particular, data and / or data sources of different types can be associatively linked.
  • the associative linking of the data sources can be generated, for example, on the basis of one or more associative links of data or data elements, which may each be different.
  • the links can contain a variety of information.
  • each associative link may be designed to contain at least information about the type of link and / or the origin of the link, and / or the weight or value of the weight of the link, and so on.
  • the link may therefore comprise, for example, a numerical number, as an example of a weight.
  • the link may also contain a memory address and / or an address of a computer, a server, a database, a file, etc. about the origin of the link.
  • Such an address can also be a conventional link or Internet link or a hyperlink, for example www.wikipedia.com and so on.
  • the link may also contain information about the type of linkage. This can be a number and / or a letter code or a possible other, practical information type.
  • the additional information can also be referred to as annotation.
  • an interactive refined search in databases is not necessary.
  • no Internet structure or "Local Area Net” (LAN) in particular no network for (exclusive) messaging is provided.
  • an associative linkage differs in that it is not exclusively intended to search refinement via synonyms or via a predefined list of synonyms. Rather, more information, such as the above annotations exist or are considered.
  • a network different from the aforementioned network or a different type of network is provided.
  • an association determination is advantageously provided, which differs from the above-mentioned search refinement by synonyms in particular differs in that links are mapped, which are automatically found in data and / or automatically refined.
  • no pure text search system is provided.
  • no ranking function is provided, e.g. can use or send different static similarity directories.
  • weighted ranking functions with possibly possible detour (s) over synonyms is intended.
  • associative links not only relate to finding suitable texts, but preferably the linking of different information sources or databases.
  • the associative link does not merely correspond to a "text summarization" and / or a "retrieval system".
  • the associative link is not merely based on summarizing texts and adapting this summary on the basis of predefined or predefinable keywords.
  • the aforementioned system is not based on a predetermined or predefinable structuring of a terminology, similar to an ontology. Rather, relationships are preferably made from information sources and / or in particular not only texts extracted and / or continue to be advantageously not specified.
  • association or "associative link” is not limited to simple text and / or another predetermined compound, such as ontology and / or synonyms.
  • links preferably to the, for example, numerical weights include further information, referred to as annotation (s) by way of example.
  • links 64 are populated with further information or annotations, as also shown.
  • navigation of the associations i. of associative links, restricted to a subset of the active elements.
  • the links show references to the origin, i. the original sources of information.
  • the user can now enter a search string by means of the input device 12.
  • the possible associative links 64 which can be searched and possibly evaluated on the basis of the occupancy with positive or negative potentials, are shown in FIG.
  • FIG. 9 shows another example of a data management device 16, wherein pharmaceutical links are shown.
  • certain source database elements 62 are assigned positive potential (gene A, animal N), and source database elements 62 are assigned negative potential (animal M), whereby source database elements which are not of interest for the selected search of the user are used are not considered, are shown to have negative potential.
  • notes on the individual links are shown, which, for example, can describe and justify the cause of the link as well as the strength of the weight of the respective link.
  • a user can therefore selectively track or generate new ideas by entering one or more search strings and also by selecting particular source database items and providing them with a positive or negative potential.
  • the input device such as a computer mouse
  • the output device such as a computer monitor, provides an interactive user interface by means of which the user can modify the source data elements and / or the associative links and explore the output.
  • joins can be formed automatically or by manual refinement.
  • Manual refinement may e.g. Adding notes by a user and / or inserting expert knowledge into the network, and therefore are largely the subject of an "interface", such as e.g. the input device 12.
  • the automatic addition or modification of links can be carried out in a variety of ways:
  • Semantic links can be created. Semantic linkages are strong links, usually with a value of weight approximately equal to 1.0, which are of known structures, e.g. Derived from ontologies or semantic networks. Semantic links are usually created by experts. Semantic networks that can be automatically or semi-automatically extracted from data must add a component that can ⁇ reliably calculate each link and convert it to a weight.
  • Syntactic links are links that are generated based on a surface analysis of the data.
  • An example of this could be a "text parser” that converts words to stems, eliminates binders, and generates a set of "bi- or trigrams”.
  • Bigrams in the sense of the invention are occurrence probabilities of word pairs. Trigrams corresponding to word triplets. The corresponding Objects in a system according to the invention are connected by weak links. Hypothetical links can be made by a user who creates links based on hypotheses or guesses. The weights for such links are regularly low. These links provide one
  • Data-driven links typically include a vast majority of network weights. Data-driven links can turn off automatically
  • Data sources are generated.
  • the weight of the link reflects the correlation strength, which is defined, for example, in the following form:
  • Threshold ⁇ describes.
  • each of these links may have a comment which refers to the source of information or to the
  • a link may refer to the experimental data and meta-information (threshold ⁇ , data analysis, pointers to the exact calculation of weights);
  • the weight depends on the distance of the words or the quality of the text.
  • Linkages between gene and protein names can be obtained from scientific articles, e.g. based on bigram analysis.
  • Weights are derived from the mean distance and the mean frequency of occurrence in a document, which is analogous to a "TFIDF value" (term frequency / inverse document frequency) and the weight, for example, in calculated as follows:
  • f (g > p) is the frequency of the common occurrence of the gene g and the protein p in a scientific publication or a text
  • Ontological / thesaurus links are based on an existing ontology, where links are inserted to link objects that are linked together by an ontology.
  • Links are strong links, i. the corresponding weight is 1, 0, since there is usually no doubt about the reliability of the information. On the other hand, this would have to be reflected in the weight of the linkage.
  • An exemplary system for implementing the invention will be described.
  • An exemplary system includes a universal one
  • Computer device in the form of a conventional computing environment 120 eg a "personal computer” (PC) 120 having a processor unit 122, a system memory 124, and a system bus 126 which connects a variety of system components, including system memory 124 and processor unit 122.
  • the processing unit 122 may perform arithmetic, logic and / or control operations by accessing the system memory 124.
  • the system memory 124 may store information and / or instructions for use in combination with the processor unit 122.
  • System memory 124 may include volatile and non-volatile memory, such as random access memory (RAM) 128 and read-only memory (ROM) 130.
  • RAM random access memory
  • ROM read-only memory
  • a basic input-output system that includes the basic routines that help to transfer information between the elements within the PC 120, such as during start-up, may be stored in the ROM 130.
  • the system bus 126 may be one of many bus structures, including a memory bus or memory controller, a peripheral bus, and a local bus employing a particular bus architecture from a variety of bus architectures.
  • the PC 120 may further include a hard disk drive 132 for reading or writing a hard disk (not shown) and an external disk drive 134 for reading or writing a removable disk 136 or a removable disk.
  • the removable disk may be a magnetic disk for a magnetic disk drive or an optical disk such as a CD for an optical disk drive.
  • the hard disk drive 132 and the external disk drive 134 are each connected to the system bus 126 via a hard disk drive interface 138 and an external disk drive interface 140.
  • the drives and associated computer readable media provide nonvolatile storage of computer readable instructions, data structures, program modules and other data to the PC 120.
  • the data structures may include the relevant data for implementing a method as described above.
  • a plurality of program modules particularly an operating system (not shown), one or more application programs 144, or program modules (not shown) and program data 146 may be stored on the hard disk, external disk 142, ROM 130, or RAM 128 become.
  • the application programs may include at least a portion of the functionality as shown in FIG.
  • a user may enter commands and information into the PC 120, as described above, using input devices, such as a mouse. a keyboard 148 and a computer mouse 150.
  • Other input devices may include a microphone and / or other sensors, a joystick, a game pad, a scanner, or the like.
  • These or other input devices may be connected to the processor unit 122 via a serial interface 152 coupled to the system 126, or may be interfaced with other interfaces, such as those shown in FIG. a parallel interface 154, a game port or a universal serial bus (USB).
  • information may be printed with a printer 156.
  • the printer 156 and other parallel input / output devices may be connected to the processor unit 122 through the parallel interface 154.
  • a monitor 158 or other type of display device is / are connected to the system bus 126 via an interface, such as a computer. a video input output 160 connected.
  • the computing environment 120 may include other peripheral output devices (not shown), such as those shown in FIG. Speaker or acoustic outputs include.
  • the computing environment 120 may communicate with other electronic devices, eg a computer, a cordless phone, a cordless phone, a personal digital assistant (PDA), a television or the like. To communicate, computing environment 120 may operate in a networked environment using connections to one or more electronic devices.
  • FIG. 10 illustrates the computing environment networked to a remote computer 162.
  • the remote computer 162 may be another computing environment, such as a server, router, network PC, peer device, or the like may be other common network nodes and may include many or all of the elements described above with respect to computing environment 120.
  • the logical connections as illustrated in Figure 10 include a local area network (LAN) 164 and a wide-area network (WAN) 166.
  • LAN local area network
  • WAN wide-area network
  • Such networking environments are commonplace in offices, corporate-wide computer networks, intranets, and the Internet.
  • the computing environment 120 When a computing environment 120 is used in a LAN network environment, the computing environment 120 may be connected to the LAN 164 through a network input / output 168. When the computing environment 120 is used in a WAN networking environment, the computing environment 120 may include a modem 170 or other means of establishing communication over the WAN 166.
  • the modem 170 which may be internal and external to the computing environment 120, is connected to the system bus 126 via the serial interface 152.
  • program modules that are relative to the computing environment 120, or portions thereof may be stored in a remote memory device accessible to or from a remote computer 162. Furthermore, other data relevant to the method or system described above may be accessible on or from the remote computer 162.
  • the method according to the invention can also be distributed essentially arbitrarily on a grid or parallel computer or the information network, which is why the system also includes, for example, a grid or a parallel computer may include.
  • RAM random access memory
  • LAN local area network
  • WAN wide are network

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Zusammengefaßt betrifft die vorliegende Erfindung Verfahren zum computergestützten Bearbeiten von Quelldatenelementen (32-40, 46-54) einer Quelldatenmenge (20) mit den Schritten: Eingeben zumindest eines Nachfragedatenelements, insbesondere eines Suchstrings; Ermitteln einer gewichteten Verknüpfung (42, 44, 60) des Nachfragedatenelements mit zumindest einem Quelldatenelement (34, 38, 40) der Quelldatenmenge (20), insbesondere mit zumindest einem Trefferstring der Quelldatenmenge (20); und Ausgeben des zumindest einen Quelldatenelements (34, 38, 40) entsprechend eines Gewichts (w12, w13, w34) der gewichteten Verknüpfung (42, 44, 60), bevorzugt einer Trefferwahrscheinlichkeit des Nachfragedatenelements mit dem zumindest einen Quelldatenelement (34, 38, 40), wobei das Gewicht (w12, w13, w34) der gewichteten Verknüpfung (42, 44, 60) aufgrund zumindest einer assoziativen Verknüpfung (42, 44, 60) ermittelt wird sowie ein weiteres Verfahren, ein System und ein Computerprogrammprodukt.

Description

"Verfahren zum computergestützten Bearbeiten von Quelldatenelementen, System und Computerprogrammprodukt"
Beschreibung
Die vorliegende Erfindung betrifft ein Verfahren zum computergestützten Bearbeiten von Quelldatenelementen einer Quelldatenmenge, ein System zum Bearbeiten von Quelldatenbankelementen einer Quelldatenbank und ein
Computerprogrammprodukt.
Viele Firmen und Forschungseinrichtungen erzeugen und verarbeiten eine Vielzahl von Informationen. Diese Informationen werden regelmäßig in Datenbanksystemen, welche bevorzugt miteinander vernetzt sind, abgespeichert. Moderne Speichertechnologie und die Kreativität von Forschern setzen im wesentlichen keine Grenzen an die Menge der gespeicherten Information. Um die Forschungs- und Entwicklungstätigkeit von Mitarbeitern bestmöglich zu unterstützen, ist es vielfach notwendig, die innerhalb und auch außerhalb einer Firma und/oder einer Forschungseinrichtung verstreuten, delokalisierten Informationen und/oder Daten möglichst vollständig und in einfacher Weise zur Verfügung zu stellen bzw. möglich zu machen. Dies ist insbesondere notwendig, um neue Erkenntnisse bzw. neue Arbeitsweisen zu ermöglichen. Beispielsweise sollen allen Mitarbeitern, insbesondere denen im Bereich Forschung und Entwicklung, Resultate von Experimenten, Erkenntnisse von Kollegen, Publikationen, usw. in einfacher und übersichtlicher Weise zur Verfügung gestellt werden. Wiederholungen von Experimenten oder vorhersehbare Mißerfolge sollten möglichst vermieden werden.
Beispielhaft soll in Forschungsabteilungen von Herstellern von Pharmazeutika unnötige oder doppelte Arbeit vermieden werden. Um neue, noch nicht bekannte Medikamente, welche beispielsweise keine negativen Nebenwirkungen aufweisen, zu entwickeln bzw. neu herzustellen, sind eine Vielzahl verschiedener Informationen notwendig, welche miteinander kombiniert werden können. Derzeit basiert die Entwicklung stark auf Experten mit langer Erfahrung und hoffentlich dem richtigen Wissen zum richtigen Zeitpunkt. Die Informationsquellen, welche Experten aufbauen, sind in der Regel über einen Konzern verteilt, vielfach auch über das Internet. Beispiele dafür sind Versuchsprotokolle, Patentinformationen, wissenschaftliche Publikationen, experimentelle und biologische Informationen bzw. Daten über metabolische Pfade bzw. Stoffwechsel pfade bzw. -wege. Ferner könnte bereichsübergreifende Zusammenarbeit von Experten eine vielversprechende Informationsquelle sein. Hinreichend bekannt ist beispielsweise große Informationsquellen zu erstellen, welche auf komplexer Datenbasistechnologie fundieren.
Es ist eine Aufgabe der Erfindung, einen möglichst vollständigen Zugang zu vorhandenen Informationen bzw. Daten bereitzustellen und die vorhandenen Informationen bzw. Daten in einfacher und effektiver Weise zu durchsuchen.
Diese Aufgabe wird gelöst anhand des Verfahrens gemäß Anspruch 1 , des Verfahrens gemäß Anspruch 21 , das System gemäß Anspruch 22 und das Computerprogrammprodukt gemäß Anspruch 33. Bevorzugte Ausführungsvarianten bzw. -formen sind Gegenstand der abhängigen Ansprüche.
Gemäß einem Aspekt der vorliegenden Erfindung umfaßt ein Verfahren zum computergestützten Bearbeiten von Quelldatenelementen einer Quelldatenmenge die Schritte:
Eingeben zumindest eines Nachfragedatenelements, insbesondere eines Suchstrings,
Ermitteln einer gewichteten Verknüpfung des Nachfragedatenelements mit zumindest einem Quelldatenelement der Quelldatenmenge, insbesondere mit 'zumindest einem Trefferstring der Quelldatenmenge und Ausgeben des zumindest einen Quelldatenelements entsprechend eines Gewichts der gewichteten Verknüpfung, bevorzugt einer Trefferwahrscheinlichkeit des Nachfragedatenelements mit dem zumindest einen Quelldatenelement, wobei das Gewicht der gewichteten Verknüpfung aufgrund zumindest einer assoziativen Verknüpfung ermittelt wird.
Die gewichtete Verknüpfung kann eine assoziative Verknüpfung sein und umgekehrt, wobei jeder assoziativen Verknüpfung bzw. jeder gewichteten Verknüpfung ein Gewicht zugeordnet ist. Eine assoziative Verknüpfung zwischen zwei Elementen, beispielsweise dem Nachfragedatenelement und dem Quelldatenelement besteht entweder aus einer direkten, stark gewichteten Verbindung oder aus einer Summe von gewichteten Pfaden, welche zwei oder mehr Elemente miteinander verbinden. Folglich kann eine assoziative Verknüpfung eine direkte Verknüpfung oder eine aggregierte, d.h. eine indirekte, verkettete, usw. Verknüpfung zwischen zwei Elementen sein. Eine assoziative Verknüpfung kann eine Kombination von direkten und aggregierten Verknüpfungen sein.
Insbesondere können diese Verknüpfungen bzw. Verbindungen zwischen Informationen aus unterschiedlichen Datenquellen beispielsweise sehr unterschiedlichen Typs sein bzw. die Informationen aus unterschiedlichen Datenquellen auch (sehr) unterschiedlich verknüpft werden. Beispielsweise können die assoziativen Verknüpfungen zusätzlich zu rein numerischen Gewichten ein oder mehrere weitere Annotationen bzw. Informationen für jede Verbindung enthalten, die Informationen zum Ursprung, zur Art und/oder zur Qualität der Verknüpfung tragen. Insbesondere können dadurch mehrere Verknüpfungen zwischen zwei Datenquellelementen bestehen, die sich aufgrund dieser Annotationen unterscheiden und/oder identifizieren lassen.
In anderen Worten können Verbindungen zwischen zwei Elementen (z.B. Krankheit und Gen) existieren, die einmal beispielsweise aus einem Genexpressionexperiment stammen und einmal beispielsweise aus einem Artikel. In beiden Fällen wird vorteilhafterweise zwischen denselben Elementen eine eigene Verbindung bzw. Verknüpfungen geknüpft. Eine Verbindung bzw. Verknüpfung verweist beispielsweise auf Text, die andere Verbindung bzw. Verknüpfung verweist beispielsweise auf experimentelle Daten.
Vorteilhafterweise kann können erfindungsgemäß Verbindungen zwischen Informationen geknüpft werden.
Das Nachfragedatenelement kann ein oder mehrere Suchstring(s), beispielsweise ein Wort, mehrere Wörter, ein Satz, eine oder mehrere chemische Formel(n), eine oder mehrere Gensequenz(en), usw. sein. Das Nachfragedatenelement kann weitere Suchparameter, insbesondere weitere frei wählbare bzw. offene Suchparameter, sogenannte "Wildcards" umfassen.
Das oder die Quelldatenelement(e) kann ein Trefferstring, beispielsweise ein Wort, ein Satz, eine chemische Formel, eine Gensequenz, usw. sein.
In anderen Worten kann eine assoziative Verknüpfung zwischen dem Nachfragedatenelement und einem oder mehreren Quelldatenelementen ermittelt werden und insbesondere das Gewicht dieser assoziativen Verknüpfung ermittelt werden. Insbesondere wird der Ausdruck "das Gewicht der gewichteten Verknüpfung aufgrund einer assoziativen Verknüpfung" zu ermitteln im Sinne dieser Erfindung derart verwendet, daß jeder gewichteten Verknüpfung ein Gewicht zugeordnet ist und das Gewicht der gewichteten Verknüpfung anhand einer oder mehrerer assoziativer Verknüpfung(en) bestimmt, beispielsweise aus einer Tabelle entnommen oder berechnet wird. Zum bestimmen des Gewichts der gewichteten
Verknüpfung(en) wird beispielsweise auch der Kontext, wie zum Beispiel positive und/oder negative Markierungen während der interaktiven Navigation mit einbezogen.
Vorteilhafterweise basiert die Verbindung zwischen dem Nachfragedatenelement und dem Quelldatenelement bzw. der Quelldatenmenge nicht auf Indizes. Vielmehr erfolgt die Verbindung des Nachfragedatenelements mit dem Quelldatenelement anhand der assoziativen Verknüpfung und stellt keine Indexverknüpfung eines Suchstrings mit einer Quelldatenmenge dar. Erfindungsgemäß wird daher davon abgewichen, Indizes mit der Quelldatenmenge zu erzeugen. Vielmehr muß das Nachfragedatenelement, d.h. das Suchstring, nicht mit dem Quelldatenelement, d.h. den Trefferstring, übereinstimmen. Das Trefferstring kann anhand einer anders gearteten Verknüpfung, der assoziativen Verknüpfung, mit den Nachfragedatenelementen verbunden sein, wobei der assoziativen Verknüpfung ein Gewicht zugeordnet ist. Beispielsweise kann als Nachfragedatenelement das Suchstring "Gen A" verwendet werden. Das Quelldatenelement kann beispielsweise das Trefferstring "Protein B" sein. Obwohl das Nachfragedatenelement und das Quelldatenelement verschieden voneinander sind, wird bei Benutzung des erfindungsgemäßen Verfahrens aufgrund der Eingabe des Nachfragedatenelements "Gen A" das Quelldatenelement "Protein B" ausgegeben, da eine assoziative Verknüpfung zwischen dem Nachfragedatenelement "Gen A" und dem Quelldatenelement "Protein B" vorhanden ist, wobei sich die assoziative Verknüpfung beispielsweise darauf begründet, daß das Protein B durch das Gen A synthetisiert werden kann. Bei einer herkömmlichen Indexverknüpfung hingegen wäre ein Treffer nur möglich, wenn das Quelldatenelement ebenfalls "Gen A" wäre.
Vorteilhafterweise können die Informationen nach wie vor in entsprechenden Datenbanken vorliegen, es wird lediglich eine neue Verbindung zwischen den Informationsbausteinen bzw. der einzelnen Einträge der Datenbanken erstellt. Assoziationen können anhand automatischer Analyse durch spezielle Lösewerkzeuge, das heißt anhand spezieller Algorithmen, welche auf einen oder mehreren Computern ablaufen können, gebildet werden. Vorteilhafterweise können nachträglich weitere Analysewerkzeuge sowie Informationsquellen hinzugefügt werden.
Ferner müssen von einem Benutzer gerade nicht spezielle Anfragen, sondern lediglich bereits vorhandene Informationen, z.B. Genbezeichnungen, die in einem Experiment auftauchen, eingegeben werden und es werden Beziehungen zu diesen Eingaben erstellt und ausgegeben.
Das Ermitteln der gewichteten Verknüpfung des Nachfragedatenelements mit zumindest einem Quelldatenelement kann hierbei das Berechnen der Verknüpfungen in Echtzeit umfassen. Es ist auch möglich, daß die Verknüpfung lediglich abgefragt wird, d.h. die Verknüpfung schon vorher hinterlegt war.
Eine gewichtete Verknüpfung im Sinne dieser Erfindung ist eine assoziative Verknüpfung, insbesondere eine direkte Verknüpfung, welcher ein Gewicht zugewiesen ist.
Das Ausgeben des zumindest einen Quelldatenelements entsprechend seiner gewichteten Verknüpfung umfaßt insbesondere, falls zu einem oder mehreren Nachfragedatenelementen ein oder mehrere Quelldatenelemente gefunden wurden, diese Quelldatenelemente gemäß ihrer Rangordnung auszugeben. Die Rangordnung bestimmt sich hierbei anhand der gewichteten Verknüpfung. Beispielsweise kann die gewichtete Verknüpfung in Prozent angegeben sein. Insbesondere kann die gewichtete Verknüpfung als Bruchteil eines möglichen Maximalwertes einer gewichteten Verknüpfung angegeben sein. In anderen Worten wird bei einer sehr starken Verknüpfung das entsprechende Quelldatenelement in seiner Hierarchie weiter oben angeordnet, als ein Quelldatenelement mit einer schwachen Verknüpfung. Beispielsweise kann eine assoziative Verknüpfung zwischen dem Nachfragedatenelement "Gen A" und dem Quelldatenelement "Protein B" einen Wert von 0,9 aufweisen, und eine assoziative Verknüpfung zwischen dem Nachfragedatenelement "Gen A" und einem Quelldatenelement "Protein C" einen Wert von 0,2. Bei Ausgabe der Quelldatenelemente ist das Quelldatenelement "Protein B" ranghöher als das Quelldatenelement "Protein C".
Vorteilhafterweise kann aufgrund des erfindungsgemäßen Verfahrens Information zur Verfügung gestellt werden, ohne daß notwendigerweise eine klar definierte Anfrage formuliert werden muß. Insbesondere können möglicherweise wichtige, aber durch die Anfrage nicht registrierte Informationen extrahiert werden. Wie oben beispielhaft ausgeführt, ist es möglich anhand einer nicht näher formulierten Nachfrage damit assoziierte Informationen zur Verfügung zu stellen. Weiterhin vorteilhafterweise können auch Verbindungen zwischen Informationsquellen (innerhalb und gegebenenfalls auch außerhalb einer Firma) bereitgestellt werden.
Anhand des Verfahrens werden folglich nicht große Informationsdatenbanken modelliert, sondern Beziehungen zwischen allen Informationsquellen, d.h. eine Vielzahl möglicher Quelldatenmengen bzw. einer Vielzahl möglicher Quelldatenelemente, erstellt. Insbesondere können auch externe bzw. fremde Datenbanken und/oder Datenbankstrukturen mit einbezogen werden, d.h. mit assoziativen Verknüpfungen versehen werden. Informationen fremder bzw. externer Datenbankstrukturen können mittels assoziativer Verknüpfungen mit bestehenden, internen Datenstrukturen, d.h. Quelldatenmengen verbunden werden.
Vorzugsweise wird eine Referenzdatenmenge mit Referenzdatenelementen bereitgestellt und für jedes Referenzdatenelement eine gewichtige Verknüpfung mit zumindest einem Quelldatenelement der Quelldatenmenge generiert.
Insbesondere kann die Referenzdatenmenge gleich der Quelldatenmenge sein, d.h. die Referenzdatenmenge ist identisch mit der Quelldatenmenge. In anderen Worten kann lediglich eine Datenmenge bereitgestellt werden, welche sowohl die Quelldatenmenge als auch die Referenzdatenmenge darstellt. Die einzelnen Elemente dieser Datenmenge können anhand von assoziativen Verknüpfungen miteinander verknüpft sein.
Die gewichtete Verknüpfung ist hierbei eine assoziative Verknüpfung. In anderen Worten wird vorteilhafterweise keine Indizierung der Referenzdatenelemente mit den Quelldatenelementen bzw. der Quelldatenmenge erstellt. Vielmehr werden zwischen den Referenzdatenelementen und den Quelldatenelementen gewichtige Verknüpfungen, insbesondere assoziative Verknüpfungen, bereitgestellt. Die Referenzdatenmenge kann dabei ein oder mehrere Referenzdatenelemente umfassen. Die Quelldatenmenge kann ein oder mehrere Quelldatenelemente umfassen. Für jedes Referenzdatenelement kann jeweils eine Verknüpfung mit jedem Quelldatenelement hergestellt werden. Es kann auch für eine Vielzahl von Referenzdatenelementen eine gemeinsame gewichtige Verknüpfung mit einem Quelldatenelement hergestellt werden.
Vorzugsweise wird während des Schritts des Ermitteins der gewichteten Verknüpfung(en) des Nachfragedatenelements mit dem zumindest einen Quelldatenelement zumindest ein Referenzdatenelement ermittelt, welches dem Nachfragedatenelementen entspricht und die Verknüpfung(en) des zumindest einen Referenzdatenelements mit dem zumindest einem Quelldatenelement dem Nachfragedatenelement zugeordnet.
Wird lediglich eine Datenmenge bereitgestellt, deren Elemente untereinander anhand von assoziativen Verknüpfungen miteinander verknüpft sind, kann für jedes
Nachfragedatenelement zumindest ein Element der Datenmenge ermittelt werden welches dem Nachfragedatenelementen entspricht und die Verknüpfung(en) des zumindest einen Elements der einzigen Datenmenge mit weiteren Elementen der einzigen Datenmenge dem Nachfragedatenelement zugeordnet werden. In anderen Worten kann lediglich die Quelldatenmenge bereitgestellt werden, wobei assoziative
Verknüpfungen zwischen Quelldatenelementen bestehen. Für jedes
Nachfragedatenelement wird zumindest ein Quelldatenelement ermittelt, welches beispielsweise mit dem Nachfragedatenelement identisch sein kann. Die mit diesem
Quelldatenelement verknüpften weiteren Quelldatenelemente können entsprechend des Gewichts ihrer gewichteten Verknüpfungen ausgegeben werden.
In anderen Worten werden vorzugsweise alle Verknüpfungen zwischen den Referenzdatenelementen und dem Quelldatenelementen vorab erstellt, wobei die Verknüpfungen sowohl automatisch als auch manuell kontinuierlich erweiterbar sind. Nach Eingabe eines Nachfragedatenelements wird das Nachfragedatenelement mit den Referenzdatenelementen der Referenzdatenmenge verglichen und zumindest ein Referenzdatenelement ausgewählt, welches dem Nachfragedatenelement entspricht. Alle Verknüpfungen des ausgewählten Referenzdatenelements bzw. der ausgewählten Referenzdatenelemente werden dem eingegebenen Nachfragedatenelementen zugeordnet. In anderen Worten werden auch alle Quelldatenelemente, welche mit den ausgewählten Referenzdatenelementen durch assoziative Verknüpfung(en) verknüpft sind, dem Nachfragedatenelement zugeordnet. Ausgegeben werden die Quelldatenelemente entsprechend der gewichteten Verknüpfungen mit dem Referenzdatenelement bzw. den Referenzdatenelementen, wobei die Ausgabe der Quelldatenelemente hierarchisch anhand der gewichteten Verknüpfung bzw. der Verknüpfungen mit den Referenzdatenelement(en) angeordnet sind.
Besonders bevorzugt ist das Referenzdatenelement mit dem Nachfragedatenelement identisch.
Weiterhin vorzugsweise ist jedem Quelldatenelement ein Zusatzdatenelement einer Zusatzdatenmenge zugeordnet. Das Quelldatenelement kann ein Bestandteil des Zusatzdatenelements, beispielsweise ein Wort eines Textes bzw. einer Webseite sein.
Das Zusatzdatenelement kann beispielsweise ein Text, eine wissenschaftliche Veröffentlichung, ein Buch, ein Teil eines Buches, eine Webpage oder eine digitale Datei, beispielsweise eine PDF-Datei sein.
Wie bereits oben ausgeführt kann vorteilhafterweise eine Indizierung eines oder mehrerer Zusatzdatenelemente, beispielsweise einer Webseite oder eines Textes vermieden werden. Vielmehr ist es nicht notwendig, daß das Suchstring in dem
Zusatzdatenelement, beispielsweise der Webseite bzw. dem Text enthalten sein muß, wie dies herkömmlicherweise der Fall sein muß. Beispielsweise kann nach
Eingabe des Suchstrings "Gen A" als Ausgabe das Trefferstring "Gen B" und ein Text angegeben werden, welcher lediglich das Trefferstring "Gen B" beinhaltet, aber nicht das Suchstring "Gen A", da eine assoziative Verknüpfung zwischen dem
Suchstring "Gen A" und dem Trefferstring "Gen B" existiert. Mit einer herkömmlichen Suchmaschine wäre diese Ausgabe nicht möglich gewesen.
Besonders bevorzugt wird bei der Ausgabe eines jedes Quelldatenelements das Zusatzdatenelement bereitgestellt. In anderen Worten kann bei der Ausgabe des Quelldatenelements, d.h. eines Trefferstrings, beispielsweise eines Worts bzw. einer Formel bzw. eines anderen Trefferstrings einer Webpage bzw. eines Textes bzw. eines anderen Datengebildes sein, das ganze Datengebilde bzw. eine Angabe über die Identität des ganzen Datengebildes mit ausgegeben werden. Es ist auch möglich, daß lediglich ein Hinweis, beispielsweise ein Link auf dieses Datengebilde zur Verfügung gestellt wird. Herkömmlicherweise kann der Trefferstring und die Webadresse der Webpage, auf welcher der Trefferstring verfügbar ist, bereitgestellt werden. Analog kann auch eine Datei bzw. ein Link zu dieser Datei bereitgestellt werden.
Weiterhin vorteilhafterweise kann durch die Modellierung der Zusammenhänge zwischen Nachfragedatenelementen und/oder Quelldatenelementen und/oder Referenzdatenelementen, welche auch als Informationsentities bezeichnet sein können, und die Verknüpfungen mit den zugrunde liegenden Zusatzdatenelementen, d.h. in den Informationsquellen, ein Benutzer nicht nur die Ergebnisse der Assoziationen sehen, sondern auch den Assoziationsprozess selbst verstehen. Vorteilhafterweise wird also nicht eine große Informationsdatenbank modelliert, sondern eine Beziehung zwischen allen vorhandenen Informationsquellen.
Weiterhin bevorzugt werden zumindest zwei Nachfragedatenelemente eingegeben, für jedes Nachfragedatenelement jeweils ein Quelldatenelement ermittelt und die Quelldatenelemente entsprechend der Gewichten ihrer gewichteten Verknüpfungen mit den zugehörigen Nachfragedatenelementen ausgegeben. Die zwei oder mehreren Nachfragedatenelement können mit einem einzigen Quelldatenelement verknüpft sein.
Insbesondere können zwei oder mehrere Nachfragedatenelemente eingegeben werden. Beispielsweise kann sowohl das Nachfragedatenelement "Haus" als auch das " Nachfragedatenelement "Bauen" eingegeben werden. Das zugehörige Quelldatenelement kann beispielsweise das Trefferstring "Handwerker" sein. Ebenso, wie bereits oben ausgeführt, sind die Nachfragedatenelemente nicht identisch mit dem Quelldatenelement. Es kann jedoch eine assoziative Verknüpfung zwischen dem Nachfragedatenelement "Haus" und dem Nachfragedatenelement "Bauen" bestehen, welche mit dem Trefferstring "Handwerker" verbunden ist und somit der Eingabe der Suchstrings "Haus" und "Bauen" das Trefferstring "Handwerker" zugeordnet sein.
Beispielsweise kann ein Nachfragedatenelement auch das Suchstring "Gen G1" sein, das zweite Nachfragedatenelement kann auch das Suchstring "Gen G2" sein. Es kann ferner dem Suchstring "Gen G1" eine assoziative Verknüpfung mit dem Trefferstring, das heißt dem Quelldatenelement "Protein P1" zugeordnet sein. In anderen Worten kann die Referenzdatenmenge das Referenzdatenelement "Gen G1" aufweisen und eine assoziative Verknüpfung zwischen dem Referenzdatenelement "Gen G1 " und dem Quelldatenelement "Protein P1" bestehen. Ferner kann dem zweiten Nachfragedatenelement, d.h. dem zweiten Suchstring "Gen G2" eine assoziative Verknüpfung mit einem Quelldatenelement "Protein P2" zugeordnet sein. Erfindungsgemäß werden sowohl das Quelldatenelement "Protein P1" als auch das Quelldatenelement "Protein P2" ausgegeben. Hierbei werden die Quelldatenelemente hierarchisch nacheinander ausgegeben, wobei beispielsweise als erstes das Quelldatenelement mit dem größeren Wert der assoziativen Verknüpfung ausgegeben wird. Es kann beispielsweise auch dem Nachfragedatenelement "Gen G1" eine assoziative Verknüpfung mit einem Quelldatenelement "Protein P12" zugeordnet sein. Ferner kann dem Nachfragedatenelement "Gen G2" eine assoziative Verknüpfung mit dem Quelldatenelement "Protein P12" zugeordnet sein. Folglich besteht eine assoziative Verknüpfung zwischen dem Quelldatenelement "Protein P12" und Referenzdatenelement "Gen G1" sowie dem Referenzdatenelement "Gen G2". In diesem Fall wird ebenso das Quelldatenelement "Protein P12" ausgegeben, wobei die Position in der Hierarchie, in welcher das Trefferstring "Protein P12" ausgegeben wird, aus den assoziativen Verknüpfungen mit dem Referenzdatenelement "Gen G1" und dem Rererenzdatenelement "Gen G2" bestimmt wird.
Werden zwei oder mehr Nachfragedatenelemente eingegeben und weist zumindest ein Nachfragedatenelement eine Verknüpfung zu einem Quelldatenelement auf, zu 5 welchem kein weiteres Nachfragedatenelement eine Verknüpfung aufweist, kann bei der Ausgabe dieses Quelldatenelements ebenfalls ein entsprechender Hinweis über die einzige Verknüpfung mit ausgegeben werden.
Das Nachfragedatenelement wird nicht direkt mit dem Quelldatenelement verknüpft, 10 sondern das dem Nachfragedatenelement entsprechende Referenzdatenelement. Die Verknüpfung dieses Referenzdatenelements mit dem Quelldatenelement wird jedoch einer direkten Verknüpfung des Nachfragedatenelements mit dem Quelldatenelement gleichgesetzt.
15 Weiterhin vorzugsweise wird für jedes Quelldatenelement, welches Verknüpfungen mit mehreren Nachfragedatenelementen aufweist, jeweils eine Verknüpfung mit jedem Element aus der Menge der Permutationen der Nachfragedatenelemente, welche mit dem Quelldatenelement verknüpft sind, generiert.
20 Anders ausgedrückt kann ein Quelldatenelement mit N Referenzdatenelementen R1 bis RN verknüpft sein. In diesem Fall wird vorzugsweise eine Verknüpfung zwischen dem Quelldatenelement und jedem Referenzdatenelement Ri bis RN bereitgestellt.
Ferner wird eine gemeinsame Verknüpfung für alle zwei-Tupel der
'• Referenzdatenelemente R1 bis RN, d.h. für die Paare der Referenzdatenelemente
25 (R1 , R2), (R1 , R3), (R1 , R4) ... (RN-i, RN) sowie für alle drei-Tupel, vier-Tupel (N-
1 )-Tupel und N-Tupel bereitgestellt.
Vorzugsweise können ein oder mehrere Quelldatenelement(e) und/oder assoziative : Verknüpfung(en) visuell dargestellt werden. Hierbei können die Quelldatenelemente 30 und gegebenenfalls die Verknüpfungen zwischen den Quelldatenelementen angezeigt werden. In anderen Worten kann die durchsuchbare Datenstruktur bzw. das durchsuchbare Netzwerk dargestellt werden. Es ist insbesondere möglich, daß die assoziativen Verknüpfungen und die Werte der Gewichte dargestellt werden.
Bevorzugt wird zumindest ein Quelldatenelement vorbestimmt und dem zumindest einen vorbestimmten Quelldatenelement ein positives oder ein negatives Potential zugeordnet. Besonders bevorzugt können einen Vielzahl, insbesondere alle
Quelldatenelemente und/oder assoziative Verknüpfung(en) visuell dargestellt werden, die Quelldatenelemente einzeln und/oder gruppiert von einem Benutzer gegebenenfalls visuell angewählt bzw. ausgewählt werden und den gewählten
Quelldatenelementen jeweils positive oder negative Potentiale bzw. Aktivitäten zugeordnet werden.
Befinden sich zwischen den zwei anhand einer assoziativen Verknüpfung miteinander verbundenen Elementen weitere Elemente, beispielsweise weitere Quelldatenelemente, können diese Elemente mit einem negativen Potential, d.h. einer negativen Aktivierung versehen sein und zu einer Abschwächung dieser assoziativen Verknüpfung, d.h. zu einem geringeren Gewicht der gewichteten Verknüpfung führen.
Vorzugsweise ist das Vorbestimmen des zumindest einen Quelldatenelements und das Zuordnen des positiven oder negativen Potentials von einem Benutzer manuell durchführbar. Beispielsweise kann bzw. können ein oder mehrere
Quelldatenelemente und/oder assoziative Verknüpfungen von dem Benutzer ausgewählt werden und entsprechende Potentiale zugeordnet werden. Insbesondere kann bzw. können ein oder mehrere Quelldatenelemente und/oder assoziative Verknüpfungen von dem Benutzer aufgrund der visuellen Darstellung ausgewählt werden, indem beispielsweise Quelldatenelement(e) und/oder assoziative
Verknüpfung(en) auf einem Computerbildschirm ausgewählt werden. Insbesondere kann der Benutzer daher die heranzuziehende Quelldatenmenge, d.h. die relevanten
Quelldatenelemente in einfacher Weise interaktiv bestimmen, einschränken bzw. spezifizieren.
Besonders bevorzugt ist das Vorbestimmen des zumindest einen Quelldatenelements und das Zuordnen des positiven oder negativen Potentials durch den Benutzer vor Eingabe des zumindest einen Nachfragedatenelements durchführbar ist. Somit ist es in einfacher Weise möglich, daß der Benutzer bereits vor der ersten Anfrage die Quelldatenelemente genau spezifiziert. Nach der ersten Anfrage kann der Benutzer weitere Quelldatenelemente und/oder assoziative Verknüpfungen bestimmen und so weiter.
Vorzugsweise kann jedem Referenzdatenelement bzw. jedem Quelldatenelement ein Potential zugeordnet werden. Das Potential kann positiv oder negativ sein. Wird beispielsweise einem Quelldatenelement ein positives Potential zugeordnet, können alle mit dem Quelldatenelement verknüpften weiteren Quelldatenelemente zur Ausgabe herangezogen werden. Wird analog einem Referenzdatenelement ein positives Potential zugeordnet, können alle mit dem Referenzdatenelement verknüpften Quelldatenelemente und alle weiteren mit diesen Quelldatenelementen verknüpften Quelldatenelemente zur Ausgabe herangezogen werden. Wird einem Quelldatenelement ein negatives Potential zugeordnet, können alle mit dem Quelldatenelement direkt verknüpften weiteren Quelldatenelemente nicht zur Ausgabe herangezogen werden. Alle darüber hinausgehenden, mit den weiteren Quelldatenelementen verknüpfte Quelldatenelemente können jedoch zur Ausgabe herangezogen werden. In anderen Worten können durch negative Potentiale einzelne Quelldatenelemente bei der Suche ausgeschlossen werden. Wird beispielsweise bei der Suche bzw. dem Ermitteln der Verknüpfungen die Menge der Quelldatenelemente entlang eines Weges über die Verknüpfungen zwischen den Quelldatenelementen durchgeführt, ist dieser Weg an einem Quelldatenelement mit negativem Potential blockiert. Direkte Verknüpfungen dieser ausgeschlossenen Quelldatenelemente mit weiteren Quelldatenelementen, welche kein negatives Potential aufweisen, können ausgeschlossen werden, d.h. diese Quelldatenelemente (ohne negative Potential) sind über die Quelldatenelemente mit negativem Potential nicht zu erreichen. Eine Verknüpfung der Quelldatenelemente ohne negativem Potential mit weiteren Quelldatenelemente, beispielsweise ebenfalls ohne negativem Potential, ist jedoch weiterhin möglich. Folglich können diese Quelldatenelemente ohne negativem Potential gegebenenfalls auf anderem Weg erreicht werden. In anderen Worten können die negativen Potentiale einzelner Quelldatenelemente auch andere Quelldatenelemente, denen kein negatives Potential zugeordnet ist, beeinflussen. Ist beispielsweise ein erstes Quelldatenelementen mit einem zweiten Quelldatenelement, welches negatives Potential aufweist, verknüpft, kann dieses negative Potential des zweiten Quelldatenelements automatisch auch in alle weiteren Verknüpfungen des ersten Quelldatenelements einfließen. Beispielsweise können die Gewichte aller weiteren direkten und/oder indirekten Verknüpfungen des ersten Quelldatenelements verringert werden oder vom Betrag gleich bleiben, jedoch wird das Vorzeichen des Gewichts geändert, d.h. negativ gemacht. Insbesondere kann eine Verknüpfung eines Quelldatenelements erschwert werden bzw. das Gewicht einer gewichteten Verknüpfung klein sein, da dieses Quelldatenelement über direkte und/oder indirekte assoziative Verknüpfungen mit großem Gewicht mit Quelldatenelement(en) mit negativem Potential verknüpft ist.
Belegen ausgewählter Quelldatenelemente mit negativem Potential kann sich daher darin äußern, daß alle direkten Verknüpfungen von Quelldatenelementen mit negativem Potential beim Ermitteln der Verknüpfungen ausgeschlossen werden. Eine direkte Verknüpfungen eines Quelldatenelements Qj mit negativem Potential kann eine Verknüpfungen mit dem Gewicht w,j- zwischen dem Quelldatenelement Qi mit negativem Potential und einem weiteren Quelldatenelement Qj sein.
Die Ausgabe ist weiterhin vorteilhafterweise keine statische Liste von Anfrageergebnissen, sondern eine visuelle Repräsentation von möglichen Assoziationen, d.h. Verbindungen die durch die Analysewerkzeuge im Lauf der Zeit aufgebaut wurden.
Besonders bevorzugt wird bei dem Ermittelten der gewichteten Verknüpfung(en) des Nachfragedatenelements mit zumindest einem Quelldatenelement in einem Iterationsschritt
für jedes Nachfragedatenelement ein erstes Quelldatenelement ermittelt, für jedes erste Quelldatenelement eine gewichtete Verknüpfung mit einem weiteren Quelldatenelement ermittelt, jedes erste Quelldatenelement als Nachfragedatenelement definiert und jedes weitere Quelldatenelement als erstes Quelldatenelement definiert.
In anderen Worten wird für jedes Nachfragedatenelement ein erstes Quelldatenelement, wie oben beschrieben, ermittelt, d.h. für jedes Nachfragedatenelement ein Referenzdatenelement der Referenzdatenquelle ermittelt und die Verknüpfung des Referenzdatenelements mit dem ersten Quelldatenelement dem Nachfragedatenelement zugeordnet. Weiter kann das erste Quelldatenelement mit einem oder mehreren weiteren Quelldatenelementen verknüpft sein. Das weitere (direkt mit dem ersten Quelldatenelement verknüpfte) Quelldatenelement wird anschließend als erstes Quelldatenelement definiert, d.h. eine Verknüpfung zwischen dem Referenzdatenelement und dem weiteren Quelldatenelement hergestellt, wobei die Verknüpfung des Referenzdatenelements und des weiteren Quelldatenelements die Verknüpfung des Referenzdatenelements mit dem ersten Quelldatenelement ersetzt. Der Wert der gewichteten Verknüpfung des Referenzdatenelements mit dem weiteren Quelldatenelement kann beispielsweise dem Wert der Verknüpfung des ersten Quelldatenelements mit dem weiteren Quelldatenelement entsprechen. Der Wert der gewichteten Verknüpfung des Referenzdatenelements mit dem weiteren Quelldatenelement kann auch aufgrund der Verknüpfung des Referenzdatenelements mit dem ersten Quelldatenelement und der Verknüpfung des ersten Quelldatenelements mit dem weiteren Quelldatenelement bestimmt bzw. ermittelt, insbesondere berechnet werden. Bei der Ausgabe des zu dem Nachfragedatenelement gehörigen Quelldatenelements kann folglich nunmehr das als erstes Quelldatenelement definierte weitere Quelldatenelement verwendet werden.
Besonders bevorzugt wird der Iterationsschritt wiederholt.
Vorzugsweise wird das oder die erste(n) Quelldatenelement(e) nach dem letzten Iterationsschritt ausgegeben. Bevorzugt wird jedes erste Quelldatenelement entsprechend des Gewichts seiner gewichteten Verknüpfung ausgegeben wird. Besonders bevorzugt wird hierbei das/die Nachfragedatenelement(e) bereits vor dem Iterationsschritt ausgegeben.
Weiterhin vorzugsweise wird für jedes weitere Quelldatenelement, welches Verknüpfungen mit mehreren ersten Quelldatenelementen aufweist, jeweils eine Verknüpfung mit jedem Element aus der Menge der Permutationen der ersten Quelldatenelemente, welche mit dem weiteren Quelldatenelement verknüpft sind, generiert.
Die Referenzdatenmenge und die Quelldatenmenge kann beispielsweise in Form von Schichten aufgebaut sein. In einer ersten Schicht sind die Referenzdatenelemente der Referenzdatenmenge angeordnet. In einer nächsten Schicht sind eine Vielzahl von Quelldatenelementen der Quelldatenmenge angeordnet. Die Referenzdatenelemente sind durch assoziative Verknüpfungen mit den Quelldatenelementen verknüpft, insbesondere direkt verknüpft. In einer weiteren Schicht können weitere Quelldatenelemente angeordnet sein, wobei die Quelldatenelemente der verschiedenen Schichten miteinander durch assoziative Verknüpfung verknüpft sind. Ferner kann eine beliebige Anzahl weiterer Schichten von Quelldatenelementen folgen, wobei die Quelldatenelemente der verschiedenen Schichten miteinander durch assoziative Verknüpfung verknüpft sind. Quelldatenelemente in weiteren Schichten weisen keine direkte Verknüpfung mit Referenzdatenelementen auf. Wird ein Nachfragedatenelement eingegeben, wird für dieses Nachfragedatenelement ein Referenzdatenelement bestimmt bzw. ermittelt. Das Referenzdatenelement befindet sich in der Schicht der Menge der Referenzdatenelemente. Das Referenzdatenelement ist mit zumindest einem Quelldatenelement der an die Schicht der Referenzdatenelemente angrenzende Schicht der Quelldatenelemente direkt verbunden. Dieses Quelldatenelement wird als erstes Quelldatenelement bezeichnet. Das erste Quelldatenelement befindet sich in der ersten Schicht der Quelldatenelemente. Das erste Quelldatenelement ist mittels einer assoziativen Verknüpfung mit einem weiteren Queildatenelement der an die erste Schicht der Quelldatenelemente angrenzenden Schicht verknüpft. Ebenso können alle Quelldatenelemente dieser Schicht mit den Quelldatenelementen der darauffolgenden Schicht verknüpft sein, usw..
Wird das erfindungsgemäße Verfahren iterativ durchgeführt, können Verknüpfungen des Referenzdatenelements mit Quelldatenelementen in tieferen Schichten, d.h. weiter von der Schicht der Referenzdatenelemente entfernten Schichten Quelldatenelementen ermittelt bzw. bestimmt werden. In jedem Iterationsschritt können Verknüpfungen zu Quelldatenelementen in einer tiefer gelegenen Schicht bestimmt werden. Folglich können vorteilhafterweise ausgehend von einem Nachfragedatenelement, bzw. einem dem Nachfragedatenelement entsprechenden Referenzdatenelement eine Vielzahl von Quelldatenelementen aus verschiedenen Schichten bestimmt werden bzw. ein Quelldatenelement ausgegeben werden, welche(s) keine direkte Verknüpfung(en) mit dem Referenzdatenelement bzw. dem entsprechend zugeordneten Nachfragedatenelement aufweist.
Vorzugsweise wird jedes erste Quelldatenelement entsprechend seiner gewichteten Verknüpfung, mit dem zugehörigen Nachfragedatenelement ausgegeben.
Bevorzugt ist die Quelldatenmenge erweiterbar, besonders bevorzugt werden anhand von zusätzlichen Quelldatenelementen und/oder zusätzlichen Zusatzdatenelementen der Referenzdatenmenge zusätzliche Referenzdatenelemente hinzugefügt und gewichtete Verknüpfungen zwischen den zusätzlichen Quelldatenelementen und den entsprechenden zusätzlichen Referenzdatenelementen generiert. Insbesondere können anhand verbesserter Analysemethoden oder manuell auch neue gewichtete Verknüpfungen zwischen bestehenden Referenzdatenelementen und bestehenden Quelldatenelementen hinzugefügt werden bzw. die Werte, d.h. Gewichte bereits bestehender gewichteter Verknüpfungen verändert werden. Die Quelldatenmenge kann hierbei entweder durch beliebige Benutzer und/oder besondere Benutzer mit vordefinierten Zugriffsrechten beispielsweise einem Administrator, erweitert werden. Beispielsweise kann ein Benutzer ein zusätzliches Zusatzdatenelement in Form einer Internetseite oder einer Veröffentlichung, wie insbesondere einer wissenschaftlichen Veröffentlichung zur Verfügung stellen und beispielsweise die entsprechenden Dateien an einen Administrator weitergeben oder einen Link zu diesen Dateien bereitstellen.
Vorzugsweise werden gewichtete Verknüpfungen zwischen den zusätzlichen Quelldatenelementen mit den bereits vorhandenen Referenzdatenelementen generiert und/oder gewichtete Verknüpfungen zwischen den zusätzlichen Referenzdatenelementen und den bereits vorhandenen Quelldatenelementen generiert.
Aufgrund der Zusatzdatenelemente und/oder der zusätzlichen Quelldatenelemente können weitere Referenzdatenelemente bereitgestellt werden. Beispielsweise können die Referenzdatenelemente im wesentlichen den Quelldatenelementen entsprechen. Von den neu zugefügten, zusätzlichen Quelldatenelementen und/oder neu zugefügten, zusätzlichen Zusatzdatenelementen können zu den neuen, zusätzlichen Referenzdatenelementen und gegebenenfalls den bereits bestehenden Referenzdatenelementen assoziative Verknüpfungen erstellt werden. Die assoziativen Verknüpfungen können hierbei manuell oder automatisch generiert werden. Beispielsweise können bei dem Bereitstellen der zusätzlichen Quelldatenelemente und/oder der zusätzlichen Zusatzdatenelemente solche Verknüpfungen bereits bereitgestellt werden. Die assoziativen Verknüpfungen können aber auch anhand verschiedener mathematischer Algorithmen und/oder verschiedener Schwellwerte und/oder verschiedener Ausschlußkriterien, usw. automatisch generiert werden. Beispielsweise kann ein Benutzer des erfindungsgemäßen Verfahrens zusätzliche Informationen in Form von Computerdateien, Webpages, usw. zur Verfügung stellen. Ein Administrator kann die Dateien und/oder die Webpages mit den bereits vorhandenen Quelldatenelementen und/oder Zusatzdatenelementen verknüpfen bzw. hinzufügen und anhand eines Computerprogramms die assoziativen Verknüpfungen, welche neu hinzugefügt werden, erstellen, um die neuen, zusätzlichen Daten in die bereits bestehende Datenstruktur einzupflegen.
Vorzugsweise kann durch das Einbinden neuer Analysewerkzeuge und/oder neuer Informationsquellen auch die Komplexität des entstehenden Informationsnetzwerks beliebig und kontinuierlich ausgebaut werden. Die Möglichkeit der manuellen Nachbearbeitung von assoziativen Verknüpfungen, beispielsweise durch Korrektur oder Neueingabe solcher assoziativer Verknüpfungen, ermöglicht die sukzessive Modellierung und damit Speicherung von Experten wissen, ohne daß dabei Informationen im allgemeinen verloren gehen.
Weiterhin vorzugsweise wird das Gewicht w^ der gewichteten Verknüpfung zwischen einem Referenzdatenelement R,- und einem Quelldatenelement Q,- anhand der Häufigkeit des Vorkommens des Referenzdatenelements R,- und des Quelldatenelements Qj jeweils in einem Zusatzdatenelement folgendermaßen berechnet:
)
wobei
f(Rι >Qj) die Häufigkeit des gemeinsamen Vorkommens des Referenzdatenelements R,- und des Quelldatenelements Q,- in dem Zusatzdatenelement,
fρ(Ri) die Häufigkeit des Vorkommens des Referenzdatenelements R,- in der
Gesamtmenge aller Zusatzdatenelemente und ZQ (QJ ) die Häufigkeit des Vorkommens des Quelldatenelements Q/ in der Gesamtmenge aller Zusatzdatenelemente darstellt.
Das Zusatzdatenelement kann beispielsweise ein Text sein. Das Referenzdatenelement ist ein Suchstring, welches beispielsweise in dem Text vorkommt. Das Quelldatenelement Q, ist ein Trefferstring, welches beispielsweise in dem Text vorkommt. Der Ausdruck f(Rit Qj) stellt die Häufigkeit des gemeinsamen Vorkommens des Trefferstrings und des Suchstrings in dem Text dar. Der Ausdruck fo(Ri) ist die Häufigkeit des Vorkommens des Suchstrings in der gesamten Menge aller Zusatzdatenelemente. Dies kann z.B. die Gesamtmenge aller zu durchsuchenden Texte sein. Analog repräsentiert fo(Qj) die Häufigkeit des Vorkommens des Trefferstrings in der Gesamtmenge aller zu durchsuchenden Texte.
Vorzugsweise wird das Gewicht w,j- der gewichteten Verknüpfung zwischen einem Referenzdatenelement R,- und einem Quelldatenelement Q, folgendermaßen berechnet:
\{x -. R1 (X) ≥ Θ A QJ {X) ≥ Θ\
VV.. =
|{x : A1(Jc) ≥ 0j + |{* : ßy (Jc) ≥ öj
wobei
|{χ : /?,.(*) > 0 Λ 0,.(Jc) ≥ ö| die Häufigkeit eines gleichzeitigen Auftretens des Referenzdatenelements Ri, beispielsweise eines Gens A, und des Quelldatenelements Q,, beispielsweise eines Gens B, in einem Experiment Jc beschreibt, wobei die Häufigkeit des Referenzdatenelements R, und des Quelldatenelements Qy je größer als ein Schwellwert θ ist,
|{Jc : 7?.(Jc) > <9}| die Häufigkeit eines alleinigen Auftretens des Referenzdatenelements /?,-, beispielsweise eines Gens A, in dem Experiment x beschreibt, wobei die Häufigkeit des Referenzdatenelements /?, größer als der Schwellwert θ ist, und
|{jc : O,y(.x) > 0| die Häufigkeit eines alleinigen Auftretens des
Quelldatenelements Q/, beispielsweise eines Gens B, in dem Experiment x beschreibt, wobei die Häufigkeit des Quelldatenelements Qy größer als der Schwellwert θ ist.
Die Häufigkeit kann beispielsweise der Quotient aus gemessener Anzahl von Experimenten sein, in welchen dieses Gen mit einem Meßwert größer als ein Schwellwert nachgewiesen wurde, über die Gesamtanzahl der Experimente sein. Insbesondere gilt das Gen in Einzelexperimenten als nachgewiesen, wenn ein vorbestimmter bzw. vorbestimmbarer Schwellwert Θ überschritten wird.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung umfaßt ein Verfahren zum Bearbeiten von Quelldatenelementen in einer Quelldatenmenge die Schritte:
Eingeben mehrerer Nachfragedatenelemente, insbesondere mehrerer voneinander getrennter Suchstrings,
Ermitteln einer gemeinsamen gewichteten Verknüpfung sämtlicher Nachfragedatenelemente mit zumindest einem Quelldatenelement der Quelldatenmenge insbesondere mit zumindest einem Trefferstring der Quelldatenmenge und - Ausgeben des zumindest einem Quelldatenelements entsprechend eines Gewichts der gemeinsamen gewichteten Verknüpfung mit den Nachfragedatenelementen, bevorzugt einer Trefferwahrscheinlichkeit der Nachfragedatenelemente mit dem zumindest einen Quelldatenelement, wobei
das Gewicht der Verknüpfung aufgrund einer assoziativen Verknüpfung ermittelt wird. Gemäß einem weiteren Aspekt der vorliegenden Erfindung umfaßt ein System zum Bearbeiten von Quelldatenbankelementen einer Quelldatenbank:
- eine Eingabeeinrichtung, welche zum Eingeben zumindest eines Nachfragedatenelements, insbesondere eines Suchstrings ausgelegt ist, eine Mikroprozessoreinrichtung, welche zum Ermitteln einer gewichteten Verknüpfung des Nachfragedatenelements mit zumindest einem Quelldatenbankelement, insbesondere mit zumindest einem Trefferstring der Quelldatenbank ausgelegt ist und eine Ausgabeeinrichtung, welche zum Ausgeben des zumindest einen Quelldatenbankelements entsprechend eines Gewichts der gewichteten Verknüpfung, bevorzugt einer Trefferwahrscheinlichkeit des Nachfragedatenelements mit dem zumindest einem Quelldatenbankelement ausgelegt ist, wobei
die Mikroprozessoreinrichtung weiterhin ausgelegt ist, das Gewicht der Verknüpfung aufgrund zumindest einer assoziativen Verknüpfung zu ermitteln.
Vorzugsweise weist das System weiterhin eine Referenzdatenbank mit Referenzdatenbankelementen auf und
die Mikroprozessoreinrichtung ist ausgelegt, für jedes Referenzdatenbankelement eine gewichtete Verknüpfung mit zumindest einem Quelldatenbankelement der Quelldatenbank zu generieren.
Weiterhin vorzugsweise ist die Mikroprozessoreinrichtung ausgelegt:
während des Schritts des Ermitteln der Verknüpfung(en) des Nachfragedatenelements mit dem zumindest einen Quelldatenbankelement zumindest ein Referenzdatenbankelement zu ermitteln, welches dem Nachfragedatenelement entspricht und die Verknüpfung(en) des zumindest einen Referenzdatenbankelements mit dem zumindest einen Quelldatenbankelement dem Nachfragedatenelement zuzuordnen.
Besonders bevorzugt umfaßt das System weiterhin einen Zusatzdatenbank, und jedem Quelldatenbankelement ist ein Zusatzdatenbankelement zugeordnet.
Weiterhin vorzugsweise ist die Ausgabeeinrichtung ausgelegt, bei der Ausgabe eines jeden Quelldatenbankelements das Zusatzdatenbankelement bereitzustellen.
Bevorzugt sind die Quelldatenbank anhand zusätzlicher Quelldatenbankelemente und/oder die Zusatzdatenbank anhand zusätzlicher Zusatzdatenbankelemente erweiterbar.
Besonders bevorzugt ist die Mikroprozessoreinrichtung ausgelegt, anhand der zusätzlichen Quelldatenbankelemente und/oder der zusätzlichen Zusatzdatenbankelemente zusätzliche Referenzdatenbankelemente zu generieren und gewichtete Verknüpfungen zwischen den zusätzlichen Quelldatenbankelementen und den entsprechenden Referenzdatenbankelementen zu generieren.
Vorzugsweise ist die Eingabeeinrichtung und/oder die Ausgabeeinrichtung ausgelegt, daß ein oder mehrere Quelldatenelement(e) und/oder assoziative Verknüpfung(en) visuell dargestellt werden.
Weiterhin vorzugsweise ist die Eingabeeinrichtung ausgelegt, zumindest ein Quelldatenelement vorzubestimmen und dem zumindest einen Quelldatenelement ein positives oder ein negatives Potential zuzuordnen.
Bevorzugt ist die Eingabeeinrichtung ausgelegt, daß das Vorbestimmen des zumindest einen Quelldatenelements (62) und das Zuordnen des positiven oder negativen Potentials von einem Benutzer manuell durchführbar ist.
Besonders bevorzugt ist die Eingabeeinrichtung ausgelegt, daß das Vorbestimmen des zumindest einen Quelldatenelements (62) und das Zuordnen des positiven oder negativen Potentials durch den Benutzer vor Eingabe des zumindest einen Nachfragedatenelements durchführbar ist.
In anderen Worten stellt die Eingabeeinrichtung in Verbindung mit der Ausgabeeinrichtung eine interaktive Benutzerschnittstelle dar, mittels der der Benutzer die Quelldatenelemente und/oder die assoziativen Verknüpfungen modifizieren kann und die Ausgabe explorieren kann.
Insbesondere gelten die obigen Ausführungen zu dem Verfahren in analoger Weise auch für das erfindungsgemäße System.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung veranlaßt ein Computerprogrammprodukt, welches, wenn es in den Speicher einer Datenverwaltungseinrichtung, wie z.B. eines Computers, geladen ist, die Datenverarbeitungseinrichtung, das erfindungsgemäße Verfahren auszuführen.
Die vorliegende Erfindung wird anhand nachfolgender Zeichnungen beispielhaft beschrieben. Identische Bezugszeichen in verschiedenen Figuren bezeichnen gleiche Bestandteile. Die Erfindung ist nicht auf die beispielhaft beschriebenen Ausführungsformen beschränkt. Vielmehr sind Kombinationen einzelner Merkmale nachfolgend beschriebener Ausführungsformen bzw. -Varianten untereinander möglich. Die Erfindung ist nicht auf die beispielhaft beschriebenen Ausführungsformen beschränkt.
Es zeigt
Figur 1 : ein Flußdiagramm einer Ausführungsvariante eines bevorzugten Verfahrens der Erfindung; Figur 2: eine schematische Ansicht einer Ausführungsform eines bevorzugten
Systems der Erfindung;
Figur 3: eine weitere schematische Ansicht gemäß Figur 2; Figur 4: eine weitere schematische Ansicht gemäß Figur 3; Figur 5: eine weitere schematische Ansicht einer weiteren bevorzugten
Ausführungsform der Erfindung; Figur 6: eine schematische Ansicht gemäß Figur 5; Figur 7: eine schematische Ansicht gemäß Figur 5; Figur 8: eine schematische Ansicht gemäß Figur 5 und Figur 9: eine schematische Ansicht gemäß einer weiteren bevorzugten
Ausführungsform der vorliegenden Erfindung; Figur 10: eine schematische Ansicht eines Computersystems.
Zur nachfolgenden Beschreibung der Figuren werden eine Vielzahl von Fachbegriffen verwendet, welche kurz erläutert werden.
Ein Objekt (englisch: entity) kann ein Knoten in einem Netzwerk sein.
Eine Verknüpfung (englisch: link) kann eine Verbindung, insbesondere eine assoziative Verbindung, zwischen zwei Objekten sein. In der Beschreibung der vorliegenden Erfindung werden die Begriffe "Link", "Verknüpfung" und "Verbindung" synonym verwendet.
Gewicht (englisch: weight) kann die Stärke einer Verknüpfung bzw. einer Assoziation sein, welche einer Verknüpfung zugeordnet ist. Eine Assoziation entspricht einer assoziativen Verknüpfung, wie oben beschrieben.
Ein Zeiger (englisch: reference) kann einer Verknüpfung zugeordnet sein. Jede Verknüpfung kann einen oder auch mehrere Zeiger aufweisen, die auf eine Originalquelle zeigen, welche zum Einführen der Verknüpfung diente. Eine Zusammenfassung dieser Quelle kann als Zusatz zu dem Zeiger bzw. den Zeigern hinzugefügt sein, beispielsweise wenn die ursprüngliche Quelle nicht mehr zur Verfügung steht bzw. entfernt wurde. Beispielsweise kann ein Zeiger eine URL bzw. eine Adresse im World Wide Web darstellen.
Eine Erläuterung (englisch: annotation) kann zusätzlich zu jeder Verknüpfung angeführt sein, um weitere Informationen, insbesondere eine Beschreibung der Verknüpfungen und/oder der Objekte, eine Begründung bzw. einen Ursprung der Verknüpfung, usw., zur Verfügung zu stellen. Erläuterungen werden regelmäßig manuell von einem Benutzer eingeführt bzw. editiert.
Eine Aktivität (englisch: activity) kann ein Objekt beschreiben. Insbesondere kann jedes Objekt als Knoten eines Netzwerks ein bestimmtes Aktivitätsniveau aufweisen. Beispielsweise kann die Aktivität in Form eines negativen oder positiven Potentials dargestellt sein. Die Aktivitäten können beispielsweise interaktiv von einem Benutzer bestimmt bzw. verändert werden.
Eine Beschreibung (englisch: label) definiert den Kontext einer Verknüpfung. Eine Beschreibung kann auch eine Beziehung zu einer Instanz oder eine Ontologie sein.
Eine Analyseeinrichtung (englisch: analysis engine) kreiert Verknüpfungen mit entsprechenden Gewichten und Zeigern aufgrund einer oder mehrerer Informationsquellen. Im wesentlichen ist eine Analyseeinrichtung ein Agent zum Extrahieren von Informationen, anhand welcher Verknüpfungen erstellt werden.
Figur 1 zeigt ein Flußdiagramm einer bevorzugten Ausführungsvariante des erfindungsgemäßen Verfahrens. In einem ersten Schritt S1 wird ein
Nachfragedatenelement Nj beispielsweise das Suchstring "Gen A" eingegeben. Die
Eingabe kann beispielsweise mittels einer Tastatur in eine
Datenverarbeitungsanlage, beispielsweise einen Computer, erfolgen. Hierbei kann der Zugriff zu einer nachgelagerten Datenstruktur direkt erfolgen. Die Eingabe kann aber auch über ein Terminal erfolgen. Hierbei kann das Terminal über ein Netzwerk mit der nachgelagerten Datenstruktur verbunden sein. Alternativ kann die Eingabe aber auch per E-Mail, SMS oder auf anderem Wege an die nachgelagerte Daten struktur übergeben werden.
In dem Schritt S2 wird dem Nachfragedatenelement Ni ein Referenzdatenelement Rj einer Referenzdatenmenge zugeordnet. In anderen Worten umfaßt die Referenzdatenmenge eine Vielzahl von Einträgen und in dem hier gewählten Beispiel wird ein Eintrag gesucht, welcher dem Suchstring "Gen A" identisch oder zumindest ähnlich ist. Wird ein solcher Eintrag in der Referenzdatenmenge gefunden, so wird das entsprechende Referenzdatenelement Rj dem Nachfragedatenelement Nj zugeordnet.
Das Referenzdatenelement Rj, welches beispielsweise dem Suchstring "Gen A" entspricht, weist beispielhaft zumindest eine Verknüpfung mit einem Quelldatenelement Qj auf. Beispielsweise kann das die Referenzdatenelement R1 die assoziative Verknüpfung mit dem Gewicht Wy mit dem Quelldatenelement Qj aufweisen. Das Quelldatenelement Qj kann beispielsweise das Trefferstring "Gen B" sein. Als Ausgabe, beispielsweise an einem Monitor des Eingabecomputers, bzw. des Terminals, bzw. als E-Mail oder SMS dient der Trefferstring "Gen B". Weiterhin kann eine Zusatzinformation zu dem Trefferstring bereitgestellt werden.
In dem Schritt S5 wird beispielsweise ein Zusatzdatenelement in Form einer URL mit der Adresse "www.Gen-B.com" zeitgleich oder auf Anfrage des Benutzer mit dem Trefferstring ausgegeben. Weiter kann eine beliebige andere Information ausgegeben werden, insbesondere eine wissenschaftliche Publikation, ein Ausschnitt eines Buches, eine ISBN-Nummer, PDF-Dokument, usw..
Figur 2 zeigt eine schematische Ansicht eines Systems 10 gemäß einer bevorzugten Ausführungsform der Erfindung. Das System 10 umfaßt eine Eingabeeinrichtung 12 und eine Ausgabeeinrichtung 14. Die Eingabeeinrichtung 12 und die Ausgabeeinrichtung 14 sind mit einer Datenverwaltungseinrichtung 16 verbunden. Die Datenverwaltungseinrichtung 16 kann eine lokale Einrichtung, wie beispielsweise ein Computer sein. Die Datenverwaltungseinrichtung 16 kann aber auch Bestandteil eines größeren Netzwerks sein. Insbesondere muß die Datenverwaltungseinrichtung 16 keine physikalische Verbindung mit der Eingabeeinrichtung 12 und der Ausgabeeinrichtung 14 aufweisen. Vielmehr kann die Datenverwaltungseinrichtung 16 eine dezentrale Netzwerkstruktur aufweisen. Bestandteil der Datenverwaltungseinrichtung 16 kann auch eine Datenbank, insbesondere ein Datenbankcluster sein.
Die Eingabeeinrichtung 12 und die Ausgabeeinrichtung 14 können Bestandteil eines Computers (nicht gezeigt), eines Terminals (nicht gezeigt), eines Mobiltelefons (nicht gezeigt), eines PDA (nicht gezeigt), usw. sein. Die Eingabeeinrichtung 12 und die Ausgabeeinrichtung 14 können aus einer einzigen Einheit bestehen. Beispielsweise kann ein Touchscreen als Eingabeeinrichtung 12 und Ausgabeeinrichtung 14 dienen. Das System 10 kann auch eine Vielzahl von Eingabeeinrichtungen 12 und Ausgabeeinrichtungen 14 umfassen.
Mittels der Eingabeeinrichtung 12 wird ein Suchstring an die Datenverwaltungseinrichtung 16 übergeben. Gemäß Figur 2 ist der Suchstring der Begriff "Gen A". Folglich wird mittels der Eingabeeinrichtung 12 der Begriff "Gen A" an die Datenverwaltungseinrichtung 16 übergeben, beispielsweise per SMS oder E- Mail verschickt bzw. mittels eines anderen Protokolls übertragen oder auch direkt über eine Tastatur eingegeben.
Die Datenverwaltungseinrichtung 16 umfaßt in dem in Figur 2 gezeigten Beispiel eine Referenzdatenbank 18 und eine Quelldatenbank 20. Es ist hierbei jedoch nicht notwendig, daß die Referenzdatenbank 18 und/oder die Quelldatenbank 20 jeweils aus einer physikalischen Einheit besteht. Vielmehr kann sowohl die Referenzdatenbank 18 als auch die Quelldatenbank 20 eine Vielzahl von Datenbanken umfassen bzw. eine dezentrale Datenbankstruktur sein. Die einzelnen Bestandteile der Referenzdatenbank 18 bzw. der Quelldatenbank 20 können über ein oder mehrere Netzwerke miteinander verbunden sein.
Die Referenzdatenbank 18 umfaßt beispielhaft 5 Referenzdatenbankelemente 22, 24, 26, 28, 30. Die Quelldatenbank 20 umfaßt beispielhaft 5 Quelldatenbankelemente 32, 34, 36, 38, 40. Die Referenzdatenbankelemente 22, 24, 26, 28, 30 umfassen 5 Zeichenstrings, nämlich "Gen A", "Gen B", "Protein A", "Krebs" und "Brustkrebs". Diese fünf Referenzdatenbankelementen 22 sind lediglich beispielhafte Referenzdatenbankelemente. Jede Referenzdatenbank 18 kann im wesentlichen eine beliebige Anzahl von Referenzdatenbankelementen aufweisen, welche einen im wesentlichen beliebigen Inhalt, beispielsweise eine chemische Formel, ein Zeichenstring, einen mathematischen Ausdruck, usw., umfassen können.
Ferner umfaßt die Quelldatenbank 20 fünf Quelldatenbankelemente 32, 34, 36, 38 und 40. Die Quelldatenbankelemente 32, 34, 36, 38 und 40 sind beispielhaft als Zeichenstrings angeführt.
In Figur 2 ist weiter eine Verknüpfung 42 zwischen dem Referenzdatenbankelement 22 mit dem Inhalt "Gen A" und dem Quelldatenbankelement 34 mit dem Inhalt "Gen B" eingezeichnet. Die Verknüpfung 42 weist das Gewicht w-ι2 auf. Das Gewicht W12 kann beispielsweise einen numerischen Wert, etwa 0,9 haben. Die Verknüpfung 42 ist eine assoziative Verknüpfung 42.
Ferner können noch weitere assoziative Verknüpfungen zwischen den Referenzdatenbankelementen 22, 24, 26, 28, 30 und den Quelldatenbankelementen 32, 34, 36, 38, 40 vorliegen. Der besseren Deutlichkeit wegen wurden jedoch keine weiteren Verknüpfungen eingezeichnet.
Wird über die Eingabeeinrichtung 12 das Suchstring "Gen A" an die Datenverwaltungseinrichtung 16 übergeben, wird ein Referenzdatenbankelement bestimmt, welches dem Suchstring "Gen A" entspricht. In diesem Fall wird das Referenzdatenbankelement 22 bestimmt. Das Referenzdatenbankelement 22 ist mit dem Quelldatenbankelement 34 über die Verknüpfung 42 verknüpft. Vorzugsweise wird die Verknüpfung 42 dem eingegeben Suchstring zugeordnet. Über die Ausgabeeinrichtung 14 wird daher das Quelldatenelement 34 ausgegeben. In anderen Worten erscheint auf der Ausgabeeinrichtung 14 das Trefferstring "Gen B". Ferner kann aus der Ausgabe 14 die Trefferwahrscheinlichkeit in Form des Wertes des Gewichts W12 ausgegeben werden.
Figur 3 zeigt eine schematische Ansicht gemäß Figur 2, wobei ferner eine weitere Verknüpfung 44 des Referenzdatenbankelements 22 mit einem weiteren Quelldatenbankelement, dem Quelldatenbankelement 38, angegeben ist. Wird folglich der Datenverwaltungseinrichtung 16 mittels der Eingabeeinrichtung 12 das Suchstring "Gen A" übergeben, werden sowohl das Quelldatenbankelement 34 als auch das Quelldatenbankelement 38 ausgegeben. In anderen Worten wird sowohl das Trefferstring "Gen B" als auch das Trefferstring "Krebs" ausgegeben, wobei die Ausgabe hierarchisch geordnet erfolgt und das Trefferstring mit dem höheren Wert der Verknüpfung 42, 43 als erstes ausgegeben wird. Beträgt der Wert beispielsweise des Gewichts w-ι2 der Verknüpfung 42 W12 = 0,9 und der Wert des Gewichts w-ι3 der Verknüpfung 43 W13 = 0,7, erfolgt die Ausgabe des Trefferstrings "Gen B" vor der Ausgabe des Trefferstrings "Krebs". Gegebenenfalls kann auch der Wert der entsprechenden Gewichte angegeben sein. Ferner können noch weitere Informationen, beispielsweise Zusatzinformationen, welche mit den entsprechenden Quelldatenbankelementen 34, 38 verknüpft sind, ausgegeben werden.
Figur 4 zeigt eine weitere schematische Ansicht eines bevorzugten Systems 10. Neben den Quelldatenbankelementen 32, 34, 36, 38, 40 sind ferner die Quelldatenbankelemente 46, 48, 50, 52, 54 angegeben. Ferner sind Verknüpfungen zwischen den Quelldatenbankelementen 32, 34, 36, 38, 40 und den Quelldatenbankelementen 46, 48, 50, 52, 54 möglich. Der besseren Deutlichkeit wegen wurde lediglich eine Verknüpfung 56 zwischen dem Quelldatenbankelement 34 und dem Quelldatenbankelement 50 sowie einer Verknüpfung 58 zwischen Quelldatenbankelement 40 und dem Quelldatenbankelement 50 eingezeichnet. Die Verknüpfung 56 hat das Gewicht w25, die Verknüpfung 58 das Gewicht W45. Ferner ist eine Verknüpfung 60 zwischen dem Referenzdatenbankelement 28 und dem Quelldatenbankelement 40 eingezeichnet. Die Verknüpfungen 42, 56, 58, 60 können manuell oder automatisch generiert werden. Beispielsweise kann die Verknüpfung 42 aufgrund einer wissenschaftlichen Veröffentlichung erstellt werden, in welcher sowohl das String "Gen A" als auch das String "Gen B" häufig verwendet werden. Die Verknüpfung 60 zwischen dem Referenzdatenbankelement 28 und dem Quelldatenbankelement 40 ergibt sich beispielsweise daraus, daß Brustkrebs eine Form von Krebs ist. Folglich kann das Gewicht w^ der Verknüpfung 42 beispielsweise anhand der Häufigkeit der Verwendung des Strings "Gen A" und des Strings "Gen B" in einen oder mehreren Texten erstellt werden. Das Gewicht W34 der Verknüpfung 60 kann beispielsweise einen festen Wert, beispielsweise 1 ,0 aufweisen, wobei dieser Wert beispielsweise durch einen Administrator oder einen Fachmann auf dem Gebiet zugewiesen wird.
Die Quelldatenmenge kann in einer Datenbank oder verschiedenen Datenbanken gespeichert sein. Ferner stellt die Schichtform lediglich eine bevorzugte Ausführungsform dar. Beispielsweise können die Quelldatenelemente alle in einer Schicht angeordnet sein und Quelldatenelemente können mehrere Verknüpfungen aufweisen, wie dies beispielsweise für das Quelldatenelement 22 und die Verknüpfungen 42, 44 in Figur 3 dargestellt ist, und die Verknüpfungen können sukzessive verfolgt werden.
In anderen Worten besteht die Datenverwaltungseinrichtung 16 aus Knoten 22 - 40, 46 - 54 und gekennzeichneten Kanten. Jeder Knoten repräsentiert ein Objekt, welches ein Konzept des Anwendungsgebiets sein kann, z.B. eine Krankheit oder ein metabolischer Pfad bzw. ein Stoffwechselweg, oder ein benanntes Objekt, wie z.B. ein Gen, ein Protein oder ein spezifisches Ziel. Kanten repräsentieren
Verknüpfungen zwischen diesen Objekten und sind mit einem Zeiger auf die lnformationsquelle(n) oder Information über die Analyseeinrichtung, z.B. einen
Computer, gekennzeichnet, welche die Verknüpfungen aufgrund dieser Quellen erzeugte. Zusätzlich umfaßt jede Kante ein Gewicht, welches die Stärke der
Assoziation modelliert und eine Kennzeichnung, welche den Typ der Kante angibt.
Auf diese Art kann eine Verknüpfung bzw. ein Link möglicherweise auch von einer Ontologie, welche semantische Verbindungen zwischen den Knoten repräsentiert, abgeleitet werden. Wird mittels der Eingabeeinrichtung 12 sowohl das Suchstring "Gen A" als auch das Suchstring "Krebs" an die Datenverwaltungseinrichtung 16 übergeben, könnte anhand der Ausgabeeinrichtung 14 sowohl das Trefferstring "Gen B" als auch das Trefferstring "Brustkrebs" ausgegeben werden. Gemäß diesem Beispiel ist jedoch nicht möglich, dem Trefferstring "Gen B" ein Gewicht anhand beider Suchstrings zuzuordnen. Ebenso ist es nicht möglich, dem Trefferstring "Brustkrebs" ein Gewicht anhand beider Suchstrings zuzuordnen. Folglich stellen diese beiden Trefferstrings keine idealen Ergebnisse dar. Aufgrund der Verknüpfungen 56, 58 kann jedoch auch das Trefferstring "Protein A" ausgegeben werden. Hierbei kann die Trefferwahrscheinlichkeit anhand der Gewichte der Verknüpfungen 42, 56, 58, 60 bestimmt werden. Folglich kann anhand der Werte eines oder mehrerer der Gewichte W12, W34, W25 und W45 eine Trefferwahrscheinlichkeit bestimmt werden.
Vorteilhafterweise können hierdurch neue Ideen kreiert werden. Insbesondere werden nicht lediglich Fragen beantwortet, sondern aufgrund der weiteren Verknüpfung von Quelldatenbankelementen 33-40, 46-54 neue Zusammenhänge erkannt bzw. kreiert und ausgegeben, wobei implizit Zugang zu allen möglichen Daten, welche in die Datenverwaltungseinrichtung 16 eingeprägt wurden, ermöglicht ist. Vorteilhafterweise werden können interessante und insbesondere nicht offensichtliche Verbindungen zwischen Informationsquellen erstellt und erforscht werden. Durch eine weitere Verknüpfung der Quelldatenbankelemente 32 - 40, 46 - 54 mit externen Quellen, beispielsweise Webpages, Dateien, usw. können weitere Informationen zur Verfügung gestellt werden bzw. der Ursprung der Verknüpfungen selbsterklärend sein. Insbesondere wird auch Expertenerfahrung bzw. Expertenwissen eingebunden, da Verknüpfungen 42, 56, 58, 60 sowohl automatisch als auch manuell von Fachpersonen kreiert werden können. Insbesondere können den Gewichten W12, w2s, W24, W45 automatisch oder von Fachpersonen Werte zugeordnet werden. Die Verknüpfungen aller möglichen Kombinationen der einzelnen Quelldatenbankelemente 32-40, 46-54 können ausgehend von den Referenzdatenbankelementen 22-30 erstellt werden, wodurch beispielsweise firmenweit das Expertenwissen für alle zugangsberechtigten Personen zur Verfügung gestellt werden kann. Es können auch, insbesondere über das Internet, weitere Informationsquellen eingebunden bzw. mit der Datenverwaltungseinrichtung 16 verknüpft sein bzw. die interne Datenstruktur mit einer übergeordneten Datenverwaltungseinrichtung 16 verbunden sein.
Ferner können nicht nur Informationen auf einer Webseite gefunden werden, sondern insbesondere aufgrund der Verknüpfung der Quelldatenbank Elemente 32- 40, 46-55 untereinander auch Informationen von verschiedenen Domänen gefunden, verarbeitet und eingebunden werden. Durch die Möglichkeit, daß die Datenverwaltungseinrichtung 16 beliebig vergrößert und verwaltet werden kann, wird ein kontinuierliches, dynamisches Lernen ermöglicht, wobei kein Reset möglich ist bzw. Mechanismen nicht vergessen werden können. In anderen Worten stellt das System 10 eine Erweiterung des Wissens bzw. der Wissensbasis des Benutzers dar.
Um die Datenverwaltungseinrichtung 16 zu generieren, müssen zwischen den einzelnen Objekten, d.h. zwischen den Referenzdatenbankelementen 22 - 30 und/oder den Quelldatenbankelementen 32-40, 46-54 gewichtete Verknüpfungen erstellt werden. Es gibt zwei grundsätzliche Möglichkeiten, um Objekte und
Verknüpfungen einer Datenverwaltungseinrichtung 16 hinzuzufügen bzw. die
Verknüpfungen zwischen den bereits bestehenden Referenzdatenbankelementen 22-30 und/oder Quelldatenbankelementen 32-40, 46-54 bereitzustellen. Die
Verknüpfungen können automatisch oder manuell generiert werden, wobei die gewichteten Verknüpfungen ebenfalls automatisch oder manuell generiert werden können bzw. automatisch generierte Verknüpfungen beispielsweise auch manuell abgeändert werden können. Ebenso kann ein Teil der Verknüpfungen automatisch und ein anderer Teil der Verknüpfungen manuell generiert werden.
Zum automatischen Generieren von Verknüpfungen und Gewichten werden Analyseeinrichtung(en), beispielsweise ein oder mehrere Computer verwendet. Es können auch Verknüpfungen zwischen existierenden Knoten, wie beispielsweise den Quelldatenbankelementen 32 - 40, 46 - 54 hinzugefügt und/oder geändert werden. Jede Analyseeinrichtung kann eine bestimmte Aufgabe haben, z.B. wiederholtes Auftreten von Wörtern in Dokumenten, Korrelationen von Genen in Genexpressionsexperimenten , Strukturaktivitätsbeziehungen über die Analyse von "cell-assay" Bildern, d.h. einer großen Anzahl von Bildern oder Verbindungen zwischen Genen und Krankheiten anhand der Analyse von Patienteninformationen zu finden. Im Vergleich würde dies das Sammeln und Modellieren automatisch ableitbarer Domänen Wissens darstellen. Durch Zufügen neuer Analysemaschinen, beispielsweise neuer Algorithmen zum Erstellen bzw. Ändern von Verknüpfungen, kann das Netzwerk kontinuierlich gewartet, verbessert und erweitert werden.
Gewichte und Verknüpfungen können auch durch manuelles Eingreifen eines Benutzers hinzugefügt und/oder verändert werden. Ein Benutzer kann beispielsweise Verknüpfungen als falsch kennzeichnen oder neue Verknüpfungen mit zusätzlichen erklärenden Informationen einfügen bzw. versehen. Dieses interaktive Verbessern erlaubt es, Expertenwissen einzufangen und ermöglicht ferner sofortiges "Feedback", welches dem Datenverwaltungssytem 16 erlaubt, Expertenwissen innerhalb einer Firma bzw. innerhalb des Systems 10 zu modellieren. Manuelle Interaktion soll auf intuitive Art und Weise gehandhabt werden. Insbesondere muß ein Benutzer nicht numerische Gewichte manuell anpassen bzw. verändern oder neue Verknüpfungen zwischen abstrakten Knoten erstellen.
Folglich kann das Datenverwaltungssystem 16 sowohl durch das Hinzufügen weiterer Zusatzdaten, insbesondere weiterer Quelldatenbankelemente erweitert werden. Es ist auch möglich, die Datenverwaltungseinrichtung 16 durch Hinzufügen neuer Verknüpfungen bereits bestehender Referenzdatenelemente 22 - 30 und/oder Quelldatenbankelemente 32-40, 46-54 zu erweitern.
Figur 5 zeigt eine schematische Ansicht einer Datenverwaltungseinrichtung 16. Figur 5 kann aber auch eine beispielhafte Ausgabe einer Eingabeeinrichtung 12 darstellen, in welcher schematisch der Inhalt der Datenverwaltungseinrichtung 16 abgebildet ist. Insbesondere zeigt Figur 5 eine Vielzahl von Quelldatenbankelementen 62, sowie Verknüpfungen 64 zwischen den Quelldatenbankelementen 62. Anhand der Pfeile der Verknüpfungen 64 ist dargestellt, in welcher Richtung die Verknüpfung erfolgen kann. Ein beidseitige Pfeil stellt dar, daß eine Verknüpfung in jede Richtung erfolgen kann. Ein einseitiger Pfeil stellt dar, daß eine Verknüpfung lediglich in einer Richtung erfolgen kann. Durchgezogenen Linien stellen starke Verknüpfungen, unterbrochene Linien stellen schwache Verknüpfungen dar. In anderen Worten sind die den Verknüpfungen zugeordneten Gewichte für starke Verknüpfungen mit einem großen numerischen Wert versehen. Die Gewichte schwacher Verknüpfungen sind mit einem kleinen numerischen Wert versehen. Ein Benutzer kann die Quelldatenbankelemente 62 mit positiven oder negativen Potential belegen. Negatives Potential bedeutet, daß diese Quelldatenbankelemente 62 bei der Suche nach Verknüpfungen unterdrückt werden. Positives Potential bedeutet, daß diese Quelldatenbankelemente 62 besonders beachtet werden sollen.
Die einseitige Verknüpfung von "Sport" nach "Baseball" hat zur Folge, daß ausgehend von dem Knoten bzw. dem Quelldatenbankelement 62 "Sport" auch der Knoten bzw. das Quelldatenbankelement 62 "Baseball" aufgefunden werden kann. Ausgehend von dem Knoten 62 "Baseball" kann jedoch der Knoten 62 "Sport" nicht aufgefunden werden.
Wie in Figur 6 dargestellt, können eine oder mehrere Quelldatenbankelemente 62 mit positivem Potential belegt werden. In diesem Beispiel werden das Quelldatenbankelement 62 mit der Bezeichnung "Michael Jordan" und der Bezeichnung "Maschinenlernen" mit positivem Potential belegt. Dies kann durch Anklicken, beispielsweise mittels einer Computermaus erfolgen.
Wie in Figur 7 dargestellt ist, können auch Quelldatenbankelemente 62 mit negativem Potential belegt werden, in diesem Fall das Quelldatenbankelement 62 mit der Bezeichnung "Sport". Aufgrund der negativen Belegung des Quelldatenbankelements 62 mit der Bezeichnung "Sport" wird die Menge der möglichen Assoziationen bzw. assoziativen Verknüpfungen 64 eingeschränkt, wie dies beispielsweise Figur 8 dargestellt ist.
In anderen Worten kann eine assoziative Verknüpfung zwischen Daten aus verschiedenen Datenquellen ermöglicht werden, wobei insbesondere Daten und/oder Datenquellen unterschiedlichen Typs assoziativ verknüpft werden können. Hierbei kann die assoziative Verknüpfung der Datenquellen beispielsweise anhand einer oder mehrerer assoziativer Verknüpfungen von Daten bzw. Datenelementen, die jeweils verschieden sein können, erzeugt werden. Die Verknüpfungen können eine Vielzahl von Informationen beinhalten. Beispielsweise kann jede assoziative Verknüpfung ausgelegt sein, zumindest eine Information über die Art der Verknüpfung und/oder die Herkunft der Verknüpfung und/oder das Gewicht bzw. den Wert des Gewichts der Verknüpfung usw. enthalten. Die Verknüpfung kann daher beispielsweise eine numerische Zahl, als Beispiel eines Gewichts, umfassen. Alternativ/zusätzlich kann die Verknüpfung auch eine Speicheradresse und/oder eine Adresse eines Rechners, eines Servers, einer Datenbank, einer Datei usw. über die Herkunft der Verknüpfung enthalten. Eine solche Adresse kann auch ein herkömmlicher Link bzw. Internetlink bzw. ein Hyperlink, beispielsweise www.wikipedia.com usw. sein. Alternativ/zusätzlich kann die Verknüpfung auch Information über die Art der Verknüpfung enthalten. Dies kann ein Zahlen- und/oder ein Buchstabencode sein bzw. eine mögliche andere, praktikable Informationsart.
Folglich ist es vorteilhafterweise möglich, ausgehend von der assoziativen Verknüpfung, Rückschlüsse über die Art und den Grund der Verknüpfung zu erhalten. Die Zusatzinformation kann auch als Annotation bezeichnet werden.
Insbesondere vorteilhafterweise ist demnach eine interaktiv verfeinerte Suche in Datenbeständen nicht notwendig. Beispielsweise ist keine Internetstruktur bzw. kein "Lokal Area Net" (LAN) insbesondere kein Netz zur (ausschließlichen) Nachrichtenübermittlung vorgesehen. Demnach unterscheidet sich eine assoziative Verknüpfung dadurch, daß nicht ausschließlich eine Suchverfeinerung über Synonyme bzw. über eine vorgegebene Synonymliste vorgesehen ist. Vielmehr sind auch weitere Informationen, beispielsweise o.g. Annotationen vorhanden bzw. werden diese berücksichtigt. Demnach ist ein von dem vorgenannten Netz verschiedenes Netz bzw. eine davon verschiedene Art von Netz vorgesehen. Ebenso ist vorteilhafterweise eine Assoziationsfindung vorgesehen, die sich von der vorgenannten Suchverfeinerung durch Synonyme insbesondere dadurch unterscheidet, daß Verknüpfungen abgebildet werden, die automatisch in Daten gefunden werden und/oder automatisch verfeinert werden.
Weiterhin vorteilhafterweise ist nicht lediglich eine (beliebig komplexe) Datenbank vorgesehen, deren Inhalte anhand assoziativer Verknüpfungen verbunden werden können. Insbesondere ist es nicht notwendig, anhand von vorgegebenen Strukturen Informationen zu finden und auch nicht notwendig, ein semantisches Netz einzubeziehen. Folglich ist es vorteilhafterweise nicht notwendig, ein vorgenanntes Netz vorzugeben und/oder anhand einer Datenbank zu generieren. Somit ist es besonders vorteilhafterweise nicht notwendig, Einträge in einer Datenbank zu klassifizieren. Demnach werden vielmehr (weitere) Verknüpfungen zwischen Informationen generiert. Somit liegt besonders vorteilhafterweise keine Beschränkung der Suche auf eine genau strukturierte Datenbank vor. Vielmehr werden Informationen aus verschiedenen Datenbanken verknüpft.
Außerdem ist vorteilhafterweise kein reines Textsuch System vorgesehen. Beispielsweise ist nicht ausschließlich bzw. vorzugsweise keine Rankingfunktion vorgesehen, die z.B. verschiedene statische Ähnlichkeitsverzeichnisse verwendet bzw. versenden kann. Ebenso ist keine ausschließliche Einschränkung auf gewichtete Rankingfunktionen mit gegebenenfalls möglichen Umweg(en) über Synonyme vorgesehen. Insbesondere betreffen assoziative Verknüpfungen nicht nur das Auffinden von passenden Texten, sondern vorzugsweise die Verknüpfung von verschiedenen Informationsquellen bzw. Datenbanken.
Schließlich entspricht die assoziative Verknüpfung nicht lediglich einer "Text Summarization" und/oder einem "Retrieval System". Insbesondere beruht die assoziative Verknüpfung nicht lediglich darauf, Texte zusammenzufassen und diese Zusammenfassung anhand von vorgegebenen bzw. vorgebbaren Schlüsselwörtern anzupassen. Inbesondere basiert das vorgenannte System nicht auf einer vorgegebenen bzw. vorgebbaren Strukturierung einer Terminologie, ähnlich einer Ontologie. Vielmehr werden vorzugsweise Zusammenhänge aus Informationsquellen und/oder insbesondere nicht nur Texte extrahiert und/oder müssen weiterhin vorteilhafterweise nicht vorgegeben werden.
Weiterhin vorteilhafterweise ist die Verwendung bzw. der Sinngehalt des Begriffs "Assoziation" bzw. "assoziative Verknüpfung" nicht auf einfachen Text und/oder eine anderweitig vorgegebene Verbindung, beispielsweise Ontologie und/oder Synonyme beschränkt.
Somit umfassen Verknüpfungen vorzugsweise zu den beispielsweise numerischen Gewichten weitere lnformation(en), die beispielhaft als Annotation(en) bezeichnet wird/werden.
In anderen Worten sind einige Verknüpfungen 64 mit weiteren Informationen bzw. Annotationen belegt, wie dies ebenfalls dargestellt ist. Somit ist eine Navigation der Assoziationen, d.h. der assoziativen Verknüpfungen, auf eine Teilmenge der aktiven Elemente eingeschränkt. Die Verknüpfungen zeigen Referenzen zu der Herkunft, d.h. den Originalquellen der Informationen an. Der Benutzer kann nun mittels der Eingabeeinrichtung 12 einen Suchstring eingeben. Die möglichen assoziativen Verknüpfungen 64, welche aufgrund der Belegung mit positiven oder negativen Potentialen durchsucht und gegebenenfalls ausgewertet werden können, sind in Figur 8 dargestellt.
Figur 9 zeigt ein weiteres Beispiel für eine Datenverwaltungseinrichtung 16, wobei pharmazeutische Verknüpfungen dargestellt sind. Beispielhaft wird auch angegeben, daß bestimmte Quelldatenbankelemente 62 mit positivem Potential (Gen A, Tier N) belegt werden, sowie Quelldatenbankelemente 62 mit negativem Potential (Tier M) belegt werden, wobei Quelldatenbankelemente, welche für die gewählte Suche des Benutzer nicht von Interesse sind bzw. nicht berücksichtigt werden sollen, mit negativem Potential belegt sind. Ferner sind in Figur 9 Notizen zu den einzelnen Verknüpfungen dargestellt, welche beispielsweise die Ursache für die Verknüpfung sowie auch die Stärke des Gewichts der jeweiligen Verknüpfung beschreiben und begründen können. Ein Benutzer kann daher durch Eingabe eines oder mehrere Suchstrings und auch durch Auswählen bestimmter Quelldatenbankelemente und das Versehen derselben mit einem positiven oder einem negativen Potential gezielt neue Ideen verfolgen bzw. generieren. Daher stellt die Eingabeeinrichtung, beispielsweise eine Computermaus, in Verbindung mit der Ausgabeeinrichtung, beispielsweise einem Computermonitor, eine interaktive Benutzerschnittstelle dar, mittels der der Benutzer die Quelldatenelemente und/oder die assoziativen Verknüpfungen modifizieren kann und die Ausgabe explorieren kann.
Wie bereits oben beschrieben, können die Verknüpfungen automatisch oder durch manuelle Verfeinerung gebildet werden. Manuelle Verfeinerung kann z.B. Hinzufügen von Notizen durch einen Benutzer und/oder Einfügen von Expertenwissen in das Netzwerk umfassen und sind daher größtenteils Gegenstand eines "Interfaces", wie z.B. der Eingabeeinrichtung 12. Das automatische Zufügen bzw. Verändern von Verknüpfungen kann auf vielfältige Art durchgeführt werden:
Es können semantische Verknüpfungen hergestellt werden. Semantische Verknüpfungen sind starke Links, gewöhnlich mit einem Wert des Gewichts etwa gleich 1 ,0, welche von bekannten Strukturen, wie z.B. Ontologien oder semantischen Netzwerken abgeleitet werden. Semantische Links werden gewöhnlich von Experten kreiert. Semantische Netzwerke, welche automatisch bzw. halbautomatisch von Daten extrahiert werden können, müssen eine Komponente addieren, welche ■ eine Zuverlässig jeder Verknüpfung berechnen können und diese in ein Gewicht umwandeln können.
Syntaktische Verknüpfungen sind Verknüpfungen, die aufgrund einer Oberflächenanalyse der Daten generiert werden. Ein Beispiel dafür könnte ein "Textparser" sein, welcher Wörter zu Wortstämmen konvertiert, Bindewörter eliminiert und daraus eine Menge von "Bi- oder Trigrammen" erzeugt.
Bigramme im Sinn der Erfindung sind Auftrittswahrscheinlichkeiten von Wortpaaren. Trigramme entsprechend von Worttripeln. Die entsprechenden Objekte in einem erfindungsgemäßen System werden durch schwache Verknüpfungen verbunden. Hypothetische Verknüpfungen können durch einen Benutzer hergestellt werden, welcher Verknüpfungen aufgrund von Hypothesen oder von Vermutungen kreiert. Die Gewichte für solche Verknüpfungen sind regelmäßig gering. Diese Verknüpfungen stellen einen
Gegensatz zu Anmerkungen von Experten dar, welche regelmäßig sehr hohe Gewichte aufweisen.
Datengestützte Links umfassen in der Regel eine große Mehrheit der Netzwerkgewichte. Datengestützte Links können automatisch aus
Datenquellen generiert werden. Ein Beispiel dafür
können Genkorrelationen sein, welche von Genexpressionsdaten abgeleitet sind. Verknüpfungen werden eingeführt, wenn ein spezifischer Schwellwert oder ein Vielfachauftreten experimenteller
Daten überschritten wird. Das Gewicht der Verknüpfung reflektiert die Korrelationsstärke, welche beispielsweise in folgender Form definiert ist:
wobei
die Häufigkeit eines gleichzeitigen
Auftretens Gens gh und des Gens gj, in einem Experiment 3c , wobei die Häufigkeit des Gens g,, und des Gens gj je größer als ein Schwellwert θ ist, beschreibt,
: g, (3c) > die Häufigkeit eines alleinigen Auftretens des Gens gi in dem Experiment x , mit einer Häufigkeit des Gens Q1 größer als der Schwellwert θ , beschreibt und
: gj (Jc) > die Häufigkeit eines alleinigen Auftretens des Gens gj in dem Experiment x , mit einer Häufigkeit des Gens g, größer als der
Schwellwert θ beschreibt.
In mehr als 2-dimensionalen Korrelationen werden die entsprechenden Multi-Ecken eingefügt. Zusätzlich kann jeder dieser Links einen Kommentar aufweisen, welcher zu der Informationsquelle bzw. auf den
Grund des Gewichts hinweist. In diesem Beispiel kann ein Link auf die experimentellen Daten und Metainformationen (Schwellwert Θ, Datenanalyse, Zeiger auf die exakte Berechnung von Gewichten) verweisen;
kann eine Textanalyse sein, wobei Vielfachauftreten von benannten Objekten mit einem bestimmten Abstand, entsprechend der dazwischen liegenden Wörter, in einer geringen Verknüpfung resultiert. Das Gewicht hängt von dem Abstand der Wörter bzw. der Qualität des Textes ab.
können Verknüpfungen zwischen Gen- und Proteinnamen sein. Verknüpfungen zwischen Gen- und Proteinnamen können aus wissenschaftlichen Artikeln, z.B. basierend auf Bigrammanalyse, abgeleitet werden. Hierbei werden die Auftrittswahrscheinlichkeiten von
Wortpaaren innerhalb eines Satzes oder Absatzes bestimmt und in proportionale Gewichte umgerechnet. Worte, welche häufig nahe beieinander auftreten sind damit stark miteinander verbunden. Gewichte werden hierbei von dem mittleren Abstand und der mittleren Frequenz des Vorkommens in einem Dokument abgeleitet, wobei analog zu einem "TFIDF-Wert" (Term-Frequenz / inverse Dokument Frequenz) vorgegangen wird und sich das Gewicht beispielsweise in folgender Form berechnet:
wobei
f(g>p) die Häufigkeit des gemeinsamen Vorkommens des Gens g und des Proteins p in einer wissenschaftlichen Publikation bzw. einem Text ist,
fD(g) die Häufigkeit des Vorkommens des Gens g in der
Gesamtmenge aller wissenschaftlichen Publikationen bzw. Texte der durchsuchten Datenmenge und
fD(p) die Häufigkeit des Vorkommens des Proteins p in der
Gesamtmenge aller wissenschaftlichen Publikationen bzw. Texte der durchsuchten Datenmenge darstellt.
Ontologische- / Thesaurus-Verknüpfungen basieren auf einer existierenden Ontologie, wobei Verknüpfungen eingefügt werden, um Objekte zu verknüpfen, welche aufgrund einer Ontologie miteinander verbunden sind.
Dies spiegelt eine 1 zu 1 Entsprechung zwischen einer Verknüpfung in der
Ontologie und einer Verknüpfung in dem Netzwerk wider. Die entsprechenden
Verknüpfungen sind starke Verknüpfungen, d.h. das entsprechende Gewicht beträgt 1 ,0, da regelmäßig kein Zweifel über die Verläßlichkeit der Information besteht. Andererseits müßte sich dies in dem Gewicht der Verknüpfung niederschlagen.
Bezugnehmend auf Figur 10 wird ein beispielhaftes System zum Implementieren der Erfindung beschrieben. Ein beispielhaftes System umfaßt eine universelle
Rechnereinrichtung in der Form einer herkömmlichen Rechnerumgebung 120 z.B. ein "personal Computer" (PC) 120, mit einer Prozessoreinheit 122, einem Systemspeicher 124 und einem Systembus 126, welcher eine Vielzahl von Systemkomponenten, unter anderem den Systemspeicher 124 und die Prozessoreinheit 122 verbindet. Die Prozessoreinheit 122 kann arithmetische, logische und/oder Kontrolloperationen durchführen, indem auf den Systemspeicher 124 zugegriffen wird. Der Systemspeicher 124 kann Informationen und/oder Instruktionen zur Verwendung in Kombination mit der Prozessoreinheit 122 speichern. Der Systemspeicher 124 kann flüchtige und nichtflüchtige Speicher, beispielsweise "random access memory" (RAM) 128 und "Nur-Lesespeicher" (ROM) 130 beinhalten. Ein Grund-Eingabe-Ausgabe-Sytem (BIOS), das die grundlegenden Routinen enthält, welche helfen, Informationen zwischen den Elementen innerhalb des PCs 120, beispielsweise während des Hochfahrens, zu transferieren, kann in dem ROM 130 gespeichert sein. Der Systembus 126 kann eine von vielen Busstrukturen sein, unter anderem ein Speicherbus oder ein Speichercontroller, ein peripherer Bus und ein lokaler Bus, welcher eine bestimmte Busarchitektur aus einer Vielzahl von Busarchitekturen verwendet.
Der PC 120 kann weiterhin ein Festplattenlaufwerk 132 zum Lesen oder Schreiben einer Festplatte (nicht gezeigt) aufweisen und ein externes Disklaufwerk 134 zum Lesen oder Schreiben einer entfernbaren Disk 136 bzw. eines entfernbaren Datenträgers. Die entfernbare Disk kann eine magnetische Disk bzw. eine magnetische Diskette für ein magnetisches Disklaufwerk bzw. Diskettenlaufwerk oder eine optische Diskette wie z.B. eine CD-ROM für ein optisches Disklaufwerk sein. Das Festplattenlaufwerk 132 und das externe Disklaufwerk 134 sind jeweils mit dem Systembus 126 über eine Festplattenlaufwerkschnittstelle 138 und eine externe Disklaufwerkschnittstelle 140 verbunden. Die Laufwerke und die zugeordneten computerlesbaren Medien stellen einen nichtflüchtigen Speicher computerlesbarer Instruktionen, Datenstrukturen, Programm-Modulen und anderer Daten für den PC 120 zur Verfügung. Die Datenstrukturen können die relevanten Daten zum Implementieren eines wie oben beschriebenen Verfahrens aufweisen. Obwohl die beispielhaft beschriebene Umgebung eine Festplatte (nicht gezeigt) und eine externe Disk 142 verwendet, ist für den Fachmann offensichtlich, daß andere Typen computerlesbarer Medien, welche computerzugreifbare Daten speichern können, in der beispielhaften Arbeitsumgebung verwendet werden können, wie z.B. magnetische Kassetten, Flash-Memory Karten, digitale Videodisketten, Random- Access-Speicher, Nur-Lesespeicher, usw..
Eine Vielzahl von Programm-Modulen, insbesondere ein Betriebssystem (nicht gezeigt) ein oder mehrere Applikationsprogramme 144, oder Programm-Module (nicht gezeigt) und Programmdaten 146, können auf der Festplatte, der externen Disk 142, dem ROM 130 oder dem RAM 128 gespeichert werden. Die Applikationsprogramme können zumindest einen Teil der Funktionalität, wie in Figur 10 gezeigt, umfassen.
Ein Benutzer kann Kommandos und Information, wie oben beschrieben, in den PC 120 anhand von Eingabevorrichtungen, wie z.B. einer Tastatur bzw. eines Keyboards 148 und einer Computermaus 150 eingeben. Andere Eingabevorrichtungen (nicht gezeigt) können ein Mikrofon und/andere Sensoren, einen Joystick, ein Spielpolster bzw. -kissen, einen Scanner oder ähnliches umfassen. Diese oder andere Eingabevorrichtungen können mit der Prozessoreinheit 122 anhand einer seriellen Schnittstelle 152 verbunden sein, welche mit dem System 126 gekoppelt ist, oder können anhand anderer Schnittstellen, wie z.B. einer parallelen Schnittstelle 154, eines Spieleports oder eines universellen seriellen Busses (USB) verbunden sein. Weiterhin kann Information mit einem Drucker 156 gedruckt werden. Der Drucker 156 und andere parallele Eingabe/Ausgabevorrichtungen können mit der Prozessoreinheit 122 durch die parallele Schnittstelle 154 verbunden sein. Ein Monitor 158 oder andere Arten von Anzeigevorrichtung(en) ist/sind mit dem Systembus 126 mittels einer Schnittstelle, wie z.B. eines VideoeingangΛausgangs 160 verbunden. Zusätzlich zu dem Monitor kann die Rechnerumgebung 120 andere periphere Ausgabevorrichtungen (nicht gezeigt) wie z.B. Lautsprecher oder akustische Ausgänge umfassen.
Die Rechnerumgebung 120 kann mit anderen elektronischen Vorrichtungen z.B. einem Computer, einem Schnurtelefon, einem schnurlosen Telefon, einem persönlichen digitalen Assistenten (PDA), einem Fernseher oder ähnlichem kommunizieren. Um zu kommunizieren, kann die Rechnerumgebung 120 in einer vernetzten Umgebung arbeiten, wobei Verbindungen zu einem oder mehreren elektronischen Vorrichtungen verwendet werden. Figur 10 stellt die mit einem "remote Computer" bzw. entfernten Computer 162 vernetzte Rechnerumgebung dar. Der entfernte Computer 162 kann eine andere Rechnerumgebung, wie z.B. ein Server, ein Router, ein Netzwerk-PC, eine gleichwertige bzw. "peer" Vorrichtung oder andere gewöhnliche Netzwerkknoten sein und kann viele oder alle der hinsichtlich der Rechnerumgebung 120 oben beschriebenen Elemente umfassen. Die logischen Verbindungen, wie sie in Figur 10 dargestellt sind, umfassen ein "local area network" (LAN) 164 und ein "wide are network" (WAN) 166. Solche Netzwerkumgebungen sind alltäglich in Büros, firmenweiten Computernetzwerken, Intranetzen und dem Internet.
Wenn eine Rechnerumgebung 120 in einer LAN-Netzwerkumgebung verwendet wird, kann die Rechnerumgebung 120 mit dem LAN 164 durch einen Netzwerkeingang/-ausgang 168 verbunden sein. Wenn die Rechnerumgebung 120 in einer WAN-Netzwerkumgebung verwendet wird, kann die Rechnerumgebung 120 ein Modem 170 oder andere Mittel zum Herstellen einer Kommunikation über das WAN 166 umfassen. Das Modem 170, welches intern und extern bezüglich der Rechnerumgebung 120 sein kann, ist mit dem Systembus 126 mittels der seriellen Schnittstelle 152 verbunden. In der Netzwerkumgebung können Programm-Module, welche relativ zu der Rechnerumgebung 120 dargestellt sind, oder Abschnitte davon in einer entfernten Speichereinrichtung gespeichert sein, welche an oder von einem entfernten Computer 162 zugreif bar bzw. systemeigen sind. Weiterhin können andere Daten, welche für das oben beschriebene Verfahren bzw. System relevant sind, auf oder von dem entfernten Computer 162 zugreifbar vorliegen.
Insbesondere kann das erfindungsgemäße Verfahren auch auf einem Grid oder Parallelrechner oder das Informationsnetzwerk im wesentlichen beliebig verteilt sein, weshalb das System beispielsweise auch einen Grid oder einen Parallelrechner umfassen kann. Bezugszeichenliste
10 System
12 Eingabeeinrichtung
14 Ausgabeeinrichtung
16 Datenverwaltungseinrichtung
18 Referenzdatenbank 20 Quelldatenbank
22 Referenzdatenbankelement
24 Referenzdatenbankelement
26 Referenzdatenbankelement
28 Referenzdatenbankelement 30 Referenzdatenbankelement
32 Quelldatenbankelement
34 Quelldatenbankelement
36 Queildatenbankelement
38 Quelldatenbankelement 40 Quelldatenbankelement
42 Verknüpfung
44 Verknüpfung
46 Quelldatenbankelement
48 Quelldatenbankelement 50 Quelldatenbankelement
52 Quelldatenbankelement
54 Quelldatenbankelement
56 Verknüpfung
58 Verknüpfung 60 Verknüpfung
62 Quelldatenbankelement
64 Verknüpfung 120 Rechnerumgebung
122 Prozessoreinheit
124 Systemspeicher 126 Systembus
128 random access memory (RAM)
130 Nur-Lesespeicher (ROM)
132 Festplattenlaufwerk
134 Disklaufwerk 136 entfern bare Disk
138 Festplattenlaufwerkschnittstelle
140 Disklaufwerkschnittstelle
142 externe Disk
144 Applikationsprogramm 146 Programmdaten
148 Tastatur
150 Computermaus
152 serielle Schnittstelle
154 parallele Schnittstelle 156 Drucker
158 Monitor
160 Videoeingang/ -ausgang
162 entfernter Computer
164 "local area network" (LAN) 166 "wide are network" (WAN)
168 Netzwerkeingang/ -ausgang

Claims

Ansprüche
1. Verfahren zum computergestützten Bearbeiten von Quelldatenelementen (32 - 40, 46 - 54) einer Quelldatenmenge (20) mit den Schritten:
Eingeben zumindest eines Nachfragedatenelements, insbesondere eines Suchstrings,
Ermitteln einer gewichteten Verknüpfung (42, 44, 60) des Nachfragedatenelements mit zumindest einem
Quelldatenelement (34, 38, 40) der Quelldatenmenge (20), insbesondere mit zumindest einem Trefferstring der Quelldatenmenge (20) und
Ausgeben des zumindest einen Quelldatenelements (34, 38, 40) entsprechend eines Gewichts (wi2, W13, W34) der gewichteten Verknüpfung (42, 44, 60), bevorzugt einer Trefferwahrscheinlichkeit des Nachfragedatenelements mit dem zumindest einen Quelldatenelement (34, 38, 40), wobei
das Gewicht (W12, W13, W34) der gewichteten Verknüpfung (42, 44, 60) aufgrund zumindest einer assoziativen Verknüpfung (42, 44, 60) ermittelt wird.
2. Verfahren nach Anspruch 1 , wobei eine Referenzdatenmenge (18) mit
Referenzdatenelementen (22 - 30) bereitgestellt wird und für jedes
Referenzdatenelement (22 - 30) eine gewichtete Verknüpfung (56, 58) mit zumindest einem Quelldatenelement (32 - 40) der Quelldatenmenge generiert wird.
3. Verfahren nach Anspruch 2, wobei während des Schritts des Ermitteins der gewichteten Verknüpfung(en) (42, 44, 60) des Nachfragedatenelements mit dem zumindest einen Quelldatenelement (34, 38, 40) zumindest ein
Referenzdatenelement (22 - 30) ermittelt wird, welches dem Nachfragedatenelement entspricht und
die Verknüpfung(en) (42, 44, 60) des zumindest einen Referenzdatenelements (22 - 30) mit dem zumindest einen
Quelldatenelement (34, 38, 40) dem Nachfragedatenelement zugeordnet wird/werden.
4. Verfahren nach Anspruch 3, wobei das Referenzdatenelement (22 - 30) mit dem Nachfragedatenelement identisch ist.
5. Verfahren nach einem der vorangegangenen Ansprüche, wobei jedem Quelldatenelement (32 - 40, 46 - 54) ein Zusatzdatenelement einer Zusatzdatenmenge zugeordnet ist.
6. Verfahren nach Anspruch 5, wobei bei der Ausgabe eines jeden Quelldatenelements (32 - 40, 46 - 54) das Zusatzdatenelement bereitgestellt wird.
7. Verfahren nach einem der vorangegangenen Ansprüche, wobei zumindest zwei Nachfragedatenelemente eingegeben werden, für jedes Nachfragedatenelement jeweils ein Quelldatenelement (34, 38, 40) ermittelt wird und die Quelldatenelemente (34, 38, 40) entsprechend der Gewichte (Wi2, W13, W34) ihrer gewichteten Verknüpfungen (42, 44, 60) mit den zugehörigen Nachfragedatenelementen ausgegeben werden.
8. Verfahren nach Anspruch 7, wobei für jedes Quelldatenelement (32 - 40, 46 - 54), welches Verknüpfungen mit mehreren Nachfragedatenelementen aufweist, jeweils eine Verknüpfung mit jedem Element aus der Menge der Permutationen der Nachfragedatenelemente, welche mit dem Quelldatenelement (32 - 40, 46 - 54) verknüpft sind, generiert wird.
9. Verfahren nach einem der vorangegangenen Ansprüche, wobei ein oder mehrere Quelldatenelement(e) (62) und/oder assoziative Verknüpfung(en)
(64) visuell dargestellt werden.
10. Verfahren nach einem der vorangegangenen Ansprüche, wobei zumindest ein Quelldatenelement (62) vorbestimmt wird und dem zumindest einen vorbestimmten Quelldatenelement (62) ein positives oder ein negatives
Potential zugeordnet wird.
11. Verfahren nach Anspruch 10, wobei das Vorbestimmen des zumindest einen Quelldatenelements (62) und das Zuordnen des positiven oder negativen Potentials von einem Benutzer manuell durchführbar ist.
12. Verfahren nach Anspruch 11 , wobei das Vorbestimmen des zumindest einen Quelldatenelements (62) und das Zuordnen des positiven oder negativen Potentials durch den Benutzer vor Eingabe des zumindest einen Nachfragedatenelements durchführbar ist.
13. Verfahren nach einem der vorangegangenen Ansprüche, wobei bei dem Ermitteln der gewichteten Verknüpfung(en) des Nachfragedatenelements mit zumindest einem Quelldatenelement (34, 38, 50) in einem Iterationsschritt
für jedes Nachfragedatenelement ein erstes Quelldatenelement (34, 38) ermittelt wird,
für jedes erste Quelldatenelement (34, 38) eine gewichtete Verknüpfung (56, 58) mit einem weiteren Quelldatenelement
(50) ermittelt wird,
jedes erste Quelldatenelement (34, 38) als Nachfragedatenelement definiert wird und jedes weitere Quelldatenelement (50) als erstes Quelldatenelement (50) definiert wird.
14. Verfahren nach Anspruch 13, wobei der Iterationsschritt wiederholt wird.
15. Verfahren nach einem der Ansprüche 10 bis 13, wobei jedes erste Quelldatenelement (34, 38, 50) entsprechend des Gewichts (w-ι2, W34, w2s, W45) seiner gewichteten Verknüpfung (24, 56, 58, 60) ausgegeben wird.
16. Verfahren nach einem der vorangegangenen Ansprüche, wobei die Quelldatenmenge (20) erweiterbar ist.
17. Verfahren nach Anspruch 16, wobei anhand von zusätzlichen Quelldatenelementen und/oder zusätzlichen Zusatzdatenelementen der
Referenzdatenmenge zusätzliche Referenzdatenelemente hinzugefügt werden und gewichtete Verknüpfungen zwischen den zusätzlichen Quelldatenelementen und den entsprechenden zusätzlichen Referenzdatenelementen generiert werden.
18. Verfahren nach Anspruch 17, wobei gewichtete Verknüpfungen zwischen den zusätzlichen Quelldatenelementen und den bereits vorhandenen Referenzdatenelementen (22 - 30) generiert werden und/oder gewichtete Verknüpfungen zwischen den zusätzlichen Referenzdatenelementen und den bereits vorhandenen Quelldatenelementen generiert werden.
19. Verfahren nach einem der vorangegangenen Ansprüche, wobei ein Gewicht Wjj der gewichteten Verknüpfung zwischen einem Referenzdatenelement R, und einem Quelldatenelement Q, anhand der Häufigkeit des Vorkommens des Referenzdatenelements R, und des Quelldatenelements Q, jeweils in einem Zusatzdatenelement folgendermaßen berechnet wird:
wv f M)ZQ (QJ ) wobei
/(RnQj) die Häufigkeit des gemeinsamen Vorkommens des Referenzdatenelements R,- und des Quelldatenelements Q7 in dem
Zusatzdatenelement,
fβ(Rι) die Häufigkeit des Vorkommens des Referenzdatenelements R,- in der Gesamtmenge aller Zusatzdatenelemente und
ZQ (QJ ) die Häufigkeit des Vorkommens des Quelldatenelements Q,- in der
Gesamtmenge aller Zusatzdatenelemente darstellt.
20. Verfahren nach einem der Ansprüche 1 bis 18, wobei das Gewicht wy der gewichteten Verknüpfung zwischen einem Referenzdatenelement R,- und einem Quelldatenelement Q/ folgendermaßen berechnet wird:
wobei
|{3c : Ä,.(3c) > ÖΛ ßy (3c) > ö| die Häufigkeit eines gleichzeitigen Auftretens des Referenzdatenelements R,-, beispielsweise eines Gens A, und des Quelldatenelements Q7, beispielsweise eines Gens B, in einem Experiment x , wobei die Häufigkeit des Referenzdatenelements R, und des
Quelldatenelements Q/ je größer als ein Schwellwert θ ist, beschreibt,
|{3c : Ä,.(3c) > ö| die Häufigkeit eines alleinigen Auftretens des
Referenzdatenelements R,-, beispielsweise eines Gens A, in dem Experiment x , wobei die Häufigkeit des Referenzdatenelements R,- größer als der
Schwellwert θ ist, beschreibt und |{jc : O.y (3c) > έ?| die Häufigkeit eines alleinigen Auftretens des
Quelldatenelements Qj, beispielsweise eines Gens B, in dem Experiment x , wobei die Häufigkeit des Quelldatenelements Q, größer als der Schwellwert θ ist, beschreibt.
21. Verfahren zum Bearbeiten von Quelldatenelementen (32 - 40, 46 - 54) einer Quelldatenmenge (20) mit den Schritten:
- Eingeben mehrerer Nachfragedatenelemente, insbesondere mehrerer voneinander getrennter Suchstrings,
Ermitteln einer gemeinsamen gewichteten Verknüpfung sämtlicher Nachfragedatenelemente mit zumindest einem Quelldatenelement (50) der Quelldatenmenge (20) , insbesondere mit zumindest einem Trefferstring der Quelldatenmenge (20) und
Ausgeben des zumindest einen Quelldatenelements (50) entsprechend eines Gewichts der gemeinsamen gewichteten
Verknüpfung mit den Nachfragedatenelementen, bevorzugt einer Trefferwahrscheinlichkeit der Nachfragedatenelemente mit dem zumindest einen Quelldatenelement (50), wobei
das Gewicht der gewichteten Verknüpfung aufgrund einer assoziativen
Verknüpfung ermittelt wird.
22. System (10) zum Bearbeiten von Quelldatenbankelementen (32 - 40, 46 - 54) einer Quelldatenbank (20) mit:
einer Eingabeeinrichtung (12), welche zum Eingeben zumindest eines Nachfragedatenelements, insbesondere eines Suchstrings, ausgelegt ist, einer Mikroprozessoreinrichtung, welche zum Ermitteln einer gewichteten Verknüpfung (42, 44, 60) des
Nachfragedatenelements mit zumindest einem Quelldatenbankelement (34, 38, 40), insbesondere mit zumindest einem Trefferstring der Quelldatenbank (20) ausgelegt ist und
einer Ausgabeeinrichtung (14), welche zum Ausgeben des zumindest einen Quelldatenbankelements (34, 38, 40) entsprechend eines Gewichts (w-ι2, Wi3l W34) der gewichteten Verknüpfung (42, 44, 60), bevorzugt einer Trefferwahrscheinlichkeit des Nachfragedatenelements mit dem zumindest einen Quelldatenbankelement (34, 38, 40) ausgelegt ist, wobei
die Mikroprozessoreinrichtung weiterhin ausgelegt ist, das Gewicht (w12, W13, W34) der gewichteten Verknüpfung (42, 44, 60) aufgrund zumindest einer assoziativen Verknüpfung (42, 44, 60) zu ermitteln.
23. System (10) nach Anspruch 22, wobei das System weiterhin eine Referenzdatenbank (18) mit Referenzdatenbankelementen (22 - 30) aufweist und
die Mikroprozessoreinrichtung ausgelegt ist, für jedes
Referenzdatenbankelement (22 - 30) eine gewichtete Verknüpfung (42, 44, 60) mit zumindest einem Quelldatenbankelement (34, 38, 40) der Quelldatenbank (20) zu generieren.
24. System (10) nach Anspruch 23, wobei die Mikroprozessoreinrichtung weiterhin ausgelegt ist:
während des Schritts des Ermitteins der Verknüpfung(en) (42, 44, 60) des Nachfragedatenelements mit dem zumindest einen Quelldatenbankelement (34, 38, 40) zumindest ein Referenzdatenbankelement (22, 28) zu ermitteln, welches dem Nachfragedatenelement entspricht und
- die Verknüpfung(en) (42, 44, 60) des zumindest einen
Referenzdatenbankelements (22, 28) mit dem zumindest einen Quelldatenbankelement (34, 38, 40) dem Nachfragedatenelement zuzuordnen.
25. System (10) nach einem der Ansprüche 22 bis 24, wobei das System (10) eine Zusatzdatenbank umfaßt und jedem Quelldatenbankelement ein Zusatzdatenbankelement zugeordnet ist.
26. System (10) nach Anspruch 25, wobei die Ausgabeeinrichtung (14) ausgelegt ist, bei der Ausgabe eines jeden Quelldatenbankelements (32 -
40, 46 - 54) das Zusatzdatenbankelement bereitzustellen.
27. System (10) nach Anspruch 25 oder 26, wobei die Quelldatenbank (20) anhand zusätzlicher Quelldatenbankelemente und/oder die Zusatzdatenbank anhand zusätzlicher Zusatzdatenbankelemente erweiterbar sind.
28. System (10) nach Anspruch 27, wobei die Mikroprozessoreinrichtung ausgelegt ist, anhand der zusätzlichen Quelldatenbankelemente und/oder der zusätzlichen Zusatzdatenbankelemente zusätzliche Referenzdatenbankelemente zu generieren und gewichtete Verknüpfungen zwischen den zusätzlichen Quelldatenbankelementen und den entsprechenden Referenzdatenbankelementen zu generieren.
29. System (10) nach einem der Ansprüche 22 bis 28, wobei die die Ausgabeeinrichtung (14) ausgelegt ist, daß ein oder mehrere
Quelldatenelement(e) (62) und/oder assoziative Verknüpfung(en) (64) visuell dargestellt werden.
30. System (10) nach einem der Ansprüche 22 bis 29, wobei die Eingabeeinrichtung (12) ausgelegt ist, zumindest ein Quelldatenelement (62) vorzubestimmen und dem zumindest einen Quelldatenelement (62) ein positives oder ein negatives Potential zuzuordnen.
31. System nach Anspruch 30, wobei die Eingabeeinrichtung ausgelegt ist, daß das Vorbestimmen des zumindest einen Quelldatenelements (62) und das Zuordnen des positiven oder negativen Potentials von einem Benutzer manuell durchführbar ist.
32. System nach Anspruch 31 , wobei die Eingabeeinrichtung ausgelegt ist, daß das Vorbestimmen des zumindest einen Quelldatenelements (62) und das Zuordnen des positiven oder negativen Potentials durch den Benutzer vor Eingabe des zumindest einen Nachfragedatenelements durchführbar ist.
33. Computerprogrammprodukt, welches, wenn es in den Speicher einer Datenverarbeitungseinrichtung, wie z.B. eines Computers geladen ist, die Datenverarbeitungseinrichtung veranlaßt, ein Verfahren gemäß einem der Ansprüche 1 bis 21 auszuführen.
EP07702737A 2006-01-13 2007-01-12 Verfahren zum computergestützten bearbeiten von quelldatenelementen, system und computerprogrammprodukt Withdrawn EP1977349A2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102006001840A DE102006001840B4 (de) 2006-01-13 2006-01-13 Verfahren zum computergestützten Bearbeiten von Quelldatenelementen, System und Computerprogrammprodukt
PCT/EP2007/000265 WO2007082695A2 (de) 2006-01-13 2007-01-12 Verfahren zum computergestützten bearbeiten von quelldatenelementen, system und computerprogrammprodukt

Publications (1)

Publication Number Publication Date
EP1977349A2 true EP1977349A2 (de) 2008-10-08

Family

ID=38048333

Family Applications (1)

Application Number Title Priority Date Filing Date
EP07702737A Withdrawn EP1977349A2 (de) 2006-01-13 2007-01-12 Verfahren zum computergestützten bearbeiten von quelldatenelementen, system und computerprogrammprodukt

Country Status (4)

Country Link
US (1) US20090157655A1 (de)
EP (1) EP1977349A2 (de)
DE (1) DE102006001840B4 (de)
WO (1) WO2007082695A2 (de)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2895184B2 (ja) * 1990-08-22 1999-05-24 株式会社日立製作所 文書処理システム及び文書処理方法
US5692176A (en) * 1993-11-22 1997-11-25 Reed Elsevier Inc. Associative text search and retrieval system
US6785671B1 (en) * 1999-12-08 2004-08-31 Amazon.Com, Inc. System and method for locating web-based product offerings
DE10261839A1 (de) * 2001-12-21 2003-07-10 Volkswagen Ag Verfahren und Einrichtung zur Durchführung einer elektronischen Recherche
US20060235842A1 (en) * 2005-04-14 2006-10-19 International Business Machines Corporation Web page ranking for page query across public and private

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2007082695A2 *

Also Published As

Publication number Publication date
DE102006001840B4 (de) 2007-10-11
WO2007082695A2 (de) 2007-07-26
WO2007082695A3 (de) 2007-11-08
DE102006001840A1 (de) 2007-07-26
US20090157655A1 (en) 2009-06-18

Similar Documents

Publication Publication Date Title
KR101176079B1 (ko) 문서 설명의 문구 기반 생성
DE60213409T2 (de) Erstellung von strukturierten daten aus unformatiertem text
Leydesdorff et al. Measuring the meaning of words in contexts: An automated analysis of controversies about'Monarch butterflies,''Frankenfoods,'and'stem cells'
KR101223173B1 (ko) 정보 검색 시스템에서의 문구 기반 인덱싱
KR101190230B1 (ko) 정보 검색 시스템에서의 문구 식별
EP1779271B1 (de) Sprach- und textanalysevorrichtung und entsprechendes verfahren
DE69834386T2 (de) Textverarbeitungsverfahren und rückholsystem und verfahren
EP1311989B1 (de) Verfahren zur automatischen recherche
JP5175005B2 (ja) 情報検索システムにおけるフレーズに基づく検索方法
DE602004003361T2 (de) System und verfahren zur erzeugung von verfeinerungskategorien für eine gruppe von suchergebnissen
Ghosh et al. A tutorial review on Text Mining Algorithms
DE112010000947T5 (de) Verfahren zur völlig modifizierbaren Framework-Datenverteilung im Data-Warehouse unter Berücksichtigung der vorläufigen etymologischen Separation der genannten Daten
WO2009030288A1 (de) Erfassung von zusammenhängen zwischen informationen repräsentierenden daten
DE112020001874T5 (de) Datenextraktionssystem
DE102006040208A1 (de) Patentbezogenes Suchverfahren und -system
DE102019107591A1 (de) Anzeigesystem, programm und speichermedium
Singh et al. A rough-fuzzy document grading system for customized text information retrieval
Raftopoulos et al. Mining user queries with Markov chains: Application to online image retrieval
Ke et al. Structure and pattern of social tags for keyword selection behaviors
Price et al. Using semantic components to search for domain-specific documents: An evaluation from the system perspective and the user perspective
EP2193457A1 (de) Erfassung von zusammenhängen zwischen informationen repräsentierenden daten
DE102006001840B4 (de) Verfahren zum computergestützten Bearbeiten von Quelldatenelementen, System und Computerprogrammprodukt
Bigdeli et al. Authors’ sources of information: a new dimension in information scattering
Urchs et al. Extracting definition and subsumption from german law
Vasili et al. A Comparative Review of Text Mining & Related Technologies.

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20080812

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC NL PL PT RO SE SI SK TR

DAX Request for extension of the european patent (deleted)
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN WITHDRAWN

18W Application withdrawn

Effective date: 20130108