New! View global litigation for patent families

DE102013205737A1 - Method for automatically extracting and organizing information from data sources in e.g. web pages, involves producing combined representation of the equivalence classes in which the order for displayable representation is displayed - Google Patents

Method for automatically extracting and organizing information from data sources in e.g. web pages, involves producing combined representation of the equivalence classes in which the order for displayable representation is displayed

Info

Publication number
DE102013205737A1
DE102013205737A1 DE201310205737 DE102013205737A DE102013205737A1 DE 102013205737 A1 DE102013205737 A1 DE 102013205737A1 DE 201310205737 DE201310205737 DE 201310205737 DE 102013205737 A DE102013205737 A DE 102013205737A DE 102013205737 A1 DE102013205737 A1 DE 102013205737A1
Authority
DE
Grant status
Application
Patent type
Prior art keywords
information
representation
equivalence
classes
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE201310205737
Other languages
German (de)
Inventor
Vittorio Castelli
Radu Florian
Xiaoqiang Luo
Hema Raghavan
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRICAL DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/20Handling natural language data
    • G06F17/28Processing or translating of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRICAL DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/20Handling natural language data
    • G06F17/21Text processing
    • G06F17/211Formatting, i.e. changing of presentation of document
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRICAL DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/20Handling natural language data
    • G06F17/27Automatic analysis, e.g. parsing
    • G06F17/2765Recognition
    • G06F17/2775Phrasal analysis, e.g. finite state techniques, chunking
    • G06F17/278Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRICAL DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/30Information retrieval; Database structures therefor ; File system structures therefor
    • G06F17/30286Information retrieval; Database structures therefor ; File system structures therefor in structured data stores
    • G06F17/30587Details of specialised database models
    • G06F17/30595Relational databases
    • G06F17/30598Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRICAL DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/30Information retrieval; Database structures therefor ; File system structures therefor
    • G06F17/3061Information retrieval; Database structures therefor ; File system structures therefor of unstructured textual data
    • G06F17/30716Browsing or visualization
    • G06F17/30719Summarization for human users

Abstract

The method involves applying an information extraction pipeline to the data sources for processing natural language. The information over recognized entities is identified by analysis of products of the pipeline for processing natural language. The identified information is grouped in equivalence classes containing equivalent information. The displayable representation of the equivalence classes is constructed (170), and combined representation of the equivalence classes in which the order for displayable representation is displayed is produced. Independent claims are included for the following: (1) method for processing information by processing unit; and (2) non-volatile computer program memory unit.

Description

  • ERKLÄRUNG ZUR BUNDESSTAATLICHEN FÖRDERUNG VON FORSCHUNG ODER ENTWICKLUNG STATEMENT ON FEDERAL FUNDING OF RESEARCH AND DEVELOPMENT
  • [0001] [0001]
    Diese Erfindung wurde mithilfe von Regierungsförderung unter der Vertrags-Nr.: HR0011-08-C-0110 gemacht (vergeben durch Defense Advanced Research Project Agency)(DARPA). This invention was made using government funding under the Contract No .: HR0011-08-C-0110 (awarded by Defense Advanced Research Project Agency) (DARPA). Die Regierung hält bestimmte Rechte an dieser Erfindung. The Government has certain rights in this invention.
  • HINTERGRUND BACKGROUND
  • Technisches Gebiet technical field
  • [0002] [0002]
    Die vorliegende Offenbarung betrifft Informationstechnologie und insbesondere Systeme zum Verarbeiten von natürlicher Sprache (NLP – Natural Language Processing). The present disclosure relates to information technology, and more particularly to systems for processing natural language (NLP - Natural Language Processing).
  • Erörterung des einschlägigen Stands der Technik Discussion of the Related Art
  • [0003] [0003]
    Presseagenturen, Blogger, Twitter, wissenschaftliche Zeitschriften und Tagungen, alle erzeugen extrem große Mengen von unstrukturierten Daten in textlicher, Audio- und Video-Form. Press agencies, bloggers, Twitter, scientific journals and conferences, all produce extremely large amounts of unstructured data in text, audio and video form. Große Mengen von derartigen unstrukturierten Daten und Informationen können aus mehreren Modalitäten in mehreren Sprachen gesammelt werden, z. Large amounts of such unstructured data and information can be collected from multiple modalities in multiple languages, for. B. Text-, Audio- und Videoquellen im Internet. As text, audio and video sources on the Internet. Es besteht ein Bedarf für das Analysieren der Informationen und das Erzeugen einer kompakten Darstellung von: 1) Informationen, wie beispielsweise Aktionen von bestimmten Entitäten (z. B. Personen, Organisationen, Ländern); There is a need for analyzing the information and producing a compact representation of: 1). Information, such as actions of certain entities (eg, people, organizations, countries); 2) Aktivitäten (z. B. der präsidiale Wahlkampf); 2) activities (eg the presidential election campaign.); und 3) Ereignissen (z. B. der Tod einer berühmten Person). and 3) events (eg. as the death of a famous person). Derzeit können derartige Darstellungen manuell erzeugt werden, doch diese Lösung ist nicht wirtschaftlich, und sie erfordert geschulte Mitarbeiter, vor allem wenn die Informationen aus mehreren Sprachen gesammelt werden. Currently, such representations can be generated manually, but this solution is not economical, and it requires trained personnel, especially when the information is collected from several languages. Derartige manuell erzeugte Darstellungen sind im Allgemeinen auch nicht skalierbar. Such representations manually generated are generally not scalable.
  • KURZDARSTELLUNG SUMMARY
  • [0004] [0004]
    Beispielhafte Ausführungsformen der vorliegenden Offenbarung stellen Verfahren zum automatischen Extrahieren und Organisieren von Daten bereit, so dass ein Benutzer Informationen über Entitäten, Aktivitäten und Ereignisse interaktiv untersuchen kann. Exemplary embodiments of the present disclosure provide methods for automatically extracting and organizing data prepared so that a user can examine information about entities, activities and events interactive.
  • [0005] [0005]
    Gemäß beispielhaften Ausführungsformen können Informationen in Echtzeit aus mehreren Modalitäten und mehreren Sprachen automatisch extrahiert und in einer navigierbaren und kompakten Darstellung der abgerufenen Informationen angezeigt werden. According to exemplary embodiments, information can be automatically extracted in real-time from multiple modalities and several languages ​​and displayed in a navigable and compact representation of the retrieved information.
  • [0006] [0006]
    Beispielhafte Ausführungsformen können Techniken zum Verarbeiten von natürlicher Sprache verwenden, um Informationen aus mehreren Quellen, in mehreren Modalitäten und in mehreren Sprachen automatisch zu analysieren, einschließlich Webseiten, Blogs, Foren, Radio-Feeds, Video und Fernsehen, sind aber nicht darauf beschränkt. Exemplary embodiments may use techniques for processing natural language to analyze information from multiple sources, in multiple modalities and in several languages ​​automatically, including websites, blogs, forums, radio feeds, video and television, but are not limited to.
  • [0007] [0007]
    Beispielhafte Ausführungsformen können die Ausgabe von automatischen Maschinenübersetzungssystemen verwenden, die Fremdsprachenquellen in die Sprache des Benutzers übersetzen, und die Ausgabe von automatischen Sprachtranskriptionssystemen verwenden, die Video- und Audio-Feeds in Text umwandeln. Exemplary embodiments may use, translate the foreign language sources in the user's language, the issue of automatic machine translation systems, and use the output from automatic speech transcription systems that convert video and audio feeds to text.
  • [0008] [0008]
    Beispielhafte Ausführungsformen können Techniken zum Verarbeiten von natürlicher Sprache verwenden, einschließlich Werkzeugen zum Extrahieren von Informationen, Werkzeugen zum Beantworten von Fragen und Destillier-Werkzeuge, um den Text, der wie oben beschrieben erzeugt wurde, automatisch zu analysieren und durchsuchbare und zusammenfassbare Informationen zu extrahieren. Exemplary embodiments may use techniques for processing natural language, including tools for extracting information, tools to answer questions and distilling tools to automatically analyze the text that has been generated as described above and extract searchable and summarizable information. Das System kann eine Namen-Entitäts-Erkennung, eine dokumentübergreifende Koreferenzauflösung, eine Beziehungserkennung und eine Ereigniserkennung und -verfolgung ausführen. The system can perform a name-entity detection, cross-document Koreferenzauflösung a relationship detection and event detection and tracking.
  • [0009] [0009]
    Beispielhafte Ausführungsformen können Techniken zur automatischen Relevanzerkennung und Verfahren zur Redundanzreduzierung verwenden, um den Benutzer mit relevanten und nicht-redundanten Informationen zu versorgen. Exemplary embodiments may use techniques for automatic detection and relevance methods for reducing redundancy in order to provide the user with relevant and non-redundant information.
  • [0010] [0010]
    Beispielhafte Ausführungsformen können die gewünschten Informationen in einer kompakten und navigierbaren Darstellung anzeigen durch: Bereitstellen von Mitteln für den Benutzer, um Entitäten, Aktivitäten oder Ereignisse von Interesse anzugeben (zum Beispiel: durch Eintippen von Anfragen in natürlicher Sprache, durch Auswählen von Entitäten aus einer automatisch generierten Liste von Entitäten, die benutzerdefinierte Anforderungen erfüllen, wie beispielsweise Entitäten, die in Datenquellen während einer benutzerdefinierten Zeit hervorstechend dargestellt werden, durch Auswählen von Textabschnitten beim Durchsuchen eines Artikels oder durch Auswählen von Ereignissen oder Themen aus Darstellungen von automatisch erkannten Ereignissen/Themen über einen bestimmten Zeitraum. Exemplary embodiments may the information in a compact and navigable representation Show by: providing means for the user to specify (for example, entities, activities or events of interest: by typing queries in natural language by selecting entities from an automatically generated list of entities that meet user requirements, such as entities that are displayed prominently in data sources during a custom time, by selecting sections of text while browsing an article or by selecting events or issues from representations of auto-detected events / issues over a certain period of time.
  • [0011] [0011]
    Beispielhafte Ausführungsformen können in Reaktion auf die Benutzeranfrage automatisch eine Seite generieren, indem sie anpassungsfähig eine Vorlage erstellen, die der vermuteten Absicht des Benutzers am besten entspricht (zum Beispiel: Wenn der Benutzer eine Person auswählt, die ein Politiker ist, würde das System diese Tatsache erkennen, nach Informationen über Wahlkampf, öffentliche Auftritte, Erklärungen und Chronik des Dienstes für die Öffentlichkeit der Person suchen; wenn der Benutzer ein Unternehmen auswählt, würde das System nach aktuellen Nachrichten über das Unternehmen, nach Informationen über die Spitzenvertreter des Unternehmens, nach Pressemitteilungen usw. suchen). Exemplary embodiments can automatically generate a page in response to user request by adaptable create a template that best suits the user's presumed intention (for example, if the user selects a person who is a politician, the system this fact would recognize, looking for information on the election campaign, public appearances, statements and Chronicle of service to the public of the person; when the user selects a company, the system would look for news about the company, for information about the top representatives of the company, according to press releases, etc. . search).
  • [0012] [0012]
    Wenn der Benutzer gemäß beispielhaften Ausführungsformen ein Ereignis auswählt, kann das System nach Nachrichtenmeldungen über das Ereignis, nach Reaktionen auf das Ereignis, nach Resultaten des Ereignisses oder nach zugehörigen Ereignissen suchen. If the user in accordance with exemplary embodiments of selecting an event, the system can search for news stories about the event, according to reactions to the event, according to results of the event or for related events. Das System kann auch automatisch die an dem Ereignis beteiligten Entitäten erkennen, wie beispielsweise Menschen, Länder, Kommunalverwaltungen, Unternehmen und Organisationen, und relevante Informationen über diese Entitäten abrufen. The system can also automatically detect the entities involved in the event, such as people, countries, local governments, businesses and organizations, and retrieve relevant information about these entities.
  • [0013] [0013]
    Beispielhafte Ausführungsformen können dem Benutzer gestatten, Entitäten zu verfolgen, die auf der erzeugten Seite vorkommen, einschließlich dem automatischen Erzeugen einer Biografie einer Person aus den verfügbaren Daten und dem Auflisten von kürzlichen Aktionen durch eine Organisation, die aus den verfügbaren Daten automatisch extrahiert wurde. Exemplary embodiments may allow the user to track entities that appear on the generated page, including the automatic generation of a biography of a person from the available data and the listing of recent actions by an organization that has been automatically extracted from the available data.
  • [0014] [0014]
    Beispielhafte Ausführungsformen können dem Benutzer gestatten, Ereignisse oder Aktivitäten zu untersuchen, die auf der Seite vorkommen, einschließlich: Exemplary embodiments may allow the user to investigate events or activities that occur on the page, including:
    automatisches Erstellen einer Zeitleiste der hervorstechenden Augenblicke in einem andauernden Ereignis. automatic creation of a timeline of the salient moments in an ongoing event.
  • [0015] [0015]
    Beispielhafte Ausführungsformen können dem Benutzer gestatten, die Verbindungen zwischen Entitäten und Ereignissen zu untersuchen (zum Beispiel: Bereitstellen von Informationen über die Rolle eine Unternehmens in einem Ereignis, Auflisten von Zitaten von einer Person zu einem Thema, Beschreiben der Beziehung zwischen zwei Unternehmen, Zusammenfassen von Treffen oder Kontakten zwischen zwei Leuten und optional Abrufen von Bildern der gewünschten Entitäten. Exemplary embodiments may allow the user to examine the links between entities and events (for example, providing information on the role of a company in an event, list of quotations from a person on a topic, describing the relationship between two companies, combining meetings or contacts between two people and optionally retrieving images of the desired entities.
  • [0016] [0016]
    Gemäß einer beispielhaften Ausführungsform wird ein Verfahren zum automatischen Extrahieren und Organisieren von Informationen aus einer Vielzahl von Datenquellen durch eine Verarbeitungseinheit bereitgestellt. According to an exemplary embodiment of a method for automatically extracting and organizing information from a plurality of data sources is provided by a processing unit. Eine Informationenextraktions-Pipeline zum Verarbeiten von natürlicher Sprache, die eine automatische Erkennung von Entitäten aufweist, wird auf die Datenquellen angewendet. An information extraction pipeline for processing natural language, which has an automatic detection of entities is applied to the data sources. Informationen über erkannte Entitäten werden identifiziert, indem Ergebnisse der Pipeline zum Verarbeiten von natürlicher Sprache analysiert werden. Information about identified entities are identified by results of the pipeline for processing natural language are analyzed. Identifizierte Informationen werden in Äquivalenzklassen gruppiert, die äquivalente Informationen enthalten. Identified information is grouped into equivalence classes containing equivalent information. Mindestens eine anzeigbare Darstellung der Äquivalenzklassen wird erstellt. At least one viewable representation of equivalence classes is created. Eine Reihenfolge, in der die mindestens eine anzeigbare Darstellung angezeigt wird, wird berechnet. A sequence in which at least a displayable representation is displayed is calculated. Eine kombinierte Darstellung der Äquivalenzklassen, die die Reihenfolge einhält, in der die anzeigbare Darstellung angezeigt wird, wird erzeugt. A combined representation of the equivalence classes, which upholds the order in which the displayable representation is displayed is generated.
  • [0017] [0017]
    Alle Äquivalenzklassen können eine Sammlung von Elementen enthalten. All equivalence classes can contain a collection of items. Jedes Element kann einen Textbereich, der aus einem Dokument extrahiert wurde, zusammen mit einer Spezifikation von Informationen über eine gewünschte Entität enthalten, die aus dem Textbereich abgeleitet wurde. Each element may include a text area that was extracted from a document, together with a specification of information about a desired entity that has been derived from the text area.
  • [0018] [0018]
    Das Berechnen einer Reihenfolge, in der die anzeigbaren Darstellungen angezeigt werden, kann ein zufälliges Berechnen der Reihenfolge enthalten. Calculating an order in which the displayable images are displayed, may contain a random calculating the order.
  • [0019] [0019]
    Das Gruppieren der identifizierten Informationen in Äquivalenzklassen kann das Zuweisen jeder identifizierten Information zu einer separaten Äquivalenzklasse enthalten. Grouping the information identified in equivalence classes may include assigning each identified information to a separate equivalence class.
  • [0020] [0020]
    Das Gruppieren von identifizierten Informationen in Äquivalenzklassen kann das Berechnen einer repräsentativen Instanz jeder Äquivalenzklasse enthalten, wodurch sichergestellt wird, dass repräsentative Instanzen von verschiedenen Klassen in Beziehung zueinander nicht redundant sind, und sichergestellt wird, dass Instanzen jeder Äquivalenzklasse in Beziehung auf die repräsentative Instanz der Äquivalenzklasse redundant sind. Grouping of information identified in equivalence classes may include calculating a representative instance of each equivalence class, thereby ensuring that representative instances of different classes are not mutually redundant relationship, and to ensure that instances of each equivalence class in relation to the representative instance of the equivalence class are redundant.
  • [0021] [0021]
    Gemäß einer beispielhaften Ausführungsform wird ein Verfahren zum Verarbeiten von Informationen durch eine Verarbeitungseinheit bereitgestellt. According to an exemplary embodiment, a method for processing information is provided by a processing unit. Eine Benutzeranfrage wird empfangen. A user request is received. Eine Benutzeranfrageabsicht wird aus der Benutzeranfrage vermutet, um eine vermutete Benutzerabsicht zu entwickeln. A user query intent is suspected from the user's request to develop a suspected user intent. In Reaktion auf die Benutzeranfrage wird automatisch eine Seite generiert, indem anpassungsfähig eine Vorlage, die der vermuteten Benutzerabsicht entspricht, unter Verwendung der natürlicher Verarbeitung von mehreren Modalitäten erstellt wird, einschließlich mindestens einer von Text, Audio und Video. In response to the user request page automatically generated by a template that corresponds to the suspected user's intention is adaptable created using the natural processing of multiple modalities, including at least one of text, audio and video.
  • [0022] [0022]
    Wenn die Benutzeranfrage eine Person auswählt, die einen politischen Status hat, kann nach dem politischen Status gesucht werden, es kann nach Informationen über mindestens eines von Wahlkampf, öffentlichen Auftritten, Erklärungen und Chronik des Dienstes für die Öffentlichkeit gesucht werden, und in Reaktion auf die Benutzeranfrage kann automatisch eine Seite generiert werden. When the user query selects a person who has a political status, can according to the political status be searched, it can for information on at least one of the election campaign, public appearances, statements and Chronicle of service to the public are sought, and in response to user request can be automatically generates a page.
  • [0023] [0023]
    Wenn die Benutzeranfrage Unternehmensinformationen in mindestens einer von kürzlichen Nachrichten über das Unternehmen auswählt, können Informationen über die Spitzenvertreter des Unternehmens und Pressemitteilungen für das Unternehmen gesucht werden, und in Reaktion auf die Benutzeranfrage kann automatisch eine Seite generiert werden. When the user selects request company information in at least one of the recent news about the company, information about the top representatives of the company and press releases for the company may be looking for, and in response to the user request can be automatically generates a page.
  • [0024] [0024]
    Wenn die Benutzeranfrage Ereignisinformationen über mindestens eine von Nachrichtenmeldungen auswählt, können Punkte über das Ereignis ausgewählt und Reaktionen auf das Ereignis durchsucht werden, und in Reaktion auf die Benutzeranfrage kann automatisch eine Seite generiert werden. When the user selects request event information on at least one of news reports, points can be selected on the event and reactions to the event to be searched, and in response to the user request can be automatically generates a page.
  • [0025] [0025]
    Entitäten in dem Ereignis und abgerufene relevante Informationen über die Entitäten können identifiziert und durchsucht werden. Entities in the event and retrieved relevant information about the entities can be identified and searched.
  • [0026] [0026]
    Gemäß einer beispielhaften Ausführungsform wird ein Verfahren zum automatischen Extrahieren und Organisieren von Informationen durch eine Verarbeitungseinheit aus einer Sammlung von Dokumenten bereitgestellt, die mehrere Modalitäten von Informationen in mehreren Sprachen zum Anzeigen für einen Benutzer haben. According to an exemplary embodiment of a method for automatically extracting and organizing information provided by a processing unit of a collection of documents that have multiple modalities of information in multiple languages ​​for display to a user. Die Sammlung von Dokumenten wird durchsucht, um Dokumente, die Audio-/Video-Dateien enthalten, zu identifizieren und schrittweise abzurufen. The collection of documents is searched to identify documents that contain audio / video files, and gradually retrieve. Text aus den Audio-/Video-Dateien wird transkribiert, um eine textliche Darstellung bereitzustellen. Text from the audio / video files is transcribed to provide a textual representation. Text einer Fremdsprache in der textlichen Darstellung wird übersetzt. Text of a foreign language in the text representation is translated. Gewünschte Informationen über mindestens eines von Entitäten, Aktivitäten und Ereignissen werden schrittweise extrahiert. Desired information about at least one of the entities, activities and events are extracted gradually. Extrahierte Informationen werden organisiert. Extracted information can be organized. Organisierte extrahierte Informationen werden in eine navigierbare Anzeige umgewandelt, die für den Benutzer darstellbar ist. Organized extracted information is converted into a navigable display that is displayed to the user.
  • [0027] [0027]
    Das schrittweise Extrahieren von gewünschten Informationen kann das Anwenden einer Pipeline zum Verarbeiten von natürlicher Sprache auf jedes Dokument enthalten, um alle Entitäten zu wiederholen, die in der Sammlung erkannt wurden, und das Identifizieren von Beziehungserwähnungen und Ereigniserwähnungen, an denen eine ausgewählte Entität beteiligt ist, wobei eine Entität mindestens eines von einem physischen belebten Objekt, einem physischen unbelebten Objekt, etwas, das einen Eigennamen hat, etwas, das eine messbare physische Eigenschaft hat, einer juristischen Einheit und abstrakten Konzepten ist, eine Erwähnung ein Textbereich ist, der sich auf eine Entität bezieht, eine Beziehung eine Verbindung zwischen zwei Entitäten ist, eine Beziehungserwähnung ein Textbereich ist, der eine Beziehung beschreibt, und ein Ereignis ein Satz von Beziehungen zwischen zwei oder mehreren Entitäten ist, an denen eine oder mehrere Aktionen beteiligt sind. The stepwise extracting desired information may include applying a pipeline for processing natural language of each document, to repeat all entities that have been detected in the collection, and identifying relationship references and event notices in which a selected entity is involved, wherein an entity of at least one of a physical animated object, a physical inanimate object, something that has a measurable physical property, is something that has a proper name of a legal entity and abstract concepts, a mention is a text area, which refers to a entity refers, a relationship is a link between two entities, a relationship mentioned is a text area, which describes a relationship, and an event is a set of relationships between two or more entities is where one or more actions are involved.
  • [0028] [0028]
    Das Organisieren von extrahierten Informationen kann das Wiederholen auf all den Entitäten, die in der Sammlung identifiziert wurden, des Aufteilens der über die Entität extrahierten Informationen in ausgewählte Äquivalenzklassen, die äquivalente Informationen enthalten, das Wiederholen des Auswählens eines Elements in jeder Äquivalenzklasse auf all den Äquivalenz-Klassen, um alle Elemente in der Äquivalenzklasse darzustellen, und des Aufzeichnens von Informationen über die Äquivalenzklasse und über ein typisches Beispiel enthalten, das für die Verwendung beim Erzeugen der navigierbaren Anzeige ausgewählt wird, wobei jede Äquivalenzklasse eine Sammlung von Elementen enthalten kann, wobei jedes Element einen Textbereich, der aus einem Dokument extrahiert wurde, zusammen mit einer Spezifikation der Informationen über die gewünschte Entität hat, die aus dem Textbereich abgeleitet wurde. Organizing extracted information can repeating to all the entities that were identified in the collection of dividing the extracted about the entity information into selected equivalence classes containing equivalent information, repeating the selecting an item in each equivalence class all the equivalence classes to represent all elements in the equivalence class, and include the recording of information on the equivalence class, and a typical example of which is selected for use in generating the navigable display, wherein each equivalence class can contain a collection of elements, each element, has a text area that has been extracted from a document along with a specification of the information about the desired entity that has been derived from the text area.
  • [0029] [0029]
    Das Umwandeln von organisierten extrahierten Informationen in eine navigierbare Anzeige, die für den Benutzer darstellbar ist, kann das Bewerten der Äquivalenzklassen von Informationen enthalten, indem der Äquivalenzklasse mindestens eines von einer höchsten Punktzahl für die Informationsteile in der Klasse, der durchschnittlichen Punktzahl ihrer Mitglieder, der mittleren Punktzahl ihrer Mitglieder und der Summe der Punktzahlen ihrer Mitglieder zugewiesen wird, wobei die Äquivalenzklassen in absteigender Reihenfolge der Punktzahl sortiert werden, um einer Reihenfolge eine Rangordnung zuzuweisen, in der die Äquivalenzklassen für den Benutzer angezeigt werden, wobei für jede Äquivalenzklasse das Erstellen einer anzeigbaren Darstellung einer ausgewählten Instanz und das Kombinieren der anzeigbaren Darstellungen wiederholt wird, um eine anzeigbare Darstellung der Äquivalenzklassen zu erzeugen. Converting organized extracted information in a navigable display that is displayed to the user may include evaluating the equivalence classes of information by the equivalence class at least one of a highest score of the pieces of information in the class, the average score of its members, the its members will be assigned mean scores of its members and the sum of the scores, the equivalence classes are sorted in descending order of score to assign a ranking order, an order in which the equivalence classes are displayed for the user, creating a displayable for each equivalence class representation of a selected instance and combining the displayable images is repeated to generate a displayable representation of the equivalence classes.
  • [0030] [0030]
    Die anzeigbare Darstellung kann einen Absatz enthalten, der extrahierte Informationen enthält, die mit visuellen Hervorhebungen gekennzeichnet sind. The displayable representation may contain a paragraph containing extracted information, which is marked with visual emphasis.
  • [0031] [0031]
    Gemäß einer beispielhaften Ausführungsform wird eine nicht-flüchtige Computerprogrammspeichereinheit bereitgestellt, die Anweisungen enthält, die von einem Prozessor zum interaktiven Anzeigen von Informationen über Entitäten, Aktivitäten und Ereignissen aus multimodalen Quellen von natürlicher Sprache ausführbar sind. According to an exemplary embodiment, a non-volatile computer program storage device is provided that includes instructions executable by a processor for interactive display information about entities, activities and events from multimodal sources of natural language. Ein Informationenextraktionsmodul enthält Anweisungscode zum Herunterladen von Dokumentinhalt aus Text und Audio-/Videodaten, zum Parsen des Dokumentinhalts, zum Erkennen von Erwähnungen, zum Koreferenzieren, zum dokumentübergreifenden Koreferenzieren und zum Extrahieren von Beziehungen. An information extraction module includes instruction code to download document content of text and audio / video data to parse the document content, for recognizing mentions, for Koreferenzieren, to document cross-Koreferenzieren and extracting relationships. Ein Informationensammelmodul enthält Anweisungscode zum Extrahieren von Bekanntschaften, Biografie und Beteiligung an Ereignissen aus dem Informationenextraktionsmodul. An information collection module includes instruction code to extract acquaintances, Biography and participation in events from the information extraction module. Ein Informationenanzeigemodul enthält Anweisungscode zum Anzeigen von Informationen aus dem Informationensammelmodul. An information display module includes instruction code for displaying information from the information collection module.
  • [0032] [0032]
    Das Informationenextraktionsmodul kann des Weiteren Anweisungscode zum Transkribieren von Audiodaten aus Videoquellen und zum Übersetzen von nicht-englischen transkribierten Audiodaten in englischen Text enthalten. The information extraction module may further include instruction code to transcribe audio from video sources and to translate non-English transcribed audio data in English text.
  • [0033] [0033]
    Das Informationenextraktionsmodul kann Anweisungscode zur Clusterbildung von Erwähnungen unter derselben Entität und zum dokumentübergreifenden Verlinken der Entitäts-Cluster enthalten. The information extraction module may contain instruction code to the clustering of notices under the same entity and document cross-linking of the entity cluster.
  • [0034] [0034]
    Das Informationensammelmodul kann Anweisungscode zum Eingeben eines Satzes und einer Entität und zum Extrahieren bestimmter Informationen über die Entität aus dem Satz enthalten. The information collection module may contain instruction code for inputting a sentence and an entity and for extracting certain information about the entity from the kit.
  • [0035] [0035]
    Das Informationenanzeigemodul kann Anweisungscode zum Gruppieren von Ergebnissen in nicht-redundante Sätze, zum Sortieren der Sätze, zum Erzeugen einer kurzen Beschreibung jedes Satzes, zum Auswählen eines repräsentativen Snippets für jeden Satz, zum Hervorheben der Abschnitte des Snippets, die Informationen enthalten, die zu einer bestimmten Registerkarte gehören, zum Erstellen von Navigations-Hyperlinks zu anderen Seiten und zum Generieren von Daten enthalten, die zur grafischen Darstellung von Registerkarteninhalt verwendet werden. The information display module instruction code for grouping results in non-redundant sets of sorting the sentences, for generating a brief description of each set, to select a representative snippets for each set, for highlighting the portions of the snippet containing the information to a particular tab are included to create navigation links to other pages and to generate data that are used to graph tab content.
  • [0036] [0036]
    Gemäß einer beispielhaften Ausführungsform wird eine nicht-flüchtige Computerprogrammspeichereinheit bereitgestellt, die Anweisungen enthält, die von einem Prozessor zum automatischen Extrahieren und Organisieren von Informationen aus einer Vielzahl von Datenquellen ausführbar sind. According to an exemplary embodiment, a non-volatile computer program storage device is provided that includes instructions that are executable by a processor for automatically extracting and organizing information from a plurality of data sources. Anweisungscode wird bereitgestellt, um auf die Datenquellen eine Informationenextraktions-Pipeline zum Verarbeiten von natürlicher Sprache anzuwenden, die eine automatische Erkennung von Entitäten enthält. Instruction code is provided to apply an information extraction pipeline for processing natural language to the data sources that includes an automatic detection of entities. Anweisungscode wird bereitgestellt zum Identifizieren von Informationen über erkannte Entitäten durch Analysieren von Produkten der Pipeline zum Verarbeiten von natürlicher Sprache. Instruction code is provided for identifying information about entities recognized by analyzing products of the pipeline for processing natural language. Anweisungscode wird bereitgestellt zum Gruppieren von identifizierten Informationen in Äquivalenzklassen, die äquivalente Informationen enthalten. Instruction code is provided for grouping of information identified in equivalence classes containing equivalent information. Anweisungscode wird bereitgestellt zum Erstellen von mindestens einer anzeigbaren Darstellung der Äquivalenzklassen. Instruction code is provided for creating at least a displayable representation of the equivalence classes. Anweisungscode wird bereitgestellt zum Berechnen einer Reihenfolge, in der die mindestens eine anzeigbare Darstellung angezeigt wird. Instruction code is provided for calculating an order in which the at least one displayable representation is displayed. Anweisungscode wird bereitgestellt zum Erzeugen einer kombinierten Darstellung der Äquivalenzklassen, die die Reihenfolge einhält, in der die anzeigbare Darstellung angezeigt wird. Instruction code is provided for creating a combined representation of the equivalence classes, which upholds the order in which the displayable representation is displayed.
  • KURZE BESCHREIBUNG DER VERSCHIEDENEN ANSICHTEN DER ZEICHNUNGEN BRIEF DESCRIPTION OF THE SEVERAL VIEWS OF THE DRAWINGS
  • [0037] [0037]
    Beispielhafte Ausführungsformen werden besser anhand der folgenden ausführlichen Beschreibung in Verbindung mit den begleitenden Zeichnungen verstanden, wobei: Exemplary embodiments will be better understood from the following detailed description taken in conjunction with the accompanying drawings, wherein:
  • [0038] [0038]
    1 1 eine Abfolge von Vorgangsschritten gemäß einer beispielhaften Ausführungsform veranschaulicht; a sequence of process steps according to an exemplary embodiment illustrated;
  • [0039] [0039]
    2 2 eine Abfolge von Vorgangsschritten gemäß einem Abschnitt der Vorgangsschritte von a sequence of process steps in accordance with a portion of the process steps of 1 1 veranschaulicht; illustrated;
  • [0040] [0040]
    3 3 eine Abfolge von Vorgangsschritten gemäß einem Abschnitt der Vorgangsschritte von a sequence of process steps in accordance with a portion of the process steps of 2 2 veranschaulicht; illustrated;
  • [0041] [0041]
    4 4 eine Abfolge von Vorgangsschritten gemäß einem Abschnitt der Vorgangsschritte von a sequence of process steps in accordance with a portion of the process steps of 1 1 veranschaulicht; illustrated;
  • [0042] [0042]
    5 5 eine Abfolge von Vorgangsschritten gemäß einem Abschnitt der Vorgangsschritte von a sequence of process steps in accordance with a portion of the process steps of 1 1 veranschaulicht; illustrated;
  • [0043] [0043]
    6 6 eine beispielhafte Entitätsseite gemäß einer beispielhaften Ausführungsform veranschaulicht; an exemplary Entitätsseite according to an exemplary embodiment illustrated;
  • [0044] [0044]
    7(a) 7 (a) und and 7(b) 7 (b) beispielhafte Entitätsseiten für eine Nachrichtenrundfunk-Anwendung veranschaulichen; illustrate exemplary Entitätsseiten for a news broadcast application; und and
  • [0045] [0045]
    8 8th eine Programmspeichereinheit und einen Prozessor zum Ausführen einer Abfolge von Vorgangsschritten gemäß einer beispielhaften Ausführungsform veranschaulicht. a program memory unit and a processor for executing a sequence of process steps according to an exemplary embodiment illustrated.
  • AUSFÜHRLICHE BESCHREIBUNG DETAILED DESCRIPTION
  • [0046] [0046]
    Im Folgenden wird ausführlicher Bezug genommen auf die beispielhaften Ausführungsformen, von denen Beispiele in den begleitenden Zeichnungen veranschaulicht werden, wobei gleiche Bezugszeichen durchgehend auf die gleichen Elemente verweisen. Below in more detail by reference to exemplary embodiments, examples of which in the accompanying drawings are illustrated, wherein like reference numerals refer throughout to like elements.
  • [0047] [0047]
    In den beispielhaften Ausführungsformen kann sich der Begriff „Dokument” auf ein textliches Dokument ungeachtet seines Formats beziehen, auf Mediendateien einschließlich im Datenstrom übertragene Audio- und Videodaten und auf Hybridformen des Vorgenannten, wie beispielsweise Webseiten mit eingebetteten Video- und Audio-Streams. In exemplary embodiments, the term "document" including transmitted to media files in the data stream audio and video data can relate, regardless of its format to a textual document, and hybrid forms of the foregoing, such as Web pages with embedded video and audio streams.
  • [0048] [0048]
    In den beispielhaften Ausführungsformen bezieht sich der Begriff „Sammlung” auf eine formelle oder informelle Sammlung von Multimedia-Dokumenten, wie beispielsweise alle Dokumente, die in einer wissenschaftlichen Zeitschrift veröffentlicht werden oder alle der englischen Webseiten, die von Presseagenturen in arabisch sprechenden Ländern veröffentlicht werden. In exemplary embodiments, the term "collection" refers to a formal or informal collection of multimedia documents, such as all the documents that will be published in a scientific journal or all of English websites that are published by press agencies in Arabic-speaking countries.
  • [0049] [0049]
    In den beispielhaften Ausführungsformen kann sich der Begriff „Entität” auf ein physisches belebtes Objekt (z. B. eine Person), ein physisches unbelebtes Objekt (z. B. ein Gebäude), etwas, das einen Eigennamen hat (z. B. Mount Everest), etwas, das eine messbare physische Eigenschaft hat (z. B. ein Zeitpunkt oder eine Zeitdauer, ein Unternehmen, ein Ort, ein Land), eine juristische Einheit (z. B. eine Nation) und auf abstrakte Konzept beziehen, wie beispielsweise die Maßeinheit und das Maßsystem einer physischen Eigenschaft. In exemplary embodiments, the term "entity" may refer to a physical animate object (eg., A person), a physical inanimate object (eg. As a building), something that has a proper name (z. B. Mount Everest), something that has a measurable physical property (eg. as relating a time or a period of time a company, a place, a country), a legal entity (eg. as a nation) and abstract concept as for example, the unit and the unit of measurement of a physical property.
  • [0050] [0050]
    In den beispielhaften Ausführungsformen bezeichnet der Begriff „Erwähnung” einen Textbereich, der sich auf eine Entität bezieht. In the exemplary embodiments, the term "record" a text area, which refers to an entity. Im Fall eines großen strukturierten Satzes von Dokumenten kann eine Entität der Sammlung aller ihrer Erwähnungen zugehörig sein, die in dem strukturierten Satz von Dokumenten auftreten, und daher kann der Begriff Entität auch zum Bezeichnen einer derartigen Sammlung verwendet werden. In the case of a large structured set of documents, a collection of all of the entity of their references can be associated with that occur in the structured set of documents, and hence the term entity can also be used to denote such a collection.
  • [0051] [0051]
    In den beispielhaften Ausführungsformen bezieht sich der Begriff „Beziehung” auf eine Verbindung zwischen zwei Entitäten (z. B. Barack Obama ist der Präsident der Vereinigten Staaten; Michelle Obama und Barack Obama sind verheiratet). In exemplary embodiments, the term "relationship" refers to a connection between two entities (eg, Barack Obama is the president of the United States. Michelle Obama and Barack Obama are married). Eine Beziehungserwähnung ist ein Textbereich, der eine Beziehung explizit beschreibt. A relationship mention is a text field that describes a relationship explicitly. Daher sind an einer Beziehungserwähnung zwei Entitätserwähnungen beteiligt. Therefore, two Entitätserwähnungen involved in a relationship mention.
  • [0052] [0052]
    In den beispielhaften Ausführungsformen bezieht sich der Begriff „Ereignis” auf einen Satz von Beziehungen zwischen zwei oder mehreren Entitäten, an denen eine oder mehrere Aktionen beteiligt sind. In exemplary embodiments, the term "event" refers to a set of relationships between two or more entities where one or more actions are involved.
  • [0053] [0053]
    1 1 zeigt eine Übersicht über eine beispielhafte Ausführungsform, die auf eine Sammlung von Nachrichtendokumenten anwendbar sein kann, die aus Webseiten besteht, die von Presseagenturen erstellt wurden und mehrere Modalitäten von Informationen in mehreren Sprachen enthalten. shows an overview of an exemplary embodiment may be applicable to a collection of messages documents, consisting of Web pages that were created by press agencies and include multiple modalities of information in several languages. Die multimodale Sammlung The multi-modal collection 100 100 wird im Schritt in step 110 110 in einer methodischen automatisierten Weise durchsucht (dh in Crawlersuche), wobei die multimodalen Dokumente in der Sammlung identifiziert und schrittweise abgerufen werden. in a methodical way automated searches (ie in crawling), wherein the multimodal documents are identified in the collection and retrieved gradually. Eine derartige Crawlersuche kann schrittweise arbeiten, in welchem Fall sie nur Dokumente abrufen würde, die während vorheriger Crawlervorgänge nicht verfügbar waren. Such crawling can work step by step, in which case they would only retrieve documents that were not available during previous Crawler operations. Dokumente, die Audiodaten enthalten, wie beispielsweise Audiodateien oder Videodateien mit Audiodaten, werden dann im Schritt Documents containing audio data, such as audio or video files containing audio data, then in step 120 120 durch Transkription analysiert. analyzed by transcription. Nach Schritt after step 120 120 ist eine textliche Darstellung aller multimodalen Dokumente verfügbar. is a textual representation of all multimodal documents available. Text in Fremdsprachen wird im Übersetzungsschritt Text in foreign languages ​​is in the translation step 130 130 übersetzt. translated. Das Ergebnis ist die textliche Darstellung The result is the textual representation 140 140 der multimodalen Sammlung, die Dokumente in einer gewünschten Sprache sowie ihre Originalversion in ihrer Ausgangssprache enthält. includes multimodal collection that documents in a desired language as well as their original version in its original language.
  • [0054] [0054]
    Die textliche Darstellung The textual representation 140 140 der Sammlung wird im Schritt the collection in step 150 150 schrittweise analysiert, der die gewünschten Informationen über Entitäten, Aktivitäten und Ereignisse extrahiert (Informationenextraktion (IE)). gradually analyzed that extracts the information about entities, activities and events (information extraction (IE)). Die extrahierten Informationen werden im Schritt The extracted information is in step 160 160 organisiert, und die organisierten Informationen werden in eine navigierbare Anzeigeform umgewandelt, die für den Benutzer dargestellt wird. organized and organized information is converted into a navigable display form that is presented to the user.
  • [0055] [0055]
    2 2 zeigt einen IE-Prozess gemäß einer beispielhaften Ausführungsform von Schritt IE shows a process according to an exemplary embodiment of step 150 150 , wobei Informationen über Entitäten, Aktivitäten und Ereignisse schrittweise extrahiert werden. Where information about entities, activities and events are extracted gradually. Schritt step 210 210 besteht aus dem Anwenden einer Pipeline zum Verarbeiten von natürlicher Sprache auf jedes Dokument der Sammlung. consists of applying a pipeline for processing natural language of each document in the collection. Die Pipeline kann schrittweise angewendet werden, wenn neue Dokumente zu der Sammlung hinzugefügt werden. The pipeline can be applied gradually when new documents are added to the collection. Schritt step 220 220 wird über alle Entitäten wiederholt, die in der Sammlung erkannt wurden. is repeated over all the entities that have been detected in the collection. Schritt step 220 220 kann schrittweise angewendet werden, indem er nur auf den Entitäten wiederholt wird, die in neuen Dokumenten erkannt wurden, wenn sie zu der Sammlung hinzugefügt werden. can be applied gradually, by being repeatedly only to the entities that have been identified in new documents when they are added to the collection. Schritt step 230 230 identifiziert die durch Schritt identified by step 210 210 extrahierten Beziehungserwähnungen, an denen die Entität beteiligt ist, die durch Schritt extracted relationship mentions in which the entity is involved, the step by 220 220 ausgewählt wurde. was selected. Schritt step 240 240 identifiziert Ereigniserwähnungen, an denen Erwähnungen der Entität beteiligt sind, die durch Schritt identified event notices where notices of the entity involved, by step 220 220 ausgewählt wurde. was selected. Schritt step 250 250 extrahiert Informationen, die zu der Entität gehören, die im Schritt extracts information belonging to the entity in step 220 220 ausgewählt wurde. was selected.
  • [0056] [0056]
    3 3 zeigt ein Beispiel für Schritt shows an example of step 210 210 der Pipeline zum Verarbeiten von natürlicher Sprache wie in the pipeline for processing natural language, as in 2 2 beschrieben. described. Der Textbereinigungsschritt The text cleanup step 310 310 entfernt irrelevante Zeichen aus dem Text, wie beispielsweise Formatierungszeichen, Tags für HyperText Markup Language (HTML) und dergleichen. removes extraneous characters from the text, such as formatting characters, tags for Hypertext Markup Language (HTML) and the like. Schritt step 320 320 zum Zerlegen in Token analysiert den bereinigten Text und identifiziert Wort- und Satzgrenzen. for breaking down into tokens analyzes the underlying text and identifies words and sentence boundaries. Schritt step 330 330 zum Tagging der Wortart ordnet jedem Wort einen Kennsatz zu, der seine grammatikalische Funktion beschreibt. for tagging the part of speech each word assigns a label that describes its grammatical function. Der Erwähnungserkennungsschritt The mention recognition step 340 340 identifiziert in dem in Token zerlegten Text die Erwähnungen von Entitäten und die Wörter, die das Vorhandensein von Ereignissen anzeigen (Ereignisanker genannt). (Called Event anchor) identified in the disassembled into tokens text that mentions of entities and words that indicate the presence of events. Der Parsing-Schritt The parsing step 350 350 extrahiert die hierarchische grammatikalische Struktur jedes Satzes und stellt sie typischerweise als einen Baum dar. Schritt extracts the hierarchical grammatical structure of each sentence and displays them typically represent as a tree. Step 360 360 zum Kennzeichnen der semantischen Funktion identifiziert, in welcher semantischen Beziehung jeder der Knoten in dem Baum, die durch Schritt identified to identify the semantic feature, wherein the semantic relationship of each of the nodes in the tree, through the step 350 350 zum Parsen extrahiert wurden, zu jedem der Verben in dem Satz steht. were extracted for parsing, is to each of the verbs in the sentence. Der Koreferenzauflösungsschritt the Koreferenzauflösungsschritt 370 370 identifiziert die Entitäten, zu denen die Erwähnungen gehören, die durch den Erwähnungserkennungsschritt identifies the entities to which the notices are generated by the mention recognition step 340 340 erzeugt wurden. were generated. Der Beziehungsextraktionsschritt The relationship extraction step 380 380 erkennt Beziehungen zwischen Entitätserwähnungspaaren und zwischen Entitätserwähnung und Ereignisankern. recognize relationships between Entitätserwähnungspaaren and between Entitätserwähnung and event anchors. Fachleute würden anerkennen, dass diese Schritte unter Verwendung von allgemein bekannten statistischen Verfahren, Regeln oder Kombinationen davon umgesetzt werden können. The art would recognize that these steps can be implemented using well-known statistical procedures, rules, or combinations thereof.
  • [0057] [0057]
    4 4 zeigt eine beispielhafte Ausführungsform des Organisierens der Informationen über Entitäten gemäß Schritt shows an exemplary embodiment of organizing the information on entities in accordance with step 160 160 von from 1 1 . ,
  • [0058] [0058]
    Schritt step 410 410 wird auf allen der Entitäten wiederholt, die in der Sammlung identifiziert wurden. is repeated on all the entities that were identified in the collection. Eine schrittweise Ausführungsform von Schritt A gradual embodiment of step 410 410 besteht aus dem Wiederholen auf allen der Entitäten, die in neuen Dokumenten identifiziert werden, wenn sie zu der Sammlung hinzugefügt werden. consists of repeating on all of the entities that are identified in new documents when they are added to the collection.
  • [0059] [0059]
    Schritt step 420 420 teilt die Informationen, die über die ausgewählte Entität extrahiert wurden, durch Wiederholung von Schritt divides the information extracted from the selected entity by repeating step 410 410 in Äquivalenzklassen auf, die äquivalente oder redundante Informationen enthalten. in equivalence classes that contain equivalent or redundant information. In einer beispielhaften Ausführungsform würde jede Äquivalenzklasse aus einer Sammlung von Elementen bestehen, wobei jedes Element aus einem Textbereich, der aus einem Dokument extrahiert wurde, zusammen mit einer Spezifikation der Informationen über die gewünschte Entität besteht, die aus dem Textbereich abgeleitet wurde. In an exemplary embodiment, each equivalence class would consist of a collection of elements, each element consisting of a text area that was extracted from a document that is composed with a specification of the information about the desired entity that has been derived from the text area. Fachleute würden anerkennen, dass derartige Äquivalenzklassen sich gegenseitig ausschließen könnten oder sich überlappen könnten, wobei dasselbe Element zu einer oder mehreren Äquivalenzklassen gehören könnte. Professionals would recognize that such equivalence classes may be mutually exclusive or may overlap, where the same item may belong to one or several equivalence classes.
  • [0060] [0060]
    Schritt step 430 430 wird auf den Äquivalenzklassen wiederholt, die durch Schritt is repeated on the equivalence classes represented by step 420 420 erzeugt wurden. were generated.
  • [0061] [0061]
    Schritt step 440 440 würde ein Element in der Klasse auswählen, das alle die Elemente in der Klasse am besten repräsentiert. an item would select in the class that best represents all the elements in the class. Auswahlkriterien, die vom Auswahlschritt Selection criteria from the selection step 440 440 verwendet werden, können enthalten, sind aber nicht beschränkt auf: das Auswählen des allgemeinsten Textbereichs, der in der Äquivalenzklasse auftritt, (zum Beispiel ist der Bereich „US-Präsident Barack Obama” allgemeiner als „Barack Obama, der Präsident der Vereinigten Staaten”, und würde gemäß diesem Auswahlkriterium als der repräsentative Bereich zum Beschreiben der Beziehung von „Barack Obama” zu den „Vereinigten Staaten” ausgewählt), das Auswählen des Textbereichs, der die größte Menge an Informationen übermittelt (zum Beispiel übermittelt „Barack Obama ist der 44. und derzeitige Präsident der Vereinigten Staaten” mehr Informationen über die Beziehung zwischen „Barack Obama” und die „Vereinigten Staaten” als „US-Präsident Barack Obama” und würde gemäß diesem Kriterium als repräsentativ ausgewählt), und das Auswählen des Textbereichs mit der höchsten Punktzahl, die durch den Extraktionsschritt be used may include, but are not limited to: selecting the broadest range of text that occurs in the equivalence class (for example, the area "US President Barack Obama" generally "Barack Obama, the President of the United States" and would under this selection criterion as the representative area for describing the relationship of "Obama" to the "United States" is selected), (received selecting the text area which transmits the largest amount of information, for example, "Obama is the 44th and current president of the United States "for more information about the relationship between" Barack Obama "and the" United States "as" US President Barack Obama "and would, according to this criterion selected as representative), and selecting the text area with the highest score caused by the extraction step 150 150 erzeugt wurde, wenn der Schritt seinen Ergebnissen eine Punktzahl zuordnet. was created when the step its results assigns a score.
  • [0062] [0062]
    Schritt step 450 450 zeichnet die Informationen über die Äquivalenzklasse und über das von Schritt records the information on the equivalence class and the step 440 440 ausgewählte typische Beispiel auf, so dass die Informationen von dem nachfolgenden Schritt selected typical example, so that the information of the subsequent step 170 170 von from 1 1 verwendet werden können. can be used. Das in This in 4 4 gezeigte Verfahren kann an den Fall angepasst werden, in dem sich Äquivalenzklassen überlappen können, und es ist immer noch wünschenswert, unterschiedliche typische Beispiele für verschiedene Klassen auszuwählen, zum Beispiel mittels einer Optimierungsprozedur, die eines oder mehrere der oben aufgelisteten Auswahlkriterien oder von äquivalenten Auswahlkriterien mit einem Unähnlichkeitsmaß kombinieren würde, das die Auswahl von unterschiedlichen typischen Beispielen für sich überlappende Äquivalenzklassen begünstigen würde. The method shown may be adapted to the case in which equivalence classes can overlap, and it is still desirable to select different typical examples for different classes, for example by means of an optimization procedure, one or more of the selection criteria listed above, or by equivalent selection criteria with would combine a dissimilarity measure that would favor the selection of different typical examples of overlapping equivalence classes.
  • [0063] [0063]
    In einer beispielhaften Ausführungsform von Schritt In an exemplary embodiment of step 420 420 kann eine einzelne Instanz von extrahierten Informationen aus einem Bereich (gleichbedeutend mit einem Absatz) aus einem Dokument zusammen mit einer Spezifikation der Informationen bestehen, die über eine gewünschte Entität aus dem Bereich extrahiert wurden. can be a single instance of extracted information from an area (equivalent to a paragraph) of a document along with a specification of the information that has been extracted over a desired entity from the area. Eine derartige Spezifikation kann aus einer Sammlung von Attributwertpaaren, einer Sammlung von Research Description Framework-(RDF)Tripeln, einem Satz von Beziehungen in einer relationalen Datenbank und dergleichen bestehen. Such a specification may consist of a collection of attribute-value pairs, a collection of Research Description Framework (RDF) triples, a set of relations in a relational database and the like. Die Spezifikation kann unter Verwendung einer Beschreibungssprache wie beispielsweise Extensible Markup Language (XML), unter Verwendung der RDF-Darstellungssprache, unter Verwendung einer Datenbank und dergleichen dargestellt werden. The specification may be implemented using a description language such as Extensible Markup Language (XML) using the RDF representation language, using a database and the like are displayed.
  • [0064] [0064]
    Schritt step 420 420 kann aus dem Identifizieren von Gruppen von Instanzen aus extrahierten Informationen bestehen, die zwei Bedingungen erfüllen: die erste ist, dass jede Gruppe mindestens eine Instanz (Hauptinstanz) enthält, nach deren Vorgabe alle anderen Instanzen in der Gruppe redundant sind; may consist of the identification of groups of instances of extracted information, fulfill the two conditions: the first is that each group contains at least one instance (main instance) after which presetting all other instances are redundant in the group; die zweite ist, dass Hauptinstanzen von separaten Gruppen in Beziehung zueinander nicht redundant sind. the second is that the main bodies of separate groups in relationship are not redundant to each other. Dieses Ergebnis kann erzielt werden, indem ein herkömmlicher Clusterbildungs-Algorithmus oder ein inkrementeller Clusterbildungs-Algorithmus verwendet wird. This result can be achieved using a conventional clustering algorithm or an incremental clustering algorithm is used.
  • [0065] [0065]
    5 5 zeigt eine beispielhafte Ausführungsform eines Verfahrens von Schritt shows an exemplary embodiment of a method of step 170 170 von from 1 1 für das Erstellen einer anzeigbaren Darstellung der Informationen, die zu einer Entität gehören und gemäß dem in for creating a displayable representation of the information belonging to an entity and in accordance with the in 4 4 beschriebenen Verfahren gesammelt wurden. Described methods were collected.
  • [0066] [0066]
    In Schritt in step 510 510 werden die Äquivalenzklassen von Informationen bewertet, die von Schritt the equivalence classes of information are evaluated by step 420 420 erzeugt wurden, indem der Äquivalenzklasse zum Beispiel die höchste Punktzahl von Informationsteilen in der Klasse zugewiesen wird. were generated by the equivalence class is assigned to, for example, the highest score of pieces of information in the class. Alternativ können andere Mengen als die Punktzahl der Äquivalenzklasse verwendet werden, zum Beispiel: die durchschnittliche Punktzahl ihrer Mitglieder, die mittlere Punktzahl ihrer Mitglieder, die Summe der Punktzahl ihrer Mitglieder und dergleichen. Alternatively, other quantities than the score for the equivalence class can be used, for example: the average score of its members, the average score of its members, the sum of the scores of its members and the like. Gemäß dem in According to the in 5 5 beschriebenen Verfahren wird die Punktzahl verwendet, um der Reihenfolge eine Rangfolge zuzuweisen, in der die Äquivalenzklassen dem Benutzer angezeigt werden. The method described is used the score to assign a rank order of the order in which the equivalence classes are displayed to the user.
  • [0067] [0067]
    Schritt step 520 520 sortiert die Äquivalenzklassen in absteigender Punktzahlreihenfolge. by the equivalence classes in descending score order.
  • [0068] [0068]
    Schritt step 530 530 wählt jede Äquivalenzklasse aus. selects each equivalence class. Für alle die Instanzen der ausgewählten Äquivalenzklasse (Schritt For all the instances of the selected equivalence class (step 540 540 ) erstellt Schritt ) Created step 550 550 eine anzeigbare Darstellung der Instanz, die aus der Äquivalenzklasse ausgewählt wurde. a displayable representation of the instance that was selected from the equivalence class. In einer beispielhaften Ausführungsform besteht eine derartige anzeigbare Darstellung aus dem Absatz, der die extrahierten Informationen enthält, die in geeigneter Weise mit optischen Hervorhebungen gekennzeichnet sind. In an exemplary embodiment, such a displayable representation of the paragraph that contains the extracted information, which are marked in a suitable manner with optical highlighting. Derartige optische Hervorhebungen können Farbe enthalten, um die extrahierten Informationen voneinander zu unterscheiden. Such optical highlighting may contain color so as to distinguish the extracted information from each other. Außerdem könnte die anzeigbare Darstellung visuelle Hinweise enthalten, um andere Entitäten leicht identifizieren zu können, für die eine Informationenseite vorhanden ist. In addition, the displayable representation could include visual cues to easily identify other entities for which an information page exists.
  • [0069] [0069]
    Schritt step 560 560 kombiniert die von Schritt combines the step of 550 550 erzeugten Darstellungen, um eine anzeigbare Darstellung der Äquivalenzklasse zu erzeugen. Representations generated to generate a displayable representation of the equivalence class. In einer beispielhaften Ausführungsform besteht dieser Schritt aus dem Anzeigen der repräsentativen Instanz der Äquivalenzklasse und dem Bereitstellen von Mitteln zum Anzeigen der anderen Mitglieder, zum Beispiel durch Bereitstellen von Links zu der Darstellung dieser Mitglieder. In an exemplary embodiment, this step consists of displaying the representative instance of the equivalence class and providing means for displaying the other members, for example by providing links to the representation of those members.
  • [0070] [0070]
    Unter folgender Bezugnahme auf Referring now to 6 6 wird eine beispielhafte Seite veranschaulicht, die eine Entität beschreibt (dh eine Entitätsseite (EP)) für die Einzelperson Leon Panetta. illustrates an exemplary page that describes an entity (ie, a Entitätsseite (EP)) for the individual Leon Panetta. Die Seite ist in einen linken und einen rechten Teil unterteilt. The site is divided into a left and a right part. Die beiden Rahmen in dem linken Teil enthalten ein Bild und biografische Informationen, die jeweils automatisch aus der Internet-Enzyklopädie Wikipedia oder aus einer anderen Quelle für zuverlässige Informationen extrahiert wurden. The two frames in the left part contains a picture and biographical information were each extracted automatically from the Internet encyclopedia Wikipedia or from another source of reliable information. Der rechte Teil enthält einen Satz von Registerkarten, die relevante kleine Teile (Snippets) von Text nach der Art der Informationen organisieren, die sie übermitteln. The right part includes a set of tabs that relevant small parts (snippet) of text organized by type of information they convey. Der Inhalt in jeder Registerkarte ist die Ausgabe einer Reihe von Informationenextraktionsmodulen, die nachstehend ausführlicher beschrieben werden. The content in each tab is the output of a number of information extraction modules which are described in more detail below. Jede Registerkarte zeigt auch eine grafische Inhaltszusammenfassung ihres Inhalts. Each tab shows a graphical content summary of their contents.
  • [0071] [0071]
    Die nachstehend gezeigte Tabelle 1 fasst die Informationen zusammen, die durch die Text-Snippets in jeder Registerkarte übermittelt werden. Table 1 shown below summarizes the information transmitted by the text snippets in each tab.
    Entitätstyp entity Registerkartentitel Tab title Beschreibung description
    Person person Zugehörigkeiten affiliations Beschreibung von Zugehörigkeiten der Person zu Unternehmen, Organisationen, Regierungen, Behörden usw. Description of affiliation of the person to companies, organizations, governments, public authorities, etc.
    Erklärungen Explanations Bericht von Erklärungen, die von der Person zu beliebigen Themen abgegeben wurden Report of statements made by the person on any topic
    Aktionen Actions Beschreibung der Aktionen der Person Description of the actions of the person
    Zugehörige Leute Related people Aufgegebene Bekanntschaften der Person Discontinued acquaintances of the person
    Schauplätze locations Auflistung von Orten und Schauplätzen, die von der Person besucht worden sind Listing of the places and sites that have been visited by the person
    Wahlen elections Beschreibung von Wahlkämpfen der Person Description campaigns conducted by the person
    Beteiligung an Ereignissen Participation in events Beschreibung von Ereignissen, an denen die Person beteiligt ist Description of events in which the person is involved
    ORG und GPE ORG and GPE Aktionen Actions Beschreibung von Aktionen der Organisation oder von offiziellen Stellvertretern Description of the organization's activities or official representatives
    Zugehörige Organisationen Related organizations Beschreibung von zugehörigen Organisationen wie z. Description of related organizations such. B. Niederlassungen B. offices
    Zugehörige Leute Related people Auflistung von zu der ORG/GPE zugehörigen Leuten List of related to the ORG / GPE people
    Erklärungen Explanations Berichte von Erklärungen, die von der Organisation freigegeben oder von Stellvertretern abgegeben wurden Reports of statements that have been released by the organization or submitted by deputies
    Tabelle 1: Beschreibung von Informationen, die in den Registerkarten der grafischen Table 1: Description of the information in the tabs of the graphic
  • [0072] [0072]
    Benutzeroberfläche enthalten sind, organisiert nach Entitätstyp Diese Snippets werden von einer Sammlung von Informationensammelmodulen (IGMs – Information Gathering Modules) ausgewählt, die in einer Konfigurationsdatei angegeben sind. User interface are included, organized by entity These snippets are from a collection of information collector modules (IGMs - Information Gathering Modules) selected which are specified in a configuration file. Ein typisches IGM beruht auf einem Maschinenlernmodell, das nachstehend weiter beschrieben wird. A typical IGM based on a machine learning model, which is described further below. Jedes IGM ordnet jedem Snippet auch eine Relevanzpunktzahl zu. Each IGM assigns each snippet to a relevance score.
  • [0073] [0073]
    Zum Zusammenstellen des Registerkarteninhalts werden die von den IGMs ausgewählten und bewerteten Snippets durch geeignete Informationenanzeigemodule (IDMs – Information Display Modules) analysiert, die in einer Konfigurationsdatei angegeben sind. For assembling on the tabs, to be selected by the IGMs and rated snippets by suitable information display modules - analyzed that are specified in a configuration file (IDMs Information Display Modules). IDMs gruppieren Snippets mit identischen Informationen für eine Registerkarte in derselben Äquivalenzklasse. IDMs group snippets with identical information for a tab in the same equivalence class. IDMs ordnen jeder Äquivalenzklasse eine Punktzahl zu und sortieren die Klassen gemäß der Punktzahl. IDMs assign each equivalence class a score to and sort the classes according to the score.
  • [0074] [0074]
    Für die bildliche Darstellung jeder Äquivalenzklasse erzeugen IDMs einen Titel, der eine kurze Darstellung der Informationen ist, die sie übermittelt, und wählen ein repräsentatives Snippet aus. IDMs produce for imaging each equivalence class a title that is a summary of the information they received, and choose a representative snippet. Sie heben die Abschnitte des repräsentativen Snippets hervor, in denen die für die Registerkarte interessanten Informationen enthalten sind, und erstellen Links zu Seiten von anderen Entitäten, die in den Snippets erwähnt werden. Lift the sections of the representative snippets indicate where the interest tab information is included, and create links to pages from other entities that are mentioned in the snippets. Zusätzliche Sätze in der Äquivalenzklasse werden gezeigt, indem man auf einen Link mit der Kennzeichnung „Additional Supporting Results ...” (Weitere unterstützende Ergebnisse ...) klickt. Additional sets in the equivalence class are shown by (supportive results ... More) clicks on a link labeled "Additional Supporting Results ...". Da Presseagenturen dieselben Sätze im Laufe der Zeit häufig immer wieder verwenden, stehen derartige Sätze durch Anklicken von „Other Identical Results” (Andere identische Ergebnisse) zu Verfügung. As news agencies the same phrases often used repeatedly over time, such rates are at disposal by clicking on "Other Identical Results" (Other identical results).
  • [0075] [0075]
    IDMs erstellen die Daten, die zum Erzeugen einer visuellen Zusammenfassung des Inhalts in der ausgewählten Registerkarte verwendet werden, die im Rahmen rechts außen in der oberen Hälfte der grafischen Benutzeroberfläche gezeigt wird. IDMs create the data that are used to generate a visual summary of the content in the selected tab, which is shown to the right outside in the upper half of the graphical user interface in the frame. Für die Registerkarte Related People (Zugehörige Leute), die in For the tab Related People (Associated People), which in 6 6 veranschaulicht ist, ist diese bildliche Darstellung ein Netzwerk von Beziehungen. illustrated, this pictorial representation is a network of relationships. Für andere Registerkarten ist sie eine Cloud der Inhaltswörter in der Registerkarte. For other tabs it is a cloud of content words in the tab.
  • [0076] [0076]
    Die Schnittstelle ist nicht nur nützlich für einen Analysten, der eine Entität in den Nachrichten verfolgt, sondern auch für Finanzanalysten, die Nachrichten über ein Unternehmen verfolgen, oder für Web-Benutzer, die tägliche Aktualisierungen der Nachrichten erhalten. The interface is not only useful for an analyst who follows one entity in the news, but also for financial analysts who follow the news about a company, or receive for web users, the daily updates of news. Die Redundanzerkennung und systematische Organisation von Informationen macht den Inhalt leicht verdaulich. The redundancy detection and systematic organization of information makes the content easy to digest.
  • [0077] [0077]
    In einer Anwendung zum Durchsuchen von Nachrichten können Entitäten in Artikeln hervorgehoben werden, wie in In an application for browsing news entities can be highlighted in articles, as in 7(a) 7 (a) veranschaulicht, und diejenigen Entitäten, für die eine EP vorhanden ist (dh es gibt relevante Snippets für mindestens eine Registerkarte) werden per Hyperlink mit der EP verbunden. illustrated, and those entities available for an EP (ie there are relevant snippet for at least one tab) can be connected via a hyperlink with the EP. Benutzer können auch auf die EP gelangen, indem sie sich eine durchsuchbare Liste von Entitäten in alphabetischer Reihenfolge ansehen oder durch die Häufigkeit in den Nachrichten, wie in Users can also get to the EP by watching a searchable list of entities alphabetically or by the frequency in the news, as in 7(b) 7 (b) veranschaulicht. illustrated.
  • [0078] [0078]
    8 8th zeigt eine Übersicht über eine beispielhafte Ausführungsform einer Programmspeichereinheit shows an overview of an exemplary embodiment, a program storage unit 600 600 , wobei darin enthaltener Anweisungscode für eine IE, ein IGM und IDM veranschaulicht sind. Wherein contained therein instruction code for an IU, an IgM and IDM are illustrated. Ein Prozessor a processor 700 700 führt den Anweisungscode aus, der in der Programmspeichereinheit executes the instruction code stored in the program memory unit 600 600 gespeichert ist. is stored.
  • [0079] [0079]
    Ein Crawler, wie vorher oben beschrieben, kann periodisch neuen Inhalt aus einem Satz von Sites mit englischem Text und arabischem Text und Videos in Dokumenten A crawler as previously described above, periodically new content from a set of sites with English text and Arabic text and videos in documents 610 610 herunterladen. Download. Audiodaten aus Videoquellen können in Datenblöcke von 2-Minuten-Intervallen segmentiert und dann transkribiert werden. Audio from video sources can be segmented into data blocks of two-minute intervals and then transcribed. Arabisch kann unter Verwendung eines Maschinenübersetzungssystems des Stands der Technik ins Englische übersetzt werden. Arabic of the prior art can be translated into English using a machine translation system. Tabelle 2 listet die durchschnittliche Anzahl von Dokumenten von jedem Modalität-Sprache-Paar tageweise auf. Table 2 lists the average number of documents from each modality language pair daily basis.
    Quelle source Anzahl Dokumente number of documents
    Engl. Text Text Engl. 1317 1317
    Arab. Arab. Text text 813 813
    Arab. Arab. Video Video 843 843
    Tabelle 2: Anzahl von Artikeln, die täglich durch den Crawler in verschiedenen Modalitäten heruntergeladen werden Table 2: Number of articles that are downloaded daily by the crawler in different modalities
  • [0080] [0080]
    Anschließende Komponenten in der Pipeline bearbeiten englische Textdokumente, und das Bezugssystem lässt sich leicht auf jede Sprache ausdehnen, für die Übersetzungs- und Transkriptionssysteme vorhanden sind. Subsequent components in the pipeline edit English text documents, and the reference system is easy to expand each language, are available for the translation and transcription systems.
  • [0081] [0081]
    Jedes neue textliche Dokument Every new textual document 610 610 kann durch die IE-Pipeline can be prepared by the IU pipeline 620 620 analysiert werden. to be analyzed. Der erste Schritt nach dem Zerlegen in Token ist Parsing, gefolgt von Erwähnungserkennung. The first step after cutting, in parsing token is followed by mention of detection. Innerhalb jedes Dokuments werden Erwähnungen durch einen dokumentinternen Koreferenzauflösungsalgorithmus zu Clustern zusammengefasst. Within each document mentions are summarized by a document's internal Koreferenzauflösungsalgorithmus clusters. Somit werden in dem entsprechenden Kontext „Washington” und „Weißes Haus” unter derselben Entität (den USA) gruppiert, und „Leon Edward Panetta” und „Leon Panetta” unter derselben Person (Verteidigungsminister). Thus, in the appropriate context "Washington" and are grouped under the same entity (the USA) "The White House" and "Leon Edward Panetta" and "Leon Panetta" under the same person (Defense). Namens- und Pronomen-Erwähnungen werden ebenfalls zu den Clustern hinzugefügt. Name and pronoun mentions are also added to the clusters. Ein dokumentübergreifendes Koreferenzsystem verlinkt die Entitäts-Cluster dann dokumentübergreifend. A document cross-linked Koreferenzsystem the entity cluster then across documents. Dies geschieht, indem jedes Cluster mit der Wissensbasis (KB – Knowledge Base) verlinkt wird, die in der Text Analysis Conference-(TAC)Aufgabe zum Verlinken der Entität verwendet wird, die aus einer Untergruppe der Internet-Enzyklopädie Wikipedia abgeleitet wurde. This is done by each cluster with the knowledge base (KB - Knowledge Base) is linked, which is in the Text Analysis Conference- (TAC) task to link the entity used which was derived from a subset of the Internet encyclopedia Wikipedia. Wenn in der KB eine Übereinstimmung gefunden wird, wird das Cluster der KB-Kennung der Übereinstimmung zugewiesen, wodurch das dokumentübergreifende Querverweisen auf Entitäten ermöglicht wird. If a match is found in the KB, the cluster of KB ID of the match will be assigned, making the cross-document cross-reference is made possible Entities. Neben einer exakten Übereinstimmung mit Titeln in der KB verwendet das dokumentübergreifende Koreferenzsystem flexible Übereinstimmungsmerkmale und Kontextinformationen zum Abstimmen von Schreibweisenvariationen und alternativen Namen. In addition to an exact match with titles in the KB, the cross-document Koreferenzsystem used flexible matching features and context information to tune spelling variations and alternate names. Das System macht auch Entitäten mit identischen Namen eindeutig. The system also makes entities with identical names unique. Die nächste IE-Komponente extrahiert Beziehungen zwischen den Entitäten in dem Dokument, wie beispielsweise Mitarbeiter bei, Sohn von usw. Die Module für Erwähnungserkennung, Koreferenz und Beziehungsextraktion werden an einem intern kommentierten Satz von 1301 Dokumenten geschult, die gemäß der Ontologie Knowledge from Language Understanding and Extraction (KLUE) 2 (Wissen über Sprachverständnis und -extraktion) gekennzeichnet sind. The next IE component extracted relationships between entities in the document, such as employees, son of, etc. The modules for mention recognition, coreference and relationship extraction are trained on an internally annotated set of 1301 documents that according to the ontology Knowledge from Language Understanding and Extraction (CRT) 2 (knowledge of language comprehension and extraction) are presented. Bei einem Entwicklungssatz von 33 Dokumenten erreichen diese Komponenten jeweils ein FI von 71,6%, 83,7% und 65%. In a development rate of 33 documents, these components are both a FI of 71.6%, 83.7% and 65%. Die Entitätsverlinkungskomponente ist nichtüberwacht und erreicht eine Genauigkeit von 73% bei TAC-2009-Personenabfragen. The Entitätsverlinkungskomponente is not monitored and achieved an accuracy of 73% on TAC 2009-person queries.
  • [0082] [0082]
    Kommentierte Dokumente werden dann durch die oben beschriebenen IGMs Annotated Documents are then by the above described IGMs 630 630 und IDMs and IDMs 640 640 analysiert. analyzed. In seiner Grundausführung nimmt ein IGM einen Satz und eine Entität als Eingabe und extrahiert spezielle Informationen über diese Entität aus dem Satz. In its basic embodiment, a IGM takes a set and an entity as an input, and extracted information specific to this entity from the kit. Zum Beispiel kann ein spezielles IGM erkennen, ob eine Familienbeziehung einer bestimmten Person in dem eingegebenen Satz erwähnt wird. For example, a special IGM can detect whether a family relationship to a particular person is mentioned in the input sentence. Eine Teilliste von IGMs und die Beschreibung des extrahierten Inhalts ist in Tabelle 1 gezeigt. A partial list of IGMs and the description of the extracted contents shown in Table 1 below. Die Ausgabe der IGMs wird dann von IDMs analysiert, die den Inhalt der Benutzeroberflächen-Registerkarten zusammenstellen. The output of the IGM is then analyzed by IDMs who put together the content of the user interface tabs. Diese Registerkarten entsprechen entweder einer Fragenvorlage aus einem Pilotprogramm oder werden aus den oben erwähnten Beziehungen abgeleitet. These tabs correspond either to a question template from a pilot program or derived from the above-mentioned relationships. Für jede Entität wählen IDMs selektiv Kommentare aus, die von IGMs erzeugt werden, gruppieren sie in Äquivalenzklassen, ordnen die Äquivalenzklassen ein, um den Informationen, die dem Benutzer angezeigt werden, eine Rangfolge zuzuweisen, und stellen den Inhalt der Registerkarte zusammen. For each entity IDMs selectively choose topics that are generated by IGMs, group them into equivalence classes, the equivalence classes assign one to the information that is displayed to the user to assign a ranking, and make the content of the tab together. Die IGMs und IDMs werden im Folgenden noch ausführlicher beschrieben. The IGMs and IDMs are described in more detail below.
  • [0083] [0083]
    IGMs extrahieren bestimmte Informationen, die zu einer vorgegebenen Entität aus einem bestimmten Satz gehören, in zwei Stufen: Zunächst erkennen sie, ob das Snippet relevante Informationen enthält. IGMs extract specific information pertaining to a given entity from a particular set, in two stages: First, they recognize whether the snippet contains relevant information. Dann identifizieren sie Informationsnuggets. Then they identify information nuggets.
  • [0084] [0084]
    Die Snippet-Relevanzerkennung beruht auf statistischen Klassifikatoren, die an drei Sammlungen geschult werden, die als Teil des Pilotprogramms erzeugt wurden: i) Daten, die für die Pilotprogramm-Teams in den ersten Jahren des Programms vom Linguistic Data Consortium (LDC) bereitgestellt wurden; The snippet Relevance recognition is based on statistical classifiers that are trained in three collections that were created as part of the pilot program: i) data that has been provided for the pilot program teams in the first years of the program by the Linguistic Data Consortium (LDC); ii) Daten, die von BAE Systems bereitgestellt wurden; ii) data that has been provided by BAE Systems; und iii) intern kommentierte Daten. and iii) internally annotated data. Die Daten bestehen aus Abfragen und Snippets mit binären Relevanzkommentaren. The data consists of queries and snippets with binary Relevance comments. Die LDC- und intern kommentierten Daten wurden speziell zu Schulungs- und Testzwecken entwickelt, während die BAE-Daten auch Abfragen aus jährlichen Auswertungen, die Antworten, die von den Teams bereitgestellt wurden, die an den Auswertungen teilgenommen haben, und die offiziellen Beurteilungen der Antworten enthalten. The LDC and internally annotated data are specifically designed for training and testing purposes, while BAE data and queries from annual evaluations, the answers that have been provided by the teams, who participated in the evaluations, and the official assessments of the answers contain. Die statistischen Modelle sind maximale Entropie-Klassifikatoren oder gemittelte Perzeptronen, die auf der Grundlage empirischer Leistung ausgewählt werden. The statistical models are maximum entropy classifiers or averaged perceptrons that are selected based on empirical performance. Sie verwenden einen breiten Bereich von Merkmalen, einschließlich lexikalischer, struktureller, syntaktischer, Abhängigkeits- und semantischer Merkmale. They use a wide range of features, including lexical, structural, syntactic, and semantic features of dependency. Tabelle 3 fasst die Leistung der Modelle zusammen, die im Jahr 4 von nicht abgesonderten Abfragen anhand eines intern generierten Entwicklungssatzes verwendet wurden. Table 3 summarizes the performance of the models, which were used in 4 of non-sequestered queries based on an internally generated development set. Die Spalte „TN” bezeichnet eine Vorlagennummer. The "TN" column indicates an original number.
    Vorlagen für Personenentitäten Templates Person entities
    Vorlage template TN TN P P R R F F
    Informationen information T3 T3 75,60 75.60 90,07 90.07 82,20 82.20
    Aktionen Actions T13 T13 50,00 50,00 18,33 18.33 26,83 26.83
    Aufenthaltsort abode T17 T17 86,11 86.11 43,66 43.66 57,94 57.94
    Wahlkampf electioneering T21 T21 78,72 78.72 26,81 26.81 40,00 40,00
    Vorlagen für ORG/GPE-Entitäten Templates for ORG / GPE entities
    Vorlage template TN TN P P R R F F
    Informationen information T4 T4 71,50 71.50 90,79 90.79 80,00 80,00
    Aktionen Actions T14 T14 45,83 45.83 29,73 29.73 36,07 36.07
    Verhaftungen von Mitgliedern Arrests of members T15 T15 75,51 75.51 74,00 74,00 74,75 74.75
    Ort des Stellvertreters Place the Deputy T18 T18 36,36 36.36 44,94 44.94 40,20 40,20
    Tabelle 3: Leistung der IGM-Modelle Table 3: Performance of IGM models
  • [0085] [0085]
    IGMs analysieren Snippets, die von den Vorlagenmodellen ausgewählt wurden, und extrahieren die Informationen, die von den IDMs zum Zusammenstellen und bildlichen Darstellen der Ergebnisse verwendet werden. IGMs analyze snippets that have been selected by the original models, and extract the information that is used by IDMs for assembling and of displaying the results. Dieser Schritt wird als „Informationsnugget-Extraktion” bezeichnet, wobei ein Informationsnugget eine elementare Antwort auf eine bestimmte Frage ist. This step is referred to as "information extraction Nugget", wherein an information nugget is a basic response to a particular question. Extrahierte Nuggets enthalten den Schwerpunkt der Antwort (z. B. den Ort, der von einer Person besucht wurde), den unterstützenden Text (eine Untergruppe des Snippets), eine Zusammenfassung der Antwort (die dem Snippet entnommen oder automatisch generiert wurde). Extracted nuggets contain the center of gravity of the response (z. B. the place which was attended by a person), the supporting text (a subset of the snippet), a summary of the response (which was taken from the snippet or automatically generated).
  • [0086] [0086]
    Verschiedene Module extrahieren bestimmte Typen von Nuggets. Different modules extract certain types of nuggets. Diese Module können einfache Systeme auf der Grundlage von Regeln oder vollstatistische Modelle sein. These modules can be simple systems based on rules or fully statistical models. Jede Registerkarte verwendet einen anderen Satz von Nugget-Extraktionsprogrammen, die leicht zusammengestellt und konfiguriert werden können, um maßgeschneiderte Versionen des Systems zu erzeugen. Each tab uses a different set of Nugget extraction programs that can be easily assembled and configured to produce customized versions of the system.
  • [0087] [0087]
    IDMs verwenden die Informationen, die von IGMs erzeugt werden, zum bildlichen Darstellen der Ergebnisse. IDMs use the information generated by IGMs, of displaying the results. Dazu gehört das Gruppieren von Ergebnissen in nicht-redundante Sätze, das Sortieren der Sätze, das Erzeugen einer kurzen Beschreibung jedes Satzes, das Auswählen eines repräsentativen Snippets für jeden Satz, das Hervorheben der Abschnitte des Snippets, die Informationen enthalten, die zu der bestimmten Registerkarte gehören, das Erstellen von Navigations-Hyperlinks zu anderen Seiten und das Generieren von Daten, die zur grafischen Darstellung des Registerkarteninhalts verwendet werden. This includes the grouping of results in non-redundant sets, sorting the records, creating a brief description of each set, selecting a representative snippets for each set, highlighting the sections of the snippets that contain information about the specific tab include the creation of navigation hyperlinks used for graphic display on the tabs to other sites, and generating data.
  • [0088] [0088]
    IGMs erzeugen Ergebnisse in einem allgemeinen Format, das eine klar strukturierte Anwendungsprogrammierschnittstelle (API) unterstützt. IGMs produce results that supports a clearly structured application programming interface (API) in a common format. IDMs fragen diese API ab, um ausgewählte IGM-Produkte abzurufen. IDMs query this API to retrieve selected IGM products. Für jede Registerkarte gibt eine Konfigurationsdatei an, welche IGM-Produkte zur Redundanzerkennung zu verwenden sind. For each tab, a configuration file specifies which IGM products to be used for redundancy detection. Zum Beispiel wird der Inhalt der Registerkarte „Zugehörigkeiten” für Personen (siehe Tabelle 1) aus automatischen Inhaltsextraktions-(ACE – automatic content extraction)Beziehungen erstellt. For example, the contents of the "memberships" tab for persons from automatic Inhaltsextraktions- (ACE - automatic content extraction) (see Table 1) creates relationships. Die Konfigurationsdatei weist das IDM an, den Beziehungstyp und die KB-Kennung der zugehörigen Entität zur Redundanzreduzierung zu verwenden. The configuration file instructs the IDM to use the relationship type and the KB identifier of the associated entity for redundancy reduction. Wenn daher ein Snippet feststellt, dass Sam Palmisano Manager bei „IBM” war, und ein anderes, dass Sam Palmisano Manager bei „International Business Machines” war und „IBM” und „International Business Machines” dieselbe KB-Kennung haben, dann werden die Snippets für den Zweck der Registerkarte „Zugehörigkeit” als redundant gekennzeichnet. Therefore, if a snippet determines that Sam Palmisano manager at "IBM" was, and another that Sam Palmisano manager was in "International Business Machines" and "IBM" and "International Business Machines" same KB ID have, then the snippets for the purpose of "membership" tab marked as redundant.
  • [0089] [0089]
    Die Redundanzerkennung gruppiert Ergebnisse in Äquivalenzklassen. The redundancy detection results grouped into equivalence classes. Jede Klasse enthält eindeutige Werte für die IGM-Produkte, die in der Konfigurationsdatei angegeben wurden. Each class contains unique values ​​for the IGM products that are specified in the configuration file. IDMs können des Weiteren Klassen in Superklassen gruppieren oder die Äquivalenzklassen gemäß den Werten von IGM-Produkten aufteilen. IDMs may further classes grouped into superclasses or split the equivalence classes according to the values ​​of IGM products. Zum Beispiel können sie die Äquivalenzklassen gemäß dem Datum des Dokuments partitionieren, das die Informationen enthält. For example, they can partition the equivalence classes according to the date of the document that contains the information. Die daraus resultierenden Dokumentgruppen bilden die Anzeigeeinheit. The resulting document groups constituting the display unit. IDMs weisen jeder dieser Gruppen eine Punktzahl zu, zum Beispiel unter Verwendung einer Funktion der Punktzahl der einzelnen Snippets und der Anzahl von Ergebnissen in der Gruppe oder in der Äquivalenzklasse. IDMs have each of these groups to a score, for example, using a function of the score of each snippet and the number of results in the group or in the equivalence class. Die Gruppen werden nach Punktzahl sortiert, und das am höchsten bewertete Snippet wird als typisches Beispiel für die Gruppe ausgewählt. The groups are sorted by score, and the most significant snippet is selected as a typical example for the group. Jede Gruppe wird dann in der Registerkarte bildlich als ein Abschnitt mit einem Titel dargestellt, der unter Verwendung von ausgewählten IGM-Produkten erstellt wird. Each group is then shown in the tab figuratively as a section with a title that is created using selected IGM products. Die Punktzahl der Gruppe wird optional ebenfalls angezeigt. The score for the group is also optionally displayed. Der Text des repräsentativen Snippets, das den Nachweis für die relevanten Informationen enthält, ist gelb hervorgehoben. The text of the representative snippets, which provides proof of the relevant information is highlighted in yellow. Die benannten Erwähnungen werden mit der entsprechenden Seite verlinkt, sofern verfügbar, und Links zu verschiedenen Ansichten des Dokuments werden bereitgestellt. The designated notices be linked to the relevant page, if available, and links to different views of the document are provided.
  • [0090] [0090]
    Jeder Registerkarte ist eine grafische Darstellung zugehörig, die ihren Inhalt zusammenfasst und die in dem Abschnitt rechts außen in der oberen Hälfte der Benutzeroberfläche von Each tab is a graphical representation associated with that summarizes their content and are listed in the far right of the top half of the user interface 6 6 gezeigt wird. will be shown. Diese bildliche Darstellung wird durch Aufrufen einer Anwendung auf einem Server dynamisch generiert, wenn die Registerkarte bildlich dargestellt wird. This pictorial representation is generated dynamically by invoking an application on a server, when the tab is depicted.
  • [0091] [0091]
    Beispielhafte Ausführungen des Systems können drei verschiedene bildliche Darstellungen unterstützen: eine Wort-Cloud und zwei Formate von Diagrammen, die Verbindungen zwischen Entitäten zeigen. Exemplary embodiments of the system can support three different pictorial images: show a word cloud and two formats of charts, the links between entities. Eine Konfigurationsdatei unterrichtet die IDMs darüber, welche IGM-Produkte die Informationen enthalten, die in der grafischen Darstellung gezeigt werden sollen. A configuration file informs the IDMs as to which IGM products contain the information that will be shown in the graph. Diese Informationen werden dann formatiert, um der API des Programms zu entsprechen, das die bildliche Darstellung dynamisch erstellt. This information is then formatted to match the API of the program that created the pictorial representation dynamically.
  • [0092] [0092]
    Die oben beschriebenen beispielhaften Ausführungsformen können aus dem Stand der Technik bekannte Verfahren zum Verarbeiten von natürlicher Sprache verwenden. The exemplary embodiments described above can use the prior art methods for processing natural language. Eine grundlegende Referenz ist das Buch „Foundations of Statistical Natural Language Processing” von Manning und Schütze, das die Haupttechniken abdeckt, die derartige Verfahren bilden. A basic reference is the book "Foundations of Statistical Natural Language Processing" by Manning and contactors, which covers the main techniques which do such procedures. Das Erstellen von Sprachmodellen auf der Grundlage von Kookkurrenz (N-Gram-Modellen) wird in Kapitel 6 gelehrt. Creating language models based on co-occurrence (N-gram models) is taught in Chapter. 6 Das Identifizieren des Sinns von Wörtern unter Verwendung ihres Kontexts, das als Wort-Sinn-Klärung bezeichnet wird, wird in Kapitel 7 gelehrt. Identifying the meaning of words using the called word-sense clarify its context, is taught in chapter seventh Das Erkennen des grammatikalischen Typs von Wörtern in einem Satz, das als Wortart-Tagging bezeichnet wird, wird in Kapitel 9 gelehrt. The recognition of the type of grammatical words in a sentence, which is referred to as a part of speech tagging is taught in Chapter. 9 Das Erkennen der grammatikalischen Struktur eines Satzes, das als Parsing bezeichnet wird, wird in Kapitel 11 gelehrt. The recognition of the grammatical structure of a sentence, the parsing is referred to as is taught in Chapter. 11 Das automatische Übersetzen von einer Ausgangssprache in eine Zielsprache wird in Kapitel 13 gelehrt. The automatic translation from a source language to a target language is taught in chapter. 13 Die Hauptthemen zum Informationenabruf werden in Kapitel 15 gelehrt. The main topics for information retrieval taught in Chapter 15th Automatische Verfahren zur Textkategorisierung werden in Kapitel 16 gelehrt. Automatic method for text categorization are taught in section 16.
  • [0093] [0093]
    In Anbetracht des bedeutenden Anteils von neuem Material im Internet, bei dem es sich um Nachrichten handelt, die sich auf Leute, Organisationen und geopolitische Entitäten (GPEs) konzentrieren, bilden benannte Entitäten einen Schlüsselaspekt von Nachrichtendokumenten, und man interessiert sich oft für das Verfolgen von Artikeln über eine Person (z. B. Leon Panetta), eine Organisation (z. B. Apple Inc.) oder eine GPE (z. B. die Vereinigten Staaten). Given the significant proportion of new material on the Internet, in which they are messages to people, organizations and geopolitical entities (GPES) concentrate, named entities a key aspect of messages documents, and are often interested in the pursuit of Articles about a person (eg. B. Leon Panetta), an organization (eg. as Apple Inc.) or a GPE (z. B. the United States). Oben beschriebene beispielhafte Ausführungsformen stellen ein System bereit, das automatisch Zusammenfassungsseiten für benannte Entitäten aus Nachrichtendaten erstellt. The above-described exemplary embodiments provide a system that automatically generates summary pages for named entities from message data. Die EP-Seite, die eine Entität beschreibt, ist in Abschnitte organisiert, die bestimmte Fragen über diese Entität beantworten, wie beispielsweise Bibliografie-Informationen, abgegebene Erklärungen, Bekanntschaften, Aktionen und dergleichen. EP-page that describes an entity is organized into sections that answer the specific questions about this entity, such as bibliographic information, statements made, acquaintances, actions and the like. Jeder Abschnitt enthält Text-Snippets, die die Fakten unterstützen, die automatisch aus der Sammlung extrahiert werden. Each section contains text snippets that support the facts that are automatically extracted from the collection. Die Redundanzreduzierung ergibt eine prägnante Zusammenfassung mit nur ganz neuen und nützlichen Snippets, die in der Standardanzeige dargestellt werden. The redundancy reduction gives a concise summary with only very new and useful snippets that are displayed in the standard display. Das System kann unter Verwendung einer Vielfalt von Quellen umgesetzt werden und zeigt Informationen, die nicht nur aus englischem Nachrichtenagenturtext, sondern auch aus maschinenübersetztem Text und automatisch transkribierten Audiodaten extrahiert werden. The system can be implemented and shows information, which are extracted from not only English text news agency, but also from maschinenübersetztem text and automatically transcribed audio data using a variety of sources.
  • [0094] [0094]
    Obwohl öffentlich verfügbare Nachrichten-Aggregatoren wie Google News die Spitzen-Entitäten in den Nachrichten zeigen, führt deren Anklicken typischerweise zu einer Schlüsselwortsuche (mit eventuell einiger Redundanzerkennung). Although publicly available news aggregators like Google News to show the peak entities in the news, their clicking typically results in a keyword search (with possibly some redundancy detection). Andererseits stellen die oben beschriebenen beispielhaften Ausführungsformen ein System bereit, das den Inhalt auf eine systematische Weise organisiert und zusammenfasst, die für den Benutzer nützlich ist. On the other hand, the exemplary embodiments described above provide a system that organizes the content in a systematic way and summarizing that is useful to the user. Das System ist nicht auf eine Bag-of-Words-Suche beschränkt, sondern verwendet eine tiefere NLP-Technologie zum Erkennen von Erwähnungen von benannten Entitäten, zum Auflösen von Koreferenz (beides innerhalb eines Dokuments und dokumentübergreifend) und zum Mining von Beziehungen wie Mitarbeiter von, Ehegatte von, Niederlassung von usw. aus dem Text. The system is not limited to a Bag-of-Words Search, but used a deeper NLP technology to recognize mentions of named entities, to resolve coreference (both within a document and across documents) and the mining of relationships as employees , Spouse of and establishment of so from the text. Das Bezugssystem ist in hohem Maße skalierbar und kann in Echtzeit eine Zusammenfassung für jede Entität generieren, die in den Nachrichten auftritt. The reference system is highly scalable and can generate a summary for each entity in real-time that occurs in the news. Die flexible Architektur des Systems ermöglicht eine rasche Anpassung an andere Domänen als Nachrichten, wie beispielsweise Sammlungen von wissenschaftlichen Dokumenten, in denen die Entitäten von Interesse Autoren, Einrichtungen und Länder sind. The flexible architecture of the system allows for rapid adaptation to other domains as news, such as collections of scientific documents in which the entities of interest to authors, institutions and countries.
  • [0095] [0095]
    Die Vorgehensweisen der beispielhaften Ausführungsformen der vorliegenden Offenbarung können besonders gut für die Verwendung in einer elektronischen Einheit oder einem alternativen System geeignet sein. The procedures of the exemplary embodiments of the present disclosure may be particularly well suited for use in an electronic device or alternative system. Dementsprechend können beispielhafte Ausführungsformen die Gestalt einer Ausführungsform annehmen, die Software- und Hardware-Aspekte kombiniert, auf die allgemein als „Prozessor”, „Schaltung”, „Modul” oder „System” Bezug genommen werden kann. Accordingly, exemplary embodiments may take the form of an embodiment combining software and hardware aspects, to generally as "processor," "circuit," "module" or "system" can be referenced. Des Weiteren können beispielhafte Ausführungen die Gestalt eines Computerprogrammprodukts annehmen, das in einem oder mehreren computerlesbaren Medien mit einem darin gespeicherten computerlesbaren Programmcode ausgeführt ist. Further exemplary embodiments may take the form of a computer program product which is embodied in one or more computer readable media having stored therein a computer-readable program code.
  • [0096] [0096]
    Jede Kombination von einem oder mehreren computerverwendbaren oder computerlesbaren Medien kann verwendet werden. Any combination of one or more computer usable or computer-readable media may be used. Das computerverwendbare oder computerlesbare Medium kann ein computerlesbares Speichermedium sein. The computer-usable or computer readable medium may be a computer readable storage medium. Ein computerlesbares Speichermedium kann zum Beispiel ein elektronisches, magnetisches, optisches, elektromagnetisches, Infrarot- oder Halbleitersystem, eine derartige Vorrichtung, Einheit oder jede geeignete Kombination aus dem Vorgenannten sein, ist aber nicht darauf beschränkt. A computer-readable storage medium may, for example, an electronic, magnetic, optical, electromagnetic, infrared, or semiconductor system, apparatus, device, or any suitable combination of the foregoing, but is not limited thereto. Zu spezielleren Beispielen (eine nicht erschöpfende Liste) für das computerlesbare Speichermedium würde Folgendes gehören: eine tragbare Computerdiskette, eine Festplatte, ein Arbeitsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein löschbaren programmierbarer Nur-Lese-Speicher (EPROM oder Flash-Speicher), ein Lichtwellenleiter, ein tragbarer CD-ROM, eine optische Speichereinheit, eine Magnetspeichereinheit oder jede geeignete Kombination des Vorgenannten. More specific examples (a non-exhaustive list) of the computer readable storage medium would include the following: a portable computer diskette, a hard disk, a random access memory (RAM), a read-only memory (ROM), an erasable programmable read-only memory (EPROM or Flash memory), an optical fiber, a portable CD-ROM, an optical storage device, a magnetic storage device, or any suitable combination of the foregoing. In dem Kontext dieses Dokuments kann ein computerlesbares Speichermedium jedes konkrete Medium sein, das ein Programm enthalten oder speichern kann, das von oder in Verbindung mit einem System, einer Vorrichtung oder einer Einheit zur Anweisungsausführung verwendet werden kann. In the context of this document, a computer-readable storage medium may be any tangible medium that can contain a program or store which can be used by or in connection with a system, apparatus, or an instruction execution.
  • [0097] [0097]
    Computerprogrammcode zum Ausführen von Operationen der beispielhaften Ausführungsformen kann in jeder Kombination von einer oder mehreren Programmiersprachen geschrieben werden, einschließlich einer objektorientierten Programmiersprache wie Java, Smalltalk, C++ oder dergleichen und herkömmlichen prozeduralen Programmiersprachen wie der Programmiersprache „C” oder ähnlichen Programmiersprachen. Computer program code for carrying out operations of the exemplary embodiments can be written in any combination of one or more programming languages, including an object oriented programming language such as Java, Smalltalk, C ++ or the like and conventional procedural programming languages, such as the "C" programming language or similar programming. Der Programmcode kann vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Softwarepaket, teilweise auf dem Computer des Benutzers und teilweise auf einem fernen Computer oder vollständig auf dem fernen Computer oder Server ausgeführt werden. The program code may be executed entirely on the user's computer, partly on the user's computer, as a standalone software package, partly on the user's computer and partly on a remote computer or entirely on the remote computer or server. In dem letzteren Szenario kann der ferne Computer mit dem Computer des Benutzers über jeden Typ von Netzwerk verbunden werden, einschließlich ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetz (WAN), oder die Verbindung kann zu einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Nutzung eines Internet-Dienstanbieters). In the latter scenario, the remote computer to the computer of the user can via any type of network be connected, including a local area network (LAN) or a wide area network (WAN), or the connection may be made to an external computer (for example, via the Internet using an Internet service provider).
  • [0098] [0098]
    Beispielhafte Ausführungsformen werden hierin unter Bezugnahme auf Ablaufplan-Veranschaulichungen und/oder Blockschaubilder beschrieben. Exemplary embodiments are described herein with reference to flowchart illustrations and / or block diagrams. Es versteht sich, dass jeder Block in den Ablaufplan-Veranschaulichungen und/oder den Blockschaubildern und Kombinationen von Blöcken in den Ablaufplan-Veranschaulichungen und/oder den Blockschaubildern durch Computerprogrammanweisungen ausgeführt werden können. It will be understood that each block can be executed in the flowchart illustrations and / or block diagrams, and combinations of blocks in the flowchart illustrations and / or block diagrams, by computer program instructions.
  • [0099] [0099]
    Die Computerprogrammanweisungen können in einem computerlesbaren Medium gespeichert werden, das einen Computer, eine andere Vorrichtung, die programmierbare Daten verarbeitet, oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Weise funktionieren, so dass die in dem computerlesbaren Medium gespeicherten Anweisungen einen Fertigungsartikel erzeugen, einschließlich Anweisungen, die die in dem Ablaufplan und/oder dem Block oder den Blöcken des Blockschaubilds angegebene Funktion/Handlung implementieren. The computer program instructions may be stored in a computer readable medium that can direct a computer, other device, programmable data processing, or other devices so that they function in a particular manner, such that the instructions stored in the computer readable medium produce an article of manufacture including instructions that implement the specified in the flowchart and / or block or blocks of the image block diagram function / act.
  • [0100] [0100]
    Es ist einzusehen, dass der Begriff „Prozessor”, wie er hierin verwendet wird, jede Verarbeitungseinheit enthalten soll, wie zum Beispiel eine, die eine zentrale Verarbeitungseinheit (CPU) und/oder eine andere Verarbeitungsschaltung (z. B. digitaler Signalprozessor (DSP), Mikroprozessor usw.) enthält. It will be appreciated that the term is intended to include "processor", as used herein, each processing unit, such as one that has a central processing unit (CPU) and / or other processing circuitry (z. B. digital signal processor (DSP) containing microprocessor, etc.). Außerdem ist zu verstehen, dass sich der Begriff „Prozessor” auf mehr als auf eine Verarbeitungseinheit beziehen kann, und dass verschiedene einer Verarbeitungseinheit zugehörige Elemente gemeinsam von anderen Verarbeitungseinheiten genutzt werden können. In addition, it is understood that the term can refer to "Processor" on more than one processing unit, and a processing unit that various associated elements can be shared by other processing units. Der Begriff „Speicher”, wie er hierin verwendet wird, soll Speicher und andere computerlesbare Medien enthalten, die einem Prozessor oder einer CPU zugehörig sind, wie beispielsweise Arbeitsspeicher (RAM), Nur-Lese-Speicher (ROM), feste Speichermedien (z. B. eine Festplatte), austauschbare Speichermedien (z. B. eine Diskette), Flash-Speicher usw. Des Weiteren soll der Begriff „E/A-Schaltung”, wie er hierin verwendet wird, zum Beispiel eine oder mehrere Eingabeeinheiten (z. B. Tastatur, Maus usw.) zum Eingeben von Daten in den Prozessor und/oder eine oder mehrere Ausgabeeinheiten (z. B. Drucker, Bildschirm usw.) zum Darstellen der dem Prozessor zugehörigen Ergebnisse enthalten. The term "memory" as used herein is intended to include memory and other computer-readable media associated with a processor or CPU, such as memory (RAM), read-only memory (ROM), fixed storage media (e.g.. as a hard drive), removable storage media (eg. as a floppy disk), flash memory, etc. Furthermore, the term "I / O circuitry" as used herein, for example, one or more input devices (eg. as a keyboard, mouse, etc.) for inputting data to the processor and / or one or more output units (e.g., as a printer, display, etc.) for displaying the associated processor results include.
  • [0101] [0101]
    Der Ablaufplan und die Blockschaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb von möglichen Ausführungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen. The flowchart and block diagrams in the figures illustrate the architecture, functionality, and operation of possible implementations of systems, methods and computer program products according to various embodiments. Diesbezüglich kann jeder Block in dem Ablaufplan oder in den Blockschaubildern ein Modul, ein Segment oder einen Codeabschnitt darstellen, der einen oder mehrere ausführbare Anweisungen zum Ausführen der angegebenen logischen Funktion(en) aufweist. In this regard, each block may represent in the flowchart or block diagrams may represent a module, segment, or portion of code, which comprises one or more executable instructions for performing the specified logical function (s). Es ist ebenfalls anzumerken, dass in einigen alternativen Ausführungen die in dem Block angegebenen Funktionen in einer anderen Reihenfolge auftreten können als in den Figuren angegeben. It should also be noted that in some alternative implementations, the functions noted in the block in a different order may occur as indicated in the figures. Zum Beispiel können zwei nacheinander gezeigte Blöcke tatsächlich im Wesentlichen parallel ausgeführt werden, oder die Blöcke können manchmal in der umgekehrten Reihenfolge ausgeführt werden, was von der beteiligten Funktionalität abhängt. For example, two blocks shown in succession may in fact be executed substantially parallel to, or the blocks may be executed in the reverse order at times, depending upon the functionality involved. Es wird ebenfalls angemerkt, dass jeder Block in den Blockschaubildern und/oder in der Ablaufplan-Veranschaulichung und Kombinationen von Blöcken in den Blockschaubildern und/oder der Ablaufplan-Veranschaulichung durch spezielle Systeme auf der Grundlage von Hardware, die die angegebenen Funktionen oder Handlungen ausführen, oder Kombinationen von spezieller Hardware und Computeranweisungen ausgeführt werden kann. It is also noted that each block of the block diagrams and / or in the flowchart illustration, and combinations of blocks in the block diagrams and / or flowchart illustration, by means of special systems on the basis of hardware that perform the specified functions or acts, or combinations of special purpose hardware and computer instructions may be executed.
  • [0102] [0102]
    Obwohl veranschaulichende Ausführungsformen der vorliegenden Offenbarung hierin unter Bezugnahme auf die begleitenden Zeichnungen beschrieben worden sind, ist zu verstehen, dass die vorliegende Offenbarung nicht auf genau diese Ausführungsformen beschränkt ist, und dass verschiedene andere Änderungen und Modifizierungen daran von einem Fachmann vorgenommen werden können, ohne von dem Schutzumfang der Ansprüche im Anhang abzuweichen. Although illustrative embodiments of the present disclosure have been described herein with reference to the accompanying drawings, it is to be understood that the present disclosure is not limited to those precise embodiments, and that various other changes and modifications can be made therein by one skilled in the art without departing from the scope of the appended claims departing.

Claims (25)

  1. Verfahren zum automatischen Extrahieren und Organisieren von Informationen aus einer Vielzahl von Datenquellen durch eine Verarbeitungseinheit, aufweisend: das Anwenden einer Informationenextraktions-Pipeline auf die Datenquellen zum Verarbeiten von natürlicher Sprache, die eine automatische Erkennung von Entitäten aufweist; A method for automatically extracting and organizing information from a plurality of sources of data by a processing unit, comprising: applying an information extraction pipeline to the data sources for processing natural language, which has an automatic detection of entities; das Identifizieren von Informationen über erkannte Entitäten durch Analysieren von Produkten der Pipeline zum Verarbeiten von natürlicher Sprache; identifying information about entities recognized by analyzing products of the pipeline for processing natural language; das Gruppieren von identifizierten Informationen in Äquivalenzklassen, die äquivalente Informationen enthalten; contain the grouping of information identified in equivalence classes, the equivalent information; das Erstellen von mindestens einer anzeigbaren Darstellung der Äquivalenzklassen; creating at least a displayable representation of the equivalence classes; das Berechnen einer Reihenfolge, in der die mindestens eine anzeigbare Darstellung angezeigt wird; calculating an order in which the at least one displayable representation is displayed; und das Erzeugen einer kombinierte Darstellung der Äquivalenzklassen, die die Reihenfolge einhält, in der die anzeigbare Darstellung angezeigt wird. and generating a combined display of the equivalence classes, which upholds the order in which the displayable representation is displayed.
  2. Verfahren nach Anspruch 1, wobei jede Äquivalenzklasse eine Sammlung von Elementen aufweist, wobei jedes Element einen Textbereich, der aus einem Dokument extrahiert wurde, zusammen mit einer Spezifikation von Informationen über eine gewünschte Entität aufweist, die aus dem Textbereich abgeleitet wurde. The method of claim 1, wherein each equivalence class has a collection of elements, each element having a text area that was extracted from a document, together with a specification of information about a desired entity that has been derived from the text area.
  3. Verfahren nach Anspruch 1, wobei das Berechnen einer Reihenfolge, in der die anzeigbaren Darstellungen angezeigt werden, des Weiteren das zufällige Berechnen der Reihenfolge aufweist. The method of claim 1, wherein the calculating an order in which the displayable images are displayed, further comprising calculating the random order.
  4. Verfahren nach Anspruch 1, wobei das Gruppieren von identifizierten Informationen in Äquivalenzklassen des Weiteren das Zuweisen jeder identifizierten Information zu einer separaten Äquivalenzklasse aufweist. The method of claim 1, wherein the grouping of information identified in equivalence classes further comprises assigning each identified information to a separate equivalence class.
  5. Verfahren nach Anspruch 1, wobei das Gruppieren von identifizierten Informationen in Äquivalenzklassen des Weiteren aufweist: das Berechnen einer repräsentativen Instanz für jede Äquivalenzklasse; The method of claim 1, wherein the grouping of information identified equivalence classes having in further comprising: calculating a representative instance for each equivalence class; das Sicherstellen, dass repräsentative Instanzen von verschiedenen Klassen in Beziehung zueinander nicht redundant sind; ensuring that representative instances of different classes in relation to each other are not redundant; das Sicherstellen, dass Instanzen jeder Äquivalenzklasse in Beziehung auf die repräsentative Instanz der Äquivalenzklasse redundant sind. ensuring that instances of each equivalence class are redundant in relation to the representative instance of the equivalence class.
  6. Verfahren zum Verarbeiten von Informationen durch eine Verarbeitungseinheit, wobei das Verfahren aufweist: das Empfangen einer Benutzerabfrage; A method of processing information by a processing unit, the method comprising: receiving a user query; das Vermuten einer Benutzerabfrageabsicht aus der Benutzerabfrage, um eine vermutete Benutzerabsicht zu entwickeln; suspecting a user query intent of the user query, in order to develop a suspected user's intention; und das automatische Generieren einer Seite in Reaktion auf die Benutzerabfrage, indem anpassungsfähig eine Vorlage, die der vermuteten Benutzerabsicht entspricht, unter Verwendung der natürlichen Verarbeitung von mehreren Modalitäten erstellt wird, die mindestens eines von Text, Audio- und Videodaten aufweisen. and automatically generating a page in response to the user query by a template that corresponds to the suspected user intent is built using the natural processing of multiple modalities adaptable which have at least one of text, audio and video data.
  7. Verfahren nach Anspruch 6, des Weiteren aufweisend: wenn die Benutzerabfrage eine Person mit einem politischen Status auswählt, das Erkennen des politischen Status, das Suchen nach Informationen über mindestens eines von einem Wahlkampf, öffentlichen Auftritten, Erklärungen und Chronik des Dienstes für die Öffentlichkeit, und das automatische Generieren einer Seite in Reaktion auf die Benutzerabfrage. The method of claim 6, further comprising: if the user query selects a person with a political status, recognition of the political status, searching for information about at least one of a campaign, public performances, explanations and Chronicle of the service to the public, and the automatic generation of a page in response to the user query.
  8. Verfahren nach Anspruch 6, des Weiteren aufweisend, wenn die Benutzerabfrage ein Unternehmen auswählt: das Suchen nach Informationen über mindestens eine von kürzlichen Nachrichten über das Unternehmen, Informationen über Spitzenvertreter des Unternehmens und Pressemitteilungen für das Unternehmen; The method of claim 6, further comprising, if the user query selects all companies: searching for information about at least one of the recent news of the company, information about peak representative of the company press releases and for the company; und das automatische Generieren einer Seite in Reaktion auf die Benutzerabfrage. and the automatic generation of a page in response to the user query.
  9. Verfahren nach Anspruch 6, des Weiteren aufweisend, wenn die Benutzerabfrage ein Ereignis auswählt: das Suchen nach Informationen über mindestens eines von Nachrichtenmeldungen über das Ereignis und Reaktionen auf das Ereignis; The method of claim 6, further comprising, when the user selects a query event: searching for information about at least one of news stories about the event, and reactions to the event; und das automatische Generieren einer Seite in Reaktion auf die Benutzerabfrage. and the automatic generation of a page in response to the user query.
  10. Verfahren nach Anspruch 9, wobei Entitäten in dem Ereignis identifiziert und abgerufene relevante Informationen über die Entitäten durchsucht werden. The method of claim 9, wherein entities identified in the event, and retrieved relevant information on the entities to be searched.
  11. Verfahren zum automatischen Extrahieren und Organisieren von Informationen durch eine Verarbeitungseinheit aus einer Sammlung von Dokumenten, die mehrere Modalitäten von Informationen in mehreren Sprachen zum Anzeigen für einen Benutzer haben, wobei das Verfahren aufweist: das Durchsuchen der Sammlung von Dokumenten, um Dokumente, die Audio-/Videodateien enthalten, zu identifizieren und schrittweise abzurufen; A method for automatically extracting and organizing information by a processing unit of a collection of documents that have multiple modalities of information in multiple languages ​​for display to a user, the method comprising: searching the collection of documents, documents that audio / video files included to identify and retrieve gradually; das Transkribieren von Text aus den Audio-/Videodateien, um eine textliche Darstellung bereitzustellen; transcribing text from the audio / video files to provide a textual representation; das Übersetzen der textlichen Darstellung, die in einer Fremdsprache vorliegt; translating the textual representation, which is in a foreign language; das schrittweise Extrahieren von gewünschten Informationen über mindestens eines von Entitäten, Aktivitäten und Ereignissen; the gradual extracting desired information about at least one of the entities, activities and events; das Organisieren von extrahierten Informationen; organizing the extracted information; und das Umwandeln von organisierten extrahierten Informationen in eine navigierbare Anzeige, die für den Benutzer darstellbar ist. and converting organized extracted information in a navigable display that is displayed to the user.
  12. Verfahren nach Anspruch 11, wobei das schrittweise Extrahieren von gewünschten Informationen aufweist: das Anwenden einer Pipeline zum Verarbeiten von natürlicher Sprache auf jedes Dokument, um alle in der Sammlung erkannten Entitäten zu wiederholen; The method of claim 11, wherein the step of extracting desired information comprising: applying a pipeline for processing natural language of each document in order to repeat all entities identified in the collection; das Identifizieren von Beziehungserwähnungen und Ereigniserwähnungen, an denen eine ausgewählte Entität beteiligt ist, wobei eine Entität mindestens eines von einem physischen belebten Objekt, einem physischen unbelebten Objekt, etwas, das einen Eigennamen hat, etwas, das eine messbare physische Eigenschaft hat, einer juristischen Einheit und abstrakten Konzepten ist, wobei eine Erwähnung ein Textbereich ist, der sich auf eine Entität bezieht; identifying relationship references and event notices in which a selected entity is involved, in which an entity of at least one of a physical animated object, a physical inanimate object, something that has a proper name, something that has a measurable physical property, a legal entity and abstract concepts, wherein a record is a text field relating to an entity; wobei eine Beziehung eine Verbindung zwischen zwei Entitäten ist, wobei eine Beziehungserwähnung ein Textbereich ist, der eine Beziehung beschreibt, und wobei ein Ereignis ein Satz von Beziehungen zwischen zwei oder mehreren Entitäten ist, an denen eine oder mehrere Aktionen beteiligt sind. wherein a relationship is a link between two entities, wherein a relationship mentioned is a text area, which describes a relationship, and wherein an event is a set of relationships between two or more entities to which one or more actions are involved.
  13. Verfahren nach Anspruch 11, wobei das Organisieren von extrahierten Informationen aufweist: das Wiederholen auf all den Entitäten, die in der Sammlung identifiziert wurden; The method of claim 11, wherein organizing the extracted information comprises: repeating all of the entities that have been identified in the collection; das Aufteilen der extrahierten Informationen über die Entität in ausgewählte Äquivalenzklassen, die äquivalente Informationen enthalten; dividing the extracted information about the entity selected in equivalence classes that include equivalent information; das Wiederholen auf all den Äquivalenzklassen; repeating to all the equivalence classes; das Auswählen eines Elements in jeder Äquivalenzklasse, um alle Elemente in der Äquivalenzklasse zu repräsentieren; to represent all elements in the equivalence class selecting an element in each equivalence class; und das Aufzeichnen von Informationen über die Äquivalenzklasse und über ein typisches Beispiel, das zur Verwendung beim Erzeugen der navigierbaren Anzeige ausgewählt wurde, wobei jede Äquivalenzklasse eine Sammlung von Elementen aufweist, wobei jedes Element einen Textbereich, der aus einem Dokument extrahiert wurde, zusammen mit einer Spezifikation von Informationen über die gewünschte Entität aufweist, die aus dem Textbereich abgeleitet wurde. and recording information on the equivalence class, and a typical example, which was selected for use in generating the navigable display, each equivalence class has a collection of elements, each element of a text region that was extracted from a document, along with a including specification information about the desired entity that has been derived from the text area.
  14. Verfahren nach Anspruch 11, wobei das Umwandeln von organisierten extrahierten Informationen in eine navigierbare Anzeige, die für den Benutzer darstellbar ist, aufweist: das Bewerten der Äquivalenzklassen von Informationen durch Zuweisen zu der Äquivalenzklasse von mindestens einem von einer höchsten Punktzahl für die Informationsteile in der Klasse, der durchschnittlichen Punktzahl ihrer Mitglieder, der mittleren Punktzahl ihrer Mitglieder und der Summe der Punktzahlen ihrer Mitglieder; The method of claim 11, wherein the converting organized extracted information in a navigable display that is displayed to the user comprises: the evaluation of the equivalence classes of information by assigning to the equivalence class of at least one top of a score for the pieces of information in the class , the average score of its members, the average score of their members and the sum of the scores of its members; das Sortieren der Äquivalenzklassen in absteigender Reihenfolge der Punktzahl, um einer Reihenfolge eine Rangordnung zuzuweisen, in der die Äquivalenzklassen für den Benutzer angezeigt werden; sorting the equivalence classes in descending order of the score to an order to assign a ranking to be displayed in the equivalence classes for the user; das Wiederholen für jede Äquivalentklasse eines Erstellens einer anzeigbaren Darstellung einer ausgewählten Instanz; repeating for each equivalent class of creating a displayable representation of a selected instance; und das Kombinieren der anzeigbaren Darstellungen, um eine anzeigbare Darstellung der Äquivalenzklassen zu erzeugen. and combining the displayable representations to generate a displayable representation of the equivalence classes.
  15. Verfahren nach Anspruch 14, wobei die anzeigbare Darstellung einen Absatz aufweist, der extrahierte Informationen enthält, die mit optischen Hervorhebungen gekennzeichnet sind. , The method of claim 14, wherein the displayable representation has a shoulder, the extracted information, which are characterized by optical highlighting.
  16. Nicht-flüchtige Computerprogrammspeichereinheit, die Anweisungen enthält, die von einem Prozessor ausführbar sind, um Informationen über Entitäten, Aktivitäten und Ereignisse aus multimodalen Quellen von natürlicher Sprache interaktiv anzuzeigen, wobei die nicht-flüchtige Computerprogrammspeichereinheit Speicher aufweist, der konfiguriert ist zum Speichern von: einem Informationenextraktionsmodul mit Anweisungscode zum Herunterladen von Dokumentinhalt aus Text und Audio-/Videodaten, zum Parsen des Dokumentinhalts, zum Erkennen von Erwähnungen, zum Koreferenzieren, zum dokumentübergreifenden Koreferenzieren und zum Extrahieren von Beziehungen; Nonvolatile computer program memory unit containing instructions that are executable by a processor to display information about entities, activities and events from multimodal sources of natural language interactive, wherein the non-volatile computer program storage unit includes memory configured to store: a information extraction module with instruction code to download document content of text and audio / video data to parse the document content, for recognizing mentions, for Koreferenzieren, to document cross-Koreferenzieren and extracting relations; einem Informationensammelmodul mit Anweisungscode zum Extrahieren von Bekanntschaften, Biografie und Beteiligungen an Ereignissen aus dem Informationenextraktionsmodul; an information collection module having instruction code to extract acquaintances, biography and investments in events from the information extraction module; und einem Informationenanzeigemodul mit Anweisungscode zum Anzeigen von Informationen aus dem Informationensammelmodul. and an information display module with instruction code to display information from the information collection module.
  17. Nicht-flüchtige Computerprogrammspeichereinheit nach Anspruch 16, wobei das Informationenextraktionsmodul des Weiteren Anweisungscode aufweist zum Transkribieren von Audiodaten aus Videoquellen und zum Übersetzen von nicht-englischen transkribierten Audiodaten in englischen Text. Nonvolatile computer program storage device of claim 16, wherein the information extraction module further comprises instruction code for transcribing audio data from video sources and for translating non-English transcribed audio data in English text.
  18. Nicht-flüchtige Computerprogrammspeichereinheit nach Anspruch 16, wobei das Informationenextraktionsmodul des Weiteren Anweisungscode zur Clusterbildung von Erwähnungen unter einer selben Entität und zum dokumentübergreifenden Verlinken von Entitäts-Clustern aufweist. Nonvolatile computer program storage device of claim 16, wherein the information extraction module further instruction code for clustering of references under the same entity and the document cross-linking of clusters entity has.
  19. Nicht-flüchtige Computerprogrammspeichereinheit nach Anspruch 16, wobei das Informationensammelmodul des Weiteren Anweisungscode zum Eingeben eines Satzes und einer Entität und zum Extrahieren von bestimmten Informationen über die Entität aus dem Satz aufweist. Nonvolatile computer program storage device of claim 16, wherein the information collection module further comprises instruction code for inputting a sentence and an entity and for extracting specific information about the entity from the kit.
  20. Nicht-flüchtige Computerprogrammspeichereinheit nach Anspruch 16, wobei das Informationenanzeigemodul des Weiteren Anweisungscode zum Gruppieren von Ergebnissen in nicht-redundante Sätze, zum Sortieren der nicht-redundanten Sätze, zum Erzeugen einer kurzen Beschreibung jedes Satzes, zum Auswählen eines repräsentativen Snippets für jeden Satz, zum Hervorheben der Abschnitte des Snippets, die Informationen enthalten, die zu einer bestimmten Registerkarte gehören, zum Erstellen von Navigations-Hyperlinks zu anderen Seiten und zum Generieren von Daten enthält, die zur grafischen Darstellung von Registerkarteninhalt verwendet werden. Nonvolatile computer program storage device of claim 16, wherein the information display module further instruction code for grouping results in non-redundant sets of sorting the non-redundant sets, for generating a brief description of each set, to select a representative snippets for each set, for contain highlighting sections of the snippet, the information pertaining to a specific tab that contains to create navigation links to other pages and to generate data that are used to graph tab content.
  21. Nicht-flüchtige Computerprogrammspeichereinheit, die Anweisungen enthält, die von einem Prozessor zum automatischen Extrahieren und Organisieren von Informationen aus einer Vielzahl von Datenquellen ausführbar sind, wobei die nicht-flüchtige Computerprogrammspeichereinheit Speicher aufweist, der konfiguriert ist zum Speichern von: Anweisungscode zum Anwenden einer Informationenextraktions-Pipeline zum Verarbeiten von natürlicher Sprache, die eine automatische Erkennung von Entitäten aufweist, auf die Datenquellen; Nonvolatile computer program storage device containing instructions that are executable by a processor for automatically extracting and organizing information from a plurality of data sources, wherein the nonvolatile computer program storage unit store is configured for storing: instruction code for applying a Informationenextraktions- pipeline for processing natural language, which has an automatic detection of entities to the data sources; Anweisungscode zum Identifizieren von Informationen über erkannte Entitäten durch Analysieren von Produkten der Pipeline zum Verarbeiten von natürlicher Sprache; Instruction code for identifying information about entities recognized by analyzing products of the pipeline for processing natural language; Anweisungscode zum Gruppieren von identifizierten Informationen in Äquivalenzklassen, die äquivalente Informationen enthalten; includes instruction code for grouping of information identified in equivalence classes, the equivalent information; Anweisungscode zum Erstellen von mindestens einer anzeigbaren Darstellung der Äquivalenzklassen; Instruction code to create at least a displayable representation of the equivalence classes; Anweisungscode zum Berechnen einer Reihenfolge, in der die mindestens eine anzeigbare Darstellung angezeigt wird; Instruction code for calculating a sequence in which the at least one displayable representation is displayed; und Anweisungscode zum Erzeugen einer kombinierten Darstellung der Äquivalenzklassen, die eine Reihenfolge einhält, in der die anzeigbare Darstellung angezeigt wird. and instruction code to produce a combined representation of the equivalence classes that maintains a sequence in which the displayable representation is displayed.
  22. Nicht-flüchtige Computerprogrammspeichereinheit nach Anspruch 21, wobei jede Äquivalenzklasse eine Sammlung von Elementen aufweist, wobei jedes Element einen Textbereich, der aus einem Dokument extrahiert wurde, zusammen mit einer Spezifikation von Informationen über eine gewünschte Entität aufweist, die aus dem Textbereich abgeleitet wurde. Nonvolatile computer program storage device of claim 21, wherein each equivalence class has a collection of elements, each element having a text area that was extracted from a document, together with a specification of information about a desired entity that has been derived from the text area.
  23. Nicht-flüchtige Computerprogrammspeichereinheit nach Anspruch 21, wobei das Berechnen einer Reihenfolge, in der die anzeigbaren Darstellungen angezeigt werden, des Weiteren das zufällige Berechnen der Reihenfolge aufweist. Nonvolatile computer program storage device of claim 21, wherein calculating an order in which the displayable images are displayed, further comprising calculating the random order.
  24. Nicht-flüchtige Computerprogrammspeichereinheit nach Anspruch 21, wobei das Gruppieren von identifizierten Informationen in Äquivalenzklassen des Weiteren das Zuweisen jeder identifizierten Information zu einer separaten Äquivalenzklasse aufweist. Nonvolatile computer program storage device of claim 21, wherein the grouping of information identified in equivalence classes further comprises assigning each identified information to a separate equivalence class.
  25. Nicht-flüchtige Computerprogrammspeichereinheit nach Anspruch 21, wobei das Gruppieren von identifizierten Informationen in Äquivalenzklassen des Weiteren aufweist: das Berechnen einer repräsentativen Instanz für jede Äquivalenzklasse; Nonvolatile computer program storage device of claim 21, wherein the grouping of information identified equivalence classes having in further comprising: calculating a representative instance for each equivalence class; das Sicherstellen, dass repräsentative Instanzen von verschiedenen Klassen in Beziehung zueinander nicht redundant sind; ensuring that representative instances of different classes in relation to each other are not redundant; und das Sicherstellen, dass Instanzen jeder Äquivalenzklasse in Beziehung auf die repräsentative Instanz der Äquivalenzklasse redundant sind. and ensuring that each equivalence class instances are redundant in relation to the representative instance of the equivalence class.
DE201310205737 2012-06-11 2013-04-02 Method for automatically extracting and organizing information from data sources in e.g. web pages, involves producing combined representation of the equivalence classes in which the order for displayable representation is displayed Pending DE102013205737A1 (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US13493659 US20130332450A1 (en) 2012-06-11 2012-06-11 System and Method for Automatically Detecting and Interactively Displaying Information About Entities, Activities, and Events from Multiple-Modality Natural Language Sources
US13/493,659 2012-06-11
US13543157 US20140195884A1 (en) 2012-06-11 2012-07-06 System and method for automatically detecting and interactively displaying information about entities, activities, and events from multiple-modality natural language sources
US13/543,157 2012-07-06

Publications (1)

Publication Number Publication Date
DE102013205737A1 true true DE102013205737A1 (en) 2013-12-12

Family

ID=49626021

Family Applications (1)

Application Number Title Priority Date Filing Date
DE201310205737 Pending DE102013205737A1 (en) 2012-06-11 2013-04-02 Method for automatically extracting and organizing information from data sources in e.g. web pages, involves producing combined representation of the equivalence classes in which the order for displayable representation is displayed

Country Status (2)

Country Link
US (1) US20140195884A1 (en)
DE (1) DE102013205737A1 (en)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9158754B2 (en) * 2012-03-29 2015-10-13 The Echo Nest Corporation Named entity extraction from a block of text
US9280520B2 (en) * 2012-08-02 2016-03-08 American Express Travel Related Services Company, Inc. Systems and methods for semantic information retrieval
US9619457B1 (en) * 2014-06-06 2017-04-11 Google Inc. Techniques for automatically identifying salient entities in documents
US9864744B2 (en) 2014-12-03 2018-01-09 Facebook, Inc. Mining multi-lingual data
US9830404B2 (en) 2014-12-30 2017-11-28 Facebook, Inc. Analyzing language dependency structures
US9830386B2 (en) 2014-12-30 2017-11-28 Facebook, Inc. Determining trending topics in social media
US9477652B2 (en) 2015-02-13 2016-10-25 Facebook, Inc. Machine learning dialect identification
US20170017897A1 (en) * 2015-07-17 2017-01-19 Knoema Corporation Method and system to provide related data
US9734142B2 (en) * 2015-09-22 2017-08-15 Facebook, Inc. Universal translation
US9805029B2 (en) 2015-12-28 2017-10-31 Facebook, Inc. Predicting future translations
US9842161B2 (en) * 2016-01-12 2017-12-12 International Business Machines Corporation Discrepancy curator for documents in a corpus of a cognitive computing system
US9842096B2 (en) 2016-05-12 2017-12-12 International Business Machines Corporation Pre-processing for identifying nonsense passages in documents being ingested into a corpus of a natural language processing system

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5980096A (en) * 1995-01-17 1999-11-09 Intertech Ventures, Ltd. Computer-based system, methods and graphical interface for information storage, modeling and stimulation of complex systems
US6816858B1 (en) * 2000-03-31 2004-11-09 International Business Machines Corporation System, method and apparatus providing collateral information for a video/audio stream
US7013323B1 (en) * 2000-05-23 2006-03-14 Cyveillance, Inc. System and method for developing and interpreting e-commerce metrics by utilizing a list of rules wherein each rule contain at least one of entity-specific criteria
US8265925B2 (en) * 2001-11-15 2012-09-11 Texturgy As Method and apparatus for textual exploration discovery
CA2500573A1 (en) * 2005-03-14 2006-09-14 Oculus Info Inc. Advances in nspace - system and method for information analysis
US20070282665A1 (en) * 2006-06-02 2007-12-06 Buehler Christopher J Systems and methods for providing video surveillance data
WO2008141673A1 (en) * 2007-05-21 2008-11-27 Ontos Ag Semantic navigation through web content and collections of documents
WO2009050521A3 (en) * 2007-10-17 2009-07-02 Alastair Chisholm Computer-implemented methods displaying, in a first part, a document and in a second part, a selected index of entities identified in the document
EP2212772A4 (en) * 2007-10-17 2017-04-05 Vcvc Lll Llc Nlp-based content recommender
US8140578B2 (en) * 2008-07-15 2012-03-20 International Business Machines Corporation Multilevel hierarchical associations between entities in a knowledge system
US8527522B2 (en) * 2008-09-05 2013-09-03 Ramp Holdings, Inc. Confidence links between name entities in disparate documents
US8266148B2 (en) * 2008-10-07 2012-09-11 Aumni Data, Inc. Method and system for business intelligence analytics on unstructured data
US8645125B2 (en) * 2010-03-30 2014-02-04 Evri, Inc. NLP-based systems and methods for providing quotations
US20110258556A1 (en) * 2010-04-16 2011-10-20 Microsoft Corporation Social home page
US9563656B2 (en) * 2010-05-17 2017-02-07 Xerox Corporation Method and system to guide formulations of questions for digital investigation activities
US8732584B2 (en) * 2010-11-09 2014-05-20 Palo Alto Research Center Incorporated System and method for generating an information stream summary using a display metric
US9043360B2 (en) * 2010-12-17 2015-05-26 Yahoo! Inc. Display entity relationship
US20130124490A1 (en) * 2011-11-10 2013-05-16 Microsoft Corporation Contextual suggestion of search queries

Also Published As

Publication number Publication date Type
US20140195884A1 (en) 2014-07-10 application

Similar Documents

Publication Publication Date Title
Kontopoulos et al. Ontology-based sentiment analysis of twitter posts
Thelwall Introduction to webometrics: Quantitative web research for the social sciences
Cafarella et al. Uncovering the Relational Web.
Finin et al. Annotating named entities in Twitter data with crowdsourcing
Sekine On-demand information extraction
Kelle Computer-assisted qualitative data analysis
Yang et al. Citation analysis: a comparison of Google Scholar, Scopus, and Web of Science
US20080243479A1 (en) Open information extraction from the web
Conrad et al. Opinion mining in legal blogs
US7596571B2 (en) Ecosystem method of aggregation and search and related techniques
US20090055242A1 (en) Content identification and classification apparatus, systems, and methods
US20080097985A1 (en) Information Access With Usage-Driven Metadata Feedback
Altheide Reflections: Ethnographic content analysis
Rogers Internet research: The question of method—A keynote address from the YouTube and the 2008 election cycle in the United States Conference
US20110004465A1 (en) Computation and Analysis of Significant Themes
Wang et al. Automatic online news issue construction in web environment
DE102010050776A1 (en) Method for utilizing partitioned browser windows for search engine, involves searching search output list of category B in complement document that includes data characterizing document with respect to original data in web documents
Burdick et al. Extracting, linking and integrating data from public sources: A financial case study
US20060026174A1 (en) Patent mapping
DE102011106477A1 (en) Method for providing data for search engine in internet, involves creating web address in complement document for ensuring data tapping by search engine and controlling presentation of specific data in complement document
US8060513B2 (en) Information processing with integrated semantic contexts
Batool et al. Precise tweet classification and sentiment analysis
US20140195884A1 (en) System and method for automatically detecting and interactively displaying information about entities, activities, and events from multiple-modality natural language sources
US20130332450A1 (en) System and Method for Automatically Detecting and Interactively Displaying Information About Entities, Activities, and Events from Multiple-Modality Natural Language Sources
Carter Tobacco document research reporting

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication