DE102013205737A1

DE102013205737A1 - Method for automatically extracting and organizing information from data sources in e.g. web pages, involves producing combined representation of the equivalence classes in which the order for displayable representation is displayed

Info

Publication number: DE102013205737A1
Application number: DE201310205737
Authority: DE
Inventors: Vittorio Castelli; Radu Florian; Xiaoqiang Luo; Hema Raghavan
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2012-06-11
Filing date: 2013-04-02
Publication date: 2013-12-12
Also published as: US20140195884A1

Abstract

The method involves applying an information extraction pipeline to the data sources for processing natural language. The information over recognized entities is identified by analysis of products of the pipeline for processing natural language. The identified information is grouped in equivalence classes containing equivalent information. The displayable representation of the equivalence classes is constructed (170), and combined representation of the equivalence classes in which the order for displayable representation is displayed is produced. Independent claims are included for the following: (1) method for processing information by processing unit; and (2) non-volatile computer program memory unit.

Description

ERKLÄRUNG ZUR BUNDESSTAATLICHEN FÖRDERUNG VON FORSCHUNG ODER ENTWICKLUNGDECLARATION ON THE FEDERAL STATE PROMOTION OF RESEARCH OR DEVELOPMENT

Diese Erfindung wurde mithilfe von Regierungsförderung unter der Vertrags-Nr.: HR0011-08-C-0110 gemacht (vergeben durch Defense Advanced Research Project Agency)(DARPA). Die Regierung hält bestimmte Rechte an dieser Erfindung.This invention was made by government sponsorship under Contract No .: HR0011-08-C-0110 (awarded by Defense Advanced Research Project Agency) (DARPA). The government holds certain rights to this invention.

HINTERGRUNDBACKGROUND

Technisches GebietTechnical area

Die vorliegende Offenbarung betrifft Informationstechnologie und insbesondere Systeme zum Verarbeiten von natürlicher Sprache (NLP – Natural Language Processing).The present disclosure relates to information technology, and more particularly, to natural language processing (NLP) systems.

Erörterung des einschlägigen Stands der TechnikDiscussion of the Related Art

Presseagenturen, Blogger, Twitter, wissenschaftliche Zeitschriften und Tagungen, alle erzeugen extrem große Mengen von unstrukturierten Daten in textlicher, Audio- und Video-Form. Große Mengen von derartigen unstrukturierten Daten und Informationen können aus mehreren Modalitäten in mehreren Sprachen gesammelt werden, z. B. Text-, Audio- und Videoquellen im Internet. Es besteht ein Bedarf für das Analysieren der Informationen und das Erzeugen einer kompakten Darstellung von: 1) Informationen, wie beispielsweise Aktionen von bestimmten Entitäten (z. B. Personen, Organisationen, Ländern); 2) Aktivitäten (z. B. der präsidiale Wahlkampf); und 3) Ereignissen (z. B. der Tod einer berühmten Person). Derzeit können derartige Darstellungen manuell erzeugt werden, doch diese Lösung ist nicht wirtschaftlich, und sie erfordert geschulte Mitarbeiter, vor allem wenn die Informationen aus mehreren Sprachen gesammelt werden. Derartige manuell erzeugte Darstellungen sind im Allgemeinen auch nicht skalierbar.News agencies, bloggers, Twitter, scientific journals and meetings all produce extremely large amounts of unstructured data in textual, audio and video form. Large amounts of such unstructured data and information can be collected from multiple modalities in multiple languages, e.g. B. text, audio and video sources on the Internet. There is a need for analyzing the information and generating a compact representation of: 1) information such as actions of particular entities (eg, individuals, organizations, countries); 2) activities (such as the presidential campaign); and 3) events (eg the death of a famous person). Currently, such representations can be generated manually, but this solution is not economical and requires trained staff, especially if the information is collected from multiple languages. Such manually generated representations are generally also not scalable.

KURZDARSTELLUNGSUMMARY

Beispielhafte Ausführungsformen der vorliegenden Offenbarung stellen Verfahren zum automatischen Extrahieren und Organisieren von Daten bereit, so dass ein Benutzer Informationen über Entitäten, Aktivitäten und Ereignisse interaktiv untersuchen kann.Exemplary embodiments of the present disclosure provide methods for automatically extracting and organizing data so that a user can interactively explore information about entities, activities, and events.

Gemäß beispielhaften Ausführungsformen können Informationen in Echtzeit aus mehreren Modalitäten und mehreren Sprachen automatisch extrahiert und in einer navigierbaren und kompakten Darstellung der abgerufenen Informationen angezeigt werden.According to exemplary embodiments, information in real time may be automatically extracted from multiple modalities and multiple languages and displayed in a navigable and compact representation of the retrieved information.

Beispielhafte Ausführungsformen können Techniken zum Verarbeiten von natürlicher Sprache verwenden, um Informationen aus mehreren Quellen, in mehreren Modalitäten und in mehreren Sprachen automatisch zu analysieren, einschließlich Webseiten, Blogs, Foren, Radio-Feeds, Video und Fernsehen, sind aber nicht darauf beschränkt.Exemplary embodiments may use natural language processing techniques to automatically analyze information from multiple sources, in multiple modalities, and in multiple languages, including web pages, blogs, forums, radio feeds, video, and television.

Beispielhafte Ausführungsformen können die Ausgabe von automatischen Maschinenübersetzungssystemen verwenden, die Fremdsprachenquellen in die Sprache des Benutzers übersetzen, und die Ausgabe von automatischen Sprachtranskriptionssystemen verwenden, die Video- und Audio-Feeds in Text umwandeln.Exemplary embodiments may use the output of automatic machine translation systems that translate foreign language sources into the user's language, and use the output of automatic speech transcription systems that convert video and audio feeds to text.

Beispielhafte Ausführungsformen können Techniken zum Verarbeiten von natürlicher Sprache verwenden, einschließlich Werkzeugen zum Extrahieren von Informationen, Werkzeugen zum Beantworten von Fragen und Destillier-Werkzeuge, um den Text, der wie oben beschrieben erzeugt wurde, automatisch zu analysieren und durchsuchbare und zusammenfassbare Informationen zu extrahieren. Das System kann eine Namen-Entitäts-Erkennung, eine dokumentübergreifende Koreferenzauflösung, eine Beziehungserkennung und eine Ereigniserkennung und -verfolgung ausführen.Exemplary embodiments may use natural language processing techniques, including information extraction tools, question answering tools, and distilling tools, to automatically analyze the text generated as described above and to extract searchable and summarized information. The system can perform name-entity recognition, cross-document coreference resolution, relationship recognition, and event detection and tracking.

Beispielhafte Ausführungsformen können Techniken zur automatischen Relevanzerkennung und Verfahren zur Redundanzreduzierung verwenden, um den Benutzer mit relevanten und nicht-redundanten Informationen zu versorgen.Exemplary embodiments may use automatic relevancy detection techniques and redundancy reduction techniques to provide the user with relevant and non-redundant information.

Beispielhafte Ausführungsformen können die gewünschten Informationen in einer kompakten und navigierbaren Darstellung anzeigen durch: Bereitstellen von Mitteln für den Benutzer, um Entitäten, Aktivitäten oder Ereignisse von Interesse anzugeben (zum Beispiel: durch Eintippen von Anfragen in natürlicher Sprache, durch Auswählen von Entitäten aus einer automatisch generierten Liste von Entitäten, die benutzerdefinierte Anforderungen erfüllen, wie beispielsweise Entitäten, die in Datenquellen während einer benutzerdefinierten Zeit hervorstechend dargestellt werden, durch Auswählen von Textabschnitten beim Durchsuchen eines Artikels oder durch Auswählen von Ereignissen oder Themen aus Darstellungen von automatisch erkannten Ereignissen/Themen über einen bestimmten Zeitraum.Exemplary embodiments may display the desired information in a compact and navigable presentation by: providing means for the user to entities, activities or specify events of interest (for example, by typing in natural language queries, by selecting entities from an automatically generated list of entities that meet custom requirements, such as entities that are prominently displayed in data sources during a user-defined time Selecting sections of text when browsing an article or selecting events or topics from views of automatically detected events / topics over a period of time.

Beispielhafte Ausführungsformen können in Reaktion auf die Benutzeranfrage automatisch eine Seite generieren, indem sie anpassungsfähig eine Vorlage erstellen, die der vermuteten Absicht des Benutzers am besten entspricht (zum Beispiel: Wenn der Benutzer eine Person auswählt, die ein Politiker ist, würde das System diese Tatsache erkennen, nach Informationen über Wahlkampf, öffentliche Auftritte, Erklärungen und Chronik des Dienstes für die Öffentlichkeit der Person suchen; wenn der Benutzer ein Unternehmen auswählt, würde das System nach aktuellen Nachrichten über das Unternehmen, nach Informationen über die Spitzenvertreter des Unternehmens, nach Pressemitteilungen usw. suchen).Exemplary embodiments may automatically generate a page in response to the user request by adaptively creating a template that best suits the presumed intention of the user (for example, if the user selects a person who is a politician, the system would do so) For information on election campaigns, public appearances, explanations and history of service to the public, if the user selects a company, the system would look for breaking news about the company, for information about the company 's top representatives, for press releases, etc . search).

Wenn der Benutzer gemäß beispielhaften Ausführungsformen ein Ereignis auswählt, kann das System nach Nachrichtenmeldungen über das Ereignis, nach Reaktionen auf das Ereignis, nach Resultaten des Ereignisses oder nach zugehörigen Ereignissen suchen. Das System kann auch automatisch die an dem Ereignis beteiligten Entitäten erkennen, wie beispielsweise Menschen, Länder, Kommunalverwaltungen, Unternehmen und Organisationen, und relevante Informationen über diese Entitäten abrufen.When the user selects an event in accordance with exemplary embodiments, the system may search for news reports about the event, for responses to the event, for results of the event, or for related events. The system can also automatically detect the entities involved in the event, such as people, countries, local governments, businesses, and organizations, and retrieve relevant information about those entities.

Beispielhafte Ausführungsformen können dem Benutzer gestatten, Entitäten zu verfolgen, die auf der erzeugten Seite vorkommen, einschließlich dem automatischen Erzeugen einer Biografie einer Person aus den verfügbaren Daten und dem Auflisten von kürzlichen Aktionen durch eine Organisation, die aus den verfügbaren Daten automatisch extrahiert wurde.Exemplary embodiments may allow the user to track entities occurring on the generated page, including automatically generating a biography of a person from the available data and listing recent actions by an organization that has been automatically extracted from the available data.

Beispielhafte Ausführungsformen können dem Benutzer gestatten, Ereignisse oder Aktivitäten zu untersuchen, die auf der Seite vorkommen, einschließlich:
automatisches Erstellen einer Zeitleiste der hervorstechenden Augenblicke in einem andauernden Ereignis.Exemplary embodiments may allow the user to examine events or activities that occur on the page, including:
automatically create a timeline of the most prominent moments in a continuing event.

Beispielhafte Ausführungsformen können dem Benutzer gestatten, die Verbindungen zwischen Entitäten und Ereignissen zu untersuchen (zum Beispiel: Bereitstellen von Informationen über die Rolle eine Unternehmens in einem Ereignis, Auflisten von Zitaten von einer Person zu einem Thema, Beschreiben der Beziehung zwischen zwei Unternehmen, Zusammenfassen von Treffen oder Kontakten zwischen zwei Leuten und optional Abrufen von Bildern der gewünschten Entitäten.Exemplary embodiments may allow the user to examine the connections between entities and events (for example: providing information about the role of a company in an event, listing quotes from a person to a topic, describing the relationship between two entities, summarizing Meetings or contacts between two people and optionally retrieve images of the desired entities.

Gemäß einer beispielhaften Ausführungsform wird ein Verfahren zum automatischen Extrahieren und Organisieren von Informationen aus einer Vielzahl von Datenquellen durch eine Verarbeitungseinheit bereitgestellt. Eine Informationenextraktions-Pipeline zum Verarbeiten von natürlicher Sprache, die eine automatische Erkennung von Entitäten aufweist, wird auf die Datenquellen angewendet. Informationen über erkannte Entitäten werden identifiziert, indem Ergebnisse der Pipeline zum Verarbeiten von natürlicher Sprache analysiert werden. Identifizierte Informationen werden in Äquivalenzklassen gruppiert, die äquivalente Informationen enthalten. Mindestens eine anzeigbare Darstellung der Äquivalenzklassen wird erstellt. Eine Reihenfolge, in der die mindestens eine anzeigbare Darstellung angezeigt wird, wird berechnet. Eine kombinierte Darstellung der Äquivalenzklassen, die die Reihenfolge einhält, in der die anzeigbare Darstellung angezeigt wird, wird erzeugt.According to an exemplary embodiment, a method for automatically extracting and organizing information from a plurality of data sources by a processing unit is provided. An information extraction pipeline for processing natural language that has automatic recognition of entities is applied to the data sources. Information about detected entities is identified by analyzing results from the natural language processing pipeline. Identified information is grouped into equivalence classes that contain equivalent information. At least one displayable representation of the equivalence classes is created. An order in which the at least one displayable representation is displayed is calculated. A combined representation of the equivalence classes that follows the order in which the displayable representation is displayed is generated.

Alle Äquivalenzklassen können eine Sammlung von Elementen enthalten. Jedes Element kann einen Textbereich, der aus einem Dokument extrahiert wurde, zusammen mit einer Spezifikation von Informationen über eine gewünschte Entität enthalten, die aus dem Textbereich abgeleitet wurde.All equivalence classes can contain a collection of elements. Each element may contain a text area extracted from a document along with a specification of information about a desired entity derived from the text area.

Das Berechnen einer Reihenfolge, in der die anzeigbaren Darstellungen angezeigt werden, kann ein zufälliges Berechnen der Reihenfolge enthalten.Calculating an order in which the displayable representations are displayed may include randomly calculating the order.

Das Gruppieren der identifizierten Informationen in Äquivalenzklassen kann das Zuweisen jeder identifizierten Information zu einer separaten Äquivalenzklasse enthalten.Grouping the identified information into equivalence classes may include assigning each identified information to a separate equivalence class.

Das Gruppieren von identifizierten Informationen in Äquivalenzklassen kann das Berechnen einer repräsentativen Instanz jeder Äquivalenzklasse enthalten, wodurch sichergestellt wird, dass repräsentative Instanzen von verschiedenen Klassen in Beziehung zueinander nicht redundant sind, und sichergestellt wird, dass Instanzen jeder Äquivalenzklasse in Beziehung auf die repräsentative Instanz der Äquivalenzklasse redundant sind.Grouping identified information into equivalence classes may include computing a representative instance of each equivalence class, thereby ensuring that representative instances of different classes are non-redundant in relation to each other, and ensuring that that instances of each equivalence class are redundant in relation to the representative instance of the equivalence class.

Gemäß einer beispielhaften Ausführungsform wird ein Verfahren zum Verarbeiten von Informationen durch eine Verarbeitungseinheit bereitgestellt. Eine Benutzeranfrage wird empfangen. Eine Benutzeranfrageabsicht wird aus der Benutzeranfrage vermutet, um eine vermutete Benutzerabsicht zu entwickeln. In Reaktion auf die Benutzeranfrage wird automatisch eine Seite generiert, indem anpassungsfähig eine Vorlage, die der vermuteten Benutzerabsicht entspricht, unter Verwendung der natürlicher Verarbeitung von mehreren Modalitäten erstellt wird, einschließlich mindestens einer von Text, Audio und Video.According to an exemplary embodiment, a method of processing information by a processing unit is provided. A user request is received. A user request intent is suspected from the user request to develop a suspected user intent. In response to the user request, a page is automatically generated by adaptively creating a template that conforms to the presumed user intent, using the natural processing of multiple modalities, including at least one of text, audio, and video.

Wenn die Benutzeranfrage eine Person auswählt, die einen politischen Status hat, kann nach dem politischen Status gesucht werden, es kann nach Informationen über mindestens eines von Wahlkampf, öffentlichen Auftritten, Erklärungen und Chronik des Dienstes für die Öffentlichkeit gesucht werden, und in Reaktion auf die Benutzeranfrage kann automatisch eine Seite generiert werden.If the user request selects a person who has political status, it may search for political status, search for information about at least one of campaigning, public appearances, explanations and history of the service to the public, and in response to the User request can automatically generate a page.

Wenn die Benutzeranfrage Unternehmensinformationen in mindestens einer von kürzlichen Nachrichten über das Unternehmen auswählt, können Informationen über die Spitzenvertreter des Unternehmens und Pressemitteilungen für das Unternehmen gesucht werden, und in Reaktion auf die Benutzeranfrage kann automatisch eine Seite generiert werden.When the user request selects company information in at least one of recent news stories about the company, information about the company's top representatives and press releases for the company can be searched, and a page can be automatically generated in response to the user request.

Wenn die Benutzeranfrage Ereignisinformationen über mindestens eine von Nachrichtenmeldungen auswählt, können Punkte über das Ereignis ausgewählt und Reaktionen auf das Ereignis durchsucht werden, und in Reaktion auf die Benutzeranfrage kann automatisch eine Seite generiert werden.When the user request selects event information about at least one of news stories, points about the event can be selected and responses to the event can be searched, and a page can be automatically generated in response to the user request.

Entitäten in dem Ereignis und abgerufene relevante Informationen über die Entitäten können identifiziert und durchsucht werden.Entities in the event and retrieved relevant information about the entities can be identified and searched.

Gemäß einer beispielhaften Ausführungsform wird ein Verfahren zum automatischen Extrahieren und Organisieren von Informationen durch eine Verarbeitungseinheit aus einer Sammlung von Dokumenten bereitgestellt, die mehrere Modalitäten von Informationen in mehreren Sprachen zum Anzeigen für einen Benutzer haben. Die Sammlung von Dokumenten wird durchsucht, um Dokumente, die Audio-/Video-Dateien enthalten, zu identifizieren und schrittweise abzurufen. Text aus den Audio-/Video-Dateien wird transkribiert, um eine textliche Darstellung bereitzustellen. Text einer Fremdsprache in der textlichen Darstellung wird übersetzt. Gewünschte Informationen über mindestens eines von Entitäten, Aktivitäten und Ereignissen werden schrittweise extrahiert. Extrahierte Informationen werden organisiert. Organisierte extrahierte Informationen werden in eine navigierbare Anzeige umgewandelt, die für den Benutzer darstellbar ist.According to an exemplary embodiment, a method for automatically extracting and organizing information is provided by a processing unit from a collection of documents having multiple modalities of multilingual information for display to a user. The collection of documents is searched to identify and incrementally retrieve documents containing audio / video files. Text from the audio / video files is transcribed to provide a textual representation. Text of a foreign language in the textual representation is translated. Desired information about at least one of entities, activities and events is extracted step by step. Extracted information is organized. Organized extracted information is converted into a navigable display that is displayable to the user.

Das schrittweise Extrahieren von gewünschten Informationen kann das Anwenden einer Pipeline zum Verarbeiten von natürlicher Sprache auf jedes Dokument enthalten, um alle Entitäten zu wiederholen, die in der Sammlung erkannt wurden, und das Identifizieren von Beziehungserwähnungen und Ereigniserwähnungen, an denen eine ausgewählte Entität beteiligt ist, wobei eine Entität mindestens eines von einem physischen belebten Objekt, einem physischen unbelebten Objekt, etwas, das einen Eigennamen hat, etwas, das eine messbare physische Eigenschaft hat, einer juristischen Einheit und abstrakten Konzepten ist, eine Erwähnung ein Textbereich ist, der sich auf eine Entität bezieht, eine Beziehung eine Verbindung zwischen zwei Entitäten ist, eine Beziehungserwähnung ein Textbereich ist, der eine Beziehung beschreibt, und ein Ereignis ein Satz von Beziehungen zwischen zwei oder mehreren Entitäten ist, an denen eine oder mehrere Aktionen beteiligt sind.The step-by-step extraction of desired information may include applying a natural language processing pipeline to each document to repeat all the entities recognized in the collection, and identifying relationship mentions and event mentions involving a selected entity, where an entity is at least one of a physical animated object, a physical inanimate object, something that has a proper name, something that has a measurable physical property, a legal entity and abstract concepts, a mention is a text area that refers to a Entity refers to a relationship being a connection between two entities, a relationship mention being a text area describing a relationship, and an event being a set of relationships between two or more entities involving one or more actions.

Das Organisieren von extrahierten Informationen kann das Wiederholen auf all den Entitäten, die in der Sammlung identifiziert wurden, des Aufteilens der über die Entität extrahierten Informationen in ausgewählte Äquivalenzklassen, die äquivalente Informationen enthalten, das Wiederholen des Auswählens eines Elements in jeder Äquivalenzklasse auf all den Äquivalenz-Klassen, um alle Elemente in der Äquivalenzklasse darzustellen, und des Aufzeichnens von Informationen über die Äquivalenzklasse und über ein typisches Beispiel enthalten, das für die Verwendung beim Erzeugen der navigierbaren Anzeige ausgewählt wird, wobei jede Äquivalenzklasse eine Sammlung von Elementen enthalten kann, wobei jedes Element einen Textbereich, der aus einem Dokument extrahiert wurde, zusammen mit einer Spezifikation der Informationen über die gewünschte Entität hat, die aus dem Textbereich abgeleitet wurde.Organizing extracted information may include repeating on all of the entities identified in the collection, dividing the information extracted via the entity into selected equivalence classes containing equivalent information, repeating selecting an element in each equivalence class to all of the equivalence Class to represent all elements in the equivalence class, and to record information about the equivalence class and a typical example selected for use in generating the navigable display, wherein each equivalence class may include a collection of elements, each Element has a text area extracted from a document along with a specification of the information about the desired entity derived from the text area.

Das Umwandeln von organisierten extrahierten Informationen in eine navigierbare Anzeige, die für den Benutzer darstellbar ist, kann das Bewerten der Äquivalenzklassen von Informationen enthalten, indem der Äquivalenzklasse mindestens eines von einer höchsten Punktzahl für die Informationsteile in der Klasse, der durchschnittlichen Punktzahl ihrer Mitglieder, der mittleren Punktzahl ihrer Mitglieder und der Summe der Punktzahlen ihrer Mitglieder zugewiesen wird, wobei die Äquivalenzklassen in absteigender Reihenfolge der Punktzahl sortiert werden, um einer Reihenfolge eine Rangordnung zuzuweisen, in der die Äquivalenzklassen für den Benutzer angezeigt werden, wobei für jede Äquivalenzklasse das Erstellen einer anzeigbaren Darstellung einer ausgewählten Instanz und das Kombinieren der anzeigbaren Darstellungen wiederholt wird, um eine anzeigbare Darstellung der Äquivalenzklassen zu erzeugen.Converting organized extracted information into a navigable display that is displayable to the user may include evaluating the equivalence classes of information by: the equivalence class is assigned at least one of a highest score for the pieces of information in the class, the average score of its members, the mean score of its members, and the sum of the scores of its members, with the equivalence classes sorted in descending order of the score by an order assign a ranking in which the equivalence classes are displayed to the user, wherein for each equivalence class, creating a displayable representation of a selected entity and combining the displayable representations is repeated to produce a displayable representation of the equivalence classes.

Die anzeigbare Darstellung kann einen Absatz enthalten, der extrahierte Informationen enthält, die mit visuellen Hervorhebungen gekennzeichnet sind.The displayable representation may include a paragraph containing extracted information labeled with visual highlights.

Gemäß einer beispielhaften Ausführungsform wird eine nicht-flüchtige Computerprogrammspeichereinheit bereitgestellt, die Anweisungen enthält, die von einem Prozessor zum interaktiven Anzeigen von Informationen über Entitäten, Aktivitäten und Ereignissen aus multimodalen Quellen von natürlicher Sprache ausführbar sind. Ein Informationenextraktionsmodul enthält Anweisungscode zum Herunterladen von Dokumentinhalt aus Text und Audio-/Videodaten, zum Parsen des Dokumentinhalts, zum Erkennen von Erwähnungen, zum Koreferenzieren, zum dokumentübergreifenden Koreferenzieren und zum Extrahieren von Beziehungen. Ein Informationensammelmodul enthält Anweisungscode zum Extrahieren von Bekanntschaften, Biografie und Beteiligung an Ereignissen aus dem Informationenextraktionsmodul. Ein Informationenanzeigemodul enthält Anweisungscode zum Anzeigen von Informationen aus dem Informationensammelmodul.In accordance with an exemplary embodiment, a non-transitory computer program storage unit is provided that includes instructions executable by a processor for interactively displaying information about entities, activities, and events from multimodal natural language sources. An information extraction module contains instruction code for downloading document content from text and audio / video data, parsing document content, recognizing mentions, corfeference, cross-document coreferencing, and extracting relationships. An information gathering module contains instruction code for extracting acquaintances, biography, and participation in events from the information extraction module. An information display module includes instruction code for displaying information from the information gathering module.

Das Informationenextraktionsmodul kann des Weiteren Anweisungscode zum Transkribieren von Audiodaten aus Videoquellen und zum Übersetzen von nicht-englischen transkribierten Audiodaten in englischen Text enthalten.The information extraction module may further include instruction code for transcribing audio data from video sources and for translating non-English transcribed audio data into English text.

Das Informationenextraktionsmodul kann Anweisungscode zur Clusterbildung von Erwähnungen unter derselben Entität und zum dokumentübergreifenden Verlinken der Entitäts-Cluster enthalten.The information extraction module may include instruction code for clustering mentions under the same entity and cross-document linking the entity clusters.

Das Informationensammelmodul kann Anweisungscode zum Eingeben eines Satzes und einer Entität und zum Extrahieren bestimmter Informationen über die Entität aus dem Satz enthalten.The information gathering module may include instruction code for inputting a sentence and an entity and for extracting certain information about the entity from the sentence.

Das Informationenanzeigemodul kann Anweisungscode zum Gruppieren von Ergebnissen in nicht-redundante Sätze, zum Sortieren der Sätze, zum Erzeugen einer kurzen Beschreibung jedes Satzes, zum Auswählen eines repräsentativen Snippets für jeden Satz, zum Hervorheben der Abschnitte des Snippets, die Informationen enthalten, die zu einer bestimmten Registerkarte gehören, zum Erstellen von Navigations-Hyperlinks zu anderen Seiten und zum Generieren von Daten enthalten, die zur grafischen Darstellung von Registerkarteninhalt verwendet werden.The information display module may include instruction code for grouping results into non-redundant sets, for sorting the sentences, for generating a brief description of each sentence, for selecting a representative snippet for each sentence, for highlighting the sections of the snippet containing information relating to a sentence to create navigation links to other pages and to generate data used to graphically display tab content.

Gemäß einer beispielhaften Ausführungsform wird eine nicht-flüchtige Computerprogrammspeichereinheit bereitgestellt, die Anweisungen enthält, die von einem Prozessor zum automatischen Extrahieren und Organisieren von Informationen aus einer Vielzahl von Datenquellen ausführbar sind. Anweisungscode wird bereitgestellt, um auf die Datenquellen eine Informationenextraktions-Pipeline zum Verarbeiten von natürlicher Sprache anzuwenden, die eine automatische Erkennung von Entitäten enthält. Anweisungscode wird bereitgestellt zum Identifizieren von Informationen über erkannte Entitäten durch Analysieren von Produkten der Pipeline zum Verarbeiten von natürlicher Sprache. Anweisungscode wird bereitgestellt zum Gruppieren von identifizierten Informationen in Äquivalenzklassen, die äquivalente Informationen enthalten. Anweisungscode wird bereitgestellt zum Erstellen von mindestens einer anzeigbaren Darstellung der Äquivalenzklassen. Anweisungscode wird bereitgestellt zum Berechnen einer Reihenfolge, in der die mindestens eine anzeigbare Darstellung angezeigt wird. Anweisungscode wird bereitgestellt zum Erzeugen einer kombinierten Darstellung der Äquivalenzklassen, die die Reihenfolge einhält, in der die anzeigbare Darstellung angezeigt wird.In accordance with an exemplary embodiment, a non-transitory computer program storage unit is provided that includes instructions that are executable by a processor to automatically extract and organize information from a variety of data sources. Instruction code is provided to apply to the data sources an information extraction pipeline for processing natural language containing automatic recognition of entities. Instruction code is provided for identifying information about detected entities by analyzing natural-language processing pipeline products. Instruction code is provided for grouping identified information into equivalence classes containing equivalent information. Instruction code is provided for creating at least one displayable representation of the equivalence classes. Instruction code is provided for calculating an order in which the at least one displayable representation is displayed. Instruction code is provided for generating a combined representation of the equivalence classes that complies with the order in which the displayable representation is displayed.

KURZE BESCHREIBUNG DER VERSCHIEDENEN ANSICHTEN DER ZEICHNUNGENBRIEF DESCRIPTION OF THE SEVERAL VIEWS OF THE DRAWINGS

Beispielhafte Ausführungsformen werden besser anhand der folgenden ausführlichen Beschreibung in Verbindung mit den begleitenden Zeichnungen verstanden, wobei:Exemplary embodiments will be better understood from the following detailed description when taken in conjunction with the accompanying drawings, in which:

1 eine Abfolge von Vorgangsschritten gemäß einer beispielhaften Ausführungsform veranschaulicht; 1 illustrates a sequence of operation steps according to an example embodiment;

2 eine Abfolge von Vorgangsschritten gemäß einem Abschnitt der Vorgangsschritte von 1 veranschaulicht; 2 a sequence of operation steps according to a portion of the operation steps of 1 illustrated;

3 eine Abfolge von Vorgangsschritten gemäß einem Abschnitt der Vorgangsschritte von 2 veranschaulicht; 3 a sequence of operation steps according to a portion of the operation steps of 2 illustrated;

4 eine Abfolge von Vorgangsschritten gemäß einem Abschnitt der Vorgangsschritte von 1 veranschaulicht; 4 a sequence of operation steps according to a portion of the operation steps of 1 illustrated;

5 eine Abfolge von Vorgangsschritten gemäß einem Abschnitt der Vorgangsschritte von 1 veranschaulicht; 5 a sequence of operation steps according to a portion of the operation steps of 1 illustrated;

6 eine beispielhafte Entitätsseite gemäß einer beispielhaften Ausführungsform veranschaulicht; 6 illustrate an example entity page according to an example embodiment;

7(a) und 7(b) beispielhafte Entitätsseiten für eine Nachrichtenrundfunk-Anwendung veranschaulichen; und 7 (a) and 7 (b) illustrate example entity pages for a message broadcast application; and

8 eine Programmspeichereinheit und einen Prozessor zum Ausführen einer Abfolge von Vorgangsschritten gemäß einer beispielhaften Ausführungsform veranschaulicht. 8th a program storage unit and a processor for performing a sequence of operation steps according to an exemplary embodiment.

AUSFÜHRLICHE BESCHREIBUNGDETAILED DESCRIPTION

Im Folgenden wird ausführlicher Bezug genommen auf die beispielhaften Ausführungsformen, von denen Beispiele in den begleitenden Zeichnungen veranschaulicht werden, wobei gleiche Bezugszeichen durchgehend auf die gleichen Elemente verweisen.Reference will now be made in more detail to the exemplary embodiments, examples of which are illustrated in the accompanying drawings, wherein like reference numerals refer to the same elements throughout.

In den beispielhaften Ausführungsformen kann sich der Begriff „Dokument” auf ein textliches Dokument ungeachtet seines Formats beziehen, auf Mediendateien einschließlich im Datenstrom übertragene Audio- und Videodaten und auf Hybridformen des Vorgenannten, wie beispielsweise Webseiten mit eingebetteten Video- und Audio-Streams.In the exemplary embodiments, the term "document" may refer to a textual document regardless of its format, media files including streamed audio and video data, and hybrid forms of the foregoing, such as web pages with embedded video and audio streams.

In den beispielhaften Ausführungsformen bezieht sich der Begriff „Sammlung” auf eine formelle oder informelle Sammlung von Multimedia-Dokumenten, wie beispielsweise alle Dokumente, die in einer wissenschaftlichen Zeitschrift veröffentlicht werden oder alle der englischen Webseiten, die von Presseagenturen in arabisch sprechenden Ländern veröffentlicht werden.In the exemplary embodiments, the term "collection" refers to a formal or informal collection of multimedia documents, such as all documents published in a scientific journal or all of the English websites published by news agencies in Arabic-speaking countries.

In den beispielhaften Ausführungsformen kann sich der Begriff „Entität” auf ein physisches belebtes Objekt (z. B. eine Person), ein physisches unbelebtes Objekt (z. B. ein Gebäude), etwas, das einen Eigennamen hat (z. B. Mount Everest), etwas, das eine messbare physische Eigenschaft hat (z. B. ein Zeitpunkt oder eine Zeitdauer, ein Unternehmen, ein Ort, ein Land), eine juristische Einheit (z. B. eine Nation) und auf abstrakte Konzept beziehen, wie beispielsweise die Maßeinheit und das Maßsystem einer physischen Eigenschaft.In the exemplary embodiments, the term "entity" may refer to a physical animated object (eg, a person), a physical inanimate object (eg, a building), something that has a proper name (eg, Mount Everest), something that has a measurable physical property (such as a time or a period of time, a company, a place, a country), a legal entity (such as a nation) and abstract concept, such as For example, the unit of measurement and measure system of a physical property.

In den beispielhaften Ausführungsformen bezeichnet der Begriff „Erwähnung” einen Textbereich, der sich auf eine Entität bezieht. Im Fall eines großen strukturierten Satzes von Dokumenten kann eine Entität der Sammlung aller ihrer Erwähnungen zugehörig sein, die in dem strukturierten Satz von Dokumenten auftreten, und daher kann der Begriff Entität auch zum Bezeichnen einer derartigen Sammlung verwendet werden.In the exemplary embodiments, the term "mention" refers to a text area that refers to an entity. In the case of a large structured set of documents, an entity of the collection may be associated with all of its mentions occurring in the structured set of documents, and therefore the term entity may also be used to designate such a collection.

In den beispielhaften Ausführungsformen bezieht sich der Begriff „Beziehung” auf eine Verbindung zwischen zwei Entitäten (z. B. Barack Obama ist der Präsident der Vereinigten Staaten; Michelle Obama und Barack Obama sind verheiratet). Eine Beziehungserwähnung ist ein Textbereich, der eine Beziehung explizit beschreibt. Daher sind an einer Beziehungserwähnung zwei Entitätserwähnungen beteiligt.In the exemplary embodiments, the term "relationship" refers to a connection between two entities (eg, Barack Obama is the President of the United States, Michelle Obama and Barack Obama are married). A relationship mention is a text area that explicitly describes a relationship. Therefore, two entity mentions are involved in a relational mention.

In den beispielhaften Ausführungsformen bezieht sich der Begriff „Ereignis” auf einen Satz von Beziehungen zwischen zwei oder mehreren Entitäten, an denen eine oder mehrere Aktionen beteiligt sind.In the exemplary embodiments, the term "event" refers to a set of relationships between two or more entities in which one or more actions are involved.

1 zeigt eine Übersicht über eine beispielhafte Ausführungsform, die auf eine Sammlung von Nachrichtendokumenten anwendbar sein kann, die aus Webseiten besteht, die von Presseagenturen erstellt wurden und mehrere Modalitäten von Informationen in mehreren Sprachen enthalten. Die multimodale Sammlung 100 wird im Schritt 110 in einer methodischen automatisierten Weise durchsucht (d. h. in Crawlersuche), wobei die multimodalen Dokumente in der Sammlung identifiziert und schrittweise abgerufen werden. Eine derartige Crawlersuche kann schrittweise arbeiten, in welchem Fall sie nur Dokumente abrufen würde, die während vorheriger Crawlervorgänge nicht verfügbar waren. Dokumente, die Audiodaten enthalten, wie beispielsweise Audiodateien oder Videodateien mit Audiodaten, werden dann im Schritt 120 durch Transkription analysiert. Nach Schritt 120 ist eine textliche Darstellung aller multimodalen Dokumente verfügbar. Text in Fremdsprachen wird im Übersetzungsschritt 130 übersetzt. Das Ergebnis ist die textliche Darstellung 140 der multimodalen Sammlung, die Dokumente in einer gewünschten Sprache sowie ihre Originalversion in ihrer Ausgangssprache enthält. 1 FIG. 3 shows an overview of an exemplary embodiment that may be applicable to a collection of news documents consisting of web pages created by news agencies and containing multiple modalities of multilingual information. The multimodal collection 100 is in the step 110 in a methodical automated way (ie, crawling), identifying and incrementally retrieving the multimodal documents in the collection. A Such crawling can work incrementally, in which case it would only retrieve documents that were unavailable during previous crawl operations. Documents containing audio data, such as audio files or video files with audio data, will then be in step 120 analyzed by transcription. After step 120 is a textual representation of all multimodal documents available. Text in foreign languages is in the translation step 130 translated. The result is the textual representation 140 the multimodal collection containing documents in a desired language as well as their original version in their source language.

Die textliche Darstellung 140 der Sammlung wird im Schritt 150 schrittweise analysiert, der die gewünschten Informationen über Entitäten, Aktivitäten und Ereignisse extrahiert (Informationenextraktion (IE)). Die extrahierten Informationen werden im Schritt 160 organisiert, und die organisierten Informationen werden in eine navigierbare Anzeigeform umgewandelt, die für den Benutzer dargestellt wird.The textual representation 140 the collection becomes in step 150 analyzed step by step, which extracts the desired information about entities, activities and events (Information Extraction (IE)). The extracted information will be in step 160 and the organized information is converted to a navigable display form that is presented to the user.

2 zeigt einen IE-Prozess gemäß einer beispielhaften Ausführungsform von Schritt 150, wobei Informationen über Entitäten, Aktivitäten und Ereignisse schrittweise extrahiert werden. Schritt 210 besteht aus dem Anwenden einer Pipeline zum Verarbeiten von natürlicher Sprache auf jedes Dokument der Sammlung. Die Pipeline kann schrittweise angewendet werden, wenn neue Dokumente zu der Sammlung hinzugefügt werden. Schritt 220 wird über alle Entitäten wiederholt, die in der Sammlung erkannt wurden. Schritt 220 kann schrittweise angewendet werden, indem er nur auf den Entitäten wiederholt wird, die in neuen Dokumenten erkannt wurden, wenn sie zu der Sammlung hinzugefügt werden. Schritt 230 identifiziert die durch Schritt 210 extrahierten Beziehungserwähnungen, an denen die Entität beteiligt ist, die durch Schritt 220 ausgewählt wurde. Schritt 240 identifiziert Ereigniserwähnungen, an denen Erwähnungen der Entität beteiligt sind, die durch Schritt 220 ausgewählt wurde. Schritt 250 extrahiert Informationen, die zu der Entität gehören, die im Schritt 220 ausgewählt wurde. 2 FIG. 10 illustrates an IE process according to an example embodiment of step. FIG 150 , where information about entities, activities and events is extracted step by step. step 210 consists of applying a natural language processing pipeline to each document in the collection. The pipeline can be applied step-by-step as new documents are added to the collection. step 220 is repeated over all entities that have been recognized in the collection. step 220 can be applied step-by-step by repeating it only on the entities that were recognized in new documents when they are added to the collection. step 230 identifies those by step 210 Extracted relationship mentions involving the entity identified by step 220 was selected. step 240 identifies event mentions involving mentions of the entity by step 220 was selected. step 250 extracts information that belongs to the entity in the step 220 was selected.

3 zeigt ein Beispiel für Schritt 210 der Pipeline zum Verarbeiten von natürlicher Sprache wie in 2 beschrieben. Der Textbereinigungsschritt 310 entfernt irrelevante Zeichen aus dem Text, wie beispielsweise Formatierungszeichen, Tags für HyperText Markup Language (HTML) und dergleichen. Schritt 320 zum Zerlegen in Token analysiert den bereinigten Text und identifiziert Wort- und Satzgrenzen. Schritt 330 zum Tagging der Wortart ordnet jedem Wort einen Kennsatz zu, der seine grammatikalische Funktion beschreibt. Der Erwähnungserkennungsschritt 340 identifiziert in dem in Token zerlegten Text die Erwähnungen von Entitäten und die Wörter, die das Vorhandensein von Ereignissen anzeigen (Ereignisanker genannt). Der Parsing-Schritt 350 extrahiert die hierarchische grammatikalische Struktur jedes Satzes und stellt sie typischerweise als einen Baum dar. Schritt 360 zum Kennzeichnen der semantischen Funktion identifiziert, in welcher semantischen Beziehung jeder der Knoten in dem Baum, die durch Schritt 350 zum Parsen extrahiert wurden, zu jedem der Verben in dem Satz steht. Der Koreferenzauflösungsschritt 370 identifiziert die Entitäten, zu denen die Erwähnungen gehören, die durch den Erwähnungserkennungsschritt 340 erzeugt wurden. Der Beziehungsextraktionsschritt 380 erkennt Beziehungen zwischen Entitätserwähnungspaaren und zwischen Entitätserwähnung und Ereignisankern. Fachleute würden anerkennen, dass diese Schritte unter Verwendung von allgemein bekannten statistischen Verfahren, Regeln oder Kombinationen davon umgesetzt werden können. 3 shows an example of step 210 the pipeline for processing natural language as in 2 described. The text cleanup step 310 removes irrelevant characters from the text, such as formatting marks, HyperText Markup Language (HTML) tags, and the like. step 320 to break into tokens parses the cleaned up text and identifies word and sentence boundaries. step 330 For tagging the part of speech assigns each word a label that describes its grammatical function. The mention recognition step 340 identifies, in the tokenized text, the mentions of entities and the words indicating the presence of events (called event anchors). The parsing step 350 extracts the hierarchical grammatical structure of each sentence and typically presents it as a tree. Step 360 for identifying the semantic function, in which semantic relationship each of the nodes in the tree represented by step 350 were parsed to each of the verbs in the sentence. The coreference resolution step 370 identifies the entities to which the mentions belong by the mention recognition step 340 were generated. The relationship extraction step 380 Detects relationships between entity mention pairs and between entity mention and event anchors. Those skilled in the art would appreciate that these steps can be implemented using well-known statistical methods, rules, or combinations thereof.

4 zeigt eine beispielhafte Ausführungsform des Organisierens der Informationen über Entitäten gemäß Schritt 160 von 1. 4 FIG. 12 shows an exemplary embodiment of organizing the information about entities according to step. FIG 160 from 1 ,

Schritt 410 wird auf allen der Entitäten wiederholt, die in der Sammlung identifiziert wurden. Eine schrittweise Ausführungsform von Schritt 410 besteht aus dem Wiederholen auf allen der Entitäten, die in neuen Dokumenten identifiziert werden, wenn sie zu der Sammlung hinzugefügt werden.step 410 is repeated on all of the entities identified in the collection. A step-by-step embodiment of step 410 consists of repeating on all of the entities identified in new documents as they are added to the collection.

Schritt 420 teilt die Informationen, die über die ausgewählte Entität extrahiert wurden, durch Wiederholung von Schritt 410 in Äquivalenzklassen auf, die äquivalente oder redundante Informationen enthalten. In einer beispielhaften Ausführungsform würde jede Äquivalenzklasse aus einer Sammlung von Elementen bestehen, wobei jedes Element aus einem Textbereich, der aus einem Dokument extrahiert wurde, zusammen mit einer Spezifikation der Informationen über die gewünschte Entität besteht, die aus dem Textbereich abgeleitet wurde. Fachleute würden anerkennen, dass derartige Äquivalenzklassen sich gegenseitig ausschließen könnten oder sich überlappen könnten, wobei dasselbe Element zu einer oder mehreren Äquivalenzklassen gehören könnte.step 420 shares the information extracted about the selected entity by repeating step 410 in equivalence classes that contain equivalent or redundant information. In an exemplary embodiment, each equivalence class would consist of a collection of elements, each element consisting of a text area extracted from a document along with a specification of the information about the desired entity derived from the text area. Those skilled in the art would appreciate that such equivalence classes might be mutually exclusive or overlapping, where the same element could belong to one or more equivalence classes.

Schritt 430 wird auf den Äquivalenzklassen wiederholt, die durch Schritt 420 erzeugt wurden.step 430 is repeated on the equivalence classes given by step 420 were generated.

Schritt 440 würde ein Element in der Klasse auswählen, das alle die Elemente in der Klasse am besten repräsentiert. Auswahlkriterien, die vom Auswahlschritt 440 verwendet werden, können enthalten, sind aber nicht beschränkt auf: das Auswählen des allgemeinsten Textbereichs, der in der Äquivalenzklasse auftritt, (zum Beispiel ist der Bereich „U.S.-Präsident Barack Obama” allgemeiner als „Barack Obama, der Präsident der Vereinigten Staaten”, und würde gemäß diesem Auswahlkriterium als der repräsentative Bereich zum Beschreiben der Beziehung von „Barack Obama” zu den „Vereinigten Staaten” ausgewählt), das Auswählen des Textbereichs, der die größte Menge an Informationen übermittelt (zum Beispiel übermittelt „Barack Obama ist der 44. und derzeitige Präsident der Vereinigten Staaten” mehr Informationen über die Beziehung zwischen „Barack Obama” und die „Vereinigten Staaten” als „U.S.-Präsident Barack Obama” und würde gemäß diesem Kriterium als repräsentativ ausgewählt), und das Auswählen des Textbereichs mit der höchsten Punktzahl, die durch den Extraktionsschritt 150 erzeugt wurde, wenn der Schritt seinen Ergebnissen eine Punktzahl zuordnet. step 440 would select an element in the class that best represents all the elements in the class. Selection criteria selected by the selection step 440 may include, but are not limited to: selecting the most general text area that occurs in the equivalence class (for example, the area "US President Barack Obama" is more commonly called "Barack Obama, the President of the United States", and would, according to this selection criterion, be selected as the representative area for describing the relationship of "Barack Obama" to the "United States"), selecting the text area that conveys the greatest amount of information (for example, "Barack Obama is the 44th. and current President of the United States "more information about the relationship between" Barack Obama "and the" United States "as" US President Barack Obama "and would be selected as representative in accordance with this criterion), and selecting the text area with the highest score by the extraction step 150 generated when the step assigns a score to its results.

Schritt 450 zeichnet die Informationen über die Äquivalenzklasse und über das von Schritt 440 ausgewählte typische Beispiel auf, so dass die Informationen von dem nachfolgenden Schritt 170 von 1 verwendet werden können. Das in 4 gezeigte Verfahren kann an den Fall angepasst werden, in dem sich Äquivalenzklassen überlappen können, und es ist immer noch wünschenswert, unterschiedliche typische Beispiele für verschiedene Klassen auszuwählen, zum Beispiel mittels einer Optimierungsprozedur, die eines oder mehrere der oben aufgelisteten Auswahlkriterien oder von äquivalenten Auswahlkriterien mit einem Unähnlichkeitsmaß kombinieren würde, das die Auswahl von unterschiedlichen typischen Beispielen für sich überlappende Äquivalenzklassen begünstigen würde.step 450 Records the information about the equivalence class and about the step 440 selected typical example, so that the information from the subsequent step 170 from 1 can be used. This in 4 The method shown may be adapted to the case in which equivalence classes may overlap, and it is still desirable to select different typical examples for different classes, for example by means of an optimization procedure having one or more of the selection criteria listed above or equivalent selection criteria would combine a measure of dissimilarity that would favor the selection of different typical examples of overlapping equivalence classes.

In einer beispielhaften Ausführungsform von Schritt 420 kann eine einzelne Instanz von extrahierten Informationen aus einem Bereich (gleichbedeutend mit einem Absatz) aus einem Dokument zusammen mit einer Spezifikation der Informationen bestehen, die über eine gewünschte Entität aus dem Bereich extrahiert wurden. Eine derartige Spezifikation kann aus einer Sammlung von Attributwertpaaren, einer Sammlung von Research Description Framework-(RDF)Tripeln, einem Satz von Beziehungen in einer relationalen Datenbank und dergleichen bestehen. Die Spezifikation kann unter Verwendung einer Beschreibungssprache wie beispielsweise Extensible Markup Language (XML), unter Verwendung der RDF-Darstellungssprache, unter Verwendung einer Datenbank und dergleichen dargestellt werden.In an exemplary embodiment of step 420 For example, a single instance of extracted information may consist of a range (equivalent to a paragraph) from a document along with a specification of the information extracted from the scope via a desired entity. Such a specification may consist of a collection of attribute value pairs, a collection of Research Description Framework (RDF) triples, a set of relationships in a relational database, and the like. The specification may be represented using a description language such as Extensible Markup Language (XML), using the RDF representation language, using a database, and the like.

Schritt 420 kann aus dem Identifizieren von Gruppen von Instanzen aus extrahierten Informationen bestehen, die zwei Bedingungen erfüllen: die erste ist, dass jede Gruppe mindestens eine Instanz (Hauptinstanz) enthält, nach deren Vorgabe alle anderen Instanzen in der Gruppe redundant sind; die zweite ist, dass Hauptinstanzen von separaten Gruppen in Beziehung zueinander nicht redundant sind. Dieses Ergebnis kann erzielt werden, indem ein herkömmlicher Clusterbildungs-Algorithmus oder ein inkrementeller Clusterbildungs-Algorithmus verwendet wird.step 420 may consist of identifying groups of instances of extracted information that satisfy two conditions: the first is that each group contains at least one instance (main instance), after which all other instances in the group are redundant; the second is that main instances of separate groups in relation to each other are not redundant. This result can be achieved by using a conventional clustering algorithm or an incremental clustering algorithm.

5 zeigt eine beispielhafte Ausführungsform eines Verfahrens von Schritt 170 von 1 für das Erstellen einer anzeigbaren Darstellung der Informationen, die zu einer Entität gehören und gemäß dem in 4 beschriebenen Verfahren gesammelt wurden. 5 FIG. 12 shows an exemplary embodiment of a method of step. FIG 170 from 1 for creating a displayable representation of the information that belongs to an entity and according to the in 4 were collected.

In Schritt 510 werden die Äquivalenzklassen von Informationen bewertet, die von Schritt 420 erzeugt wurden, indem der Äquivalenzklasse zum Beispiel die höchste Punktzahl von Informationsteilen in der Klasse zugewiesen wird. Alternativ können andere Mengen als die Punktzahl der Äquivalenzklasse verwendet werden, zum Beispiel: die durchschnittliche Punktzahl ihrer Mitglieder, die mittlere Punktzahl ihrer Mitglieder, die Summe der Punktzahl ihrer Mitglieder und dergleichen. Gemäß dem in 5 beschriebenen Verfahren wird die Punktzahl verwendet, um der Reihenfolge eine Rangfolge zuzuweisen, in der die Äquivalenzklassen dem Benutzer angezeigt werden.In step 510 the equivalence classes of information evaluated by step 420 for example, by assigning the equivalence class the highest score of pieces of information in the class. Alternatively, amounts other than the score of the equivalence class may be used, for example: the average score of their members, the mean score of their members, the sum of the score of their members, and the like. According to the in 5 described method, the score is used to rank the order in which the equivalence classes are displayed to the user.

Schritt 520 sortiert die Äquivalenzklassen in absteigender Punktzahlreihenfolge.step 520 sorts the equivalence classes in descending score order.

Schritt 530 wählt jede Äquivalenzklasse aus. Für alle die Instanzen der ausgewählten Äquivalenzklasse (Schritt 540) erstellt Schritt 550 eine anzeigbare Darstellung der Instanz, die aus der Äquivalenzklasse ausgewählt wurde. In einer beispielhaften Ausführungsform besteht eine derartige anzeigbare Darstellung aus dem Absatz, der die extrahierten Informationen enthält, die in geeigneter Weise mit optischen Hervorhebungen gekennzeichnet sind. Derartige optische Hervorhebungen können Farbe enthalten, um die extrahierten Informationen voneinander zu unterscheiden. Außerdem könnte die anzeigbare Darstellung visuelle Hinweise enthalten, um andere Entitäten leicht identifizieren zu können, für die eine Informationenseite vorhanden ist.step 530 selects each equivalence class. For all the instances of the selected equivalence class (step 540 ) creates step 550 a displayable representation of the instance selected from the equivalence class. In an exemplary embodiment, such displayable representation consists of the paragraph containing the extracted information suitably marked with visual highlights. Such highlighting may include color to distinguish the extracted information from each other. In addition, the displayable representation could include visual cues to easily identify other entities for which an information page exists.

Schritt 560 kombiniert die von Schritt 550 erzeugten Darstellungen, um eine anzeigbare Darstellung der Äquivalenzklasse zu erzeugen. In einer beispielhaften Ausführungsform besteht dieser Schritt aus dem Anzeigen der repräsentativen Instanz der Äquivalenzklasse und dem Bereitstellen von Mitteln zum Anzeigen der anderen Mitglieder, zum Beispiel durch Bereitstellen von Links zu der Darstellung dieser Mitglieder. step 560 combines the step by step 550 generated representations to produce a displayable representation of the equivalence class. In an exemplary embodiment, this step consists of displaying the representative instance of the equivalence class and providing means for displaying the other members, for example by providing links to the representation of these members.

Unter folgender Bezugnahme auf 6 wird eine beispielhafte Seite veranschaulicht, die eine Entität beschreibt (d. h. eine Entitätsseite (EP)) für die Einzelperson Leon Panetta. Die Seite ist in einen linken und einen rechten Teil unterteilt. Die beiden Rahmen in dem linken Teil enthalten ein Bild und biografische Informationen, die jeweils automatisch aus der Internet-Enzyklopädie Wikipedia oder aus einer anderen Quelle für zuverlässige Informationen extrahiert wurden. Der rechte Teil enthält einen Satz von Registerkarten, die relevante kleine Teile (Snippets) von Text nach der Art der Informationen organisieren, die sie übermitteln. Der Inhalt in jeder Registerkarte ist die Ausgabe einer Reihe von Informationenextraktionsmodulen, die nachstehend ausführlicher beschrieben werden. Jede Registerkarte zeigt auch eine grafische Inhaltszusammenfassung ihres Inhalts.With reference to below 6 FIG. 2 illustrates an exemplary page describing an entity (ie, an entity page (EP)) for the individual Leon Panetta. The page is divided into a left and a right part. The two frames in the left part contain a picture and biographical information, each automatically extracted from the Internet encyclopedia Wikipedia or from another source of reliable information. The right part contains a set of tabs that organize relevant small parts (snippets) of text according to the type of information they convey. The content in each tab is the output of a series of information extraction modules, which are described in more detail below. Each tab also displays a graphical content summary of its content.

Die nachstehend gezeigte Tabelle 1 fasst die Informationen zusammen, die durch die Text-Snippets in jeder Registerkarte übermittelt werden. Entitätstyp Registerkartentitel Beschreibung Person Zugehörigkeiten Beschreibung von Zugehörigkeiten der Person zu Unternehmen, Organisationen, Regierungen, Behörden usw. Erklärungen Bericht von Erklärungen, die von der Person zu beliebigen Themen abgegeben wurden Aktionen Beschreibung der Aktionen der Person Zugehörige Leute Aufgegebene Bekanntschaften der Person Schauplätze Auflistung von Orten und Schauplätzen, die von der Person besucht worden sind Wahlen Beschreibung von Wahlkämpfen der Person Beteiligung an Ereignissen Beschreibung von Ereignissen, an denen die Person beteiligt ist ORG und GPE Aktionen Beschreibung von Aktionen der Organisation oder von offiziellen Stellvertretern Zugehörige Organisationen Beschreibung von zugehörigen Organisationen wie z. B. Niederlassungen Zugehörige Leute Auflistung von zu der ORG/GPE zugehörigen Leuten Erklärungen Berichte von Erklärungen, die von der Organisation freigegeben oder von Stellvertretern abgegeben wurden Tabelle 1: Beschreibung von Informationen, die in den Registerkarten der grafischen Table 1 below summarizes the information conveyed by the text snippets in each tab. entity Tab title description person affiliations Description of person's affiliations with companies, organizations, governments, authorities, etc. Explanations Report of statements made by the person on any subject Actions Description of the actions of the person Related people Discontinued acquaintances of the person locations List of places and locations that have been visited by the person elections Description of election campaigns of the person Participation in events Description of events in which the person is involved ORG and GPE Actions Description of actions of the organization or official substitutes Associated organizations Description of related organizations such as B. Branches Related people List of people belonging to the ORG / GPE Explanations Reports of statements released by the organization or submitted by proxies Table 1: Description of information contained in the tabs of the graphical

Benutzeroberfläche enthalten sind, organisiert nach Entitätstyp Diese Snippets werden von einer Sammlung von Informationensammelmodulen (IGMs – Information Gathering Modules) ausgewählt, die in einer Konfigurationsdatei angegeben sind. Ein typisches IGM beruht auf einem Maschinenlernmodell, das nachstehend weiter beschrieben wird. Jedes IGM ordnet jedem Snippet auch eine Relevanzpunktzahl zu.User Interface, Organized by Entity Type These snippets are selected from a collection of Information Gathering Modules (IGMs) specified in a configuration file. A typical IGM relies on a machine learning model, which will be further described below. Each IGM also assigns a relevance score to each snippet.

Zum Zusammenstellen des Registerkarteninhalts werden die von den IGMs ausgewählten und bewerteten Snippets durch geeignete Informationenanzeigemodule (IDMs – Information Display Modules) analysiert, die in einer Konfigurationsdatei angegeben sind. IDMs gruppieren Snippets mit identischen Informationen für eine Registerkarte in derselben Äquivalenzklasse. IDMs ordnen jeder Äquivalenzklasse eine Punktzahl zu und sortieren die Klassen gemäß der Punktzahl.To compose the tab content, the snippets selected and evaluated by the IGMs are analyzed by appropriate Information Display Modules (IDMs) specified in a configuration file. IDMs group snippets with identical information for a tab in the same equivalence class. IDMs assign a score to each equivalence class and sort the classes according to the score.

Für die bildliche Darstellung jeder Äquivalenzklasse erzeugen IDMs einen Titel, der eine kurze Darstellung der Informationen ist, die sie übermittelt, und wählen ein repräsentatives Snippet aus. Sie heben die Abschnitte des repräsentativen Snippets hervor, in denen die für die Registerkarte interessanten Informationen enthalten sind, und erstellen Links zu Seiten von anderen Entitäten, die in den Snippets erwähnt werden. Zusätzliche Sätze in der Äquivalenzklasse werden gezeigt, indem man auf einen Link mit der Kennzeichnung „Additional Supporting Results ...” (Weitere unterstützende Ergebnisse ...) klickt. Da Presseagenturen dieselben Sätze im Laufe der Zeit häufig immer wieder verwenden, stehen derartige Sätze durch Anklicken von „Other Identical Results” (Andere identische Ergebnisse) zu Verfügung. For the rendering of each equivalence class, IDMs generate a title that is a brief representation of the information they convey and select a representative snippet. They highlight the sections of the representative snippet that contain the information of interest to the tab and create links to pages of other entities mentioned in the snippets. Additional phrases in the equivalence class are shown by clicking on a link labeled Additional Supporting Results .... Since news agencies frequently use the same sentences over time, such sentences are available by clicking on "Other Identical Results".

IDMs erstellen die Daten, die zum Erzeugen einer visuellen Zusammenfassung des Inhalts in der ausgewählten Registerkarte verwendet werden, die im Rahmen rechts außen in der oberen Hälfte der grafischen Benutzeroberfläche gezeigt wird. Für die Registerkarte Related People (Zugehörige Leute), die in 6 veranschaulicht ist, ist diese bildliche Darstellung ein Netzwerk von Beziehungen. Für andere Registerkarten ist sie eine Cloud der Inhaltswörter in der Registerkarte.IDMs create the data used to create a visual summary of the content in the selected tab, which is shown in the frame on the right side of the upper half of the GUI. For the Related People tab, which is in 6 is illustrated, this pictorial representation is a network of relationships. For other tabs, it is a cloud of content words in the tab.

Die Schnittstelle ist nicht nur nützlich für einen Analysten, der eine Entität in den Nachrichten verfolgt, sondern auch für Finanzanalysten, die Nachrichten über ein Unternehmen verfolgen, oder für Web-Benutzer, die tägliche Aktualisierungen der Nachrichten erhalten. Die Redundanzerkennung und systematische Organisation von Informationen macht den Inhalt leicht verdaulich.The interface is useful not only for an analyst tracking an entity in the news, but also for financial analysts tracking news about a business or for web users receiving daily news updates. The redundancy detection and systematic organization of information makes the content easily digestible.

In einer Anwendung zum Durchsuchen von Nachrichten können Entitäten in Artikeln hervorgehoben werden, wie in 7(a) veranschaulicht, und diejenigen Entitäten, für die eine EP vorhanden ist (d. h. es gibt relevante Snippets für mindestens eine Registerkarte) werden per Hyperlink mit der EP verbunden. Benutzer können auch auf die EP gelangen, indem sie sich eine durchsuchbare Liste von Entitäten in alphabetischer Reihenfolge ansehen oder durch die Häufigkeit in den Nachrichten, wie in 7(b) veranschaulicht.In a message browsing application, entities in articles can be highlighted, as in 7 (a) and those entities for which an EP exists (ie, there are relevant snippets for at least one tab) are hyperlinked to the EP. Users can also access the EP by looking at a searchable list of entities in alphabetical order or by the frequency in the messages, as in 7 (b) illustrated.

8 zeigt eine Übersicht über eine beispielhafte Ausführungsform einer Programmspeichereinheit 600, wobei darin enthaltener Anweisungscode für eine IE, ein IGM und IDM veranschaulicht sind. Ein Prozessor 700 führt den Anweisungscode aus, der in der Programmspeichereinheit 600 gespeichert ist. 8th shows an overview of an exemplary embodiment of a program storage unit 600 wherein instruction code included therein is illustrated for an IE, an IGM and IDM. A processor 700 executes the statement code stored in the program memory unit 600 is stored.

Ein Crawler, wie vorher oben beschrieben, kann periodisch neuen Inhalt aus einem Satz von Sites mit englischem Text und arabischem Text und Videos in Dokumenten 610 herunterladen. Audiodaten aus Videoquellen können in Datenblöcke von 2-Minuten-Intervallen segmentiert und dann transkribiert werden. Arabisch kann unter Verwendung eines Maschinenübersetzungssystems des Stands der Technik ins Englische übersetzt werden. Tabelle 2 listet die durchschnittliche Anzahl von Dokumenten von jedem Modalität-Sprache-Paar tageweise auf. Quelle Anzahl Dokumente Engl. Text 1317 Arab. Text 813 Arab. Video 843 Tabelle 2: Anzahl von Artikeln, die täglich durch den Crawler in verschiedenen Modalitäten heruntergeladen werden A crawler, as previously described above, may periodically retrieve new content from a set of sites with English text and Arabic text and videos in documents 610 Download. Audio data from video sources can be segmented into data blocks of 2-minute intervals and then transcribed. Arabic may be translated into English using a state of the art machine translation system. Table 2 lists the average number of documents from each modality-language pair on a daily basis. source Number of documents English text 1317 Arab. text 813 Arab. Video 843 Table 2: Number of articles downloaded daily by the crawler in different modalities

Anschließende Komponenten in der Pipeline bearbeiten englische Textdokumente, und das Bezugssystem lässt sich leicht auf jede Sprache ausdehnen, für die Übersetzungs- und Transkriptionssysteme vorhanden sind.Subsequent components in the pipeline process English text documents, and the framework can be easily extended to any language for which translation and transcription systems exist.

Jedes neue textliche Dokument 610 kann durch die IE-Pipeline 620 analysiert werden. Der erste Schritt nach dem Zerlegen in Token ist Parsing, gefolgt von Erwähnungserkennung. Innerhalb jedes Dokuments werden Erwähnungen durch einen dokumentinternen Koreferenzauflösungsalgorithmus zu Clustern zusammengefasst. Somit werden in dem entsprechenden Kontext „Washington” und „Weißes Haus” unter derselben Entität (den USA) gruppiert, und „Leon Edward Panetta” und „Leon Panetta” unter derselben Person (Verteidigungsminister). Namens- und Pronomen-Erwähnungen werden ebenfalls zu den Clustern hinzugefügt. Ein dokumentübergreifendes Koreferenzsystem verlinkt die Entitäts-Cluster dann dokumentübergreifend. Dies geschieht, indem jedes Cluster mit der Wissensbasis (KB – Knowledge Base) verlinkt wird, die in der Text Analysis Conference-(TAC)Aufgabe zum Verlinken der Entität verwendet wird, die aus einer Untergruppe der Internet-Enzyklopädie Wikipedia abgeleitet wurde. Wenn in der KB eine Übereinstimmung gefunden wird, wird das Cluster der KB-Kennung der Übereinstimmung zugewiesen, wodurch das dokumentübergreifende Querverweisen auf Entitäten ermöglicht wird. Neben einer exakten Übereinstimmung mit Titeln in der KB verwendet das dokumentübergreifende Koreferenzsystem flexible Übereinstimmungsmerkmale und Kontextinformationen zum Abstimmen von Schreibweisenvariationen und alternativen Namen. Das System macht auch Entitäten mit identischen Namen eindeutig. Die nächste IE-Komponente extrahiert Beziehungen zwischen den Entitäten in dem Dokument, wie beispielsweise Mitarbeiter bei, Sohn von usw. Die Module für Erwähnungserkennung, Koreferenz und Beziehungsextraktion werden an einem intern kommentierten Satz von 1301 Dokumenten geschult, die gemäß der Ontologie Knowledge from Language Understanding and Extraction (KLUE) 2 (Wissen über Sprachverständnis und -extraktion) gekennzeichnet sind. Bei einem Entwicklungssatz von 33 Dokumenten erreichen diese Komponenten jeweils ein FI von 71,6%, 83,7% und 65%. Die Entitätsverlinkungskomponente ist nichtüberwacht und erreicht eine Genauigkeit von 73% bei TAC-2009-Personenabfragen.Every new textual document 610 can through the IE pipeline 620 to be analyzed. The first step after tokenizing is parsing, followed by mention recognition. Within each document, mentions are clustered by a document-internal coreference resolution algorithm. Thus, in the appropriate context, "Washington" and "White House" are grouped under the same entity (the US), and "Leon Edward Panetta" and "Leon Panetta" are grouped under the same person (Secretary of Defense). Name and pronoun mentions are also added to the clusters. A cross-document coreference system then links the entity clusters across documents. This is done by linking each cluster to the knowledge base (KB) used in the Text Analysis Conference (TAC) task to link the entity, which is a subset of the Internet Encyclopedia Wikipedia was derived. If a match is found in the KB, the cluster is assigned to the KB handle of the match, allowing cross-document cross-referencing to entities. In addition to an exact match of titles in the KB, the cross-document coreference system uses flexible match characteristics and contextual information to match spelling variations and alternate names. The system also uniquely identifies entities with identical names. The next IE component extracts relationships between the entities in the document, such as Employee, Son, and so on. The mention recognition, coreference, and relationship extraction modules are trained on an internally annotated set of 1301 documents, which are in accordance with the Knowledge of Language Understanding ontology and Extraction (KLUE) 2 (knowledge of speech comprehension and extraction). With a development kit of 33 documents, these components each achieve an RCD of 71.6%, 83.7% and 65%. The entity linking component is unmonitored and achieves 73% accuracy on TAC 2009 person queries.

Kommentierte Dokumente werden dann durch die oben beschriebenen IGMs 630 und IDMs 640 analysiert. In seiner Grundausführung nimmt ein IGM einen Satz und eine Entität als Eingabe und extrahiert spezielle Informationen über diese Entität aus dem Satz. Zum Beispiel kann ein spezielles IGM erkennen, ob eine Familienbeziehung einer bestimmten Person in dem eingegebenen Satz erwähnt wird. Eine Teilliste von IGMs und die Beschreibung des extrahierten Inhalts ist in Tabelle 1 gezeigt. Die Ausgabe der IGMs wird dann von IDMs analysiert, die den Inhalt der Benutzeroberflächen-Registerkarten zusammenstellen. Diese Registerkarten entsprechen entweder einer Fragenvorlage aus einem Pilotprogramm oder werden aus den oben erwähnten Beziehungen abgeleitet. Für jede Entität wählen IDMs selektiv Kommentare aus, die von IGMs erzeugt werden, gruppieren sie in Äquivalenzklassen, ordnen die Äquivalenzklassen ein, um den Informationen, die dem Benutzer angezeigt werden, eine Rangfolge zuzuweisen, und stellen den Inhalt der Registerkarte zusammen. Die IGMs und IDMs werden im Folgenden noch ausführlicher beschrieben.Annotated documents will then pass through the IGMs described above 630 and IDMs 640 analyzed. In its basic version, an IGM takes a sentence and an entity as input and extracts specific information about that entity from the sentence. For example, a particular IGM may recognize whether a family relationship of a particular person is mentioned in the input sentence. A partial list of IGMs and the description of the extracted content is shown in Table 1. The output of the IGMs is then analyzed by IDMs that compose the contents of the user interface tabs. These tabs either correspond to a question template from a pilot program or are derived from the relationships mentioned above. For each entity, IDMs selectively select comments generated by IGMs, group them into equivalence classes, classify the equivalence classes to rank the information displayed to the user, and aggregate the contents of the tab. The IGMs and IDMs are described in more detail below.

IGMs extrahieren bestimmte Informationen, die zu einer vorgegebenen Entität aus einem bestimmten Satz gehören, in zwei Stufen: Zunächst erkennen sie, ob das Snippet relevante Informationen enthält. Dann identifizieren sie Informationsnuggets.IGMs extract certain information belonging to a given entity from a particular sentence in two stages: First, they detect whether the snippet contains relevant information. Then they identify information nuggets.

Die Snippet-Relevanzerkennung beruht auf statistischen Klassifikatoren, die an drei Sammlungen geschult werden, die als Teil des Pilotprogramms erzeugt wurden: i) Daten, die für die Pilotprogramm-Teams in den ersten Jahren des Programms vom Linguistic Data Consortium (LDC) bereitgestellt wurden; ii) Daten, die von BAE Systems bereitgestellt wurden; und iii) intern kommentierte Daten. Die Daten bestehen aus Abfragen und Snippets mit binären Relevanzkommentaren. Die LDC- und intern kommentierten Daten wurden speziell zu Schulungs- und Testzwecken entwickelt, während die BAE-Daten auch Abfragen aus jährlichen Auswertungen, die Antworten, die von den Teams bereitgestellt wurden, die an den Auswertungen teilgenommen haben, und die offiziellen Beurteilungen der Antworten enthalten. Die statistischen Modelle sind maximale Entropie-Klassifikatoren oder gemittelte Perzeptronen, die auf der Grundlage empirischer Leistung ausgewählt werden. Sie verwenden einen breiten Bereich von Merkmalen, einschließlich lexikalischer, struktureller, syntaktischer, Abhängigkeits- und semantischer Merkmale. Tabelle 3 fasst die Leistung der Modelle zusammen, die im Jahr 4 von nicht abgesonderten Abfragen anhand eines intern generierten Entwicklungssatzes verwendet wurden. Die Spalte „TN” bezeichnet eine Vorlagennummer. Vorlagen für Personenentitäten Vorlage TN P R F Informationen T3 75,60 90,07 82,20 Aktionen T13 50,00 18,33 26,83 Aufenthaltsort T17 86,11 43,66 57,94 Wahlkampf T21 78,72 26,81 40,00 Vorlagen für ORG/GPE-Entitäten Vorlage TN P R F Informationen T4 71,50 90,79 80,00 Aktionen T14 45,83 29,73 36,07 Verhaftungen von Mitgliedern T15 75,51 74,00 74,75 Ort des Stellvertreters T18 36,36 44,94 40,20 Tabelle 3: Leistung der IGM-Modelle The snippet relevance detection is based on statistical classifiers trained on three collections created as part of the pilot program: i) data provided to the pilot program teams by the Linguistic Data Consortium (LDC) during the first years of the program; ii) data provided by BAE Systems; and iii) internally annotated data. The data consists of queries and snippets with binary relevance comments. The LDC and internally annotated data was developed specifically for training and testing purposes, while the BAE data also includes annual evaluation queries, responses provided by the teams that participated in the evaluations, and official responses to the responses contain. The statistical models are maximum entropy classifiers or averaged perceptrons that are selected based on empirical performance. They use a wide range of features, including lexical, structural, syntactic, dependency, and semantic features. Table 3 summarizes the performance of the models used in Year 4 of unordered queries based on an internally generated development set. The column "TN" indicates a template number. Templates for person entities template TN P R F information T3 75.60 90.07 82.20 Actions T13 50,00 18.33 26.83 abode T17 86.11 43.66 57.94 electioneering T21 78.72 26.81 40,00 Templates for ORG / GPE entities template TN P R F information T4 71.50 90.79 80,00 Actions T14 45.83 29.73 36.07 Arrests of members T15 75.51 74,00 74.75 Place of the deputy T18 36.36 44.94 40,20 Table 3: Performance of the IGM models

IGMs analysieren Snippets, die von den Vorlagenmodellen ausgewählt wurden, und extrahieren die Informationen, die von den IDMs zum Zusammenstellen und bildlichen Darstellen der Ergebnisse verwendet werden. Dieser Schritt wird als „Informationsnugget-Extraktion” bezeichnet, wobei ein Informationsnugget eine elementare Antwort auf eine bestimmte Frage ist. Extrahierte Nuggets enthalten den Schwerpunkt der Antwort (z. B. den Ort, der von einer Person besucht wurde), den unterstützenden Text (eine Untergruppe des Snippets), eine Zusammenfassung der Antwort (die dem Snippet entnommen oder automatisch generiert wurde).IGMs analyze snippets selected from the template models and extract the information used by the IDMs to compose and visualize the results. This step is referred to as "information nugget extraction" where an information nugget is an elementary answer to a particular question. Extracted nuggets include the focus of the answer (for example, the location visited by a person), the supporting text (a subset of the snippet), a summary of the answer (taken from the snippet, or automatically generated).

Verschiedene Module extrahieren bestimmte Typen von Nuggets. Diese Module können einfache Systeme auf der Grundlage von Regeln oder vollstatistische Modelle sein. Jede Registerkarte verwendet einen anderen Satz von Nugget-Extraktionsprogrammen, die leicht zusammengestellt und konfiguriert werden können, um maßgeschneiderte Versionen des Systems zu erzeugen.Different modules extract certain types of nuggets. These modules can be simple systems based on rules or full-scale models. Each tab uses a different set of nugget extraction programs that can be easily assembled and configured to create customized versions of the system.

IDMs verwenden die Informationen, die von IGMs erzeugt werden, zum bildlichen Darstellen der Ergebnisse. Dazu gehört das Gruppieren von Ergebnissen in nicht-redundante Sätze, das Sortieren der Sätze, das Erzeugen einer kurzen Beschreibung jedes Satzes, das Auswählen eines repräsentativen Snippets für jeden Satz, das Hervorheben der Abschnitte des Snippets, die Informationen enthalten, die zu der bestimmten Registerkarte gehören, das Erstellen von Navigations-Hyperlinks zu anderen Seiten und das Generieren von Daten, die zur grafischen Darstellung des Registerkarteninhalts verwendet werden.IDMs use the information generated by IGMs to visualize the results. This includes grouping results into non-redundant sets, sorting the sentences, generating a brief description of each sentence, selecting a representative snippet for each sentence, highlighting the sections of the snippet that contain information related to the particular tab include creating navigation hyperlinks to other pages and generating data used to graphically display the tab contents.

IGMs erzeugen Ergebnisse in einem allgemeinen Format, das eine klar strukturierte Anwendungsprogrammierschnittstelle (API) unterstützt. IDMs fragen diese API ab, um ausgewählte IGM-Produkte abzurufen. Für jede Registerkarte gibt eine Konfigurationsdatei an, welche IGM-Produkte zur Redundanzerkennung zu verwenden sind. Zum Beispiel wird der Inhalt der Registerkarte „Zugehörigkeiten” für Personen (siehe Tabelle 1) aus automatischen Inhaltsextraktions-(ACE – automatic content extraction)Beziehungen erstellt. Die Konfigurationsdatei weist das IDM an, den Beziehungstyp und die KB-Kennung der zugehörigen Entität zur Redundanzreduzierung zu verwenden. Wenn daher ein Snippet feststellt, dass Sam Palmisano Manager bei „IBM” war, und ein anderes, dass Sam Palmisano Manager bei „International Business Machines” war und „IBM” und „International Business Machines” dieselbe KB-Kennung haben, dann werden die Snippets für den Zweck der Registerkarte „Zugehörigkeit” als redundant gekennzeichnet.IGMs generate results in a common format that supports a well-structured application programming interface (API). IDMs query this API to retrieve selected IGM products. For each tab, a configuration file specifies which IGM products to use for redundancy detection. For example, the content of the "Affiliations" tab for individuals (see Table 1) is created from automatic content extraction (ACE) relationships. The configuration file instructs the IDM to use the relationship type and KB identifier of the associated entity for redundancy reduction. Therefore, if one snippet determines that Sam Palmisano was a manager at IBM and another that Sam Palmisano was a manager at International Business Machines and IBM and International Business Machines have the same KB identifier, then the Snippets identified as redundant for the purpose of the "Affiliation" tab.

Die Redundanzerkennung gruppiert Ergebnisse in Äquivalenzklassen. Jede Klasse enthält eindeutige Werte für die IGM-Produkte, die in der Konfigurationsdatei angegeben wurden. IDMs können des Weiteren Klassen in Superklassen gruppieren oder die Äquivalenzklassen gemäß den Werten von IGM-Produkten aufteilen. Zum Beispiel können sie die Äquivalenzklassen gemäß dem Datum des Dokuments partitionieren, das die Informationen enthält. Die daraus resultierenden Dokumentgruppen bilden die Anzeigeeinheit. IDMs weisen jeder dieser Gruppen eine Punktzahl zu, zum Beispiel unter Verwendung einer Funktion der Punktzahl der einzelnen Snippets und der Anzahl von Ergebnissen in der Gruppe oder in der Äquivalenzklasse. Die Gruppen werden nach Punktzahl sortiert, und das am höchsten bewertete Snippet wird als typisches Beispiel für die Gruppe ausgewählt. Jede Gruppe wird dann in der Registerkarte bildlich als ein Abschnitt mit einem Titel dargestellt, der unter Verwendung von ausgewählten IGM-Produkten erstellt wird. Die Punktzahl der Gruppe wird optional ebenfalls angezeigt. Der Text des repräsentativen Snippets, das den Nachweis für die relevanten Informationen enthält, ist gelb hervorgehoben. Die benannten Erwähnungen werden mit der entsprechenden Seite verlinkt, sofern verfügbar, und Links zu verschiedenen Ansichten des Dokuments werden bereitgestellt.The redundancy detection groups results into equivalence classes. Each class contains unique values for the IGM products specified in the configuration file. IDMs can also group classes into superclasses or split the equivalence classes according to the values of IGM products. For example, they can partition the equivalence classes according to the date of the document containing the information. The resulting document groups form the display unit. IDMs assign a score to each of these groups, for example, using a function of the score of each snippet and the number of results in the group or in the equivalence class. The groups are sorted by score and the highest rated snippet is selected as a typical example of the group. Each group is then pictorially represented in the tab as a section with a title created using selected IGM products. The score of the group is also optionally displayed. The text of the representative snippet containing proof of relevant information is highlighted in yellow. The named mentions will be linked to the appropriate page, if available, and links will be provided to various views of the document.

Jeder Registerkarte ist eine grafische Darstellung zugehörig, die ihren Inhalt zusammenfasst und die in dem Abschnitt rechts außen in der oberen Hälfte der Benutzeroberfläche von 6 gezeigt wird. Diese bildliche Darstellung wird durch Aufrufen einer Anwendung auf einem Server dynamisch generiert, wenn die Registerkarte bildlich dargestellt wird.Each tab is associated with a graphical representation that summarizes its content and that in the top right-most section of the top half of the UI 6 will be shown. This visualization is dynamically generated by calling an application on a server when the tab is displayed.

Beispielhafte Ausführungen des Systems können drei verschiedene bildliche Darstellungen unterstützen: eine Wort-Cloud und zwei Formate von Diagrammen, die Verbindungen zwischen Entitäten zeigen. Eine Konfigurationsdatei unterrichtet die IDMs darüber, welche IGM-Produkte die Informationen enthalten, die in der grafischen Darstellung gezeigt werden sollen. Diese Informationen werden dann formatiert, um der API des Programms zu entsprechen, das die bildliche Darstellung dynamisch erstellt.Exemplary implementations of the system may support three different pictorial representations: a word cloud and two formats of charts showing connections between entities. A configuration file informs the IDMs which IGM products contain the information contained in to be shown in the graphic representation. This information is then formatted to conform to the API of the program that dynamically creates the visualization.

Die oben beschriebenen beispielhaften Ausführungsformen können aus dem Stand der Technik bekannte Verfahren zum Verarbeiten von natürlicher Sprache verwenden. Eine grundlegende Referenz ist das Buch „Foundations of Statistical Natural Language Processing” von Manning und Schütze, das die Haupttechniken abdeckt, die derartige Verfahren bilden. Das Erstellen von Sprachmodellen auf der Grundlage von Kookkurrenz (N-Gram-Modellen) wird in Kapitel 6 gelehrt. Das Identifizieren des Sinns von Wörtern unter Verwendung ihres Kontexts, das als Wort-Sinn-Klärung bezeichnet wird, wird in Kapitel 7 gelehrt. Das Erkennen des grammatikalischen Typs von Wörtern in einem Satz, das als Wortart-Tagging bezeichnet wird, wird in Kapitel 9 gelehrt. Das Erkennen der grammatikalischen Struktur eines Satzes, das als Parsing bezeichnet wird, wird in Kapitel 11 gelehrt. Das automatische Übersetzen von einer Ausgangssprache in eine Zielsprache wird in Kapitel 13 gelehrt. Die Hauptthemen zum Informationenabruf werden in Kapitel 15 gelehrt. Automatische Verfahren zur Textkategorisierung werden in Kapitel 16 gelehrt.The exemplary embodiments described above may use methods known in the art for processing natural speech. A fundamental reference is Manning and Schütze's Foundations of Statistical Natural Language Processing, which covers the main techniques that make up such procedures. Creating language models based on Kookbewerb (N-Gram models) is taught in Chapter 6. Identifying the meaning of words using their context, called word-meaning clarification, is taught in Chapter 7. Recognizing the grammatical type of words in a sentence, called word-style tagging, is taught in Chapter 9. Recognizing the grammatical structure of a sentence called parsing is taught in Chapter 11. Automatic translation from a source language to a target language is taught in Chapter 13. The main information retrieval topics are taught in Chapter 15. Automatic text categorization techniques are taught in Chapter 16.

In Anbetracht des bedeutenden Anteils von neuem Material im Internet, bei dem es sich um Nachrichten handelt, die sich auf Leute, Organisationen und geopolitische Entitäten (GPEs) konzentrieren, bilden benannte Entitäten einen Schlüsselaspekt von Nachrichtendokumenten, und man interessiert sich oft für das Verfolgen von Artikeln über eine Person (z. B. Leon Panetta), eine Organisation (z. B. Apple Inc.) oder eine GPE (z. B. die Vereinigten Staaten). Oben beschriebene beispielhafte Ausführungsformen stellen ein System bereit, das automatisch Zusammenfassungsseiten für benannte Entitäten aus Nachrichtendaten erstellt. Die EP-Seite, die eine Entität beschreibt, ist in Abschnitte organisiert, die bestimmte Fragen über diese Entität beantworten, wie beispielsweise Bibliografie-Informationen, abgegebene Erklärungen, Bekanntschaften, Aktionen und dergleichen. Jeder Abschnitt enthält Text-Snippets, die die Fakten unterstützen, die automatisch aus der Sammlung extrahiert werden. Die Redundanzreduzierung ergibt eine prägnante Zusammenfassung mit nur ganz neuen und nützlichen Snippets, die in der Standardanzeige dargestellt werden. Das System kann unter Verwendung einer Vielfalt von Quellen umgesetzt werden und zeigt Informationen, die nicht nur aus englischem Nachrichtenagenturtext, sondern auch aus maschinenübersetztem Text und automatisch transkribierten Audiodaten extrahiert werden.Given the significant amount of new material on the Internet, which is news that focuses on people, organizations, and geopolitical entities (GPEs), named entities make up a key aspect of news documents, and one is often interested in following Articles about a person (eg Leon Panetta), an organization (eg Apple Inc.) or a GPE (eg the United States). Exemplary embodiments described above provide a system that automatically creates summary pages for named entities from message data. The EP page describing an entity is organized into sections that answer specific questions about that entity, such as bibliography information, statements made, acquaintances, actions, and the like. Each section contains text snippets that support the facts that are automatically extracted from the collection. The redundancy reduction results in a succinct summary with only very new and useful snippets, which are displayed in the standard display. The system can be implemented using a variety of sources and displays information extracted not only from English news agency text but also from machine translated text and automatically transcribed audio data.

Obwohl öffentlich verfügbare Nachrichten-Aggregatoren wie Google News die Spitzen-Entitäten in den Nachrichten zeigen, führt deren Anklicken typischerweise zu einer Schlüsselwortsuche (mit eventuell einiger Redundanzerkennung). Andererseits stellen die oben beschriebenen beispielhaften Ausführungsformen ein System bereit, das den Inhalt auf eine systematische Weise organisiert und zusammenfasst, die für den Benutzer nützlich ist. Das System ist nicht auf eine Bag-of-Words-Suche beschränkt, sondern verwendet eine tiefere NLP-Technologie zum Erkennen von Erwähnungen von benannten Entitäten, zum Auflösen von Koreferenz (beides innerhalb eines Dokuments und dokumentübergreifend) und zum Mining von Beziehungen wie Mitarbeiter von, Ehegatte von, Niederlassung von usw. aus dem Text. Das Bezugssystem ist in hohem Maße skalierbar und kann in Echtzeit eine Zusammenfassung für jede Entität generieren, die in den Nachrichten auftritt. Die flexible Architektur des Systems ermöglicht eine rasche Anpassung an andere Domänen als Nachrichten, wie beispielsweise Sammlungen von wissenschaftlichen Dokumenten, in denen die Entitäten von Interesse Autoren, Einrichtungen und Länder sind.Although publicly available news aggregators such as Google News show the top entities in the news, clicking them typically results in a keyword search (with possibly some redundancy detection). On the other hand, the exemplary embodiments described above provide a system that organizes and summarizes the content in a systematic manner that is useful to the user. The system is not limited to a bag-of-words search, but uses a deeper NLP technology to recognize mentions of named entities, to resolve coreference (both within a document and across documents), and to mine relationships such as employees of , Spouse of, branch of etc from the text. The framework is highly scalable and can generate a summary in real time for every entity that appears in the messages. The flexible architecture of the system allows for rapid adaptation to domains other than news, such as collections of scientific documents in which the entities of interest are authors, institutions, and countries.

Die Vorgehensweisen der beispielhaften Ausführungsformen der vorliegenden Offenbarung können besonders gut für die Verwendung in einer elektronischen Einheit oder einem alternativen System geeignet sein. Dementsprechend können beispielhafte Ausführungsformen die Gestalt einer Ausführungsform annehmen, die Software- und Hardware-Aspekte kombiniert, auf die allgemein als „Prozessor”, „Schaltung”, „Modul” oder „System” Bezug genommen werden kann. Des Weiteren können beispielhafte Ausführungen die Gestalt eines Computerprogrammprodukts annehmen, das in einem oder mehreren computerlesbaren Medien mit einem darin gespeicherten computerlesbaren Programmcode ausgeführt ist.The approaches of the exemplary embodiments of the present disclosure may be particularly well suited for use in an electronic device or an alternative system. Accordingly, exemplary embodiments may take the form of an embodiment that combines software and hardware aspects, which may be generically referred to as "processor," "circuit," "module," or "system." Further, exemplary embodiments may take the form of a computer program product embodied in one or more computer readable media having computer readable program code stored therein.

Jede Kombination von einem oder mehreren computerverwendbaren oder computerlesbaren Medien kann verwendet werden. Das computerverwendbare oder computerlesbare Medium kann ein computerlesbares Speichermedium sein. Ein computerlesbares Speichermedium kann zum Beispiel ein elektronisches, magnetisches, optisches, elektromagnetisches, Infrarot- oder Halbleitersystem, eine derartige Vorrichtung, Einheit oder jede geeignete Kombination aus dem Vorgenannten sein, ist aber nicht darauf beschränkt. Zu spezielleren Beispielen (eine nicht erschöpfende Liste) für das computerlesbare Speichermedium würde Folgendes gehören: eine tragbare Computerdiskette, eine Festplatte, ein Arbeitsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein löschbaren programmierbarer Nur-Lese-Speicher (EPROM oder Flash-Speicher), ein Lichtwellenleiter, ein tragbarer CD-ROM, eine optische Speichereinheit, eine Magnetspeichereinheit oder jede geeignete Kombination des Vorgenannten. In dem Kontext dieses Dokuments kann ein computerlesbares Speichermedium jedes konkrete Medium sein, das ein Programm enthalten oder speichern kann, das von oder in Verbindung mit einem System, einer Vorrichtung oder einer Einheit zur Anweisungsausführung verwendet werden kann.Any combination of one or more computer-usable or computer-readable media may be used. The computer-usable or computer-readable medium may be a computer-readable storage medium. A computer-readable storage medium may be, for example, but not limited to, an electronic, magnetic, optical, electromagnetic, infrared, or semiconductor system, apparatus, device, or any suitable combination of the foregoing. More specific examples (a non-exhaustive list) of the computer readable storage medium would include: a portable computer diskette, a hard disk, random access memory (RAM), read only memory (ROM), erasable programmable read only memory (EPROM) or flash memory), an optical fiber, a portable CD-ROM, an optical storage unit, a magnetic storage unit or any other suitable Combination of the above. In the context of this document, a computer readable storage medium may be any tangible medium that may contain or store a program that may be used by or in connection with an instruction execution system, apparatus, or device.

Computerprogrammcode zum Ausführen von Operationen der beispielhaften Ausführungsformen kann in jeder Kombination von einer oder mehreren Programmiersprachen geschrieben werden, einschließlich einer objektorientierten Programmiersprache wie Java, Smalltalk, C++ oder dergleichen und herkömmlichen prozeduralen Programmiersprachen wie der Programmiersprache „C” oder ähnlichen Programmiersprachen. Der Programmcode kann vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Softwarepaket, teilweise auf dem Computer des Benutzers und teilweise auf einem fernen Computer oder vollständig auf dem fernen Computer oder Server ausgeführt werden. In dem letzteren Szenario kann der ferne Computer mit dem Computer des Benutzers über jeden Typ von Netzwerk verbunden werden, einschließlich ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetz (WAN), oder die Verbindung kann zu einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Nutzung eines Internet-Dienstanbieters).Computer program code for performing operations of the exemplary embodiments may be written in any combination of one or more programming languages, including an object-oriented programming language such as Java, Smalltalk, C ++ or the like and conventional procedural programming languages such as the "C" programming language or similar programming languages. The program code may be executed entirely on the user's computer, partly on the user's computer, as a stand-alone software package, partly on the user's computer and partly on a remote computer or entirely on the remote computer or server. In the latter scenario, the remote computer can be connected to the user's computer via any type of network, including a local area network (LAN) or a wide area network (WAN), or the connection can be made to an external computer (e.g. Internet using an Internet service provider).

Beispielhafte Ausführungsformen werden hierin unter Bezugnahme auf Ablaufplan-Veranschaulichungen und/oder Blockschaubilder beschrieben. Es versteht sich, dass jeder Block in den Ablaufplan-Veranschaulichungen und/oder den Blockschaubildern und Kombinationen von Blöcken in den Ablaufplan-Veranschaulichungen und/oder den Blockschaubildern durch Computerprogrammanweisungen ausgeführt werden können.Exemplary embodiments are described herein with reference to flowchart illustrations and / or block diagrams. It is understood that each block in the flowchart illustrations and / or block diagrams, and combinations of blocks in the flowchart illustrations and / or block diagrams, may be executed by computer program instructions.

Die Computerprogrammanweisungen können in einem computerlesbaren Medium gespeichert werden, das einen Computer, eine andere Vorrichtung, die programmierbare Daten verarbeitet, oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Weise funktionieren, so dass die in dem computerlesbaren Medium gespeicherten Anweisungen einen Fertigungsartikel erzeugen, einschließlich Anweisungen, die die in dem Ablaufplan und/oder dem Block oder den Blöcken des Blockschaubilds angegebene Funktion/Handlung implementieren.The computer program instructions may be stored in a computer readable medium that may control a computer, another device that processes programmable data, or other units to function in a particular manner so that the instructions stored in the computer readable medium produce an article of manufacture including instructions that implement the function / action specified in the flowchart and / or the block or blocks of the block diagram.

Es ist einzusehen, dass der Begriff „Prozessor”, wie er hierin verwendet wird, jede Verarbeitungseinheit enthalten soll, wie zum Beispiel eine, die eine zentrale Verarbeitungseinheit (CPU) und/oder eine andere Verarbeitungsschaltung (z. B. digitaler Signalprozessor (DSP), Mikroprozessor usw.) enthält. Außerdem ist zu verstehen, dass sich der Begriff „Prozessor” auf mehr als auf eine Verarbeitungseinheit beziehen kann, und dass verschiedene einer Verarbeitungseinheit zugehörige Elemente gemeinsam von anderen Verarbeitungseinheiten genutzt werden können. Der Begriff „Speicher”, wie er hierin verwendet wird, soll Speicher und andere computerlesbare Medien enthalten, die einem Prozessor oder einer CPU zugehörig sind, wie beispielsweise Arbeitsspeicher (RAM), Nur-Lese-Speicher (ROM), feste Speichermedien (z. B. eine Festplatte), austauschbare Speichermedien (z. B. eine Diskette), Flash-Speicher usw. Des Weiteren soll der Begriff „E/A-Schaltung”, wie er hierin verwendet wird, zum Beispiel eine oder mehrere Eingabeeinheiten (z. B. Tastatur, Maus usw.) zum Eingeben von Daten in den Prozessor und/oder eine oder mehrere Ausgabeeinheiten (z. B. Drucker, Bildschirm usw.) zum Darstellen der dem Prozessor zugehörigen Ergebnisse enthalten.It will be appreciated that the term "processor" as used herein is intended to include any processing unit, such as one that includes a central processing unit (CPU) and / or other processing circuitry (eg, digital signal processor (DSP)). , Microprocessor, etc.). It should also be understood that the term "processor" may refer to more than one processing unit, and that various elements associated with a processing unit may be shared by other processing units. The term "memory" as used herein is intended to include memory and other computer-readable media associated with a processor or CPU, such as random access memory (RAM), read-only memory (ROM), fixed storage media (e.g. A hard disk), removable storage media (e.g., a floppy disk), flash memory, etc. Further, as used herein, the term "I / O circuit" is intended to include, for example, one or more input devices (e. Keyboard, mouse, etc.) for inputting data to the processor and / or one or more output devices (eg, printer, monitor, etc.) for presenting the results associated with the processor.

Der Ablaufplan und die Blockschaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb von möglichen Ausführungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen. Diesbezüglich kann jeder Block in dem Ablaufplan oder in den Blockschaubildern ein Modul, ein Segment oder einen Codeabschnitt darstellen, der einen oder mehrere ausführbare Anweisungen zum Ausführen der angegebenen logischen Funktion(en) aufweist. Es ist ebenfalls anzumerken, dass in einigen alternativen Ausführungen die in dem Block angegebenen Funktionen in einer anderen Reihenfolge auftreten können als in den Figuren angegeben. Zum Beispiel können zwei nacheinander gezeigte Blöcke tatsächlich im Wesentlichen parallel ausgeführt werden, oder die Blöcke können manchmal in der umgekehrten Reihenfolge ausgeführt werden, was von der beteiligten Funktionalität abhängt. Es wird ebenfalls angemerkt, dass jeder Block in den Blockschaubildern und/oder in der Ablaufplan-Veranschaulichung und Kombinationen von Blöcken in den Blockschaubildern und/oder der Ablaufplan-Veranschaulichung durch spezielle Systeme auf der Grundlage von Hardware, die die angegebenen Funktionen oder Handlungen ausführen, oder Kombinationen von spezieller Hardware und Computeranweisungen ausgeführt werden kann.The flowchart and block diagrams in the figures illustrate the architecture, functionality, and operation of possible implementations of systems, methods, and computer program products according to various embodiments. In this regard, each block in the flowchart or block diagrams may represent a module, segment or code section having one or more executable instructions for performing the specified logical function (s). It should also be noted that in some alternative embodiments, the functions indicated in the block may occur in a different order than indicated in the figures. For example, two blocks shown in succession may in fact be executed substantially in parallel, or the blocks may sometimes be executed in the reverse order, depending on the functionality involved. It is also noted that each block in the block diagrams and / or in the flowchart illustration and combinations of blocks in the block diagrams and / or flowchart illustration by specific systems based on hardware performing the specified functions or acts, or combinations of special hardware and computer instructions.

Obwohl veranschaulichende Ausführungsformen der vorliegenden Offenbarung hierin unter Bezugnahme auf die begleitenden Zeichnungen beschrieben worden sind, ist zu verstehen, dass die vorliegende Offenbarung nicht auf genau diese Ausführungsformen beschränkt ist, und dass verschiedene andere Änderungen und Modifizierungen daran von einem Fachmann vorgenommen werden können, ohne von dem Schutzumfang der Ansprüche im Anhang abzuweichen.Although illustrative embodiments of the present disclosure have been described herein with reference to the accompanying drawings, it is to be understood that the present disclosure is not limited to these precise embodiments, and that various other changes and modifications may be made thereto by those skilled in the art without departing from to deviate from the scope of the claims in the appendix.

Claims

A method of automatically extracting and organizing information from a plurality of data sources by a processing unit, comprising: applying an information extraction pipeline to the data sources for processing natural language having automatic recognition of entities; identifying information about detected entities by analyzing natural pipeline processing products of the pipeline; grouping identified information into equivalence classes containing equivalent information; the creation of at least one displayable representation of the equivalence classes; calculating an order in which the at least one displayable representation is displayed; and generating a combined representation of the equivalence classes that complies with the order in which the displayable representation is displayed.

The method of claim 1, wherein each equivalence class comprises a collection of elements, each element having a text area extracted from a document, along with a specification of information about a desired entity derived from the text area.

The method of claim 1, wherein calculating an order in which the displayable representations are displayed further comprises randomly calculating the order.

The method of claim 1, wherein grouping identified information into equivalence classes further comprises assigning each identified information to a separate equivalence class.

The method of claim 1, wherein grouping of identified information into equivalence classes further comprises: calculating a representative instance for each equivalence class; ensuring that representative instances of different classes are not redundant in relation to one another; ensuring that instances of each equivalence class are redundant in relation to the representative instance of the equivalence class.

A method of processing information by a processing unit, the method comprising: receiving a user query; suspecting a user query intent from the user query to develop a suspected user intent; and automatically generating a page in response to the user query by adaptively creating a template that conforms to the presumed user intent using the natural processing of multiple modalities comprising at least one of text, audio, and video data.

The method of claim 6, further comprising: if the user query selects a person having a political status, the recognition of political status, looking for information on at least one of a campaign, public appearances, explanations and history of the service to the public, and Automatically generate a page in response to the user query.

The method of claim 6, further comprising when the user query selects a company: searching for information about at least one of recent news about the company, information about top company representatives and press releases for the company; and automatically generating a page in response to the user query.

The method of claim 6, further comprising when the user query selects an event: searching for information about at least one of news reports about the event and responses to the event; and Automatically generate a page in response to the user query.

The method of claim 9, wherein entities in the event are identified and retrieved retrieved relevant information about the entities.

A method of automatically extracting and organizing information by a processing unit from a collection of documents having multiple modalities of multi-language information for display to a user, the method comprising: searching the collection of documents to identify and step-by-step retrieve documents containing audio / video files; transcribing text from the audio / video files to provide a textual representation; translating the textual representation that is in a foreign language; incrementally extracting desired information about at least one of entities, activities and events; organizing extracted information; and converting organized extracted information into a navigable display that is displayable to the user.

The method of claim 11, wherein stepwise extracting desired information comprises: applying a natural language processing pipeline to each document to repeat all entities detected in the collection; identifying relationship mentions and event mentions involving a selected entity, wherein an entity is at least one of a physical living object, a physical inanimate object, something that has a proper name, something that has a measurable physical property, a legal entity, and abstract concepts, wherein a mention is a text area related to an entity; where a relationship is a connection between two entities, wherein a relational mention is a text area describing a relationship, and where an event is a set of relationships between two or more entities involving one or more actions.

The method of claim 11, wherein the organizing of extracted information comprises: repeating on all the entities identified in the collection; dividing the extracted information about the entity into selected equivalence classes containing equivalent information; repeating on all the equivalence classes; selecting an element in each equivalence class to represent all elements in the equivalence class; and recording information about the equivalence class and a typical example selected for use in generating the navigable display, wherein each equivalence class comprises a collection of elements, each element having a text area extracted from a document along with a specification of information about the desired entity derived from the text area.

The method of claim 11, wherein transforming organized extracted information to a navigable display representative of the user comprises: evaluating the equivalence classes of information by assigning to the equivalence class at least one of a highest score for the pieces of information in the class, the average score of their members, the mean score of their members, and the sum of the scores of their members; sorting the equivalence classes in descending order of the score to rank orderly in which the equivalence classes are displayed to the user; repeating for each equivalent class of creating a displayable representation of a selected entity; and combining the displayable representations to produce a displayable representation of the equivalence classes.

The method of claim 14, wherein the displayable representation comprises a paragraph containing extracted information characterized by visual highlights.

A non-transitory computer program storage unit containing instructions executable by a processor to interactively display information about entities, activities and events from multimodal natural language sources, the non-transitory computer program storage unit having memory configured to store: an information extraction module with instruction code for downloading document content from text and audio / video data, parsing the document content, recognizing mentions, corfeference, cross-document coreferencing, and extracting relationships; an information collecting module with instruction code for extracting acquaintances, biographies and participations in events from the information extraction module; and an information display module with instruction code for displaying information from the information collecting module.

The non-transitory computer program storage unit of claim 16, wherein the information extraction module further comprises instruction code for transcribing audio data from video sources and translating non-English transcribed audio data into English text.

The non-transitory computer program storage device of claim 16, wherein the information extraction module further comprises instruction code for clustering mentions under a same entity and cross-document linking entity clusters.

The non-transitory computer program storage device of claim 16, wherein the information collection module further comprises instruction code for entering a sentence and an entity and for extracting certain information about the entity from the sentence.

The non-transitory computer program storage device of claim 16, wherein the information display module further comprises instruction code for grouping results into non-redundant sets, sorting the non-redundant sets, generating a brief description of each sentence, selecting a representative snippet for each sentence, Highlight sections of the snippet that contain information related to a specific tab, create navigation links to other pages, and generate data used to graph tab content.

A non-transitory computer program storage device containing instructions executable by a processor for automatically extracting and organizing information from a plurality of data sources, the non-transitory computer program storage device having memory configured to store: Instruction code for applying an information extraction pipeline for processing natural language having automatic recognition of entities to the data sources; Instruction code for identifying information about detected entities by analyzing natural pipeline processing products of the pipeline; Instruction code for grouping identified information into equivalence classes containing equivalent information; Instruction code for creating at least one displayable representation of the equivalence classes; An instruction code for calculating an order in which the at least one displayable representation is displayed; and Instruction code for generating a combined representation of the equivalence classes that holds an order in which the displayable representation is displayed.

The non-transitory computer program storage device of claim 21, wherein each equivalence class comprises a collection of elements, each element having a text area extracted from a document along with a specification of information about a desired entity derived from the text area.

The non-volatile computer program storage unit according to claim 21, wherein calculating an order in which the displayable representations are displayed further comprises randomly calculating the order.

The non-transitory computer program storage device of claim 21, wherein grouping of identified information into equivalence classes further comprises assigning each identified information to a separate equivalence class.

The non-transitory computer program storage device of claim 21, wherein grouping of identified information into equivalence classes further comprises: calculating a representative instance for each equivalence class; ensuring that representative instances of different classes are not redundant in relation to one another; and ensuring that instances of each equivalence class are redundant in relation to the representative instance of the equivalence class.