DE102013205737A1 - Method for automatically extracting and organizing information from data sources in e.g. web pages, involves producing combined representation of the equivalence classes in which the order for displayable representation is displayed - Google Patents
Method for automatically extracting and organizing information from data sources in e.g. web pages, involves producing combined representation of the equivalence classes in which the order for displayable representation is displayed Download PDFInfo
- Publication number
- DE102013205737A1 DE102013205737A1 DE201310205737 DE102013205737A DE102013205737A1 DE 102013205737 A1 DE102013205737 A1 DE 102013205737A1 DE 201310205737 DE201310205737 DE 201310205737 DE 102013205737 A DE102013205737 A DE 102013205737A DE 102013205737 A1 DE102013205737 A1 DE 102013205737A1
- Authority
- DE
- Germany
- Prior art keywords
- information
- equivalence
- entities
- entity
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012545 processing Methods 0.000 claims abstract description 28
- 238000000605 extraction Methods 0.000 claims abstract description 25
- 238000004590 computer program Methods 0.000 claims abstract description 20
- 230000004044 response Effects 0.000 claims description 15
- 230000009471 action Effects 0.000 claims description 13
- 238000003058 natural language processing Methods 0.000 claims description 11
- 230000000694 effects Effects 0.000 claims description 10
- 230000000007 visual effect Effects 0.000 claims description 5
- 230000000704 physical effect Effects 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 2
- 239000000284 extract Substances 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000003860 storage Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 7
- 230000008520 organization Effects 0.000 description 5
- 238000013519 translation Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013518 transcription Methods 0.000 description 3
- 230000035897 transcription Effects 0.000 description 3
- 230000009193 crawling Effects 0.000 description 2
- 230000007123 defense Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
ERKLÄRUNG ZUR BUNDESSTAATLICHEN FÖRDERUNG VON FORSCHUNG ODER ENTWICKLUNGDECLARATION ON THE FEDERAL STATE PROMOTION OF RESEARCH OR DEVELOPMENT
Diese Erfindung wurde mithilfe von Regierungsförderung unter der Vertrags-Nr.: HR0011-08-C-0110 gemacht (vergeben durch Defense Advanced Research Project Agency)(DARPA). Die Regierung hält bestimmte Rechte an dieser Erfindung.This invention was made by government sponsorship under Contract No .: HR0011-08-C-0110 (awarded by Defense Advanced Research Project Agency) (DARPA). The government holds certain rights to this invention.
HINTERGRUNDBACKGROUND
Technisches GebietTechnical area
Die vorliegende Offenbarung betrifft Informationstechnologie und insbesondere Systeme zum Verarbeiten von natürlicher Sprache (NLP – Natural Language Processing).The present disclosure relates to information technology, and more particularly, to natural language processing (NLP) systems.
Erörterung des einschlägigen Stands der TechnikDiscussion of the Related Art
Presseagenturen, Blogger, Twitter, wissenschaftliche Zeitschriften und Tagungen, alle erzeugen extrem große Mengen von unstrukturierten Daten in textlicher, Audio- und Video-Form. Große Mengen von derartigen unstrukturierten Daten und Informationen können aus mehreren Modalitäten in mehreren Sprachen gesammelt werden, z. B. Text-, Audio- und Videoquellen im Internet. Es besteht ein Bedarf für das Analysieren der Informationen und das Erzeugen einer kompakten Darstellung von: 1) Informationen, wie beispielsweise Aktionen von bestimmten Entitäten (z. B. Personen, Organisationen, Ländern); 2) Aktivitäten (z. B. der präsidiale Wahlkampf); und 3) Ereignissen (z. B. der Tod einer berühmten Person). Derzeit können derartige Darstellungen manuell erzeugt werden, doch diese Lösung ist nicht wirtschaftlich, und sie erfordert geschulte Mitarbeiter, vor allem wenn die Informationen aus mehreren Sprachen gesammelt werden. Derartige manuell erzeugte Darstellungen sind im Allgemeinen auch nicht skalierbar.News agencies, bloggers, Twitter, scientific journals and meetings all produce extremely large amounts of unstructured data in textual, audio and video form. Large amounts of such unstructured data and information can be collected from multiple modalities in multiple languages, e.g. B. text, audio and video sources on the Internet. There is a need for analyzing the information and generating a compact representation of: 1) information such as actions of particular entities (eg, individuals, organizations, countries); 2) activities (such as the presidential campaign); and 3) events (eg the death of a famous person). Currently, such representations can be generated manually, but this solution is not economical and requires trained staff, especially if the information is collected from multiple languages. Such manually generated representations are generally also not scalable.
KURZDARSTELLUNGSUMMARY
Beispielhafte Ausführungsformen der vorliegenden Offenbarung stellen Verfahren zum automatischen Extrahieren und Organisieren von Daten bereit, so dass ein Benutzer Informationen über Entitäten, Aktivitäten und Ereignisse interaktiv untersuchen kann.Exemplary embodiments of the present disclosure provide methods for automatically extracting and organizing data so that a user can interactively explore information about entities, activities, and events.
Gemäß beispielhaften Ausführungsformen können Informationen in Echtzeit aus mehreren Modalitäten und mehreren Sprachen automatisch extrahiert und in einer navigierbaren und kompakten Darstellung der abgerufenen Informationen angezeigt werden.According to exemplary embodiments, information in real time may be automatically extracted from multiple modalities and multiple languages and displayed in a navigable and compact representation of the retrieved information.
Beispielhafte Ausführungsformen können Techniken zum Verarbeiten von natürlicher Sprache verwenden, um Informationen aus mehreren Quellen, in mehreren Modalitäten und in mehreren Sprachen automatisch zu analysieren, einschließlich Webseiten, Blogs, Foren, Radio-Feeds, Video und Fernsehen, sind aber nicht darauf beschränkt.Exemplary embodiments may use natural language processing techniques to automatically analyze information from multiple sources, in multiple modalities, and in multiple languages, including web pages, blogs, forums, radio feeds, video, and television.
Beispielhafte Ausführungsformen können die Ausgabe von automatischen Maschinenübersetzungssystemen verwenden, die Fremdsprachenquellen in die Sprache des Benutzers übersetzen, und die Ausgabe von automatischen Sprachtranskriptionssystemen verwenden, die Video- und Audio-Feeds in Text umwandeln.Exemplary embodiments may use the output of automatic machine translation systems that translate foreign language sources into the user's language, and use the output of automatic speech transcription systems that convert video and audio feeds to text.
Beispielhafte Ausführungsformen können Techniken zum Verarbeiten von natürlicher Sprache verwenden, einschließlich Werkzeugen zum Extrahieren von Informationen, Werkzeugen zum Beantworten von Fragen und Destillier-Werkzeuge, um den Text, der wie oben beschrieben erzeugt wurde, automatisch zu analysieren und durchsuchbare und zusammenfassbare Informationen zu extrahieren. Das System kann eine Namen-Entitäts-Erkennung, eine dokumentübergreifende Koreferenzauflösung, eine Beziehungserkennung und eine Ereigniserkennung und -verfolgung ausführen.Exemplary embodiments may use natural language processing techniques, including information extraction tools, question answering tools, and distilling tools, to automatically analyze the text generated as described above and to extract searchable and summarized information. The system can perform name-entity recognition, cross-document coreference resolution, relationship recognition, and event detection and tracking.
Beispielhafte Ausführungsformen können Techniken zur automatischen Relevanzerkennung und Verfahren zur Redundanzreduzierung verwenden, um den Benutzer mit relevanten und nicht-redundanten Informationen zu versorgen.Exemplary embodiments may use automatic relevancy detection techniques and redundancy reduction techniques to provide the user with relevant and non-redundant information.
Beispielhafte Ausführungsformen können die gewünschten Informationen in einer kompakten und navigierbaren Darstellung anzeigen durch: Bereitstellen von Mitteln für den Benutzer, um Entitäten, Aktivitäten oder Ereignisse von Interesse anzugeben (zum Beispiel: durch Eintippen von Anfragen in natürlicher Sprache, durch Auswählen von Entitäten aus einer automatisch generierten Liste von Entitäten, die benutzerdefinierte Anforderungen erfüllen, wie beispielsweise Entitäten, die in Datenquellen während einer benutzerdefinierten Zeit hervorstechend dargestellt werden, durch Auswählen von Textabschnitten beim Durchsuchen eines Artikels oder durch Auswählen von Ereignissen oder Themen aus Darstellungen von automatisch erkannten Ereignissen/Themen über einen bestimmten Zeitraum.Exemplary embodiments may display the desired information in a compact and navigable presentation by: providing means for the user to entities, activities or specify events of interest (for example, by typing in natural language queries, by selecting entities from an automatically generated list of entities that meet custom requirements, such as entities that are prominently displayed in data sources during a user-defined time Selecting sections of text when browsing an article or selecting events or topics from views of automatically detected events / topics over a period of time.
Beispielhafte Ausführungsformen können in Reaktion auf die Benutzeranfrage automatisch eine Seite generieren, indem sie anpassungsfähig eine Vorlage erstellen, die der vermuteten Absicht des Benutzers am besten entspricht (zum Beispiel: Wenn der Benutzer eine Person auswählt, die ein Politiker ist, würde das System diese Tatsache erkennen, nach Informationen über Wahlkampf, öffentliche Auftritte, Erklärungen und Chronik des Dienstes für die Öffentlichkeit der Person suchen; wenn der Benutzer ein Unternehmen auswählt, würde das System nach aktuellen Nachrichten über das Unternehmen, nach Informationen über die Spitzenvertreter des Unternehmens, nach Pressemitteilungen usw. suchen).Exemplary embodiments may automatically generate a page in response to the user request by adaptively creating a template that best suits the presumed intention of the user (for example, if the user selects a person who is a politician, the system would do so) For information on election campaigns, public appearances, explanations and history of service to the public, if the user selects a company, the system would look for breaking news about the company, for information about the company 's top representatives, for press releases, etc . search).
Wenn der Benutzer gemäß beispielhaften Ausführungsformen ein Ereignis auswählt, kann das System nach Nachrichtenmeldungen über das Ereignis, nach Reaktionen auf das Ereignis, nach Resultaten des Ereignisses oder nach zugehörigen Ereignissen suchen. Das System kann auch automatisch die an dem Ereignis beteiligten Entitäten erkennen, wie beispielsweise Menschen, Länder, Kommunalverwaltungen, Unternehmen und Organisationen, und relevante Informationen über diese Entitäten abrufen.When the user selects an event in accordance with exemplary embodiments, the system may search for news reports about the event, for responses to the event, for results of the event, or for related events. The system can also automatically detect the entities involved in the event, such as people, countries, local governments, businesses, and organizations, and retrieve relevant information about those entities.
Beispielhafte Ausführungsformen können dem Benutzer gestatten, Entitäten zu verfolgen, die auf der erzeugten Seite vorkommen, einschließlich dem automatischen Erzeugen einer Biografie einer Person aus den verfügbaren Daten und dem Auflisten von kürzlichen Aktionen durch eine Organisation, die aus den verfügbaren Daten automatisch extrahiert wurde.Exemplary embodiments may allow the user to track entities occurring on the generated page, including automatically generating a biography of a person from the available data and listing recent actions by an organization that has been automatically extracted from the available data.
Beispielhafte Ausführungsformen können dem Benutzer gestatten, Ereignisse oder Aktivitäten zu untersuchen, die auf der Seite vorkommen, einschließlich:
automatisches Erstellen einer Zeitleiste der hervorstechenden Augenblicke in einem andauernden Ereignis.Exemplary embodiments may allow the user to examine events or activities that occur on the page, including:
automatically create a timeline of the most prominent moments in a continuing event.
Beispielhafte Ausführungsformen können dem Benutzer gestatten, die Verbindungen zwischen Entitäten und Ereignissen zu untersuchen (zum Beispiel: Bereitstellen von Informationen über die Rolle eine Unternehmens in einem Ereignis, Auflisten von Zitaten von einer Person zu einem Thema, Beschreiben der Beziehung zwischen zwei Unternehmen, Zusammenfassen von Treffen oder Kontakten zwischen zwei Leuten und optional Abrufen von Bildern der gewünschten Entitäten.Exemplary embodiments may allow the user to examine the connections between entities and events (for example: providing information about the role of a company in an event, listing quotes from a person to a topic, describing the relationship between two entities, summarizing Meetings or contacts between two people and optionally retrieve images of the desired entities.
Gemäß einer beispielhaften Ausführungsform wird ein Verfahren zum automatischen Extrahieren und Organisieren von Informationen aus einer Vielzahl von Datenquellen durch eine Verarbeitungseinheit bereitgestellt. Eine Informationenextraktions-Pipeline zum Verarbeiten von natürlicher Sprache, die eine automatische Erkennung von Entitäten aufweist, wird auf die Datenquellen angewendet. Informationen über erkannte Entitäten werden identifiziert, indem Ergebnisse der Pipeline zum Verarbeiten von natürlicher Sprache analysiert werden. Identifizierte Informationen werden in Äquivalenzklassen gruppiert, die äquivalente Informationen enthalten. Mindestens eine anzeigbare Darstellung der Äquivalenzklassen wird erstellt. Eine Reihenfolge, in der die mindestens eine anzeigbare Darstellung angezeigt wird, wird berechnet. Eine kombinierte Darstellung der Äquivalenzklassen, die die Reihenfolge einhält, in der die anzeigbare Darstellung angezeigt wird, wird erzeugt.According to an exemplary embodiment, a method for automatically extracting and organizing information from a plurality of data sources by a processing unit is provided. An information extraction pipeline for processing natural language that has automatic recognition of entities is applied to the data sources. Information about detected entities is identified by analyzing results from the natural language processing pipeline. Identified information is grouped into equivalence classes that contain equivalent information. At least one displayable representation of the equivalence classes is created. An order in which the at least one displayable representation is displayed is calculated. A combined representation of the equivalence classes that follows the order in which the displayable representation is displayed is generated.
Alle Äquivalenzklassen können eine Sammlung von Elementen enthalten. Jedes Element kann einen Textbereich, der aus einem Dokument extrahiert wurde, zusammen mit einer Spezifikation von Informationen über eine gewünschte Entität enthalten, die aus dem Textbereich abgeleitet wurde.All equivalence classes can contain a collection of elements. Each element may contain a text area extracted from a document along with a specification of information about a desired entity derived from the text area.
Das Berechnen einer Reihenfolge, in der die anzeigbaren Darstellungen angezeigt werden, kann ein zufälliges Berechnen der Reihenfolge enthalten.Calculating an order in which the displayable representations are displayed may include randomly calculating the order.
Das Gruppieren der identifizierten Informationen in Äquivalenzklassen kann das Zuweisen jeder identifizierten Information zu einer separaten Äquivalenzklasse enthalten.Grouping the identified information into equivalence classes may include assigning each identified information to a separate equivalence class.
Das Gruppieren von identifizierten Informationen in Äquivalenzklassen kann das Berechnen einer repräsentativen Instanz jeder Äquivalenzklasse enthalten, wodurch sichergestellt wird, dass repräsentative Instanzen von verschiedenen Klassen in Beziehung zueinander nicht redundant sind, und sichergestellt wird, dass Instanzen jeder Äquivalenzklasse in Beziehung auf die repräsentative Instanz der Äquivalenzklasse redundant sind.Grouping identified information into equivalence classes may include computing a representative instance of each equivalence class, thereby ensuring that representative instances of different classes are non-redundant in relation to each other, and ensuring that that instances of each equivalence class are redundant in relation to the representative instance of the equivalence class.
Gemäß einer beispielhaften Ausführungsform wird ein Verfahren zum Verarbeiten von Informationen durch eine Verarbeitungseinheit bereitgestellt. Eine Benutzeranfrage wird empfangen. Eine Benutzeranfrageabsicht wird aus der Benutzeranfrage vermutet, um eine vermutete Benutzerabsicht zu entwickeln. In Reaktion auf die Benutzeranfrage wird automatisch eine Seite generiert, indem anpassungsfähig eine Vorlage, die der vermuteten Benutzerabsicht entspricht, unter Verwendung der natürlicher Verarbeitung von mehreren Modalitäten erstellt wird, einschließlich mindestens einer von Text, Audio und Video.According to an exemplary embodiment, a method of processing information by a processing unit is provided. A user request is received. A user request intent is suspected from the user request to develop a suspected user intent. In response to the user request, a page is automatically generated by adaptively creating a template that conforms to the presumed user intent, using the natural processing of multiple modalities, including at least one of text, audio, and video.
Wenn die Benutzeranfrage eine Person auswählt, die einen politischen Status hat, kann nach dem politischen Status gesucht werden, es kann nach Informationen über mindestens eines von Wahlkampf, öffentlichen Auftritten, Erklärungen und Chronik des Dienstes für die Öffentlichkeit gesucht werden, und in Reaktion auf die Benutzeranfrage kann automatisch eine Seite generiert werden.If the user request selects a person who has political status, it may search for political status, search for information about at least one of campaigning, public appearances, explanations and history of the service to the public, and in response to the User request can automatically generate a page.
Wenn die Benutzeranfrage Unternehmensinformationen in mindestens einer von kürzlichen Nachrichten über das Unternehmen auswählt, können Informationen über die Spitzenvertreter des Unternehmens und Pressemitteilungen für das Unternehmen gesucht werden, und in Reaktion auf die Benutzeranfrage kann automatisch eine Seite generiert werden.When the user request selects company information in at least one of recent news stories about the company, information about the company's top representatives and press releases for the company can be searched, and a page can be automatically generated in response to the user request.
Wenn die Benutzeranfrage Ereignisinformationen über mindestens eine von Nachrichtenmeldungen auswählt, können Punkte über das Ereignis ausgewählt und Reaktionen auf das Ereignis durchsucht werden, und in Reaktion auf die Benutzeranfrage kann automatisch eine Seite generiert werden.When the user request selects event information about at least one of news stories, points about the event can be selected and responses to the event can be searched, and a page can be automatically generated in response to the user request.
Entitäten in dem Ereignis und abgerufene relevante Informationen über die Entitäten können identifiziert und durchsucht werden.Entities in the event and retrieved relevant information about the entities can be identified and searched.
Gemäß einer beispielhaften Ausführungsform wird ein Verfahren zum automatischen Extrahieren und Organisieren von Informationen durch eine Verarbeitungseinheit aus einer Sammlung von Dokumenten bereitgestellt, die mehrere Modalitäten von Informationen in mehreren Sprachen zum Anzeigen für einen Benutzer haben. Die Sammlung von Dokumenten wird durchsucht, um Dokumente, die Audio-/Video-Dateien enthalten, zu identifizieren und schrittweise abzurufen. Text aus den Audio-/Video-Dateien wird transkribiert, um eine textliche Darstellung bereitzustellen. Text einer Fremdsprache in der textlichen Darstellung wird übersetzt. Gewünschte Informationen über mindestens eines von Entitäten, Aktivitäten und Ereignissen werden schrittweise extrahiert. Extrahierte Informationen werden organisiert. Organisierte extrahierte Informationen werden in eine navigierbare Anzeige umgewandelt, die für den Benutzer darstellbar ist.According to an exemplary embodiment, a method for automatically extracting and organizing information is provided by a processing unit from a collection of documents having multiple modalities of multilingual information for display to a user. The collection of documents is searched to identify and incrementally retrieve documents containing audio / video files. Text from the audio / video files is transcribed to provide a textual representation. Text of a foreign language in the textual representation is translated. Desired information about at least one of entities, activities and events is extracted step by step. Extracted information is organized. Organized extracted information is converted into a navigable display that is displayable to the user.
Das schrittweise Extrahieren von gewünschten Informationen kann das Anwenden einer Pipeline zum Verarbeiten von natürlicher Sprache auf jedes Dokument enthalten, um alle Entitäten zu wiederholen, die in der Sammlung erkannt wurden, und das Identifizieren von Beziehungserwähnungen und Ereigniserwähnungen, an denen eine ausgewählte Entität beteiligt ist, wobei eine Entität mindestens eines von einem physischen belebten Objekt, einem physischen unbelebten Objekt, etwas, das einen Eigennamen hat, etwas, das eine messbare physische Eigenschaft hat, einer juristischen Einheit und abstrakten Konzepten ist, eine Erwähnung ein Textbereich ist, der sich auf eine Entität bezieht, eine Beziehung eine Verbindung zwischen zwei Entitäten ist, eine Beziehungserwähnung ein Textbereich ist, der eine Beziehung beschreibt, und ein Ereignis ein Satz von Beziehungen zwischen zwei oder mehreren Entitäten ist, an denen eine oder mehrere Aktionen beteiligt sind.The step-by-step extraction of desired information may include applying a natural language processing pipeline to each document to repeat all the entities recognized in the collection, and identifying relationship mentions and event mentions involving a selected entity, where an entity is at least one of a physical animated object, a physical inanimate object, something that has a proper name, something that has a measurable physical property, a legal entity and abstract concepts, a mention is a text area that refers to a Entity refers to a relationship being a connection between two entities, a relationship mention being a text area describing a relationship, and an event being a set of relationships between two or more entities involving one or more actions.
Das Organisieren von extrahierten Informationen kann das Wiederholen auf all den Entitäten, die in der Sammlung identifiziert wurden, des Aufteilens der über die Entität extrahierten Informationen in ausgewählte Äquivalenzklassen, die äquivalente Informationen enthalten, das Wiederholen des Auswählens eines Elements in jeder Äquivalenzklasse auf all den Äquivalenz-Klassen, um alle Elemente in der Äquivalenzklasse darzustellen, und des Aufzeichnens von Informationen über die Äquivalenzklasse und über ein typisches Beispiel enthalten, das für die Verwendung beim Erzeugen der navigierbaren Anzeige ausgewählt wird, wobei jede Äquivalenzklasse eine Sammlung von Elementen enthalten kann, wobei jedes Element einen Textbereich, der aus einem Dokument extrahiert wurde, zusammen mit einer Spezifikation der Informationen über die gewünschte Entität hat, die aus dem Textbereich abgeleitet wurde.Organizing extracted information may include repeating on all of the entities identified in the collection, dividing the information extracted via the entity into selected equivalence classes containing equivalent information, repeating selecting an element in each equivalence class to all of the equivalence Class to represent all elements in the equivalence class, and to record information about the equivalence class and a typical example selected for use in generating the navigable display, wherein each equivalence class may include a collection of elements, each Element has a text area extracted from a document along with a specification of the information about the desired entity derived from the text area.
Das Umwandeln von organisierten extrahierten Informationen in eine navigierbare Anzeige, die für den Benutzer darstellbar ist, kann das Bewerten der Äquivalenzklassen von Informationen enthalten, indem der Äquivalenzklasse mindestens eines von einer höchsten Punktzahl für die Informationsteile in der Klasse, der durchschnittlichen Punktzahl ihrer Mitglieder, der mittleren Punktzahl ihrer Mitglieder und der Summe der Punktzahlen ihrer Mitglieder zugewiesen wird, wobei die Äquivalenzklassen in absteigender Reihenfolge der Punktzahl sortiert werden, um einer Reihenfolge eine Rangordnung zuzuweisen, in der die Äquivalenzklassen für den Benutzer angezeigt werden, wobei für jede Äquivalenzklasse das Erstellen einer anzeigbaren Darstellung einer ausgewählten Instanz und das Kombinieren der anzeigbaren Darstellungen wiederholt wird, um eine anzeigbare Darstellung der Äquivalenzklassen zu erzeugen.Converting organized extracted information into a navigable display that is displayable to the user may include evaluating the equivalence classes of information by: the equivalence class is assigned at least one of a highest score for the pieces of information in the class, the average score of its members, the mean score of its members, and the sum of the scores of its members, with the equivalence classes sorted in descending order of the score by an order assign a ranking in which the equivalence classes are displayed to the user, wherein for each equivalence class, creating a displayable representation of a selected entity and combining the displayable representations is repeated to produce a displayable representation of the equivalence classes.
Die anzeigbare Darstellung kann einen Absatz enthalten, der extrahierte Informationen enthält, die mit visuellen Hervorhebungen gekennzeichnet sind.The displayable representation may include a paragraph containing extracted information labeled with visual highlights.
Gemäß einer beispielhaften Ausführungsform wird eine nicht-flüchtige Computerprogrammspeichereinheit bereitgestellt, die Anweisungen enthält, die von einem Prozessor zum interaktiven Anzeigen von Informationen über Entitäten, Aktivitäten und Ereignissen aus multimodalen Quellen von natürlicher Sprache ausführbar sind. Ein Informationenextraktionsmodul enthält Anweisungscode zum Herunterladen von Dokumentinhalt aus Text und Audio-/Videodaten, zum Parsen des Dokumentinhalts, zum Erkennen von Erwähnungen, zum Koreferenzieren, zum dokumentübergreifenden Koreferenzieren und zum Extrahieren von Beziehungen. Ein Informationensammelmodul enthält Anweisungscode zum Extrahieren von Bekanntschaften, Biografie und Beteiligung an Ereignissen aus dem Informationenextraktionsmodul. Ein Informationenanzeigemodul enthält Anweisungscode zum Anzeigen von Informationen aus dem Informationensammelmodul.In accordance with an exemplary embodiment, a non-transitory computer program storage unit is provided that includes instructions executable by a processor for interactively displaying information about entities, activities, and events from multimodal natural language sources. An information extraction module contains instruction code for downloading document content from text and audio / video data, parsing document content, recognizing mentions, corfeference, cross-document coreferencing, and extracting relationships. An information gathering module contains instruction code for extracting acquaintances, biography, and participation in events from the information extraction module. An information display module includes instruction code for displaying information from the information gathering module.
Das Informationenextraktionsmodul kann des Weiteren Anweisungscode zum Transkribieren von Audiodaten aus Videoquellen und zum Übersetzen von nicht-englischen transkribierten Audiodaten in englischen Text enthalten.The information extraction module may further include instruction code for transcribing audio data from video sources and for translating non-English transcribed audio data into English text.
Das Informationenextraktionsmodul kann Anweisungscode zur Clusterbildung von Erwähnungen unter derselben Entität und zum dokumentübergreifenden Verlinken der Entitäts-Cluster enthalten.The information extraction module may include instruction code for clustering mentions under the same entity and cross-document linking the entity clusters.
Das Informationensammelmodul kann Anweisungscode zum Eingeben eines Satzes und einer Entität und zum Extrahieren bestimmter Informationen über die Entität aus dem Satz enthalten.The information gathering module may include instruction code for inputting a sentence and an entity and for extracting certain information about the entity from the sentence.
Das Informationenanzeigemodul kann Anweisungscode zum Gruppieren von Ergebnissen in nicht-redundante Sätze, zum Sortieren der Sätze, zum Erzeugen einer kurzen Beschreibung jedes Satzes, zum Auswählen eines repräsentativen Snippets für jeden Satz, zum Hervorheben der Abschnitte des Snippets, die Informationen enthalten, die zu einer bestimmten Registerkarte gehören, zum Erstellen von Navigations-Hyperlinks zu anderen Seiten und zum Generieren von Daten enthalten, die zur grafischen Darstellung von Registerkarteninhalt verwendet werden.The information display module may include instruction code for grouping results into non-redundant sets, for sorting the sentences, for generating a brief description of each sentence, for selecting a representative snippet for each sentence, for highlighting the sections of the snippet containing information relating to a sentence to create navigation links to other pages and to generate data used to graphically display tab content.
Gemäß einer beispielhaften Ausführungsform wird eine nicht-flüchtige Computerprogrammspeichereinheit bereitgestellt, die Anweisungen enthält, die von einem Prozessor zum automatischen Extrahieren und Organisieren von Informationen aus einer Vielzahl von Datenquellen ausführbar sind. Anweisungscode wird bereitgestellt, um auf die Datenquellen eine Informationenextraktions-Pipeline zum Verarbeiten von natürlicher Sprache anzuwenden, die eine automatische Erkennung von Entitäten enthält. Anweisungscode wird bereitgestellt zum Identifizieren von Informationen über erkannte Entitäten durch Analysieren von Produkten der Pipeline zum Verarbeiten von natürlicher Sprache. Anweisungscode wird bereitgestellt zum Gruppieren von identifizierten Informationen in Äquivalenzklassen, die äquivalente Informationen enthalten. Anweisungscode wird bereitgestellt zum Erstellen von mindestens einer anzeigbaren Darstellung der Äquivalenzklassen. Anweisungscode wird bereitgestellt zum Berechnen einer Reihenfolge, in der die mindestens eine anzeigbare Darstellung angezeigt wird. Anweisungscode wird bereitgestellt zum Erzeugen einer kombinierten Darstellung der Äquivalenzklassen, die die Reihenfolge einhält, in der die anzeigbare Darstellung angezeigt wird.In accordance with an exemplary embodiment, a non-transitory computer program storage unit is provided that includes instructions that are executable by a processor to automatically extract and organize information from a variety of data sources. Instruction code is provided to apply to the data sources an information extraction pipeline for processing natural language containing automatic recognition of entities. Instruction code is provided for identifying information about detected entities by analyzing natural-language processing pipeline products. Instruction code is provided for grouping identified information into equivalence classes containing equivalent information. Instruction code is provided for creating at least one displayable representation of the equivalence classes. Instruction code is provided for calculating an order in which the at least one displayable representation is displayed. Instruction code is provided for generating a combined representation of the equivalence classes that complies with the order in which the displayable representation is displayed.
KURZE BESCHREIBUNG DER VERSCHIEDENEN ANSICHTEN DER ZEICHNUNGENBRIEF DESCRIPTION OF THE SEVERAL VIEWS OF THE DRAWINGS
Beispielhafte Ausführungsformen werden besser anhand der folgenden ausführlichen Beschreibung in Verbindung mit den begleitenden Zeichnungen verstanden, wobei:Exemplary embodiments will be better understood from the following detailed description when taken in conjunction with the accompanying drawings, in which:
AUSFÜHRLICHE BESCHREIBUNGDETAILED DESCRIPTION
Im Folgenden wird ausführlicher Bezug genommen auf die beispielhaften Ausführungsformen, von denen Beispiele in den begleitenden Zeichnungen veranschaulicht werden, wobei gleiche Bezugszeichen durchgehend auf die gleichen Elemente verweisen.Reference will now be made in more detail to the exemplary embodiments, examples of which are illustrated in the accompanying drawings, wherein like reference numerals refer to the same elements throughout.
In den beispielhaften Ausführungsformen kann sich der Begriff „Dokument” auf ein textliches Dokument ungeachtet seines Formats beziehen, auf Mediendateien einschließlich im Datenstrom übertragene Audio- und Videodaten und auf Hybridformen des Vorgenannten, wie beispielsweise Webseiten mit eingebetteten Video- und Audio-Streams.In the exemplary embodiments, the term "document" may refer to a textual document regardless of its format, media files including streamed audio and video data, and hybrid forms of the foregoing, such as web pages with embedded video and audio streams.
In den beispielhaften Ausführungsformen bezieht sich der Begriff „Sammlung” auf eine formelle oder informelle Sammlung von Multimedia-Dokumenten, wie beispielsweise alle Dokumente, die in einer wissenschaftlichen Zeitschrift veröffentlicht werden oder alle der englischen Webseiten, die von Presseagenturen in arabisch sprechenden Ländern veröffentlicht werden.In the exemplary embodiments, the term "collection" refers to a formal or informal collection of multimedia documents, such as all documents published in a scientific journal or all of the English websites published by news agencies in Arabic-speaking countries.
In den beispielhaften Ausführungsformen kann sich der Begriff „Entität” auf ein physisches belebtes Objekt (z. B. eine Person), ein physisches unbelebtes Objekt (z. B. ein Gebäude), etwas, das einen Eigennamen hat (z. B. Mount Everest), etwas, das eine messbare physische Eigenschaft hat (z. B. ein Zeitpunkt oder eine Zeitdauer, ein Unternehmen, ein Ort, ein Land), eine juristische Einheit (z. B. eine Nation) und auf abstrakte Konzept beziehen, wie beispielsweise die Maßeinheit und das Maßsystem einer physischen Eigenschaft.In the exemplary embodiments, the term "entity" may refer to a physical animated object (eg, a person), a physical inanimate object (eg, a building), something that has a proper name (eg, Mount Everest), something that has a measurable physical property (such as a time or a period of time, a company, a place, a country), a legal entity (such as a nation) and abstract concept, such as For example, the unit of measurement and measure system of a physical property.
In den beispielhaften Ausführungsformen bezeichnet der Begriff „Erwähnung” einen Textbereich, der sich auf eine Entität bezieht. Im Fall eines großen strukturierten Satzes von Dokumenten kann eine Entität der Sammlung aller ihrer Erwähnungen zugehörig sein, die in dem strukturierten Satz von Dokumenten auftreten, und daher kann der Begriff Entität auch zum Bezeichnen einer derartigen Sammlung verwendet werden.In the exemplary embodiments, the term "mention" refers to a text area that refers to an entity. In the case of a large structured set of documents, an entity of the collection may be associated with all of its mentions occurring in the structured set of documents, and therefore the term entity may also be used to designate such a collection.
In den beispielhaften Ausführungsformen bezieht sich der Begriff „Beziehung” auf eine Verbindung zwischen zwei Entitäten (z. B. Barack Obama ist der Präsident der Vereinigten Staaten; Michelle Obama und Barack Obama sind verheiratet). Eine Beziehungserwähnung ist ein Textbereich, der eine Beziehung explizit beschreibt. Daher sind an einer Beziehungserwähnung zwei Entitätserwähnungen beteiligt.In the exemplary embodiments, the term "relationship" refers to a connection between two entities (eg, Barack Obama is the President of the United States, Michelle Obama and Barack Obama are married). A relationship mention is a text area that explicitly describes a relationship. Therefore, two entity mentions are involved in a relational mention.
In den beispielhaften Ausführungsformen bezieht sich der Begriff „Ereignis” auf einen Satz von Beziehungen zwischen zwei oder mehreren Entitäten, an denen eine oder mehrere Aktionen beteiligt sind.In the exemplary embodiments, the term "event" refers to a set of relationships between two or more entities in which one or more actions are involved.
Die textliche Darstellung
Schritt
Schritt
Schritt
Schritt
Schritt
In einer beispielhaften Ausführungsform von Schritt
Schritt
In Schritt
Schritt
Schritt
Schritt
Unter folgender Bezugnahme auf
Die nachstehend gezeigte Tabelle 1 fasst die Informationen zusammen, die durch die Text-Snippets in jeder Registerkarte übermittelt werden.
Benutzeroberfläche enthalten sind, organisiert nach Entitätstyp Diese Snippets werden von einer Sammlung von Informationensammelmodulen (IGMs – Information Gathering Modules) ausgewählt, die in einer Konfigurationsdatei angegeben sind. Ein typisches IGM beruht auf einem Maschinenlernmodell, das nachstehend weiter beschrieben wird. Jedes IGM ordnet jedem Snippet auch eine Relevanzpunktzahl zu.User Interface, Organized by Entity Type These snippets are selected from a collection of Information Gathering Modules (IGMs) specified in a configuration file. A typical IGM relies on a machine learning model, which will be further described below. Each IGM also assigns a relevance score to each snippet.
Zum Zusammenstellen des Registerkarteninhalts werden die von den IGMs ausgewählten und bewerteten Snippets durch geeignete Informationenanzeigemodule (IDMs – Information Display Modules) analysiert, die in einer Konfigurationsdatei angegeben sind. IDMs gruppieren Snippets mit identischen Informationen für eine Registerkarte in derselben Äquivalenzklasse. IDMs ordnen jeder Äquivalenzklasse eine Punktzahl zu und sortieren die Klassen gemäß der Punktzahl.To compose the tab content, the snippets selected and evaluated by the IGMs are analyzed by appropriate Information Display Modules (IDMs) specified in a configuration file. IDMs group snippets with identical information for a tab in the same equivalence class. IDMs assign a score to each equivalence class and sort the classes according to the score.
Für die bildliche Darstellung jeder Äquivalenzklasse erzeugen IDMs einen Titel, der eine kurze Darstellung der Informationen ist, die sie übermittelt, und wählen ein repräsentatives Snippet aus. Sie heben die Abschnitte des repräsentativen Snippets hervor, in denen die für die Registerkarte interessanten Informationen enthalten sind, und erstellen Links zu Seiten von anderen Entitäten, die in den Snippets erwähnt werden. Zusätzliche Sätze in der Äquivalenzklasse werden gezeigt, indem man auf einen Link mit der Kennzeichnung „Additional Supporting Results ...” (Weitere unterstützende Ergebnisse ...) klickt. Da Presseagenturen dieselben Sätze im Laufe der Zeit häufig immer wieder verwenden, stehen derartige Sätze durch Anklicken von „Other Identical Results” (Andere identische Ergebnisse) zu Verfügung. For the rendering of each equivalence class, IDMs generate a title that is a brief representation of the information they convey and select a representative snippet. They highlight the sections of the representative snippet that contain the information of interest to the tab and create links to pages of other entities mentioned in the snippets. Additional phrases in the equivalence class are shown by clicking on a link labeled Additional Supporting Results .... Since news agencies frequently use the same sentences over time, such sentences are available by clicking on "Other Identical Results".
IDMs erstellen die Daten, die zum Erzeugen einer visuellen Zusammenfassung des Inhalts in der ausgewählten Registerkarte verwendet werden, die im Rahmen rechts außen in der oberen Hälfte der grafischen Benutzeroberfläche gezeigt wird. Für die Registerkarte Related People (Zugehörige Leute), die in
Die Schnittstelle ist nicht nur nützlich für einen Analysten, der eine Entität in den Nachrichten verfolgt, sondern auch für Finanzanalysten, die Nachrichten über ein Unternehmen verfolgen, oder für Web-Benutzer, die tägliche Aktualisierungen der Nachrichten erhalten. Die Redundanzerkennung und systematische Organisation von Informationen macht den Inhalt leicht verdaulich.The interface is useful not only for an analyst tracking an entity in the news, but also for financial analysts tracking news about a business or for web users receiving daily news updates. The redundancy detection and systematic organization of information makes the content easily digestible.
In einer Anwendung zum Durchsuchen von Nachrichten können Entitäten in Artikeln hervorgehoben werden, wie in
Ein Crawler, wie vorher oben beschrieben, kann periodisch neuen Inhalt aus einem Satz von Sites mit englischem Text und arabischem Text und Videos in Dokumenten
Anschließende Komponenten in der Pipeline bearbeiten englische Textdokumente, und das Bezugssystem lässt sich leicht auf jede Sprache ausdehnen, für die Übersetzungs- und Transkriptionssysteme vorhanden sind.Subsequent components in the pipeline process English text documents, and the framework can be easily extended to any language for which translation and transcription systems exist.
Jedes neue textliche Dokument
Kommentierte Dokumente werden dann durch die oben beschriebenen IGMs
IGMs extrahieren bestimmte Informationen, die zu einer vorgegebenen Entität aus einem bestimmten Satz gehören, in zwei Stufen: Zunächst erkennen sie, ob das Snippet relevante Informationen enthält. Dann identifizieren sie Informationsnuggets.IGMs extract certain information belonging to a given entity from a particular sentence in two stages: First, they detect whether the snippet contains relevant information. Then they identify information nuggets.
Die Snippet-Relevanzerkennung beruht auf statistischen Klassifikatoren, die an drei Sammlungen geschult werden, die als Teil des Pilotprogramms erzeugt wurden: i) Daten, die für die Pilotprogramm-Teams in den ersten Jahren des Programms vom Linguistic Data Consortium (LDC) bereitgestellt wurden; ii) Daten, die von BAE Systems bereitgestellt wurden; und iii) intern kommentierte Daten. Die Daten bestehen aus Abfragen und Snippets mit binären Relevanzkommentaren. Die LDC- und intern kommentierten Daten wurden speziell zu Schulungs- und Testzwecken entwickelt, während die BAE-Daten auch Abfragen aus jährlichen Auswertungen, die Antworten, die von den Teams bereitgestellt wurden, die an den Auswertungen teilgenommen haben, und die offiziellen Beurteilungen der Antworten enthalten. Die statistischen Modelle sind maximale Entropie-Klassifikatoren oder gemittelte Perzeptronen, die auf der Grundlage empirischer Leistung ausgewählt werden. Sie verwenden einen breiten Bereich von Merkmalen, einschließlich lexikalischer, struktureller, syntaktischer, Abhängigkeits- und semantischer Merkmale. Tabelle 3 fasst die Leistung der Modelle zusammen, die im Jahr 4 von nicht abgesonderten Abfragen anhand eines intern generierten Entwicklungssatzes verwendet wurden. Die Spalte „TN” bezeichnet eine Vorlagennummer.
IGMs analysieren Snippets, die von den Vorlagenmodellen ausgewählt wurden, und extrahieren die Informationen, die von den IDMs zum Zusammenstellen und bildlichen Darstellen der Ergebnisse verwendet werden. Dieser Schritt wird als „Informationsnugget-Extraktion” bezeichnet, wobei ein Informationsnugget eine elementare Antwort auf eine bestimmte Frage ist. Extrahierte Nuggets enthalten den Schwerpunkt der Antwort (z. B. den Ort, der von einer Person besucht wurde), den unterstützenden Text (eine Untergruppe des Snippets), eine Zusammenfassung der Antwort (die dem Snippet entnommen oder automatisch generiert wurde).IGMs analyze snippets selected from the template models and extract the information used by the IDMs to compose and visualize the results. This step is referred to as "information nugget extraction" where an information nugget is an elementary answer to a particular question. Extracted nuggets include the focus of the answer (for example, the location visited by a person), the supporting text (a subset of the snippet), a summary of the answer (taken from the snippet, or automatically generated).
Verschiedene Module extrahieren bestimmte Typen von Nuggets. Diese Module können einfache Systeme auf der Grundlage von Regeln oder vollstatistische Modelle sein. Jede Registerkarte verwendet einen anderen Satz von Nugget-Extraktionsprogrammen, die leicht zusammengestellt und konfiguriert werden können, um maßgeschneiderte Versionen des Systems zu erzeugen.Different modules extract certain types of nuggets. These modules can be simple systems based on rules or full-scale models. Each tab uses a different set of nugget extraction programs that can be easily assembled and configured to create customized versions of the system.
IDMs verwenden die Informationen, die von IGMs erzeugt werden, zum bildlichen Darstellen der Ergebnisse. Dazu gehört das Gruppieren von Ergebnissen in nicht-redundante Sätze, das Sortieren der Sätze, das Erzeugen einer kurzen Beschreibung jedes Satzes, das Auswählen eines repräsentativen Snippets für jeden Satz, das Hervorheben der Abschnitte des Snippets, die Informationen enthalten, die zu der bestimmten Registerkarte gehören, das Erstellen von Navigations-Hyperlinks zu anderen Seiten und das Generieren von Daten, die zur grafischen Darstellung des Registerkarteninhalts verwendet werden.IDMs use the information generated by IGMs to visualize the results. This includes grouping results into non-redundant sets, sorting the sentences, generating a brief description of each sentence, selecting a representative snippet for each sentence, highlighting the sections of the snippet that contain information related to the particular tab include creating navigation hyperlinks to other pages and generating data used to graphically display the tab contents.
IGMs erzeugen Ergebnisse in einem allgemeinen Format, das eine klar strukturierte Anwendungsprogrammierschnittstelle (API) unterstützt. IDMs fragen diese API ab, um ausgewählte IGM-Produkte abzurufen. Für jede Registerkarte gibt eine Konfigurationsdatei an, welche IGM-Produkte zur Redundanzerkennung zu verwenden sind. Zum Beispiel wird der Inhalt der Registerkarte „Zugehörigkeiten” für Personen (siehe Tabelle 1) aus automatischen Inhaltsextraktions-(ACE – automatic content extraction)Beziehungen erstellt. Die Konfigurationsdatei weist das IDM an, den Beziehungstyp und die KB-Kennung der zugehörigen Entität zur Redundanzreduzierung zu verwenden. Wenn daher ein Snippet feststellt, dass Sam Palmisano Manager bei „IBM” war, und ein anderes, dass Sam Palmisano Manager bei „International Business Machines” war und „IBM” und „International Business Machines” dieselbe KB-Kennung haben, dann werden die Snippets für den Zweck der Registerkarte „Zugehörigkeit” als redundant gekennzeichnet.IGMs generate results in a common format that supports a well-structured application programming interface (API). IDMs query this API to retrieve selected IGM products. For each tab, a configuration file specifies which IGM products to use for redundancy detection. For example, the content of the "Affiliations" tab for individuals (see Table 1) is created from automatic content extraction (ACE) relationships. The configuration file instructs the IDM to use the relationship type and KB identifier of the associated entity for redundancy reduction. Therefore, if one snippet determines that Sam Palmisano was a manager at IBM and another that Sam Palmisano was a manager at International Business Machines and IBM and International Business Machines have the same KB identifier, then the Snippets identified as redundant for the purpose of the "Affiliation" tab.
Die Redundanzerkennung gruppiert Ergebnisse in Äquivalenzklassen. Jede Klasse enthält eindeutige Werte für die IGM-Produkte, die in der Konfigurationsdatei angegeben wurden. IDMs können des Weiteren Klassen in Superklassen gruppieren oder die Äquivalenzklassen gemäß den Werten von IGM-Produkten aufteilen. Zum Beispiel können sie die Äquivalenzklassen gemäß dem Datum des Dokuments partitionieren, das die Informationen enthält. Die daraus resultierenden Dokumentgruppen bilden die Anzeigeeinheit. IDMs weisen jeder dieser Gruppen eine Punktzahl zu, zum Beispiel unter Verwendung einer Funktion der Punktzahl der einzelnen Snippets und der Anzahl von Ergebnissen in der Gruppe oder in der Äquivalenzklasse. Die Gruppen werden nach Punktzahl sortiert, und das am höchsten bewertete Snippet wird als typisches Beispiel für die Gruppe ausgewählt. Jede Gruppe wird dann in der Registerkarte bildlich als ein Abschnitt mit einem Titel dargestellt, der unter Verwendung von ausgewählten IGM-Produkten erstellt wird. Die Punktzahl der Gruppe wird optional ebenfalls angezeigt. Der Text des repräsentativen Snippets, das den Nachweis für die relevanten Informationen enthält, ist gelb hervorgehoben. Die benannten Erwähnungen werden mit der entsprechenden Seite verlinkt, sofern verfügbar, und Links zu verschiedenen Ansichten des Dokuments werden bereitgestellt.The redundancy detection groups results into equivalence classes. Each class contains unique values for the IGM products specified in the configuration file. IDMs can also group classes into superclasses or split the equivalence classes according to the values of IGM products. For example, they can partition the equivalence classes according to the date of the document containing the information. The resulting document groups form the display unit. IDMs assign a score to each of these groups, for example, using a function of the score of each snippet and the number of results in the group or in the equivalence class. The groups are sorted by score and the highest rated snippet is selected as a typical example of the group. Each group is then pictorially represented in the tab as a section with a title created using selected IGM products. The score of the group is also optionally displayed. The text of the representative snippet containing proof of relevant information is highlighted in yellow. The named mentions will be linked to the appropriate page, if available, and links will be provided to various views of the document.
Jeder Registerkarte ist eine grafische Darstellung zugehörig, die ihren Inhalt zusammenfasst und die in dem Abschnitt rechts außen in der oberen Hälfte der Benutzeroberfläche von
Beispielhafte Ausführungen des Systems können drei verschiedene bildliche Darstellungen unterstützen: eine Wort-Cloud und zwei Formate von Diagrammen, die Verbindungen zwischen Entitäten zeigen. Eine Konfigurationsdatei unterrichtet die IDMs darüber, welche IGM-Produkte die Informationen enthalten, die in der grafischen Darstellung gezeigt werden sollen. Diese Informationen werden dann formatiert, um der API des Programms zu entsprechen, das die bildliche Darstellung dynamisch erstellt.Exemplary implementations of the system may support three different pictorial representations: a word cloud and two formats of charts showing connections between entities. A configuration file informs the IDMs which IGM products contain the information contained in to be shown in the graphic representation. This information is then formatted to conform to the API of the program that dynamically creates the visualization.
Die oben beschriebenen beispielhaften Ausführungsformen können aus dem Stand der Technik bekannte Verfahren zum Verarbeiten von natürlicher Sprache verwenden. Eine grundlegende Referenz ist das Buch „Foundations of Statistical Natural Language Processing” von Manning und Schütze, das die Haupttechniken abdeckt, die derartige Verfahren bilden. Das Erstellen von Sprachmodellen auf der Grundlage von Kookkurrenz (N-Gram-Modellen) wird in Kapitel 6 gelehrt. Das Identifizieren des Sinns von Wörtern unter Verwendung ihres Kontexts, das als Wort-Sinn-Klärung bezeichnet wird, wird in Kapitel 7 gelehrt. Das Erkennen des grammatikalischen Typs von Wörtern in einem Satz, das als Wortart-Tagging bezeichnet wird, wird in Kapitel 9 gelehrt. Das Erkennen der grammatikalischen Struktur eines Satzes, das als Parsing bezeichnet wird, wird in Kapitel 11 gelehrt. Das automatische Übersetzen von einer Ausgangssprache in eine Zielsprache wird in Kapitel 13 gelehrt. Die Hauptthemen zum Informationenabruf werden in Kapitel 15 gelehrt. Automatische Verfahren zur Textkategorisierung werden in Kapitel 16 gelehrt.The exemplary embodiments described above may use methods known in the art for processing natural speech. A fundamental reference is Manning and Schütze's Foundations of Statistical Natural Language Processing, which covers the main techniques that make up such procedures. Creating language models based on Kookbewerb (N-Gram models) is taught in
In Anbetracht des bedeutenden Anteils von neuem Material im Internet, bei dem es sich um Nachrichten handelt, die sich auf Leute, Organisationen und geopolitische Entitäten (GPEs) konzentrieren, bilden benannte Entitäten einen Schlüsselaspekt von Nachrichtendokumenten, und man interessiert sich oft für das Verfolgen von Artikeln über eine Person (z. B. Leon Panetta), eine Organisation (z. B. Apple Inc.) oder eine GPE (z. B. die Vereinigten Staaten). Oben beschriebene beispielhafte Ausführungsformen stellen ein System bereit, das automatisch Zusammenfassungsseiten für benannte Entitäten aus Nachrichtendaten erstellt. Die EP-Seite, die eine Entität beschreibt, ist in Abschnitte organisiert, die bestimmte Fragen über diese Entität beantworten, wie beispielsweise Bibliografie-Informationen, abgegebene Erklärungen, Bekanntschaften, Aktionen und dergleichen. Jeder Abschnitt enthält Text-Snippets, die die Fakten unterstützen, die automatisch aus der Sammlung extrahiert werden. Die Redundanzreduzierung ergibt eine prägnante Zusammenfassung mit nur ganz neuen und nützlichen Snippets, die in der Standardanzeige dargestellt werden. Das System kann unter Verwendung einer Vielfalt von Quellen umgesetzt werden und zeigt Informationen, die nicht nur aus englischem Nachrichtenagenturtext, sondern auch aus maschinenübersetztem Text und automatisch transkribierten Audiodaten extrahiert werden.Given the significant amount of new material on the Internet, which is news that focuses on people, organizations, and geopolitical entities (GPEs), named entities make up a key aspect of news documents, and one is often interested in following Articles about a person (eg Leon Panetta), an organization (eg Apple Inc.) or a GPE (eg the United States). Exemplary embodiments described above provide a system that automatically creates summary pages for named entities from message data. The EP page describing an entity is organized into sections that answer specific questions about that entity, such as bibliography information, statements made, acquaintances, actions, and the like. Each section contains text snippets that support the facts that are automatically extracted from the collection. The redundancy reduction results in a succinct summary with only very new and useful snippets, which are displayed in the standard display. The system can be implemented using a variety of sources and displays information extracted not only from English news agency text but also from machine translated text and automatically transcribed audio data.
Obwohl öffentlich verfügbare Nachrichten-Aggregatoren wie Google News die Spitzen-Entitäten in den Nachrichten zeigen, führt deren Anklicken typischerweise zu einer Schlüsselwortsuche (mit eventuell einiger Redundanzerkennung). Andererseits stellen die oben beschriebenen beispielhaften Ausführungsformen ein System bereit, das den Inhalt auf eine systematische Weise organisiert und zusammenfasst, die für den Benutzer nützlich ist. Das System ist nicht auf eine Bag-of-Words-Suche beschränkt, sondern verwendet eine tiefere NLP-Technologie zum Erkennen von Erwähnungen von benannten Entitäten, zum Auflösen von Koreferenz (beides innerhalb eines Dokuments und dokumentübergreifend) und zum Mining von Beziehungen wie Mitarbeiter von, Ehegatte von, Niederlassung von usw. aus dem Text. Das Bezugssystem ist in hohem Maße skalierbar und kann in Echtzeit eine Zusammenfassung für jede Entität generieren, die in den Nachrichten auftritt. Die flexible Architektur des Systems ermöglicht eine rasche Anpassung an andere Domänen als Nachrichten, wie beispielsweise Sammlungen von wissenschaftlichen Dokumenten, in denen die Entitäten von Interesse Autoren, Einrichtungen und Länder sind.Although publicly available news aggregators such as Google News show the top entities in the news, clicking them typically results in a keyword search (with possibly some redundancy detection). On the other hand, the exemplary embodiments described above provide a system that organizes and summarizes the content in a systematic manner that is useful to the user. The system is not limited to a bag-of-words search, but uses a deeper NLP technology to recognize mentions of named entities, to resolve coreference (both within a document and across documents), and to mine relationships such as employees of , Spouse of, branch of etc from the text. The framework is highly scalable and can generate a summary in real time for every entity that appears in the messages. The flexible architecture of the system allows for rapid adaptation to domains other than news, such as collections of scientific documents in which the entities of interest are authors, institutions, and countries.
Die Vorgehensweisen der beispielhaften Ausführungsformen der vorliegenden Offenbarung können besonders gut für die Verwendung in einer elektronischen Einheit oder einem alternativen System geeignet sein. Dementsprechend können beispielhafte Ausführungsformen die Gestalt einer Ausführungsform annehmen, die Software- und Hardware-Aspekte kombiniert, auf die allgemein als „Prozessor”, „Schaltung”, „Modul” oder „System” Bezug genommen werden kann. Des Weiteren können beispielhafte Ausführungen die Gestalt eines Computerprogrammprodukts annehmen, das in einem oder mehreren computerlesbaren Medien mit einem darin gespeicherten computerlesbaren Programmcode ausgeführt ist.The approaches of the exemplary embodiments of the present disclosure may be particularly well suited for use in an electronic device or an alternative system. Accordingly, exemplary embodiments may take the form of an embodiment that combines software and hardware aspects, which may be generically referred to as "processor," "circuit," "module," or "system." Further, exemplary embodiments may take the form of a computer program product embodied in one or more computer readable media having computer readable program code stored therein.
Jede Kombination von einem oder mehreren computerverwendbaren oder computerlesbaren Medien kann verwendet werden. Das computerverwendbare oder computerlesbare Medium kann ein computerlesbares Speichermedium sein. Ein computerlesbares Speichermedium kann zum Beispiel ein elektronisches, magnetisches, optisches, elektromagnetisches, Infrarot- oder Halbleitersystem, eine derartige Vorrichtung, Einheit oder jede geeignete Kombination aus dem Vorgenannten sein, ist aber nicht darauf beschränkt. Zu spezielleren Beispielen (eine nicht erschöpfende Liste) für das computerlesbare Speichermedium würde Folgendes gehören: eine tragbare Computerdiskette, eine Festplatte, ein Arbeitsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein löschbaren programmierbarer Nur-Lese-Speicher (EPROM oder Flash-Speicher), ein Lichtwellenleiter, ein tragbarer CD-ROM, eine optische Speichereinheit, eine Magnetspeichereinheit oder jede geeignete Kombination des Vorgenannten. In dem Kontext dieses Dokuments kann ein computerlesbares Speichermedium jedes konkrete Medium sein, das ein Programm enthalten oder speichern kann, das von oder in Verbindung mit einem System, einer Vorrichtung oder einer Einheit zur Anweisungsausführung verwendet werden kann.Any combination of one or more computer-usable or computer-readable media may be used. The computer-usable or computer-readable medium may be a computer-readable storage medium. A computer-readable storage medium may be, for example, but not limited to, an electronic, magnetic, optical, electromagnetic, infrared, or semiconductor system, apparatus, device, or any suitable combination of the foregoing. More specific examples (a non-exhaustive list) of the computer readable storage medium would include: a portable computer diskette, a hard disk, random access memory (RAM), read only memory (ROM), erasable programmable read only memory (EPROM) or flash memory), an optical fiber, a portable CD-ROM, an optical storage unit, a magnetic storage unit or any other suitable Combination of the above. In the context of this document, a computer readable storage medium may be any tangible medium that may contain or store a program that may be used by or in connection with an instruction execution system, apparatus, or device.
Computerprogrammcode zum Ausführen von Operationen der beispielhaften Ausführungsformen kann in jeder Kombination von einer oder mehreren Programmiersprachen geschrieben werden, einschließlich einer objektorientierten Programmiersprache wie Java, Smalltalk, C++ oder dergleichen und herkömmlichen prozeduralen Programmiersprachen wie der Programmiersprache „C” oder ähnlichen Programmiersprachen. Der Programmcode kann vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Softwarepaket, teilweise auf dem Computer des Benutzers und teilweise auf einem fernen Computer oder vollständig auf dem fernen Computer oder Server ausgeführt werden. In dem letzteren Szenario kann der ferne Computer mit dem Computer des Benutzers über jeden Typ von Netzwerk verbunden werden, einschließlich ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetz (WAN), oder die Verbindung kann zu einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Nutzung eines Internet-Dienstanbieters).Computer program code for performing operations of the exemplary embodiments may be written in any combination of one or more programming languages, including an object-oriented programming language such as Java, Smalltalk, C ++ or the like and conventional procedural programming languages such as the "C" programming language or similar programming languages. The program code may be executed entirely on the user's computer, partly on the user's computer, as a stand-alone software package, partly on the user's computer and partly on a remote computer or entirely on the remote computer or server. In the latter scenario, the remote computer can be connected to the user's computer via any type of network, including a local area network (LAN) or a wide area network (WAN), or the connection can be made to an external computer (e.g. Internet using an Internet service provider).
Beispielhafte Ausführungsformen werden hierin unter Bezugnahme auf Ablaufplan-Veranschaulichungen und/oder Blockschaubilder beschrieben. Es versteht sich, dass jeder Block in den Ablaufplan-Veranschaulichungen und/oder den Blockschaubildern und Kombinationen von Blöcken in den Ablaufplan-Veranschaulichungen und/oder den Blockschaubildern durch Computerprogrammanweisungen ausgeführt werden können.Exemplary embodiments are described herein with reference to flowchart illustrations and / or block diagrams. It is understood that each block in the flowchart illustrations and / or block diagrams, and combinations of blocks in the flowchart illustrations and / or block diagrams, may be executed by computer program instructions.
Die Computerprogrammanweisungen können in einem computerlesbaren Medium gespeichert werden, das einen Computer, eine andere Vorrichtung, die programmierbare Daten verarbeitet, oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Weise funktionieren, so dass die in dem computerlesbaren Medium gespeicherten Anweisungen einen Fertigungsartikel erzeugen, einschließlich Anweisungen, die die in dem Ablaufplan und/oder dem Block oder den Blöcken des Blockschaubilds angegebene Funktion/Handlung implementieren.The computer program instructions may be stored in a computer readable medium that may control a computer, another device that processes programmable data, or other units to function in a particular manner so that the instructions stored in the computer readable medium produce an article of manufacture including instructions that implement the function / action specified in the flowchart and / or the block or blocks of the block diagram.
Es ist einzusehen, dass der Begriff „Prozessor”, wie er hierin verwendet wird, jede Verarbeitungseinheit enthalten soll, wie zum Beispiel eine, die eine zentrale Verarbeitungseinheit (CPU) und/oder eine andere Verarbeitungsschaltung (z. B. digitaler Signalprozessor (DSP), Mikroprozessor usw.) enthält. Außerdem ist zu verstehen, dass sich der Begriff „Prozessor” auf mehr als auf eine Verarbeitungseinheit beziehen kann, und dass verschiedene einer Verarbeitungseinheit zugehörige Elemente gemeinsam von anderen Verarbeitungseinheiten genutzt werden können. Der Begriff „Speicher”, wie er hierin verwendet wird, soll Speicher und andere computerlesbare Medien enthalten, die einem Prozessor oder einer CPU zugehörig sind, wie beispielsweise Arbeitsspeicher (RAM), Nur-Lese-Speicher (ROM), feste Speichermedien (z. B. eine Festplatte), austauschbare Speichermedien (z. B. eine Diskette), Flash-Speicher usw. Des Weiteren soll der Begriff „E/A-Schaltung”, wie er hierin verwendet wird, zum Beispiel eine oder mehrere Eingabeeinheiten (z. B. Tastatur, Maus usw.) zum Eingeben von Daten in den Prozessor und/oder eine oder mehrere Ausgabeeinheiten (z. B. Drucker, Bildschirm usw.) zum Darstellen der dem Prozessor zugehörigen Ergebnisse enthalten.It will be appreciated that the term "processor" as used herein is intended to include any processing unit, such as one that includes a central processing unit (CPU) and / or other processing circuitry (eg, digital signal processor (DSP)). , Microprocessor, etc.). It should also be understood that the term "processor" may refer to more than one processing unit, and that various elements associated with a processing unit may be shared by other processing units. The term "memory" as used herein is intended to include memory and other computer-readable media associated with a processor or CPU, such as random access memory (RAM), read-only memory (ROM), fixed storage media (e.g. A hard disk), removable storage media (e.g., a floppy disk), flash memory, etc. Further, as used herein, the term "I / O circuit" is intended to include, for example, one or more input devices (e. Keyboard, mouse, etc.) for inputting data to the processor and / or one or more output devices (eg, printer, monitor, etc.) for presenting the results associated with the processor.
Der Ablaufplan und die Blockschaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb von möglichen Ausführungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen. Diesbezüglich kann jeder Block in dem Ablaufplan oder in den Blockschaubildern ein Modul, ein Segment oder einen Codeabschnitt darstellen, der einen oder mehrere ausführbare Anweisungen zum Ausführen der angegebenen logischen Funktion(en) aufweist. Es ist ebenfalls anzumerken, dass in einigen alternativen Ausführungen die in dem Block angegebenen Funktionen in einer anderen Reihenfolge auftreten können als in den Figuren angegeben. Zum Beispiel können zwei nacheinander gezeigte Blöcke tatsächlich im Wesentlichen parallel ausgeführt werden, oder die Blöcke können manchmal in der umgekehrten Reihenfolge ausgeführt werden, was von der beteiligten Funktionalität abhängt. Es wird ebenfalls angemerkt, dass jeder Block in den Blockschaubildern und/oder in der Ablaufplan-Veranschaulichung und Kombinationen von Blöcken in den Blockschaubildern und/oder der Ablaufplan-Veranschaulichung durch spezielle Systeme auf der Grundlage von Hardware, die die angegebenen Funktionen oder Handlungen ausführen, oder Kombinationen von spezieller Hardware und Computeranweisungen ausgeführt werden kann.The flowchart and block diagrams in the figures illustrate the architecture, functionality, and operation of possible implementations of systems, methods, and computer program products according to various embodiments. In this regard, each block in the flowchart or block diagrams may represent a module, segment or code section having one or more executable instructions for performing the specified logical function (s). It should also be noted that in some alternative embodiments, the functions indicated in the block may occur in a different order than indicated in the figures. For example, two blocks shown in succession may in fact be executed substantially in parallel, or the blocks may sometimes be executed in the reverse order, depending on the functionality involved. It is also noted that each block in the block diagrams and / or in the flowchart illustration and combinations of blocks in the block diagrams and / or flowchart illustration by specific systems based on hardware performing the specified functions or acts, or combinations of special hardware and computer instructions.
Obwohl veranschaulichende Ausführungsformen der vorliegenden Offenbarung hierin unter Bezugnahme auf die begleitenden Zeichnungen beschrieben worden sind, ist zu verstehen, dass die vorliegende Offenbarung nicht auf genau diese Ausführungsformen beschränkt ist, und dass verschiedene andere Änderungen und Modifizierungen daran von einem Fachmann vorgenommen werden können, ohne von dem Schutzumfang der Ansprüche im Anhang abzuweichen.Although illustrative embodiments of the present disclosure have been described herein with reference to the accompanying drawings, it is to be understood that the present disclosure is not limited to these precise embodiments, and that various other changes and modifications may be made thereto by those skilled in the art without departing from to deviate from the scope of the claims in the appendix.
Claims (25)
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/493,659 | 2012-06-11 | ||
US13/493,659 US20130332450A1 (en) | 2012-06-11 | 2012-06-11 | System and Method for Automatically Detecting and Interactively Displaying Information About Entities, Activities, and Events from Multiple-Modality Natural Language Sources |
US13/543,157 US20140195884A1 (en) | 2012-06-11 | 2012-07-06 | System and method for automatically detecting and interactively displaying information about entities, activities, and events from multiple-modality natural language sources |
US13/543,157 | 2012-07-06 |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102013205737A1 true DE102013205737A1 (en) | 2013-12-12 |
Family
ID=49626021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE201310205737 Ceased DE102013205737A1 (en) | 2012-06-11 | 2013-04-02 | Method for automatically extracting and organizing information from data sources in e.g. web pages, involves producing combined representation of the equivalence classes in which the order for displayable representation is displayed |
Country Status (2)
Country | Link |
---|---|
US (1) | US20140195884A1 (en) |
DE (1) | DE102013205737A1 (en) |
Families Citing this family (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9158754B2 (en) * | 2012-03-29 | 2015-10-13 | The Echo Nest Corporation | Named entity extraction from a block of text |
US9280520B2 (en) * | 2012-08-02 | 2016-03-08 | American Express Travel Related Services Company, Inc. | Systems and methods for semantic information retrieval |
US10515138B2 (en) * | 2014-04-25 | 2019-12-24 | Mayo Foundation For Medical Education And Research | Enhancing reading accuracy, efficiency and retention |
US9619457B1 (en) * | 2014-06-06 | 2017-04-11 | Google Inc. | Techniques for automatically identifying salient entities in documents |
US9740687B2 (en) | 2014-06-11 | 2017-08-22 | Facebook, Inc. | Classifying languages for objects and entities |
US9864744B2 (en) | 2014-12-03 | 2018-01-09 | Facebook, Inc. | Mining multi-lingual data |
US9830404B2 (en) | 2014-12-30 | 2017-11-28 | Facebook, Inc. | Analyzing language dependency structures |
US10067936B2 (en) | 2014-12-30 | 2018-09-04 | Facebook, Inc. | Machine translation output reranking |
US9830386B2 (en) | 2014-12-30 | 2017-11-28 | Facebook, Inc. | Determining trending topics in social media |
US9477652B2 (en) | 2015-02-13 | 2016-10-25 | Facebook, Inc. | Machine learning dialect identification |
US10102275B2 (en) | 2015-05-27 | 2018-10-16 | International Business Machines Corporation | User interface for a query answering system |
US10867256B2 (en) * | 2015-07-17 | 2020-12-15 | Knoema Corporation | Method and system to provide related data |
US10108907B2 (en) * | 2015-07-17 | 2018-10-23 | Knoema Corporation | Method and system to provide related data |
US9734142B2 (en) | 2015-09-22 | 2017-08-15 | Facebook, Inc. | Universal translation |
US10719624B2 (en) * | 2015-09-29 | 2020-07-21 | International Business Machines Corporation | System for hiding sensitive messages within non-sensitive meaningful text |
US10146858B2 (en) | 2015-12-11 | 2018-12-04 | International Business Machines Corporation | Discrepancy handler for document ingestion into a corpus for a cognitive computing system |
CN106874256A (en) * | 2015-12-11 | 2017-06-20 | 北京国双科技有限公司 | Name the method and device of entity in identification field |
US10133738B2 (en) | 2015-12-14 | 2018-11-20 | Facebook, Inc. | Translation confidence scores |
US9734143B2 (en) | 2015-12-17 | 2017-08-15 | Facebook, Inc. | Multi-media context language processing |
US9747283B2 (en) | 2015-12-28 | 2017-08-29 | Facebook, Inc. | Predicting future translations |
US9805029B2 (en) | 2015-12-28 | 2017-10-31 | Facebook, Inc. | Predicting future translations |
US10002125B2 (en) | 2015-12-28 | 2018-06-19 | Facebook, Inc. | Language model personalization |
US9842161B2 (en) * | 2016-01-12 | 2017-12-12 | International Business Machines Corporation | Discrepancy curator for documents in a corpus of a cognitive computing system |
US10176250B2 (en) | 2016-01-12 | 2019-01-08 | International Business Machines Corporation | Automated curation of documents in a corpus for a cognitive computing system |
US10169328B2 (en) | 2016-05-12 | 2019-01-01 | International Business Machines Corporation | Post-processing for identifying nonsense passages in a question answering system |
US10585898B2 (en) * | 2016-05-12 | 2020-03-10 | International Business Machines Corporation | Identifying nonsense passages in a question answering system based on domain specific policy |
US9842096B2 (en) | 2016-05-12 | 2017-12-12 | International Business Machines Corporation | Pre-processing for identifying nonsense passages in documents being ingested into a corpus of a natural language processing system |
US10902215B1 (en) | 2016-06-30 | 2021-01-26 | Facebook, Inc. | Social hash for language models |
US10902221B1 (en) | 2016-06-30 | 2021-01-26 | Facebook, Inc. | Social hash for language models |
US20180096103A1 (en) * | 2016-10-03 | 2018-04-05 | International Business Machines Corporation | Verification of Clinical Hypothetical Statements Based on Dynamic Cluster Analysis |
US11620304B2 (en) * | 2016-10-20 | 2023-04-04 | Microsoft Technology Licensing, Llc | Example management for string transformation |
US11256710B2 (en) | 2016-10-20 | 2022-02-22 | Microsoft Technology Licensing, Llc | String transformation sub-program suggestion |
US10846298B2 (en) | 2016-10-28 | 2020-11-24 | Microsoft Technology Licensing, Llc | Record profiling for dataset sampling |
US10180935B2 (en) | 2016-12-30 | 2019-01-15 | Facebook, Inc. | Identifying multiple languages in a content item |
US10572601B2 (en) | 2017-07-28 | 2020-02-25 | International Business Machines Corporation | Unsupervised template extraction |
US10380249B2 (en) | 2017-10-02 | 2019-08-13 | Facebook, Inc. | Predicting future trending topics |
US10191975B1 (en) * | 2017-11-16 | 2019-01-29 | The Florida International University Board Of Trustees | Features for automatic classification of narrative point of view and diegesis |
US11681760B2 (en) | 2018-08-01 | 2023-06-20 | Microsoft Technology Licensing, Llc | Cross-application ingestion and restructuring of content |
US11295073B2 (en) | 2018-08-01 | 2022-04-05 | Microsoft Technology Licensing, Llc | Cross-application ingestion and restructuring of spreadsheet content |
US11113447B2 (en) * | 2018-08-01 | 2021-09-07 | Microsoft Technology Licensing, Llc | Cross-application ingestion and restructuring of slide presentation content |
US11182538B2 (en) | 2018-08-01 | 2021-11-23 | Microsoft Technology Licensing, Llc | Conversational user interface logic for cross-application ingestion and restructuring of content |
EP3876137A4 (en) | 2018-10-30 | 2021-11-03 | Federalnoe Gosudarstvennoe Avtonomnoe Obrazovatelnoe Uchrezhdenie Vysshego Obrazovaniya "Moskovsky Fiziko-Tekhnichesky Institut | System for identifying named entities with dynamic parameters |
US11144705B2 (en) * | 2019-03-21 | 2021-10-12 | International Business Machines Corporation | Cognitive multiple-level highlight contrasting for entities |
CN111782800B (en) * | 2020-06-30 | 2023-11-21 | 上海仪电(集团)有限公司中央研究院 | Intelligent conference analysis method for event tracing |
RU2750852C1 (en) * | 2020-10-19 | 2021-07-05 | Федеральное государственное бюджетное образовательное учреждение высшего образования «Национальный исследовательский Мордовский государственный университет им. Н.П. Огарёва» | Method for attribution of partially structured texts for formation of normative-reference information |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5980096A (en) * | 1995-01-17 | 1999-11-09 | Intertech Ventures, Ltd. | Computer-based system, methods and graphical interface for information storage, modeling and stimulation of complex systems |
US6816858B1 (en) * | 2000-03-31 | 2004-11-09 | International Business Machines Corporation | System, method and apparatus providing collateral information for a video/audio stream |
US7013323B1 (en) * | 2000-05-23 | 2006-03-14 | Cyveillance, Inc. | System and method for developing and interpreting e-commerce metrics by utilizing a list of rules wherein each rule contain at least one of entity-specific criteria |
NO316480B1 (en) * | 2001-11-15 | 2004-01-26 | Forinnova As | Method and system for textual examination and discovery |
CA2500573A1 (en) * | 2005-03-14 | 2006-09-14 | Oculus Info Inc. | Advances in nspace - system and method for information analysis |
US20070282665A1 (en) * | 2006-06-02 | 2007-12-06 | Buehler Christopher J | Systems and methods for providing video surveillance data |
WO2008141673A1 (en) * | 2007-05-21 | 2008-11-27 | Ontos Ag | Semantic navigation through web content and collections of documents |
WO2009052308A1 (en) * | 2007-10-17 | 2009-04-23 | Roseman Neil S | Nlp-based content recommender |
WO2009050521A2 (en) * | 2007-10-17 | 2009-04-23 | Iti Scotland Limited | Computer-implemented methods displaying, in a first part, a document and in a second part, a selected index of entities identified in the document |
US8140578B2 (en) * | 2008-07-15 | 2012-03-20 | International Business Machines Corporation | Multilevel hierarchical associations between entities in a knowledge system |
US8527522B2 (en) * | 2008-09-05 | 2013-09-03 | Ramp Holdings, Inc. | Confidence links between name entities in disparate documents |
US8266148B2 (en) * | 2008-10-07 | 2012-09-11 | Aumni Data, Inc. | Method and system for business intelligence analytics on unstructured data |
US8645125B2 (en) * | 2010-03-30 | 2014-02-04 | Evri, Inc. | NLP-based systems and methods for providing quotations |
US10692093B2 (en) * | 2010-04-16 | 2020-06-23 | Microsoft Technology Licensing, Llc | Social home page |
US9563656B2 (en) * | 2010-05-17 | 2017-02-07 | Xerox Corporation | Method and system to guide formulations of questions for digital investigation activities |
US8732584B2 (en) * | 2010-11-09 | 2014-05-20 | Palo Alto Research Center Incorporated | System and method for generating an information stream summary using a display metric |
US9043360B2 (en) * | 2010-12-17 | 2015-05-26 | Yahoo! Inc. | Display entity relationship |
US20130124490A1 (en) * | 2011-11-10 | 2013-05-16 | Microsoft Corporation | Contextual suggestion of search queries |
-
2012
- 2012-07-06 US US13/543,157 patent/US20140195884A1/en not_active Abandoned
-
2013
- 2013-04-02 DE DE201310205737 patent/DE102013205737A1/en not_active Ceased
Also Published As
Publication number | Publication date |
---|---|
US20140195884A1 (en) | 2014-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102013205737A1 (en) | Method for automatically extracting and organizing information from data sources in e.g. web pages, involves producing combined representation of the equivalence classes in which the order for displayable representation is displayed | |
Hamborg et al. | Automated identification of media bias in news articles: an interdisciplinary literature review | |
Singh et al. | PROSPECT: a system for screening candidates for recruitment | |
DE112018000334T5 (en) | System and method for domain independent aspect level mood recognition | |
DE102019001267A1 (en) | Dialog-like system for answering inquiries | |
DE602004003361T2 (en) | SYSTEM AND METHOD FOR GENERATING REFINEMENT CATEGORIES FOR A GROUP OF SEARCH RESULTS | |
DE112018006345T5 (en) | GET SUPPORTING EVIDENCE FOR COMPLEX ANSWERS | |
DE112017006151T5 (en) | Customizable processing components | |
DE102019000294A1 (en) | Create company-specific knowledge graphs | |
DE102013003055A1 (en) | Method and apparatus for performing natural language searches | |
EP1877932B1 (en) | System and method for aggregating and monitoring decentrally stored multimedia data | |
DE112012001750T5 (en) | Automated self-service user support based on ontology analysis | |
DE112007000053T5 (en) | System and method for intelligent information acquisition and processing | |
EP1783633B1 (en) | Search engine for a location related search | |
EP2188742A1 (en) | Detecting correlations between data representing information | |
DE10124429B4 (en) | System and method for improved spell checking | |
DE112020005268T5 (en) | AUTOMATICALLY GENERATE SCHEMA ANNOTATION FILES TO CONVERT NATURAL LANGUAGE QUERIES TO STRUCTURED QUERY LANGUAGE | |
DE60101668T2 (en) | METHOD AND DEVICE FOR GENERATING AN INDEX BASED ON A FORMAT FOR A STRUCTURED DOCUMENT | |
DE112018005272T5 (en) | SEARCHING MULTI-LANGUAGE DOCUMENTS BASED ON AN EXTRACTION OF THE DOCUMENT STRUCTURE | |
DE112017007530T5 (en) | Entity model CREATION | |
DE102012221251A1 (en) | Semantic and contextual search of knowledge stores | |
Davi et al. | A review of two text-mining packages: SAS TextMining and WordStat | |
DE102021004157A1 (en) | Machine learning modeling to protect against online disclosure of sensitive data | |
US20180365324A1 (en) | Method of data organization and data searching for use in constructing evidence-based beliefs | |
Kuan et al. | Framing theory application in public relations: The lack of dynamic framing analysis in competitive context |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R012 | Request for examination validly filed | ||
R016 | Response to examination communication | ||
R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: G06F0017200000 Ipc: G06F0040000000 |
|
R084 | Declaration of willingness to licence | ||
R002 | Refusal decision in examination/registration proceedings | ||
R003 | Refusal decision now final |