DE202023105419U1 - A web information extraction system - Google Patents

A web information extraction system Download PDF

Info

Publication number
DE202023105419U1
DE202023105419U1 DE202023105419.6U DE202023105419U DE202023105419U1 DE 202023105419 U1 DE202023105419 U1 DE 202023105419U1 DE 202023105419 U DE202023105419 U DE 202023105419U DE 202023105419 U1 DE202023105419 U1 DE 202023105419U1
Authority
DE
Germany
Prior art keywords
data
classification
feature
feature selection
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE202023105419.6U
Other languages
German (de)
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nitte Meenakshi Institute Of Tech
Nitte Meenakshi Institute of Technology
Original Assignee
Nitte Meenakshi Institute Of Tech
Nitte Meenakshi Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nitte Meenakshi Institute Of Tech, Nitte Meenakshi Institute of Technology filed Critical Nitte Meenakshi Institute Of Tech
Priority to DE202023105419.6U priority Critical patent/DE202023105419U1/en
Publication of DE202023105419U1 publication Critical patent/DE202023105419U1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Ein System zur Extraktion von Webinformationen, bestehend aus:
eine Datenspeichereinheit, die zum Speichern eines Datensatzes geeignet ist, der durch das Sammeln großer Datenmengen aus einer Vielzahl von Webquellen erstellt wurde;
eine Netzwerkschnittstellenkomponente, die so konfiguriert ist, dass sie sich mit verschiedenen Online-Datenbanken verbindet und relevante Webdaten extrahiert;
eine Verarbeitungseinheit für die Merkmalsauswahl, einschließlich eines dedizierten Prozessors und Speichers, die so konfiguriert ist, dass sie eine effektive Merkmalsauswahl durch Implementierung eines erweiterten binären Bat-Algorithmus zur Extraktion von Big-Data-Informationen durchführt;
eine Klassifizierungsverarbeitungseinheit, die aus einem dedizierten Hardwarebeschleuniger besteht und so konfiguriert ist, dass sie eine direkte Etikettenklassifizierung durch Implementierung eines bestimmten Informationsextraktionsmodells für ein Multi-View-Multi-Label-Modell (PIMM) zur Extraktion von Big-Data-Informationen durchführt;
eine Benutzeroberfläche, die es Benutzern ermöglicht, Parameter für den Merkmalsauswahl- und Klassifizierungsprozess einzugeben.

Figure DE202023105419U1_0000
A web information extraction system consisting of:
a data storage device suitable for storing a data set created by collecting large amounts of data from a variety of web sources;
a network interface component configured to connect to various online databases and extract relevant web data;
a feature selection processing unit, including a dedicated processor and memory, configured to perform effective feature selection by implementing an extended binary bat algorithm for extracting big data information;
a classification processing unit consisting of a dedicated hardware accelerator and configured to perform direct label classification by implementing a specific information extraction model for a multi-view multi-label model (PIMM) for extracting big data information;
a user interface that allows users to enter parameters for the feature selection and classification process.
Figure DE202023105419U1_0000

Description

GEBIET DER ERFINDUNGFIELD OF THE INVENTION

Die vorliegende Offenbarung betrifft ein System zur Web-Informationsextraktion. Insbesondere bezieht sich die vorliegende Offenbarung auf ein System, das den Big- Data-Analyseansatz zur Extraktion von Webinformationen unter Verwendung von bioinspirierten Algorithmen verwendet.The present disclosure relates to a web information extraction system. In particular, the present disclosure relates to a system that uses the big data analysis approach to extract web information using bio-inspired algorithms.

HINTERGRUND DER ERFINDUNGBACKGROUND OF THE INVENTION

Aufgrund des exponentiellen Datenwachstums müssen Branchen ein Backup erstellen und große Datenmengen für ihren normalen Betrieb aufbewahren. Biologisch inspirierte Algorithmen haben den Umgang mit so großen Datenmengen einfacher und effektiver gemacht. Die Big-Data-Architektur ist für die Schaffung eines Systems, das effektiv Informationen aus riesigen Datenmengen extrahieren kann, von entscheidender Bedeutung. Diese Architektur dient als Rahmen für die Verarbeitung großer Datenmengen, indem sie die richtige Infrastruktur bietet und eine Vielzahl von Problemen gemäß den organisatorischen Anforderungen behebt.Due to exponential data growth, industries need to backup and retain large amounts of data for their normal operations. Biologically inspired algorithms have made dealing with such large amounts of data easier and more effective. Big data architecture is critical to creating a system that can effectively extract information from massive amounts of data. This architecture serves as a framework for processing large amounts of data by providing the right infrastructure and addressing a variety of issues as per organizational needs.

Daten werden aus verschiedenen Quellen gesammelt und in Batch- und Echtzeit-Datentypen unterteilt, um die Verarbeitung und semantische Darstellung zu erleichtern. Durch die Reduzierung der Anzahl von Features in einem Datensatz oder die Auswahl von Features mit intelligenter Datenanalyse wird die Informationsextraktion aus großen Datenmengen verbessert. Wenn zusätzlich zu den angegebenen Merkmalen weitere Attribute im mathematischen Modell verwendet werden, werden die Genauigkeit und Effizienz der Datenextraktion verbessert. Mithilfe dieser Ansätze kann ein effizientes System entwickelt werden, das den Web-Datenextraktionsprozess effizient durchführen kann.Data is collected from various sources and divided into batch and real-time data types to facilitate processing and semantic representation. Reducing the number of features in a data set or selecting features with intelligent data analysis improves information extraction from large amounts of data. When additional attributes are used in the mathematical model in addition to the specified features, the accuracy and efficiency of data extraction is improved. Using these approaches, an efficient system can be developed that can carry out the web data extraction process efficiently.

Angesichts der vorangegangenen Diskussion wird deutlich, dass ein Bedarf an einem effizienten System zur Extraktion von Webinformationen besteht.Given the previous discussion, it is clear that there is a need for an efficient web information extraction system.

ZUSAMMENFASSUNG DER ERFINDUNGSUMMARY OF THE INVENTION

Die vorliegende Offenbarung betrifft ein System zur Web-Informationsextraktion. Die Erfindung konzentriert sich auf die Nutzung bioinspirierter Algorithmen und Big-Data-Analysen, um Informationen aus dem Internet zu extrahieren. Um die Attributauswahl zu verbessern, wurde ein Enhanced Binary Bat Algorithm (EBBA) vorgeschlagen. Dieser Algorithmus verwendet sowohl lokale als auch globale Optimierungstechniken. Die verbesserte binäre Fledermausmethode mit Merkmalsauswahlmodell wird in den Forschungsanstrengungen eingesetzt, um die Effizienz zu steigern. Um die Genauigkeit zu verbessern, wurden Funktionen wie fscore , Präzision und Rückruf hinzugefügt. Die Wirksamkeit des vorgeschlagenen Algorithmus wurde validiert, indem alle Experimente mit verschiedenen Datensätzen über mehrere Iterationen hinweg durchgeführt und die Fitness der Merkmale verwendet wurden. Der Datensatz wurde aus verschiedenen Quellen zusammengetragen und in den Diskretisierungsprozess eingegeben. Die Daten werden hier in einen eigenständigen Datensatz umgewandelt. Aufgrund der Optimierung und der Produktion der ausgewählten Features mit den notwendigen Daten führt die Feature-Auswahl nun zu einem kleineren Datensatz. K-mean wird für einen diskreten Datensatz mit einer Klassifizierungsstrategie vorgeschlagen, die die Extraktion von Big-Data-Informationen integriert und einen relevanteren Funktionssatz zur Bewertung der Wirksamkeit anderer Algorithmen beim Erreichen der Klassifizierung bereitstellt. Durch die Verwendung der EBBA-Methode zusammen mit mathematischen Modellen und Validierung wurde ein analytisches Modell erstellt. In dieser Forschung wurde eine spezielle Informationsextraktion für das Multi View Multi Label (PIMM)-Modell verwendet, um mehrere Szenarien mit hoher Genauigkeit zu bewältigen. Durch die Verbesserung von Dimensionalität, Präzision, Verlust und Effektivität wird die Nutzung gemeinsamer Unterräume erhöht, die Extraktion spezifischer Informationen angezeigt und der Multi-Label-Verlust reduziert, um gemeinsam genutzte Informationen zwischen unterschiedlichen Ansichten zu kombinieren. Um zahlreiche Darstellungen eines einzelnen Elements richtig zu kombinieren und ihm eine angemessene, reichhaltige Semantik zu verleihen, wird Multi-View-Multi-Label-Learning eingesetzt. Um die Extraktion von Webinformationen zu verbessern, werden Random Forest- und Multi-Layer Perceptron (MLP)-Klassifikatoren verwendet. Die Wirksamkeit der vorgeschlagenen Techniken Die EBBA- und PIMM-Modelle sowie die SIMM- und SIFTS-Modelle wurden alle untersucht. Rückruf, Präzision und Fscores können von der SIFT-Technik (Single Instance Feature Transfer) oder dem SIMM-Modell (Single Instance Multi View) nicht verwendet werden, um die erforderlichen Daten zu erhalten. Die Genauigkeit der EBBA- und PIMM-Modelle hat sich deutlich verbessert.The present disclosure relates to a web information extraction system. The invention focuses on using bio-inspired algorithms and big data analytics to extract information from the Internet. To improve attribute selection, an Enhanced Binary Bat Algorithm (EBBA) was proposed. This algorithm uses both local and global optimization techniques. The improved binary bat method with feature selection model is used in the research efforts to increase efficiency. To improve accuracy, features such as fscore, precision and recall have been added. The effectiveness of the proposed algorithm was validated by conducting all experiments on different datasets over multiple iterations and using feature fitness. The data set was collected from various sources and entered into the discretization process. The data is converted here into an independent data set. Due to the optimization and production of the selected features with the necessary data, the feature selection now results in a smaller data set. K-mean is proposed for a discrete data set with a classification strategy that integrates big data information extraction and provides a more relevant feature set to evaluate the effectiveness of other algorithms in achieving classification. An analytical model was created by using the EBBA method along with mathematical models and validation. In this research, special information extraction for Multi View Multi Label (PIMM) model was used to handle multiple scenarios with high accuracy. By improving dimensionality, precision, loss and effectiveness, it increases the utilization of shared subspaces, displays specific information extraction, and reduces multi-label loss to combine shared information between different views. To properly combine numerous representations of a single element and give it appropriate, rich semantics, multi-view multi-label learning is used. To improve web information extraction, Random Forest and Multi-Layer Perceptron (MLP) classifiers are used. The effectiveness of the proposed techniques The EBBA and PIMM models as well as the SIMM and SIFTS models were all investigated. Recall, precision, and Fscores cannot be used by the Single Instance Feature Transfer (SIFT) technique or the Single Instance Multi View (SIMM) model to obtain the required data. The accuracy of the EBBA and PIMM models has improved significantly.

Die vorliegende Offenbarung zielt darauf ab, ein System zur Extraktion von Webinformationen bereitzustellen. Das System umfasst: einen Datensatz, der durch das Sammeln großer Datenmengen aus mehreren Quellen erstellt wurde; eine Merkmalsauswahl-Verarbeitungseinheit, die so konfiguriert ist, dass sie eine effektive Merkmalsauswahl durch Implementierung eines erweiterten binären Bat-Algorithmus zur Extraktion von Big-Data-Informationen durchführt; und eine Klassifizierungsverarbeitungseinheit , die so konfiguriert ist, dass sie eine direkte Etikettenklassifizierung durch Implementierung eines bestimmten Informationsextraktionsmodells für ein Multi-View-Multi-Label-Modell (PIMM) zur Extraktion von Big-Data-Informationen durchführt.The present disclosure aims to provide a web information extraction system. The system includes: a data set created by collecting large amounts of data from multiple sources; a feature selection processing unit configured to perform effective feature selection by implementing an advanced binary bat algorithm for extracting big data information; and a classification processing unit configured to provide a direct Performs label classification by implementing a specific information extraction model for a multi-view multi-label model (PIMM) to extract big data information.

Ein Ziel der vorliegenden Offenbarung besteht darin, ein System zur Extraktion von Webinformationen bereitzustellen.An objective of the present disclosure is to provide a system for extracting web information.

Ein weiteres Ziel der vorliegenden Offenbarung besteht darin, einen Algorithmus zur Optimierung von Webinformationen unter Verwendung ökologischer Faktoren und des Verhaltens von Tieren zu analysieren, wodurch die Informationsextraktion für eine Vielzahl von Daten initiiert wird.Another aim of the present disclosure is to analyze an algorithm for optimizing web information using ecological factors and animal behavior, thereby initiating information extraction for a variety of data.

Ein weiteres Ziel der vorliegenden Offenbarung besteht darin, ein System mit einem verbesserten Fledermausalgorithmus zur Optimierung unter Verwendung von Frequenz, Wellenlänge und anderen Faktoren bereitzustellen.Another object of the present disclosure is to provide a system with an improved bat algorithm for optimization using frequency, wavelength and other factors.

Ein weiteres Ziel der vorliegenden Offenbarung besteht darin, die Leistung des Systems im Vergleich zu bestehenden, auf Fledermausalgorithmen basierenden Systemen zu verbessern.Another goal of the present disclosure is to improve the performance of the system compared to existing bat algorithm based systems.

Ein weiteres Ziel der vorliegenden Offenbarung besteht darin, ein flexibles, effektives System zur Optimierung von Webinformationen zu entwickeln.Another objective of the present disclosure is to develop a flexible, effective system for optimizing web information.

Um die Vorteile und Merkmale der vorliegenden Offenbarung weiter zu verdeutlichen, erfolgt eine detailliertere Beschreibung der Erfindung unter Bezugnahme auf spezifische Ausführungsformen davon, die in den beigefügten Zeichnungen dargestellt sind. Es versteht sich, dass diese Zeichnungen nur typische Ausführungsformen der Erfindung darstellen und daher nicht als deren Umfang einschränkend anzusehen sind. Die Erfindung wird anhand der beigefügten Zeichnungen genauer und detaillierter beschrieben und erläutert.In order to further illustrate the advantages and features of the present disclosure, a more detailed description of the invention will be made with reference to specific embodiments thereof shown in the accompanying drawings. It is understood that these drawings represent only typical embodiments of the invention and are therefore not to be viewed as limiting its scope. The invention is described and explained in more detail and in greater detail with reference to the accompanying drawings.

KURZBESCHREIBUNG DER FIGURENBRIEF DESCRIPTION OF THE FIGURES

Diese und andere Merkmale, Aspekte und Vorteile der vorliegenden Offenbarung werden besser verständlich, wenn die folgende detaillierte Beschreibung unter Bezugnahme auf die beigefügten Zeichnungen gelesen wird, in denen in den Zeichnungen gleiche Bezugszeichen gleiche Teile darstellen, wobei:

  • 1 veranschaulicht ein Blockdiagramm eines Systems zur Web-Informationsextraktion gemäß einer Ausführungsform der vorliegenden Offenbarung;
  • 2 veranschaulicht ein Blockdiagramm für die Extraktion von Big-Data-Informationen unter Verwendung des vorgeschlagenen EBBA-Ansatzes gemäß einer Ausführungsform der vorliegenden Offenbarung;
  • 3 veranschaulicht ein Blockdiagramm für die Extraktion von Big-Data-Informationen mithilfe des PIMM-Ansatzes gemäß einer Ausführungsform der vorliegenden Offenbarung; Und
  • 4 zeigt ein Blockdiagramm eines Systems zur Extraktion von Webinformationen gemäß einer Ausführungsform der vorliegenden Offenbarung.
These and other features, aspects and advantages of the present disclosure will be better understood when the following detailed description is read with reference to the accompanying drawings, in which like reference numerals represent like parts throughout the drawings, in which:
  • 1 illustrates a block diagram of a web information extraction system according to an embodiment of the present disclosure;
  • 2 illustrates a block diagram for big data information extraction using the proposed EBBA approach according to an embodiment of the present disclosure;
  • 3 illustrates a block diagram for extracting big data information using the PIMM approach according to an embodiment of the present disclosure; And
  • 4 shows a block diagram of a web information extraction system according to an embodiment of the present disclosure.

Darüber hinaus werden erfahrene Handwerker erkennen, dass Elemente in den Zeichnungen der Einfachheit halber dargestellt sind und möglicherweise nicht unbedingt maßstabsgetreu gezeichnet wurden. Beispielsweise veranschaulichen die Flussdiagramme die Methode anhand der wichtigsten Schritte, die dazu beitragen, das Verständnis von Aspekten der vorliegenden Offenbarung zu verbessern. Darüber hinaus können im Hinblick auf die Konstruktion des Geräts eine oder mehrere Komponenten des Geräts in den Zeichnungen durch herkömmliche Symbole dargestellt worden sein, und die Zeichnungen zeigen möglicherweise nur die spezifischen Details, die für das Verständnis der Ausführungsformen der vorliegenden Offenbarung relevant sind um die Zeichnungen nicht durch Details zu verdecken, die für den Durchschnittsfachmann auf dem Gebiet, der Nutzen aus der Beschreibung hierin zieht, leicht ersichtlich sind.Additionally, experienced craftsmen will recognize that elements in the drawings are presented for convenience and may not necessarily have been drawn to scale. For example, the flowcharts illustrate the method through key steps that help improve understanding of aspects of the present disclosure. Additionally, in view of the construction of the device, one or more components of the device may have been represented in the drawings by conventional symbols, and the drawings may show only the specific details relevant to understanding the embodiments of the present disclosure around the drawings not to be obscured by details that would be readily apparent to one of ordinary skill in the art who would benefit from the description herein.

DETAILLIERTE BESCHREIBUNG:DETAILED DESCRIPTION:

Um das Verständnis der Prinzipien der Erfindung zu fördern, wird nun auf die in den Zeichnungen dargestellte Ausführungsform Bezug genommen und für deren Beschreibung eine spezifische Sprache verwendet. Es versteht sich jedoch, dass dadurch keine Einschränkung des Umfangs der Erfindung beabsichtigt ist, da Änderungen und weitere Modifikationen des dargestellten Systems und weitere Anwendungen der darin dargestellten Prinzipien der Erfindung in Betracht gezogen werden, wie sie einem Fachmann normalerweise in den Sinn kommen würden in der Technik, auf die sich die Erfindung bezieht.In order to promote understanding of the principles of the invention, reference will now be made to the embodiment shown in the drawings and specific language will be used to describe the same. It is to be understood, however, that this is not intended to limit the scope of the invention, since changes and further modifications to the system illustrated and further applications of the principles of the invention set forth therein are contemplated as would normally occur to one skilled in the art Technology to which the invention relates.

Der Fachmann versteht, dass die vorstehende allgemeine Beschreibung und die folgende detaillierte Beschreibung beispielhaft und erläuternd für die Erfindung sind und diese nicht einschränken sollen.It will be understood by those skilled in the art that the foregoing general description and the following detailed description are exemplary and illustrative of the invention and are not intended to limit the same.

Verweise in dieser Spezifikation auf „einen Aspekt“, „einen anderen Aspekt“ oder eine ähnliche Sprache bedeuten, dass ein bestimmtes Merkmal, eine bestimmte Struktur oder ein bestimmtes Merkmal, das in Verbindung mit der Ausführungsform beschrieben wird, in mindestens einer Ausführungsform der vorliegenden Offenbarung enthalten ist. Daher beziehen sich die Formulierungen „in einer Ausführungsform“, „in einer anderen Ausführungsform“ und ähnliche Formulierungen in dieser Spezifikation möglicherweise, aber nicht unbedingt, auf dieselbe Ausführungsform.References in this specification to “an aspect,” “another aspect,” or similar language mean that a particular feature, structure, or feature described in connection with the embodiment is included in at least one embodiment form of the present disclosure. Therefore, the phrases “in one embodiment,” “in another embodiment,” and similar phrases in this specification may, but not necessarily, refer to the same embodiment.

Die Begriffe „umfasst“, „umfassend“ oder andere Variationen davon sollen eine nicht ausschließliche Einbeziehung abdecken, sodass ein Prozess oder eine Methode, die eine Liste von Schritten umfasst, nicht nur diese Schritte umfasst, sondern möglicherweise andere Schritte nicht umfasst ausdrücklich aufgeführt oder diesem Prozess oder dieser Methode innewohnend sind. Ebenso schließen ein oder mehrere Geräte oder Subsysteme oder Elemente oder Strukturen oder Komponenten, denen „umfasst...a“ vorangestellt ist, nicht ohne weitere Einschränkungen die Existenz anderer Geräte oder anderer Subsysteme oder anderer Elemente oder anderer Strukturen aus andere Komponenten oder zusätzliche Geräte oder zusätzliche Subsysteme oder zusätzliche Elemente oder zusätzliche Strukturen oder zusätzliche Komponenten.The terms “includes,” “comprising,” or other variations thereof are intended to cover non-exclusive inclusion, such that a process or method that includes a list of steps not only includes those steps, but may include other steps not specifically listed or following this inherent in the process or method. Likewise, one or more devices or subsystems or elements or structures or components prefixed with "comprises...a" do not exclude, without further limitation, the existence of other devices or other subsystems or other elements or other structures from other components or additional devices or additional subsystems or additional elements or additional structures or additional components.

Sofern nicht anders definiert, haben alle hier verwendeten technischen und wissenschaftlichen Begriffe die gleiche Bedeutung, wie sie von einem Durchschnittsfachmann auf dem Gebiet, zu dem diese Erfindung gehört, allgemein verstanden werden. Das hier bereitgestellte System, die Methoden und Beispiele dienen nur der Veranschaulichung und sollen nicht einschränkend sein.Unless otherwise defined, all technical and scientific terms used herein have the same meaning as generally understood by one of ordinary skill in the art to which this invention pertains. The system, methods and examples provided herein are for illustrative purposes only and are not intended to be limiting.

Ausführungsformen der vorliegenden Offenbarung werden im Folgenden ausführlich unter Bezugnahme auf die beigefügten Zeichnungen beschrieben.Embodiments of the present disclosure are described in detail below with reference to the accompanying drawings.

Die in dieser Spezifikation beschriebenen Funktionseinheiten sind als Geräte gekennzeichnet. Ein Gerät kann in programmierbaren Hardwaregeräten wie Prozessoren, digitalen Signalprozessoren, Zentraleinheiten, feldprogrammierbaren Gate-Arrays, programmierbarer Array-Logik, programmierbaren Logikgeräten, Cloud-Verarbeitungssystemen oder dergleichen implementiert werden. Die Geräte können auch in Software zur Ausführung durch verschiedene Prozessortypen implementiert werden. Ein identifiziertes Gerät kann ausführbaren Code enthalten und beispielsweise einen oder mehrere physische oder logische Blöcke von Computeranweisungen umfassen, die beispielsweise als Objekt, Prozedur, Funktion oder anderes Konstrukt organisiert sein können. Dennoch muss die ausführbare Datei eines identifizierten Geräts nicht physisch zusammen angeordnet sein, sondern kann aus unterschiedlichen, an unterschiedlichen Orten gespeicherten Anweisungen bestehen, die, wenn sie logisch zusammengefügt werden, das Gerät bilden und den angegebenen Zweck des Geräts erfüllen.The functional units described in this specification are identified as devices. A device may be implemented in programmable hardware devices such as processors, digital signal processors, central processing units, field programmable gate arrays, programmable array logic, programmable logic devices, cloud processing systems, or the like. The devices can also be implemented in software for execution by different types of processors. An identified device may contain executable code and, for example, include one or more physical or logical blocks of computer instructions, which may be organized, for example, as an object, procedure, function, or other construct. However, the executable file of an identified device does not have to be physically located together, but may consist of different instructions stored in different locations, which, when logically assembled, form the device and fulfill the stated purpose of the device.

Tatsächlich könnte ein ausführbarer Code eines Geräts oder Moduls eine einzelne Anweisung oder mehrere Anweisungen sein und sogar über mehrere verschiedene Codesegmente, zwischen verschiedenen Anwendungen und über mehrere Speichergeräte verteilt sein. In ähnlicher Weise können Betriebsdaten hier innerhalb des Geräts identifiziert und dargestellt werden und können in jeder geeigneten Form verkörpert und in jeder geeigneten Art von Datenstruktur organisiert werden. Die Betriebsdaten können als einzelner Datensatz erfasst oder über verschiedene Standorte, einschließlich verschiedener Speichergeräte, verteilt werden und können zumindest teilweise als elektronische Signale in einem System oder Netzwerk vorliegen.In fact, a device or module's executable code could be a single instruction or multiple instructions, and even distributed across several different code segments, between different applications and across multiple storage devices. Similarly, operational data may be identified and represented herein within the device and may be embodied in any suitable form and organized into any suitable type of data structure. The operational data may be collected as a single data set or distributed across various locations, including various storage devices, and may exist, at least in part, as electronic signals in a system or network.

Verweise in dieser Spezifikation auf „eine ausgewählte Ausführungsform“, „eine Ausführungsform“ oder „eine Ausführungsform“ bedeuten, dass ein bestimmtes Merkmal, eine bestimmte Struktur oder ein bestimmtes Merkmal, das in Verbindung mit der Ausführungsform beschrieben wird, in mindestens einer Ausführungsform des offenbarten Gegenstands enthalten ist. Daher beziehen sich die Ausdrücke „eine ausgewählte Ausführungsform“, „in einer Ausführungsform“ oder „in einer Ausführungsform“ an verschiedenen Stellen in dieser Spezifikation nicht unbedingt auf dieselbe Ausführungsform.References in this specification to “a selected embodiment,” “an embodiment,” or “an embodiment” mean that a particular feature, structure, or feature described in connection with the embodiment is disclosed in at least one embodiment of the Item is included. Therefore, the expressions “a selected embodiment,” “in one embodiment,” or “in one embodiment” used elsewhere in this specification do not necessarily refer to the same embodiment.

Darüber hinaus können die beschriebenen Merkmale, Strukturen oder Eigenschaften in einer oder mehreren Ausführungsformen auf jede geeignete Weise kombiniert werden. In der folgenden Beschreibung werden zahlreiche spezifische Details bereitgestellt, um ein umfassendes Verständnis der Ausführungsformen des offenbarten Gegenstands zu ermöglichen. Ein Fachmann auf dem betreffenden Gebiet wird jedoch erkennen, dass der offenbarte Gegenstand ohne eines oder mehrere der spezifischen Details oder mit anderen Methoden, Komponenten, Materialien usw. in die Praxis umgesetzt werden kann. In anderen Fällen können wohlbekannte Strukturen, Materialien, oder Vorgänge werden nicht im Detail gezeigt oder beschrieben, um Aspekte des offengelegten Gegenstands nicht zu verschleiern.Additionally, the features, structures, or properties described may be combined in any suitable manner in one or more embodiments. In the following description, numerous specific details are provided to provide a thorough understanding of embodiments of the disclosed subject matter. However, one skilled in the art will recognize that the disclosed subject matter may be practiced without one or more of the specific details or with other methods, components, materials, etc. In other cases, well-known structures, materials, or processes may not be shown or described in detail so as not to obscure aspects of the subject matter disclosed.

Gemäß den beispielhaften Ausführungsformen können die offenbarten Computerprogramme oder -module auf viele beispielhafte Arten ausgeführt werden, beispielsweise als Anwendung, die sich im Speicher eines Geräts befindet, oder als gehostete Anwendung, die auf einem Server ausgeführt wird und mit diesem kommuniziert Geräteanwendung oder Browser über eine Reihe von Standardprotokollen wie TCP/IP, HTTP, XML, SOAP, REST, JSON und andere ausreichende Protokolle. Die offenbarten Computerprogramme können in beispielhaften Programmiersprachen geschrieben sein, die aus dem Speicher des Geräts oder von einem gehosteten Server ausgeführt werden, wie etwa BASIC, COBOL, C, C++, Java, Pascal, oder Skriptsprachen wie JavaScript, Python, Ruby, PHP, Perl oder andere geeignete Programmiersprachen.According to exemplary embodiments, the disclosed computer programs or modules may be executed in many exemplary ways, for example, as an application residing in a device's memory or as a hosted application executing on and communicating with a server via a device application or browser Set of standard protocol len such as TCP/IP, HTTP, XML, SOAP, REST, JSON and other sufficient protocols. The disclosed computer programs may be written in exemplary programming languages that are executed from the device's memory or from a hosted server, such as BASIC, COBOL, C, C++, Java, Pascal, or scripting languages such as JavaScript, Python, Ruby, PHP, Perl or other suitable programming languages.

Einige der offenbarten Ausführungsformen beinhalten oder beinhalten auf andere Weise die Datenübertragung über ein Netzwerk, beispielsweise die Übermittlung verschiedener Eingaben oder Dateien über das Netzwerk. Das Netzwerk kann beispielsweise eines oder mehrere der folgenden Elemente umfassen: Internet, Wide Area Networks (WANs), Local Area Networks (LANs), analoge oder digitale drahtgebundene und drahtlose Telefonnetzwerke z. B. ein PSTN, Integrated Services Digital Network (ISDN), ein Mobilfunknetz und Digital Subscriber Line (xDSL), Radio, Fernsehen, Kabel, Satellit und/oder andere Übertragungs- oder Tunnelmechanismen zur Datenübertragung. Das Netzwerk kann mehrere Netzwerke oder Teilnetzwerke umfassen, von denen jedes beispielsweise einen drahtgebundenen oder drahtlosen Datenweg umfassen kann. Das Netzwerk kann ein leitungsvermitteltes Sprachnetzwerk, ein paketvermitteltes Datennetzwerk oder jedes andere Netzwerk umfassen, das elektronische Kommunikation übertragen kann. Das Netzwerk kann beispielsweise Netzwerke umfassen, die auf dem Internetprotokoll (IP) oder dem asynchronen Übertragungsmodus (ATM) basieren, und kann Sprache beispielsweise mithilfe von VoIP, Voice-over-ATM oder anderen vergleichbaren Protokollen unterstützen, die für Sprachdatenkommunikation verwendet werden. In einer Implementierung umfasst das Netzwerk ein Mobilfunknetz, das so konfiguriert ist, dass es den Austausch von Text- oder SMS-Nachrichten ermöglicht.Some of the disclosed embodiments involve or otherwise involve data transmission over a network, such as the transmission of various inputs or files over the network. The network may include, for example, one or more of the following: Internet, Wide Area Networks (WANs), Local Area Networks (LANs), analog or digital wired and wireless telephone networks, e.g. B. a PSTN, Integrated Services Digital Network (ISDN), a cellular network and Digital Subscriber Line (xDSL), radio, television, cable, satellite and / or other transmission or tunneling mechanisms for data transmission. The network may include multiple networks or subnetworks, each of which may include, for example, a wired or wireless data path. The network may include a circuit-switched voice network, a packet-switched data network, or any other network capable of transmitting electronic communications. The network may include, for example, networks based on Internet Protocol (IP) or Asynchronous Transfer Mode (ATM), and may support voice using, for example, VoIP, Voice over ATM, or other comparable protocols used for voice data communications. In one implementation, the network includes a cellular network configured to enable the exchange of text or SMS messages.

Beispiele für das Netzwerk sind unter anderem ein Personal Area Network (PAN), ein Storage Area Network (SAN), ein Home Area Network (HAN), ein Campus Area Network (CAN) und ein Local Area Network (LAN), ein Wide Area Network (WAN), ein Metropolitan Area Network (MAN), ein Virtual Private Network (VPN), ein Enterprise Private Network (EPN), Internet, ein Global Area Network (GAN) und so weiter.Examples of the network include a Personal Area Network (PAN), a Storage Area Network (SAN), a Home Area Network (HAN), a Campus Area Network (CAN) and a Local Area Network (LAN), a Wide Area Network (WAN), a Metropolitan Area Network (MAN), a Virtual Private Network (VPN), an Enterprise Private Network (EPN), Internet, a Global Area Network (GAN) and so on.

1 veranschaulicht ein Blockdiagramm eines Systems zur Web-Informationsextraktion gemäß einer Ausführungsform der vorliegenden Offenbarung. Das System (100) umfasst einen Datensatz (102), der durch das Sammeln großer Datenmengen aus mehreren Quellen erstellt wurde. 1 illustrates a block diagram of a web information extraction system according to an embodiment of the present disclosure. The system (100) includes a data set (102) created by collecting large amounts of data from multiple sources.

In einer Ausführungsform ist eine Merkmalsauswahlverarbeitungseinheit (104) so konfiguriert, dass sie eine effektive Merkmalsauswahl durch Implementierung eines erweiterten binären Bat-Algorithmus zur Extraktion von Big-Data-Informationen durchführt.In one embodiment, a feature selection processing unit (104) is configured to perform effective feature selection by implementing an extended binary bat algorithm for extracting big data information.

In einer Ausführungsform ist eine Klassifizierungsverarbeitungseinheit (106) so konfiguriert, dass sie eine direkte Etikettenklassifizierung durch Implementierung eines bestimmten Informationsextraktionsmodells für ein Multi-View-Multi-Label-Modell (PIMM) zur Extraktion von Big-Data-Informationen durchführt.In one embodiment, a classification processing unit (106) is configured to perform direct label classification by implementing a particular information extraction model for a multi-view multi-label model (PIMM) for extracting big data information.

In einer Ausführungsform wird eine Diskretisierung des Datensatzes durchgeführt, um einen diskreten Datensatz vorzubereiten. Bei diskreten Datensätzen wird die Merkmalsauswahl durchgeführt, um nur relevante Datensätze mit ausgewählten Merkmalen zu erhalten, und dann wird auf die ausgewählten Merkmale eine Klassifizierung mithilfe von Klassifikatoren angewendet.In one embodiment, discretization of the data set is performed to prepare a discrete data set. For discrete datasets, feature selection is performed to obtain only relevant datasets with selected features and then classification using classifiers is applied to the selected features.

In einer Ausführungsform umfasst die Merkmalsauswahlverarbeitungseinheit (104) zwei Hauptmerkmale, nämlich die Auswahl von Merkmalsteilmengen und die Merkmalsrangfolge, und verwendet außerdem lokale Optimierungs- und globale Optimierungstechniken zur Verbesserung der Attributauswahl. Attribute wie F-Score, Präzision und Erinnerung werden in die Merkmalsauswahlverarbeitungseinheit integriert, um die Genauigkeit der Merkmals- und Attributauswahl zu verbessern.In one embodiment, the feature selection processing unit (104) includes two main features, namely feature subset selection and feature ranking, and also uses local optimization and global optimization techniques to improve attribute selection. Attributes such as F-score, precision and recall are integrated into the feature selection processing unit to improve the accuracy of feature and attribute selection.

In einer Ausführungsform verwendet die Klassifizierungsverarbeitungseinheit (106) zwei Hauptmerkmale, nämlich eine auf mehreren Etiketten basierende Klassifizierung und eine auf mehreren Etiketten basierende Extraktion.In one embodiment, the classification processing unit (106) uses two main features, namely multi-label based classification and multi-label based extraction.

In einer Ausführungsform sorgt die Verbesserung der Klassifizierung und des gemeinsamen Unterraums mit der Darstellungsfunktion für mehrere Ansichten für eine bessere Klassifizierung und Genauigkeit der jeweiligen Informationsextraktion für das PIMM-Modell (Multi View Multi Label).In one embodiment, improving classification and shared subspace with the multi-view representation function provides better classification and accuracy of respective information extraction for the Multi View Multi Label (PIMM) model.

In einer Ausführungsform verbessert die Klassifizierungsverarbeitungseinheit (106) die gemeinsame Nutzung des Unterraums, die Extraktion spezifischer Informationen für die Ansicht und minimiert den Verlust von Mehrfachbezeichnungen, um gemeinsam genutzte Informationen zwischen verschiedenen Ansichten zu integrieren, indem Dimensionalität, Präzision, Verlust und Effektivität mithilfe der Extraktion bestimmter Informationen für mehrere verbessert werden Multi-Label-Modell (PIMM) anzeigen.In one embodiment, the classification processing unit (106) improves subspace sharing, extraction of specific information for the view, and minimizes loss of multiple labels to integrate shared information between different views by using dimensionality, precision, loss, and effectiveness using the extraction Specific information can be improved for multiple display Multi-Label Model (PIMM).

In einer Ausführungsform können die Merkmalsauswahlverarbeitungseinheit (104) und die Klassifizierungsverarbeitungseinheit (106) in programmierbaren Hardwaregeräten wie Prozessoren, digitalen Signalprozessoren, zentralen Verarbeitungseinheiten, vor Ort programmierbaren Gate-Arrays, programmierbarer Array-Logik und programmierbarer Logik implementiert sein Geräte, Cloud-Verarbeitungssysteme oder Ähnliches.In one embodiment, the feature selection processing unit (104) and the classification processing unit (106) may be implemented in programmable hardware devices such as processors, digital signal processors, central processing units, field programmable gate arrays, programmable array logic, programmable logic devices, cloud processing systems, or the like .

2 zeigt ein Blockdiagramm für die Extraktion von Big-Data-Informationen unter Verwendung des vorgeschlagenen EBBA-Ansatzes gemäß einer Ausführungsform der vorliegenden Offenbarung. 2 shows a block diagram for extracting big data information using the proposed EBBA approach according to an embodiment of the present disclosure.

In wird ein effizientes Merkmalsauswahlmodell für die Extraktion von Big-Data-Informationen unter Verwendung der Technik des erweiterten binären Bat-Algorithmus gezeigt. Es wurde vorgeschlagen, sowohl lokale als auch globale Optimierungstechniken in einem verbesserten binären Bat-Algorithmus zu verwenden, um die Attributauswahl zu erhöhen. Die modifizierte binäre Fledermaustechnik mit einem Merkmalsauswahlmodell, das die Effizienz erhöht, wird in dieser Erfindung zum Extrahieren von Informationen verwendet. Die Genauigkeit wurde durch die Verwendung von Attributen wie Recall, Precision und fscore verbessert Es wurden viele Wiederholungen von Experimenten durchgeführt, um die Datenklassifizierung zu verbessern, und es wurden Analysen durchgeführt. Die Architektur der vorgeschlagenen Big-Data-Extraktion sowie die vorgeschlagene EBBA für die Merkmalsauswahl werden im Folgenden beschrieben:

  • Datenerfassung, Clustering, Merkmalsextraktion, Training und Validierung sind alles Schritte im Prozess der Informationsextraktion aus Big Data. Die Datensätze wurden aus verschiedenen Quellen gesammelt und eine repräsentative Teilmenge der Daten wurde mithilfe von Clustering manipuliert und analysiert. Zur besseren Merkmalsextraktion werden die geclusterten Daten vorverarbeitet. Zur Erstellung des Modells werden Leistung, Training, Tests und Validierung der merkmalsextrahierten Daten verwendet.
In An efficient feature selection model for big data information extraction using the extended binary bat algorithm technique is shown. It has been proposed to use both local and global optimization techniques in an improved binary bat algorithm to increase attribute selection. The modified binary bat technique with a feature selection model that increases efficiency is used in this invention to extract information. The accuracy was improved by using attributes such as recall, precision and fscore. Many repetitions of experiments were carried out to improve data classification and analyzes were carried out. The architecture of the proposed big data extraction as well as the proposed EBBA for feature selection are described below:
  • Data collection, clustering, feature extraction, training and validation are all steps in the process of extracting information from big data. The datasets were collected from various sources and a representative subset of the data was manipulated and analyzed using clustering. For better feature extraction, the clustered data is preprocessed. Performance, training, testing and validation of the feature extracted data are used to build the model.

Die in dargestellte Webinformationsarchitektur veranschaulicht, wie Daten als Stichproben aus Quellen erfasst werden, die zur Manipulation, Analyse und Suche nach Mustern in repräsentativen Teilmengen von Datenpunkten verwendet wurden. Diese Muster wurden dann klassifiziert, um Daten aus Datensätzen zum Züchten einzelner Bäume und Daten zum Schätzen des Fehlers des Baums mithilfe von Out-of-Bag-Daten zu trainieren. Den Daten wird beigebracht, wie sie diese Technologien nutzen können, um ihre Entscheidungsfindung zu verbessern.In the The web information architecture presented illustrates how data is sampled from sources that have been used to manipulate, analyze, and search for patterns in representative subsets of data points. These patterns were then classified to train data from datasets for growing individual trees and data for estimating the error of the tree using out-of-bag data. Data will be taught how to use these technologies to improve their decision-making.

Die Sammlung von Rohdaten wird durch den Merkmalsauswahlprozess in Eingaben für bestimmte Algorithmen umgewandelt. Durch die Generierung neuer Features aus den vorhandenen Daten trägt dieser Ansatz dazu bei, den Feature-Satz zu reduzieren, indem die Anzahl der Features reduziert wird. Die Daten werden auf Prädiktoren wie „Bäume wachsen lassen“ angewendet, um die Daten mithilfe der besten Prädiktoren aufzuteilen. Daher müssen Schätzfehler beim Anwenden von Bäumen auf Daten wiederholt werden, wenn sie falsch sind, bis der Stopp des Baumwachstums erreicht ist. Um die Daten nutzbar zu machen, wurde ein Data Scraping durchgeführt. Wenn die Schätzung nach der Schätzung mit Datenfehlern wie vorhergesagt funktioniert, geht sie zum Zufallswald über, indem sie alle Bäume sammelt. Ist dies nicht der Fall, wiederholt es den Vorgang, bis die erforderliche Anzahl Bäume erreicht ist. Beispieldaten, Schätzmethodik, Wachstumsbaum und Merkmalsauswahl von Prädiktoren wurden alle miteinander verbunden. Infolgedessen funktioniert die Random-Forest-Methode wie vorgesehen, wenn die Datenkonsistenz durch Datenschätzung sichergestellt wird.The collection of raw data is converted into inputs for specific algorithms through the feature selection process. By generating new features from the existing data, this approach helps reduce the feature set by reducing the number of features. The data is applied to predictors such as Growing Trees to split the data using the best predictors. Therefore, estimation errors when applying trees to data must be repeated if they are incorrect until the tree growth stop is reached. In order to make the data usable, data scraping was carried out. After estimating with data errors, if the estimate works as predicted, it proceeds to the random forest by collecting all trees. If not, it repeats the process until the required number of trees is reached. Sample data, estimation methodology, growth tree, and feature selection of predictors were all linked together. As a result, the random forest method works as intended when data consistency is ensured through data estimation.

Sobald ein Modell erstellt wurde, kann die Diskretisierung durch Auswahl der erforderlichen Merkmale erfolgen. Dabei arbeiten alle Prozesse zusammen, um die Angemessenheit der Daten zu verbessern. Die richtigen Ergebnisse der Merkmalsauswahl und Diskretisierung wurden ebenfalls erwähnt. Nach der Merkmalsauswahl wird eine Klassifizierung durchgeführt und das erstellte Merkmalsabschnittsmodell wird auf verschiedene Leistungsmetriken hin bewertet.Once a model is created, discretization can be done by selecting the required features. All processes work together to improve the adequacy of the data. The correct results of feature selection and discretization were also mentioned. After feature selection, classification is performed and the created feature section model is evaluated on various performance metrics.

Der Datensatz wurde aus verschiedenen Quellen zusammengetragen und in den Diskretisierungsprozess eingegeben. Die Daten werden hier in einen eigenständigen Datensatz umgewandelt. Aufgrund der Optimierung und der Produktion der ausgewählten Features mit den notwendigen Daten führt die Feature-Auswahl nun zu einem kleineren Datensatz. Um das Ziel des vorgeschlagenen Systems zu erreichen, wird eine zusätzliche Klassifizierung angewendet, um die Leistungsbewertung zu verbessern.The data set was collected from various sources and entered into the discretization process. The data is converted here into an independent data set. Due to the optimization and production of the selected features with the necessary data, the feature selection now results in a smaller data set. To achieve the goal of the proposed system, additional classification is applied to improve the performance evaluation.

In einer Ausführungsform hat die Verwendung sowohl lokaler als auch globaler Optimierungsstrategien zum Vorschlag eines verbesserten binären Fledermausalgorithmus geführt. In der vorgeschlagenen Studie verwenden wir eine verbesserte binäre Fledermaustechnik mit einem Merkmalsauswahlmodell, um Informationen effektiver zu extrahieren. Um die Genauigkeit zu verbessern, wurden Funktionen wie fscore , Präzision und Rückruf hinzugefügt. Zur besseren Datenklassifizierung und -analyse wurden Experimente mit mehreren Iterationen durchgeführt. Eine Schlüsselkomponente des maschinellen Lernens ist die Merkmalsauswahl, die sich auf die Auswahl der besten Teilmenge aus dem gesamten Datensatz konzentriert, auf die zugegriffen werden kann, um die Klassifizierungsleistung des tatsächlichen Datensatzes zu verbessern. Durch die Reduzierung der Anzahl der Features in einem Datensatz oder die Auswahl von Features mit intelligenter Datenanalyse wird die Informationsextraktion aus großen Datenmengen verbessert.In one embodiment, the use of both local and global optimization strategies has led to the proposal of an improved binary bat algorithm. In the proposed study, we use an improved binary bat technique with a feature selection model to extract information more effectively. To improve accuracy, features such as fscore, precision and recall have been added. Experiments with multiple iterations were conducted for better data classification and analysis. A key component of the Machine learning is feature selection, which focuses on selecting the best subset from the entire data set that can be accessed to improve the classification performance of the actual data set. Reducing the number of features in a data set or selecting features with intelligent data analysis improves information extraction from large amounts of data.

In einer Ausführungsform dieser Erfindung wird ein verbesserter Ansatz zur effizienten Merkmalsauswahl auf Basis eines binären Fledermausalgorithmus vorgeschlagen, um die Leistung des Klassifikators zu steigern. Basierend auf den Frequenz- und Lautstärkeparametern, die zur Bereitstellung neuer Lösungen verwendet werden, wird der Extraktionsprozess verbessert. Die zur Datenauswahl verwendete CSV-Datei (Comma Separated Values) wird mit anderen Methoden kombiniert und untersucht, beispielsweise mit dem Particle Swarm Optimization (PSO)-Algorithmus. Die Leistung des Bat-Algorithmus unter Verwendung der Wrapper-Technik wird praktisch anhand der entsprechenden Seiteninformationen gemessen. Anstatt Big Data in seiner Gesamtheit zu nutzen, verwendet der vorgeschlagene EBBA-Ansatz Feature-Selection-Modelle und Multi-View-Multi-Selection-Modelle, um zunächst die Dimensionalität der Daten abhängig von den gewählten Merkmalen zu reduzieren. Der berücksichtigte Datensatz ist die Datei ionosphere.csv, die 352 Datenzeilen, 34 Feature-Sets und einen Validierungsfaktor von 70 bis 30 für die Daten enthält, die mithilfe der Metriken xtrain , xtest , ytrain und ytest aufgeteilt wurden . Die Wirksamkeit des vorgeschlagenen EBBA-Algorithmus wurde mit einem Binärwert von -1 unter Verwendung von n Iterationen, einem Fitnesswert von -1 unter Verwendung von Recall, einem Fitnesswert von -2 unter Verwendung von FScore und einem Vergleich des EBBA-Algorithmus unter Verwendung quantitativer und qualitativer Faktoren getestet, ein Vergleich verschiedener Leistungsmetriken bei der Informationsextraktion und ein Vergleich des vorgeschlagenen EBBA-Ansatzes mit anderen Ansätzen.In one embodiment of this invention, an improved approach for efficient feature selection based on a binary bat algorithm is proposed to increase the performance of the classifier. Based on the frequency and volume parameters used to provide new solutions, the extraction process is improved. The CSV (Comma Separated Values) file used for data selection is combined and examined with other methods, such as the Particle Swarm Optimization (PSO) algorithm. The performance of the Bat algorithm using the wrapper technique is practically measured by the corresponding page information. Instead of using big data in its entirety, the proposed EBBA approach uses feature selection models and multi-view multi-selection models to first reduce the dimensionality of the data depending on the selected features. The dataset considered is the ionosphere.csv file, which contains 352 rows of data, 34 feature sets, and a validation factor of 70 to 30 for the data split using the xtrain, xtest, ytrain, and ytest metrics. The effectiveness of the proposed EBBA algorithm was tested with a binary value of -1 using n iterations, a fitness value of -1 using Recall, a fitness value of -2 using FScore and a comparison of EBBA algorithm using quantitative and qualitative factors tested, a comparison of various performance metrics in information extraction and a comparison of the proposed EBBA approach with other approaches.

In einer Ausführungsform zeigten Analysen, dass Präzision, Rückruf und Fscore des Datenextraktionsmodells alle 97 sind. Nur beim Abgleich mit Batch-Daten entsteht ein Verlust an qualitativen und quantitativen Komponenten, der 49.5 bzw. 88 % beträgt. Da das Optimierungsmodell einen kleineren Datensatz verwendet als das Datenextraktionsmodell, beträgt seine Präzisionsrate 100 %. Mit 97.8 bzw. 97.6 weisen auch andere Qualitäten deutliche Verbesserungen auf. Aufgrund der Verringerung der Datendimensionalität nimmt der quantitative Faktor mit der Anzahl der Iterationen bzw. 14.2 Einheiten ab, während sich der qualitative Faktor um 98 % verbessert. Die Datenteilmenge ist nach Iterationen besser geeignet. Aufgrund der Verwendung einer Multi-View- und Multi-Label-Methode bei der Datenextraktion weist das Datenquantisierungsmodell den besten Fscore , die beste Präzision und den besten Rückruf auf. Das Genauigkeitsquantisierungsmodell mit dem am besten geeigneten Datensatz hat eine Präzisionsrate von 95.56. Dies hat hinsichtlich der Kennzeichnung Auswirkungen auf die Daten. Der Single-Label-Ansatz weist viele Probleme auf, da es sich bei den Testdaten um Eingaben handelt, die bereits verarbeitet wurden. Der Testdatensatz umfasst Textquantisierung, Clustering zur Darstellung von Daten als semantische Daten sowie gründliche Segmentierung und Stammerkennung zur Eliminierung redundanter Kombinationen. Bei der Auswahl von Merkmalsteilmengen wird der vorgeschlagene EBBA-Ansatz mit einem Auswahlmodell mit mehreren Ansichten angewendet. Die Bedeutung des Feature-Rankings lässt sich an den hohen Präzisions-, Recall- und Fscore- Werten erkennen, die bei 99.14, 98.5 bzw. 98.9 liegen. Dies kann implementiert werden, um Trends in der Anzahl der Iterationen und der Eignung der Attribute gegenüber der Auswahl mit mehr Iterationen zu untersuchen, was zu einer qualitativ hochwertigeren Ausgabe von 98.8 % führt.In one embodiment, analyzes showed that the precision, recall, and fscore of the data extraction model are all 97. Only when comparing with batch data does a loss of qualitative and quantitative components occur, which amounts to 49.5 and 88%, respectively. Since the optimization model uses a smaller data set than the data extraction model, its precision rate is 100%. With 97.8 and 97.6, other qualities also show significant improvements. Due to the reduction in data dimensionality, the quantitative factor decreases with the number of iterations or 14.2 units, while the qualitative factor improves by 98%. The data subset becomes more suitable after iterations. Due to the use of multi-view and multi-label method in data extraction, the data quantization model has the best Fscore, precision and recall. The precision quantization model with the best-fitting dataset has a precision rate of 95.56. This has an impact on the data in terms of labeling. The single-label approach has many problems because the test data is input that has already been processed. The test dataset includes text quantization, clustering to represent data as semantic data, and thorough segmentation and stemming to eliminate redundant combinations. When selecting feature subsets, the proposed EBBA approach is applied with a multi-view selection model. The importance of feature ranking can be seen from the high precision, recall and fscore values, which are 99.14, 98.5 and 98.9, respectively. This can be implemented to examine trends in the number of iterations and suitability of attributes versus selecting with more iterations, resulting in a higher quality output of 98.8%.

3 zeigt ein Blockdiagramm für die Extraktion von Big-Data-Informationen mithilfe des PIMM-Ansatzes gemäß einer Ausführungsform der vorliegenden Offenbarung. 3 shows a block diagram for extracting big data information using the PIMM approach according to an embodiment of the present disclosure.

Unter Bezugnahme auf wird ein modifizierter Ansatz vorgeschlagen, der eine direkte Etikettenklassifizierung durchführt, anstatt das Problem in separate Teilmengen von Problemen aufzuteilen. Der aktuelle Ansatz konzentriert sich auf den gemeinsamen Unterraum für die Darstellung mehrerer Ansichten und denkt nicht an die Integration einer ansichtsspezifischen Unterscheidungsmodellierung. Unter Verwendung des PIMM-Ansatzes (Particular Information Extraction for Multi View Multi Label) wird hier ein Algorithmus vorgeschlagen, um die Nutzung gemeinsamer Unterräume zu verbessern, die Extraktion spezifischer Informationen anzuzeigen und den Verlust mehrerer Etiketten zu minimieren, um gemeinsam genutzte Informationen zwischen verschiedenen Ansichten zu integrieren. Um die effiziente Funktionsweise des vorgeschlagenen Algorithmus zu überprüfen, wurden alle Experimente zur Anzahl der Iterationen und zur Fitness der Merkmale unter Verwendung verschiedener Datensätze durchgeführt. Experimentelle Ergebnisse und Grafiken zeigen, dass die vorgeschlagene Methodik die Gesamtleistung der Informationsextraktion verbessert.With reference to A modified approach is proposed that performs direct label classification instead of dividing the problem into separate subsets of problems. The current approach focuses on the shared subspace for representing multiple views and does not consider integrating view-specific discriminative modeling. Using the PIMM (Particular Information Extraction for Multi View Multi Label) approach, an algorithm is proposed here to improve the utilization of common subspaces, indicate the extraction of specific information, and minimize the loss of multiple labels to ensure shared information between different views to integrate. To verify the efficient working of the proposed algorithm, all experiments on number of iterations and feature fitness were conducted using different datasets. Experimental results and graphs show that the proposed methodology improves the overall performance of information extraction.

Die Architektur des vorgeschlagenen Ansatzes, wie in dargestellt, wird im Folgenden beschrieben.The architecture of the proposed approach as in shown is described below.

Beginnend mit dem Training des aus mehreren Quellen gesammelten Datensatzes beginnt der Vorverarbeitungsvorgang. Darüber hinaus wird die Vorverarbeitungskomponente ausgewertet und eine Segmentierung verwendet, wenn Stoppwörter vorhanden sind. Dies könnte entfernt werden und ähnlich klingende Begriffe würden dann entsprechend dem Prozess eingefügt und kategorisiert werden. Anschließend erfolgt die Clusterbildung, die große Auswirkungen auf die Analyse hat. Mit Hilfe eines geeigneten Netzwerks, beispielsweise eines neuronalen Netzwerks, wird die semantische Darstellung zur Aufrechterhaltung der Ordnung verwendet und als Vektor dargestellt. Die Label-Komponente ist mit dem Integrationsprozess des Multi-View-Ansatzes verbunden. Eine andere Textquantisierung, die als multifunktional gekennzeichnet wurde, hat eine besondere perspektivische Idee. Dies wird noch einmal geschehen, damit es mehreren Zwecken dienen kann. Die getestete Dateneingabe wurde bereits verarbeitet. Der getestete Datensatz wurde mithilfe eines methodischen Prozesses erhalten, der Textquantisierung, Gruppierung und Wortstammerkennung umfasste, um alle überflüssigen Kombinationen zu entfernen und die Daten als semantische Daten darzustellen. Die Datenvisualisierung wird mithilfe von Vektoransätzen demonstriert. Alle nicht benötigten Daten werden über die Netzwerkdarstellung eingebunden. Die Daten werden anschließend zur leichteren Identifizierung gekennzeichnet.Starting with training the dataset collected from multiple sources, the preprocessing process begins. In addition, the preprocessing component is evaluated and segmentation is used when stop words are present. This could be removed and similar sounding terms would then be inserted and categorized according to the process. This is followed by clustering, which has a major impact on the analysis. With the help of a suitable network, such as a neural network, the semantic representation is used to maintain order and is represented as a vector. The label component is connected to the integration process of the multi-view approach. Another text quantization, which has been marked as multifunctional, has a special perspective idea. This will be done again so that it can serve multiple purposes. The tested data input has already been processed. The tested dataset was obtained using a methodological process that included text quantization, grouping, and stemming to remove all unnecessary combinations and present the data as semantic data. Data visualization is demonstrated using vector approaches. All unnecessary data is integrated via the network representation. The data is then labeled for easier identification.

Sobald ein Modell erstellt wurde, ist es möglich, die Daten zu diskretisieren und die erforderlichen Merkmale auszuwählen. Dabei arbeiten alle Prozesse zusammen, um die Angemessenheit der Daten zu verbessern. Außerdem werden die richtigen Ergebnisse der Merkmalsauswahl und Diskretisierung erwähnt. Nach der Merkmalsauswahl wird die Klassifizierung durchgeführt. Zur Bewertung des erstellten Feature-Section-Modells werden verschiedene Leistungsmetriken verwendet. Die Diskretisierungsmethode wird auf einen aus mehreren Quellen gesammelten Datensatz angewendet. In diesem Fall werden die Daten in einen diskreten Datensatz umgewandelt. Nach der Optimierung minimiert die Merkmalsauswahl nun die Größe des Datensatzes. Mit den notwendigen Daten werden spezifische Merkmale generiert. Eine zusätzliche Klassifizierung wird verwendet, um die Leistungsbewertung zu verbessern und das Ziel des Systems zu erreichen.Once a model has been created, it is possible to discretize the data and select the required features. All processes work together to improve the adequacy of the data. The correct results of feature selection and discretization are also mentioned. After feature selection, classification is carried out. Various performance metrics are used to evaluate the created feature section model. The discretization method is applied to a dataset collected from multiple sources. In this case, the data is converted into a discrete data set. After optimization, feature selection now minimizes the size of the data set. Specific characteristics are generated with the necessary data. Additional classification is used to improve performance evaluation and achieve the goal of the system.

Die Extraktion ansichtsspezifischer Informationen wurde mithilfe der vorgeschlagenen PIMM-Technik (Particular Information Extraction for Multi View Multi Label) verbessert. Durch die Verbesserung von Dimensionalität, Präzision, Verlust und Effektivität wird auch der Verlust von Mehrfachbezeichnungen bei der Kombination gemeinsamer Informationen verschiedener Ansichten verringert. Die Leistungsbewertung erfolgt anhand der Modell- und Funktionsauswahl. Nach der Merkmalsauswahl wird die Klassifizierung durchgeführt. Zur Bewertung des erstellten Funktionsauswahlmodells werden verschiedene Leistungsmetriken verwendet. Nach der Optimierung wurde die Größe des Datensatzes durch Merkmalsauswahl verringert. Für einige ausgewählte Merkmale wurden die notwendigen Daten generiert. Die Leistungsbewertung wurde durch eine weitere Klassifizierung erweitert.The extraction of view-specific information has been improved using the proposed Particular Information Extraction for Multi View Multi Label (PIMM) technique. By improving dimensionality, precision, loss and effectiveness, the loss of multiple labels when combining common information between different views is also reduced. The performance evaluation is based on the model and function selection. After feature selection, classification is carried out. Various performance metrics are used to evaluate the created feature selection model. After optimization, the size of the dataset was reduced through feature selection. The necessary data was generated for some selected characteristics. The performance evaluation has been expanded to include a further classification.

Bei dieser Erfindung wird eine CSV-Datei (Comma Separated Values) verwendet, um die Daten auszuwählen, die dann mit Hilfe zusätzlicher Algorithmen, einschließlich der Methode der Partikelschwarmoptimierung, kombiniert und untersucht werden. Mithilfe einer Datenerfassung, Vergleichstechniken und Bewertungsmetriken wird der vorgeschlagene Algorithmus bewertet. Bei den Ionosphärendaten handelt es sich um den betrachteten Satz. Die CSV-Datei enthält 352 Datenzeilen, 34 Funktionssätze und einen Validierungsfaktor von 70 bis 30 für die Daten, die mithilfe der Metriken xtrain, xtest, ytrain und ytest aufgeteilt wurden . Um zahlreiche Darstellungen eines einzelnen Elements richtig zu kombinieren und ihm eine angemessene, reichhaltige Semantik zu verleihen, wird Multi-View-Multi-Label-Learning eingesetzt. Die Extraktion von Webinformationen wird mithilfe von Random Forest- und Multi-Layer Perceptron (MLP)-Klassifikatoren angegangen, um die Effizienz zu verbessern. Eine Reihe von Iterationen haben zu einer Eignung der Merkmale geführt.This invention uses a Comma Separated Values (CSV) file to select the data, which is then combined and examined using additional algorithms, including the particle swarm optimization method. Using data collection, comparison techniques and evaluation metrics, the proposed algorithm is evaluated. The ionosphere data is the set under consideration. The CSV file contains 352 rows of data, 34 feature sets, and a validation factor of 70 to 30 for the data split using the xtrain, xtest, ytrain, and ytest metrics. To properly combine numerous representations of a single element and give it appropriate, rich semantics, multi-view multi-label learning is used. Web information extraction is approached using Random Forest and Multi-Layer Perceptron (MLP) classifiers to improve efficiency. A number of iterations have resulted in feature suitability.

Im Vergleich zur Single-View-Technik hat sich der Recall-Faktor um 10.3 erhöht. Im Vergleich zur Klassifizierungsstrategie ist die vorgeschlagene PIMM-Strategie HLoss mit den Beispielen D, L um 15.3 verbessert. Beim Vergleich des vorgeschlagenen PIMM-Ansatzes mit dem Klassifizierungsansatz wird der Unterschied um 1.2 verbessert. Die vorgeschlagene PIMM-Technik übertrifft die Single-Label-Technik deutlich um den Faktor 13.7. Während die PIMM-Technik 70.5 anzeigt, beträgt der HLoss- Parameter des QRR-Ansatzes 65. Beim Vergleich des PIMM-Ansatzes mit der Klassifizierungsstrategie wird der Hloss- Parameter (D, L) mit dem PIMM-Ansatz um 15.3 verbessert. Im Vergleich zum RDR-Ansatz (Redundant Data Records) sind der Mittelwert und die Standardabweichung des vorgeschlagenen PIMM-Modells um 14 besser. Der vorgeschlagene PIMM-Ansatz zeigt erhebliche Verbesserungen bei der Informationsextraktion unter Verwendung von Attributen wie Rückruf, Genauigkeit, Hloss, HLoss (D,L), Mittelwert und SD.Compared to the single-view technique, the recall factor has increased by 10.3. Compared to the classification strategy, the proposed PIMM strategy HLoss with examples D, L is improved by 15.3. When comparing the proposed PIMM approach with the classification approach, the difference is improved by 1.2. The proposed PIMM technique significantly outperforms the single-label technique by a factor of 13.7. While the PIMM technique shows 70.5, the HLoss parameter of the QRR approach is 65. Comparing the PIMM approach with the classification strategy, the Hloss parameter (D, L) is improved by 15.3 with the PIMM approach. Compared to the RDR (Redundant Data Records) approach, the mean and standard deviation of the proposed PIMM model are 14 better. The proposed PIMM approach shows significant improvements in information extraction using attributes such as recall, precision, Hloss, HLoss (D,L), mean and SD.

Um die Attributauswahl zu verbessern, wurde in einer Ausführungsform der Enhanced Binary Bat (EBBA)-Algorithmus vorgestellt. Es verwendet sowohl lokale als auch globale Optimierungstechniken. Diese Studienarbeit konzentrierte sich auf ein Merkmalsauswahlmodell, das auf der binären Fledermausmethode und dem Multi-Label-Ansatz basiert. Die beiden Schlüsseltechniken, die bei dieser Strategie angewendet werden, sind die Merkmalsbewertung und die Teilmengenauswahl. Um Trends in der Anzahl der Iterationen und der Eignung der Qualitäten gegenüber der Auswahl zu untersuchen, wurden Experimente an Datensätzen durchgeführt. Im Vergleich zu bestehenden, von der Natur inspirierten Strategien werden die Klassifizierung und Genauigkeit des vorgeschlagenen Modells durch die Änderungen in der Merkmalsauswahl verbessert.To improve attribute selection, the Enhanced Binary Bat (EBBA) algorithm was presented in one embodiment. It uses both local and global optimization techniques. This coursework focused relies on a feature selection model based on the binary bat method and the multi-label approach. The two key techniques used in this strategy are feature evaluation and subset selection. To examine trends in the number of iterations and the suitability of qualities over selection, experiments were conducted on datasets. Compared to existing nature-inspired strategies, the classification and accuracy of the proposed model are improved by the changes in feature selection.

Die Wirksamkeit der vorgeschlagenen Techniken Die EBBA- und PIMM-Modelle sowie die SIMM- und SIFTS-Modelle wurden alle untersucht. Im Vergleich zum PIMM-Modell erreicht das EBBA-Modell eine Präzision von 99 % bei der Datenverarbeitung, dem Abruf und Fscore- Faktoren von 97 Einheiten pro Stück. Es erfordert nur eine kleine Anzahl von Iterationen - etwa 55. Wenn die Merkmalsauswahl anstelle der Berücksichtigung des gesamten Datensatzes eingesetzt wird, bietet das PIMM-Modell einen zusätzlichen Wert für die Daten. Für die weitere Untersuchung werden nur wenige Merkmale herangezogen. Mit diesem Paradigma konnten weitere Verbesserungen erzielt werden. Präzision, Rückruf und Fscore betragen bei dieser Methode jeweils 98, 90 und 70. Der quantitative Faktor verwendet zusätzliche Iterationen, um die Genauigkeit des Extraktionsansatzes zu erhöhen. Der SIFT-Ansatz (Single Instance Feature Transfer) und das SIMM-Modell (Single Instance Multi View) sind nicht in der Lage, die erforderlichen Informationen mithilfe von Rückruf, Präzision und Fscores zu gewinnen.The effectiveness of the proposed techniques The EBBA and PIMM models as well as the SIMM and SIFTS models were all investigated. Compared to the PIMM model, the EBBA model achieves 99% precision in data processing, retrieval and Fscore factors of 97 units each. It requires only a small number of iterations - about 55. When feature selection is used instead of considering the entire data set, the PIMM model provides additional value to the data. Only a few characteristics are used for further investigation. With this paradigm, further improvements could be achieved. Precision, Recall, and Fscore in this method are 98, 90, and 70, respectively. The quantitative factor uses additional iterations to increase the accuracy of the extraction approach. The SIFT (Single Instance Feature Transfer) approach and the SIMM (Single Instance Multi View) model are unable to obtain the required information using recall, precision and fscores.

Die SIMM-Methodik zeigt die Vorteile der Verwendung mehrerer Etiketten zur Erzielung von Präzision. Dies ist eine weitaus bessere Methode als die Verwendung von n Etiketten. Die vorgeschlagenen EBBA- und PIMM-Modelle haben eine bessere Genauigkeitssteigerung gezeigt. Es wurde festgestellt, dass das vorgeschlagene Modell erhebliche positive Auswirkungen auf den Prozess der Verbesserung der Informationsextraktion hat. Die Informationsextraktion und die Leistungsanalyse der Informationsextraktion wurden beide unter Verwendung einer intelligenten Big-Data-Architektur und einer abgestuften Methodik durchgeführt. Dies umfasst das Sammeln, Bearbeiten, Speichern, Berichten und Anzeigen riesiger Datenmengen sowohl im Batch-Modus als auch im Live-Stream-Modus. Beim Vergleich der erweiterten Big- Data-Architektur mit den Modellen der bereits genutzten Systeme zeigt sich, dass sich die Zugänglichkeit der Daten spürbar verbessert hat. Datenrate, Ausführungszeit, Datenerkennungsrate, Klassifizierungsrate und Merkmalsauswahlrate sind einige der in dieser Arbeit verwendeten Parameter. Die beiden Schlüsselfaktoren, die für den Vergleich berücksichtigt werden, sind die Datenrate und die Ausführungszeiten. Hohe Datenraten von 12 % und eine Ausführungszeit von 17 ms zeigen die vorgeschlagene EBDA-Technik mit Schichtmodell.The SIMM methodology demonstrates the benefits of using multiple labels to achieve precision. This is a far better method than using n labels. The proposed EBBA and PIMM models have shown better accuracy improvement. The proposed model was found to have significant positive impacts on the process of improving information extraction. Information extraction and information extraction performance analysis were both carried out using intelligent big data architecture and phased methodology. This includes collecting, editing, storing, reporting and viewing massive amounts of data in both batch mode and live stream mode. When comparing the expanded big data architecture with the models of the systems already in use, it can be seen that the accessibility of the data has noticeably improved. Data rate, execution time, data detection rate, classification rate and feature selection rate are some of the parameters used in this work. The two key factors considered for comparison are data rate and execution times. The proposed EBDA technique with layer model shows high data rates of 12% and an execution time of 17 ms.

Die Dimensionalität wird reduziert und den ausgewählten Merkmalsteilmengen wird im entwickelten Big-Data-Informationsextraktionsmodell mit Merkmalsauswahlmodell größere Aufmerksamkeit geschenkt. Zukünftige Bemühungen zur Reduzierung der Datengröße könnten alternative Ansätze nutzen. Um die Unterschiede zwischen den Datensätzen bei der Verwendung von Datensätzen zu verringern, können eine verallgemeinerte Unterscheidungsanalyse, eine abgestufte Technik mit unterschiedlichen Schichten und Datenwürfel-Aggregationsmodelle verwendet werden. Die Effektivität der Informationsextraktion in Big Data für die Datenrelevanz kann durch die Verwendung von Delta- und Omega-Faktoren in einer Multi-View-, Multi-Label-Methode weiter verbessert werden. Durch die Erweiterung der Big-Data-Architektur können unterschiedliche Datenformate genutzt werden. Mithilfe modernster Methoden können die Datensätze aufbereitet und daraufhin untersucht werden, ob sie für Objekte relevant sind und ob sie kooperativ sind oder nicht. Dadurch können die Daten wesentlich erfolgreicher betrachtet werden.The dimensionality is reduced and more attention is paid to the selected feature subsets in the developed big data information extraction model with feature selection model. Future efforts to reduce data size could utilize alternative approaches. To reduce the differences between data sets when using data sets, generalized discriminative analysis, tiered technique with different layers, and data cube aggregation models can be used. The effectiveness of information extraction in big data for data relevance can be further improved by using delta and omega factors in a multi-view, multi-label method. By expanding the big data architecture, different data formats can be used. Using the most modern methods, the data sets can be prepared and examined to see whether they are relevant to objects and whether they are cooperative or not. This allows the data to be viewed much more successfully.

4 zeigt ein Blockdiagramm des Systems (400) zur Extraktion von Webinformationen gemäß einer Ausführungsform der vorliegenden Offenbarung. Das System (400) umfasst eine Datenspeichereinheit (402), die zum Speichern eines Datensatzes geeignet ist, der durch das Sammeln großer Datenmengen aus einer Vielzahl von Webquellen erstellt wurde. 4 shows a block diagram of the web information extraction system (400) according to an embodiment of the present disclosure. The system (400) includes a data storage unit (402) suitable for storing a data set created by collecting large amounts of data from a variety of web sources.

In einer Ausführungsform ist eine Netzwerkschnittstellenkomponente (404) so konfiguriert, dass sie sich mit verschiedenen Online-Datenbanken verbindet und relevante Webdaten extrahiert.In one embodiment, a network interface component (404) is configured to connect to various online databases and extract relevant web data.

In einer Ausführungsform ist eine Merkmalsauswahlverarbeitungseinheit (406), die einen dedizierten Prozessor und Speicher (406a) umfasst, so konfiguriert, dass sie eine effektive Merkmalsauswahl durch Implementierung eines verbesserten binären Bat-Algorithmus zur Extraktion von Big-Data-Informationen durchführt.In one embodiment, a feature selection processing unit (406), including a dedicated processor and memory (406a), is configured to perform effective feature selection by implementing an improved binary Bat algorithm for extracting big data information.

In einer Ausführungsform umfasst eine Klassifizierungsverarbeitungseinheit (408) einen dedizierten Hardwarebeschleuniger (408a), der so konfiguriert ist, dass er eine direkte Etikettenklassifizierung durch Implementierung einer bestimmten Informationsextraktion für ein Multi-View-Multi-Label-Modell (PIMM) zur Extraktion von Big-Data-Informationen durchführt.In one embodiment, a classification processing unit (408) includes a dedicated hardware accelerator (408a) configured to perform direct label classification by implementing specific information extraction for a multi-view multi-label model (PIMM) for extracting big data. data information.

In einer Ausführungsform ermöglicht eine Benutzeroberfläche (410) Benutzern die Eingabe von Parametern für den Merkmalsauswahl- und Klassifizierungsprozess.In one embodiment, a user interface (410) allows users to enter parameters for the feature selection and classification process.

In einer Ausführungsform umfasst die Datenspeichereinheit (402) sowohl flüchtige als auch nichtflüchtige Speichermodule zur Optimierung des Zugriffs und der Aufbewahrung des diskreten Datensatzes.In one embodiment, the data storage unit (402) includes both volatile and non-volatile memory modules to optimize access and retention of the discrete data set.

In einer Ausführungsform umfasst das System (400) außerdem ein Kühlsystem (412), um den effizienten Betrieb der dedizierten Prozessoren während intensiver Datenextraktions- und Klassifizierungsvorgänge sicherzustellen.In one embodiment, the system (400) further includes a cooling system (412) to ensure efficient operation of the dedicated processors during intensive data extraction and classification operations.

In einer Ausführungsform enthält die Merkmalsauswahlverarbeitungseinheit (406) ein FPGA (Field Programmable Gate Array), um parallele Operationen für die Merkmalsteilmengenauswahl und die Merkmalsrangfolge auszuführen.In one embodiment, the feature selection processing unit (406) includes a Field Programmable Gate Array (FPGA) to perform parallel operations for feature subset selection and feature ranking.

In einer Ausführungsform umfasst das System (400) außerdem eine Anzeigeeinheit (414), die Attribute wie F-Score, Präzision und Erinnerung visuell darstellt, um die Interpretation des Merkmals- und Attributauswahlprozesses durch den Benutzer zu erleichtern.In one embodiment, the system (400) further includes a display unit (414) that visually displays attributes such as F-score, precision, and recall to facilitate user interpretation of the feature and attribute selection process.

In einer Ausführungsform ist die Klassifizierungsverarbeitungseinheit (408) mit einem KI-spezifischen integrierten Schaltkreis gekoppelt, der für Klassifizierungs- und Extraktionsaufgaben auf Basis mehrerer Etiketten optimiert ist.In one embodiment, the classification processing unit (408) is coupled to an AI-specific integrated circuit optimized for multi-label based classification and extraction tasks.

In einer Ausführungsform umfasst das System (400) außerdem eine Energieverwaltungseinheit (416), die die Energieverteilung auf die verschiedenen Komponenten des Systems optimiert, um den kontinuierlichen Betrieb des PIMM-Modells sicherzustellen und gleichzeitig die Energieeffizienz zu maximieren.In one embodiment, the system (400) further includes a power management unit (416) that optimizes power distribution among the various components of the system to ensure continuous operation of the PIMM model while maximizing power efficiency.

Die Zeichnungen und die vorstehende Beschreibung geben Beispiele für Ausführungsformen. Fachleute werden erkennen, dass eines oder mehrere der beschriebenen Elemente durchaus zu einem einzigen Funktionselement kombiniert werden können. Alternativ können bestimmte Elemente in mehrere Funktionselemente aufgeteilt werden. Elemente einer Ausführungsform können zu einer anderen Ausführungsform hinzugefügt werden. Beispielsweise können die Reihenfolgen der hier beschriebenen Prozesse geändert werden und sind nicht auf die hier beschriebene Weise beschränkt. Darüber hinaus müssen die Aktionen eines Flussdiagramms nicht in der gezeigten Reihenfolge implementiert werden; Es müssen auch nicht unbedingt alle Handlungen ausgeführt werden. Auch solche Handlungen, die nicht von anderen Handlungen abhängig sind, können parallel zu den anderen Handlungen durchgeführt werden. Der Umfang der Ausführungsformen wird durch diese spezifischen Beispiele keineswegs eingeschränkt. Zahlreiche Variationen, ob explizit in der Spezifikation angegeben oder nicht, wie z. B. Unterschiede in Struktur, Abmessung und Materialverwendung, sind möglich. Der Umfang der Ausführungsformen ist mindestens so breit wie durch die folgenden Ansprüche angegeben.The drawings and the description above provide examples of embodiments. Those skilled in the art will recognize that one or more of the elements described can certainly be combined into a single functional element. Alternatively, certain elements can be divided into several functional elements. Elements of one embodiment may be added to another embodiment. For example, the orders of the processes described herein may be changed and are not limited to the manner described herein. Additionally, the actions of a flowchart do not have to be implemented in the order shown; Not all actions necessarily have to be carried out. Even those actions that are not dependent on other actions can be carried out in parallel with the other actions. The scope of the embodiments is in no way limited by these specific examples. Numerous variations, whether explicitly stated in the specification or not, such as: B. Differences in structure, dimensions and material use are possible. The scope of the embodiments is at least as broad as indicated by the following claims.

Vorteile, andere Vorzüge und Problemlösungen wurden oben im Hinblick auf spezifische Ausführungsformen beschrieben. Allerdings sind die Vorteile, Vorzüge, Problemlösungen und alle Komponenten, die dazu führen können, dass Vorteile, Vorzüge oder Lösungen auftreten oder ausgeprägter werden, nicht als kritische, erforderliche oder wesentliche Merkmale oder Komponenten von anzusehen einzelne oder alle Ansprüche.Advantages, other benefits, and solutions to problems have been described above with respect to specific embodiments. However, the advantages, advantages, solutions to problems and any components that may cause advantages, advantages or solutions to occur or become more pronounced are not to be regarded as critical, necessary or essential features or components of any or all of the claims.

REFERENZENCREDENTIALS

100100
Ein System Zur Extraktion Von Web-Informationen.A Web Information Extraction System.
102102
Ein DatensatzA data set
104104
Merkmalsauswahl-VerarbeitungseinheitFeature selection processing unit
106106
KlassifizierungsverarbeitungseinheitClassification processing unit
202202
Daten Aus QuellenData From Sources
204204
DatenclusterungData clustering
206206
VorverarbeitungPreprocessing
206a206a
DatenerfassungData collection
206b206b
MerkmalsextraktionFeature extraction
208208
Feature-Extrahierte DatenFeature extracted data
210210
Partitionieren Sie DatenPartition data
212212
TrainingsdatenTraining data
214214
ModellgenerierungModel generation
216216
ModellModel
218218
ValidierungValidation
220220
Daten TestenTest data
302302
ZugdatenTrain data
304304
TestdatenTest data
306306
Vorverarbeitung, Segmentierung Und StoppwörterPreprocessing, segmentation and stop words
308308
Betten Sie Die Wörter EinEmbed The Words
310310
ClusteringClustering
312312
Semantische DarstellungenSemantic representations
314314
Vektor EntwickelnVector Develop
316316
NetzwerkvertretungNetwork representation
318318
Etikettlabel
320320
Neurales NetzwerkNeural network
322322
TextquantisierungText quantization
402402
Eine DatenspeichereinheitA data storage device
404404
Eine NetzwerkschnittstellenkomponenteA network interface component
406406
Eine Merkmalsauswahl-VerarbeitungseinheitA feature selection processing unit
406a406a
Ein Dedizierter Prozessor Und SpeicherA dedicated processor and memory
408408
Eine KlassifizierungsverarbeitungseinheitA classification processing unit
408a408a
Ein Dedizierter Hardware-BeschleunigerA dedicated hardware accelerator
410410
Eine BenutzeroberflächeA user interface
412412
Ein KühlsystemA cooling system
414414
Eine AnzeigeeinheitA display unit
416416
Eine EnergieverwaltungseinheitA power management unit

Claims (7)

Ein System zur Extraktion von Webinformationen, bestehend aus: eine Datenspeichereinheit, die zum Speichern eines Datensatzes geeignet ist, der durch das Sammeln großer Datenmengen aus einer Vielzahl von Webquellen erstellt wurde; eine Netzwerkschnittstellenkomponente, die so konfiguriert ist, dass sie sich mit verschiedenen Online-Datenbanken verbindet und relevante Webdaten extrahiert; eine Verarbeitungseinheit für die Merkmalsauswahl, einschließlich eines dedizierten Prozessors und Speichers, die so konfiguriert ist, dass sie eine effektive Merkmalsauswahl durch Implementierung eines erweiterten binären Bat-Algorithmus zur Extraktion von Big-Data-Informationen durchführt; eine Klassifizierungsverarbeitungseinheit, die aus einem dedizierten Hardwarebeschleuniger besteht und so konfiguriert ist, dass sie eine direkte Etikettenklassifizierung durch Implementierung eines bestimmten Informationsextraktionsmodells für ein Multi-View-Multi-Label-Modell (PIMM) zur Extraktion von Big-Data-Informationen durchführt; eine Benutzeroberfläche, die es Benutzern ermöglicht, Parameter für den Merkmalsauswahl- und Klassifizierungsprozess einzugeben.A web information extraction system consisting of: a data storage device suitable for storing a data set created by collecting large amounts of data from a variety of web sources; a network interface component configured to connect to various online databases and extract relevant web data; a feature selection processing unit, including a dedicated processor and memory, configured to perform effective feature selection by implementing an extended binary bat algorithm for extracting big data information; a classification processing unit consisting of a dedicated hardware accelerator and configured to perform direct label classification by implementing a specific information extraction model for a multi-view multi-label model (PIMM) for extracting big data information; a user interface that allows users to enter parameters for the feature selection and classification process. System nach Anspruch 1, wobei die Datenspeichereinheit sowohl flüchtige als auch nichtflüchtige Speichermodule umfasst, um den Zugriff und die Aufbewahrung des diskreten Datensatzes zu optimieren.System after Claim 1 , wherein the data storage unit includes both volatile and non-volatile memory modules to optimize access and retention of the discrete data set. System nach Anspruch 1, das außerdem ein Kühlsystem umfasst, um den effizienten Betrieb der dedizierten Prozessoren während intensiver Datenextraktions- und Klassifizierungsvorgänge sicherzustellen.System after Claim 1 , which also includes a cooling system to ensure the efficient operation of the dedicated processors during intensive data extraction and classification operations. System nach Anspruch 1, wobei die Verarbeitungseinheit für die Merkmalsauswahl ein FPGA (Field Programmable Gate Array) enthält, um parallele Operationen für die Auswahl von Merkmalsteilmengen und die Merkmalsrangfolge auszuführen.System after Claim 1 , wherein the feature selection processing unit includes a Field Programmable Gate Array (FPGA) to perform parallel operations for feature subset selection and feature ranking. System nach Anspruch 1, das außerdem eine Anzeigeeinheit umfasst, die Attribute wie F-Score, Präzision und Erinnerung visuell darstellt, um die Interpretation des Merkmals- und Attributauswahlprozesses durch den Benutzer zu erleichtern.System after Claim 1 , which also includes a display unit that visually presents attributes such as F-score, precision and recall to facilitate user interpretation of the feature and attribute selection process. System nach Anspruch 1, wobei die Klassifizierungsverarbeitungseinheit mit einem KI-spezifischen integrierten Schaltkreis gekoppelt ist, der für Klassifizierungs- und Extraktionsaufgaben auf Basis mehrerer Etiketten optimiert ist.System after Claim 1 , where the classification processing unit is coupled to an AI-specific integrated circuit optimized for multi-label based classification and extraction tasks. System nach Anspruch 1, das außerdem eine Energieverwaltungseinheit enthält, die die Stromverteilung auf die verschiedenen Komponenten des Systems optimiert, um den kontinuierlichen Betrieb des PIMM-Modells sicherzustellen und gleichzeitig die Energieeffizienz zu maximieren.System after Claim 1 , which also includes a power management unit that optimizes power distribution among the various components of the system to ensure the continuous operation of the PIMM model while maximizing energy efficiency.
DE202023105419.6U 2023-09-18 2023-09-18 A web information extraction system Active DE202023105419U1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE202023105419.6U DE202023105419U1 (en) 2023-09-18 2023-09-18 A web information extraction system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE202023105419.6U DE202023105419U1 (en) 2023-09-18 2023-09-18 A web information extraction system

Publications (1)

Publication Number Publication Date
DE202023105419U1 true DE202023105419U1 (en) 2023-11-07

Family

ID=88874424

Family Applications (1)

Application Number Title Priority Date Filing Date
DE202023105419.6U Active DE202023105419U1 (en) 2023-09-18 2023-09-18 A web information extraction system

Country Status (1)

Country Link
DE (1) DE202023105419U1 (en)

Similar Documents

Publication Publication Date Title
DE102019000675A1 (en) USE A MODEL BASED ON A DEEP NEURONAL NETWORK TO IDENTIFY VISUALLY SIMILAR DIGITAL IMAGES BASED ON USER-SELECTED VISUAL PROPERTIES
DE112020000281T5 (en) COMBINING MODELS THAT HAVE RESPECTIVE TARGET CLASSES WITH DISTILLATION
DE202017007517U1 (en) Aggregate characteristics for machine learning
DE112017006166T5 (en) METHOD AND SYSTEM FOR GENERATING A MULTI-RELEVANT LABEL
DE60024452T2 (en) Improved knowledge discovery of multiple datasets using multiple support vector machines
DE112011104487T5 (en) Method and system for predictive modeling
DE102005032734B4 (en) Index extraction of documents
DE102016014798A1 (en) Precise prediction of label relevance in a picture query
DE10134899A1 (en) Subject-based system and procedure for classifying documentation units
DE112020003909T5 (en) PROCEDURE FOR MULTIMODAL RETRIEVING RECOVERY AND CLUSTERS USING A DEEP CCA AND ACTIVE PAIRWISE QUERIES
DE60032258T2 (en) DETERMINE WHETHER A VARIABLE NUMERIC OR NOT NUMERIC IS
DE102021004562A1 (en) Modification of scene graphs based on natural language commands
DE112021002453T5 (en) ITERATIVE TRAINING A MODEL FOR MACHINE LEARNING
DE112020000545T5 (en) DEEP FOREST MODEL DEVELOPMENT AND TRAINING
DE112020002684T5 (en) A multi-process system for optimal predictive model selection
DE202022103268U1 (en) A multi-objective feature selection system based on antlion optimization
DE112020002344T5 (en) FEATURE ENGINEERING FOR THE OPTIMIZATION OF NEURAL NETWORKS
EP1546823B1 (en) Method for the computer-supported generation of prognoses for operative systems and system for the generation of prognoses for operative systems
DE102021124445A1 (en) META-FEATURE TRAINING MODELS FOR MACHINE LEARNING ALGORITHMS
DE102021109138A1 (en) EXECUTION OF QUERY PLANS
DE102020215589A1 (en) CONTROLLING A DEEP-SEQUENCE MODEL WITH PROTOTYPES
DE102016223484B4 (en) Determine Similarities in Computer Software Codes for Performance Analysis
DE102012025349B4 (en) Determination of a similarity measure and processing of documents
DE202023104300U1 (en) A deep learning based system for detecting, classifying and optimizing agricultural productivity of fruit diseases
DE202023105419U1 (en) A web information extraction system

Legal Events

Date Code Title Description
R207 Utility model specification
R082 Change of representative

Representative=s name: LIPPERT STACHOW PATENTANWAELTE RECHTSANWAELTE , DE