DE112012005344T5

DE112012005344T5 - Verfahren, Computerprogramm und Computer zum Erkennen von Trends in sozialen Medien

Info

Publication number: DE112012005344T5
Application number: DE112012005344.3T
Authority: DE
Inventors: c/o IBM Research-Tokyo IBM Japan Ikawa Yohei; c/o IBM Reserach-Tokyo IBM Japan Enoki Miki; c/o IBM Tokyo Lab. Rudy Raymond Harry Putra; c/o IBM Research-Tokyo IBM Japa Nasukawa Tetsuya
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2011-12-19
Filing date: 2012-11-16
Publication date: 2014-08-28
Also published as: US20150067078A1; GB201409114D0; JP5602958B2; US9705837B2; CN104011718B; CN104011718A; JPWO2013094352A1; WO2013094352A1; GB2511235A

Abstract

Problem: Stoßweise übertragene Daten (Daten, die in einem vom Üblichen abweichenden Umfang verbreitet werden) in einem sozialen Medium sollen schneller und genauer erkannt werden. Mittel zur Lösung: Es wird ein Verfahren zum Auswählen einer erkannten Gruppe von Nachrichten aus der Vielzahl von Nachrichten vorgeschlagen, die durch eine Vielzahl von Benutzern in einem sozialen Medium gesendet wurden. Innerhalb der Nachrichten sind Nachrichten enthalten, die durch Benutzer gesendet wurden, die von dem Benutzer der ursprünglichen Nachricht verschieden sind, und diese Nachrichten zitieren die durch den Benutzer der ursprünglichen Nachricht gesendete Nachricht. Für die Nachrichten, die durch Benutzer gesendet wurden, die von dem Benutzer der ursprünglichen Nachricht verschieden sind, die die durch den Benutzer der ursprünglichen Nachricht gesendete Nachricht zitieren, werden bereitgestellt: ein Schritt zum Durchführen einer Erstbewertung des Potenzials für das erneute Weitersenden; ein Schritt zum Ermitteln eines einzelnen Benutzers, der eine Nachricht gesendet hat, für die das Ergebnis der Erstbewertung einen vorgegebenen ersten Schwellenwert überschritten hat; einen Schritt zum Ermitteln einer Gruppe von Nachrichten, die einer Gruppe weitergesendeter Nachrichten ähnlich ist, auf der Grundlage einer Gruppe weitergesendeter Nachrichten, die die durch den einzelnen Benutzer gesendete Nachricht zitieren; einen Schritt zum Durchführen einer Zweitbewertung des Potenzials, dass die ähnliche Gruppe von Nachrichten erneut weitergesendet wird; und einen Schritt zum Auswählen einer Gruppe von Nachrichten, für die das Ergebnis der Zweitbewertung einen vorgegebenen zweiten Schwellenwert überschritten hat.

Description

Technisches Gebiet
Diese Erfindung betrifft das Gebiet der Datenverarbeitungstechnologie und insbesondere eine Technologie zum schnelleren und genaueren Erkennen von stoßweise übertragenen Daten (Daten, die in einem vom Üblichen abweichenden Umfang verbreitet werden) in einem sozialen Medium bereitzustellen.
Zugrunde liegende Technik
Bei Naturkatastrophen oder wichtigen gesellschaftlichen Ereignissen kann es dazu kommen, dass Informationen mit äußerster Geschwindigkeit und in riesigem Umfang über soziale Medien verbreitet werden, was mitunter als stoßweise Datenübertragung (burst phenomenon) bezeichnet wird. In solchen stoßweise übertragenen Informationen sind auch Informationen enthalten, die nicht den Tatsachen entsprechen (beispielsweise Falschinformationen, Gerüchte) und je nach Situation eine Bedrohung der Tätigkeit von Unternehmen darstellen können. Demgemäß wird eine Technologie benötigt, mittels derer eine stoßweise Datenübertragung schnell und genau erkannt werden kann.
Als Reaktion auf diesen Bedarf sind bereits frühere Technologien vorgeschlagen worden. Beispielsweise ist in der Patentliteratur 1 für das Problem, das mit „Bereitstellen einer Technologie zum Entnehmen von Gerüchten aus den über ein Netzwerk offenbarten Informationen, zum gleichzeitigen Entnehmen diesbezüglicher Informationen und zum gleichzeitigen Darstellen derselben für einen Benutzer” bezeichnet wird, eine Technologie vorgeschlagen worden, die „ein Datensammelmittel zum Empfangen durch eine Server-Einheit über ein Netzwerk offenbarter Daten und zum Speichern der Daten als diverse Sammeldaten in einem gemeinsamen Datenspeichermittel; ein Beurteilungsmittel für Gerüchtinformationen zum Entnehmen einer in den gesammelten Daten enthaltenen Zeichenfolge und zum Gewinnen eines Beurteilungsergebnisses auf der Grundlage der Zeichenfolge, ob es sich bei den gesammelten Daten um Gerüchtinformationen handelt; ein zugehöriges Entnahmemittel für Informationsdaten zum Entnehmen der Daten von Gerüchtinformationen von einer Server-Einheit auf dem Netzwerk oder von einer zuvor angelegten zugehörigen Informationsdatenbank, die als Gerüchtinformationen eingeschätzt wurden, und zugehörigen Informationsdaten, bei denen es sich zumindest um Daten des Urhebers und der Gerüchtinformationen oder um den Inhalt der Daten der Gerüchtinformation oder um den Namen der Netzwerkadresse der die Daten speichernden Server-Einheit oder um Dateidaten für die Gerüchtinformation handelt; und ein Ausgabemittel zum gleichzeitigen Ausgeben der Daten der Gerüchtinformationen und der zugehörigen Informationsdaten aufweist.” Außerdem wird in der sonstigen Literatur 1 eine Technologie zum Erkennen vorgeschlagen, ob es sich bei den Daten um eine stoßweise Datenübertragung handelt, indem das zunehmende Auftreten von Stichwörtern ausgewertet wird.
Zitierte Literatur
Zugrunde liegende Technik
Patentliteratur

Patentliteratur 1: Japanische Offenlegungsschrift 2008-165598

Sonstige Literatur
Sonstige Literatur 1:

J. Kleinberg: „Bursty and Hierarchical Structure in Streams”, Proceeding of the 8th ACM SIGKDD International Conference an Knowledge Discovery and Data Mining, (2002).

Kurzdarstellung der Erfindung
Technische Probleme
Es gibt immer noch Verbesserungspotenzial, um eine stoßweise Datenübertragung schnell und genau zu erkennen.
Diese Erfindung befasst sich mit solchen Problemen und zielt darauf ab, eine Technologie bereitzustellen, mittels derer eine stoßweise Datenübertragung unter Berücksichtigung der Besonderheiten der eine Information sendenden Person und des Inhalts der Information schnell und genau erkannt werden kann.
Problemlösung
Die Erfinder sind durch ihre Forschungsarbeiten aufgrund der folgenden Erkenntnisse zu dieser Erfindung gelangt: 1. Das Verbreitungspotenzial hängt vom Einflussgrad des absendenden Benutzers ab (durch einen einflussreichen Benutzer gesendete Informationen werden mit höherer Wahrscheinlich weitergesendet). 2. Das Verbreitungspotenzial hängt von der Häufigkeit ab, mit der der Benutzer weitersendet (die Bedeutung des Weitersendens hängt davon ab, ob ein Benutzer oft oder selten weitersendet). 3. Das Weiterverbreitungspotenziel hängt von der Originalität der Information ab (das Potenzial für die Verbreitung der Information ist hoch, wenn der Inhalt der weitergesendeten Information vom Üblichen abweicht).
Diese Erfindung stellt insbesondere ein Verfahren zum Auswählen einer bestimmten Gruppe von Nachrichten aus einer Vielzahl von Nachrichten unter Verwendung eines Computers bereit, die durch eine Vielzahl von Benutzern über ein soziales Medium gesendet wurden. Innerhalb der Nachrichten sind Nachrichten enthalten, die durch verschiedene Benutzer gesendet wurden, die von einem Benutzer der ursprünglichen Nachricht verschieden sind, und diese Nachrichten zitieren die durch den Benutzer der ursprünglichen Nachricht gesendete Nachricht. Das Verfahren weist die Schritte auf: Durchführen einer Erstbewertung des Potenzials für das Weitersenden für eine Nachricht, die durch einen Benutzer gesendet wurde, der von einem Benutzer der ursprünglichen Nachricht verschieden ist, und die die durch den Benutzer der ursprünglichen Nachricht gesendete Nachricht zitiert; Ermitteln eines einzelnen Benutzers, der eine Nachricht gesendet hat, für welche das Ergebnis der Erstbewertung einen vorgegebenen ersten Schwellenwert überschritten hat; Ermitteln einer Gruppe von Nachrichten, die der Gruppe von weitergesendeten Nachrichten ähnlich ist, auf der Grundlage einer Gruppe weitergesendeter Nachrichten, in der die durch den einzelnen Benutzer gesendete Nachricht zitiert wird; Durchführen einer Zweitbewertung für das Potenzial, dass die Gruppe ähnlicher Nachrichten weitergesendet wird; und Auswählen einer Gruppe von Nachrichten, für welche das Ergebnis der Zweitbewertung einen vorgegebenen zweiten Schwellenwert überschritten hat.
Nunmehr kann in den Schritten zum Durchführen der Erstbewertung und der Zweitbewertung das Potenzial für das Weitersenden als ansteigende Funktion des Einflusses eines anderen Benutzers berechnet werden. Genauer gesagt, der Grad des Einflusses des anderen Benutzers kann als ansteigende Funktion der Anzahl von Benutzern berechnet werden, die den anderen Benutzer unterstützen. Außerdem kann in den Schritten zum Durchführen der Erstbewertung und der Zweitbewertung das Potenzial für das Weitersenden als abnehmende Funktion des Ausmaßes berechnet werden, in dem der andere Benutzer früher Nachrichten weitergesendet hat, in denen die Nachricht des ersten Benutzers zitiert wurde. Genauer gesagt, das Ausmaß der weitergesendeten Nachrichten kann als Häufigkeit berechnet werden, dass der andere Benutzer früher innerhalb eines festen Zeitraums Nachrichten weitergesendet hat, in denen die Nachricht des ersten Benutzers zitiert wird. Ferner kann in den Schritten zum Durchführen der Erstbewertung und der Zweitbewertung das Potenzial für das Weitersenden als abnehmende Funktion der Ähnlichkeit zwischen dem Inhalt einer durch den anderen Benutzer weitergesendeten Nachricht und dem Inhalt einer früher durch den anderen Benutzer weitergesendeten Nachricht berechnet werden. Genauer gesagt, die Ähnlichkeit kann durch Vergleichen einer Textzeichenfolge einer durch den anderen Benutzer weitergesendeten Nachricht und einer früher durch den anderen Benutzer weitergesendeten Nachricht berechnet werden.
Weiterhin kann es sich bei den Nachrichten um Nachrichten handeln, die unter vorgegebenen Bedingungen den über ein soziales Medium versendeten Nachrichten entnommen wurden. Außerdem kann es sich bei den Nachrichten um Nachrichten handeln, die unter Bedingungen, zu denen ein vorgegebenes Stichwort gehört, den innerhalb eines vorgegebenen Zeitraums über soziales Medium verbreiteten Nachrichten entnommen wurden. Außerdem kann es sich bei dem sozialen Medium um einen Mikroblog handeln.
Außerdem kann das System so strukturiert sein, dass der Computer, der Nachrichten an ein soziales Medium sendet, über ein Netzwerk mit einem Computer verbunden ist, der eine Gruppe bestimmter Nachrichten auswählt, und ferner ein Schritt zum Empfangen von Nachrichten durch den auswählenden Computer, die von den sendenden Computern gesendet wurden, durch den auswählenden Computer unter einer vorgegebenen Bedingung als Reaktion auf eine Anforderung ausgeführt wird. Ferner kann ein Schritt zum Speichern der empfangenen Nachrichten in einem Speichermittel des empfangenden Computers ausgeführt werden.
Es ist offensichtlich, dass diese Erfindung in Form eines Computerprogramms oder eines Computersystems technische Merkmale bereitstellt, die den Umständen im Wesentlichen identisch sind, unter denen diese Erfindung wie oben beschrieben in Form eines Verfahrens bereitgestellt wird.
Vorteilhafte Auswirkungen der Erfindung
Durch Anwenden dieser Erfindung unter Berücksichtigung der Eigenheiten der Person, die die Information sendet, und des Inhalts der Information kann eine stoßweise Datenübertragung schnell und genau erkannt werden.
Kurzbeschreibung der Zeichnungen
1 ist eine Übersichtsdarstellung, die das System eines Mikroblogs erläutert.
2 ist eine Übersichtsdarstellung, die die Beziehung zwischen Unterstützern und Unterstützten für einen Mikroblog erläutert.
3 ist eine erklärende Zeichnung eines Smartphones, das als Benutzerendgerät dient, und der entsprechenden Bildschirmanzeige.
4 ist eine erklärende Zeichnung der Datenstruktur von Daten, die in der Festplatteneinheit eines Mikroblog-Servers gespeichert sind.
5 ist eine erklärende Zeichnung der Typen von gesendeten Nachrichten.
6 ist ein Blockschaubild, das die Hardware-Struktur eines Computers erläutert.
7 ist ein Ablaufplan, der die durch den Computer durchgeführte Verarbeitung erläutert.
8 ist eine erklärende Zeichnung des Formalismus für die Berechnung des Potenzials zum Weitersenden.
9 ist eine erklärende Zeichnung des zeitlich vor dem Zeitraum T liegenden Zeitraums Tp(T).
Beschreibung einer Ausführungsform
Ausführungsform
Im folgenden Kapitel wird eine optimale Verfahrensweise zum Ausführen dieser Erfindung auf der Grundlage der Zeichnungen beschrieben, jedoch ist die folgende Ausführungsform nicht als Einschränkung der Erfindung in Bezug auf den Schutzumfang der Ansprüche zu verstehen, und die gesamte Kombination der innerhalb der Ausführungsform beschriebenen Eigenschaften ist für das Mittel zum Ausführen der Erfindung unwesentlich. Diese Erfindung kann durch viele verschiedene Verfahrensweisen ausgeführt werden und sollte keineswegs als Einschränkung des für die Ausführungsform dargelegten Inhalts ausgelegt werden. Darüber hinaus muss darauf hingewiesen werden, dass die gesamte Kombination der innerhalb der Ausführungsform beschriebenen Eigenschaften für das Mittel zum Ausführen der Erfindung unwesentlich ist. In der gesamten Beschreibung der Ausführungsform dienen (sofern nicht anders angegeben) gleiche Symbole für gleiche Elemente.
1 ist eine Übersichtsdarstellung, die das System eines Mikroblogs erläutert. Dieses System weist einen Mikroblog-Server 2 und Benutzerendgeräte auf, die wiederum zum Austauschen von Daten mit dem Internet 4 verbunden sind. Bei den Benutzerendgeräten kann es sich eine beliebige Ausführung eines Computers handeln, der eine Datenübertragungsfunktion bereitstellt. Zum Beispiel sind in der Zeichnung ein Smartphone 31, ein Tablet-Computer 32 und ein Personal Computer (vom Typ einer Notebooks) 33 gezeigt, jedoch können auch ein persönlicher digitaler Assistent (PDA, mobile Dateneinheit), ein in ein Fahrzeug eingebauter Computer oder ein Netbook verwendet werden, die nicht gezeigt sind.
2 ist eine Übersichtsdarstellung, die die Beziehung zwischen einem Unterstützer und einem Unterstützten in einem Mikroblog erläutert. Ein Benutzer des Mikroblogs kann zuvor andere Benutzer mit denselben Hobbys oder Interessen registrieren und automatisch Nachrichten empfangen, die durch diese anderen Benutzer gesendet wurden. Dieser Registrierungsprozess wird als „Unterstützen” bezeichnet, und die Beziehung kann sich auf zweierlei Art äußern: entweder unterstützen sich beide gegenseitig oder nur ein Benutzer unterstützt einseitig den anderen Benutzer. Zum Beispiel zeigen die Pfeile in 2, dass sich der Benutzer AAA und der Benutzer BBB gegenseitig unterstützen, während der Benutzer BBB den Benutzer CCC einseitig unterstützt und der Benutzer CCC den Benutzer AAA einseitig unterstützt.
3 ist eine erklärende Zeichnung eines Smartphones 31, das als Benutzerendgerät dient, und der zugehörigen Bildschirmanzeige. Das Bild einer Mikroblog-Anwendung wird auf dem berührungsempfindlichen Bildschirm des Smartphones 31 angezeigt, und das Bild der Anwendung ist in der Reihenfolge von oben nach unten in eine Stammkomponente 311, eine Zeitfolgekomponente 312 und eine Bedienkomponente 313 eingeteilt. Innerhalb der Stammkomponente 311 sind eine Menüschaltfläche und eine Anzeige dargestellt, dass es sich bei der Zeitfolgekomponente 312 um die Zeitfolge des Benutzers AAA handelt. Innerhalb der Zeitfolgekomponente 312 sind in der Reihenfolge von oben nach unten Nachrichtenkomponenten 312a und 312b vom Benutzer AAA sowie eine Nachrichtenkomponente 312c vom Benutzer BBB dargestellt. Diese Nachrichtenkomponenten 312a bis 312c sind in zeitlicher Reihenfolge dargestellt. Mit anderen Worten, die Nachrichtenkomponente 312a an oberster Stelle entspricht der letzten Nachricht.
4 ist eine erklärende Zeichnung der Datenstruktur von Daten, die in den Festplatteneinheiten 20 und 21 des Mikroblog-Servers 2 gespeichert sind. Innerhalb der in der Festplatteneinheit 20 gespeicherten Nachrichtentabelle (4(a)) wird ein Sendezeitpunkt (created_at), der den Tag und die Uhrzeit zeigt, zu der jede Nachricht gesendet wurde, eine Nachrichten-ID (id), die jede Nachricht kennzeichnet, eine Benutzer-ID (user_id) die den Benutzer kennzeichnet, der die Nachricht gesendet hat, und der Text (text) bereitgestellt, der den Inhalt der Nachricht darstellt. Außerdem kann für die Anzahl der Zeichen des Textes ein Grenzwert (beispielsweise 140 Zeichen oder weniger) festgelegt werden. Gleichzeitig wird in der Tabelle Benutzerbeziehungen (4(b)), die in der Festplatteneinheit 21 gespeichert ist, ein Registrierungszeitpunkt (registered_at) bereitgestellt, der den Tag und die Uhrzeit anzeigt, zu der eine Unterstützungsbeziehung registriert wurde, die Benutzer-ID eines Unterstützerursprungs (following_user_id), die den Benutzer als ursprünglichen Unterstützer kennzeichnet, und die Benutzer-ID eines Unterstützerziels (followed_user_id) bereitgestellt, die den Benutzer kennzeichnet, der das Unterstützerziel darstellt.
5 ist eine erklärende Zeichnung der Typen von gesendeten Nachrichten. 5(a) beschreibt eine normale Nachricht. In diesem Fall hat die Benutzerin AAA Nachrichten nach ihrer eigenen Zeitfolge gesendet, und diese Nachrichten werden nicht nur in der Zeitfolge der Benutzerin AAA, sondern auch in den Zeitfolgen der Unterstützer der Benutzerin AAA (im Beispiel von 2 der Benutzer BBB und der Benutzer CCC) angezeigt. 5(b) beschreibt eine Antwortnachricht. Eine Antwortnachricht stellt eine Reaktion auf eine bestimmte Nachricht dar und wird sowohl in der Zeitfolge des Antwortenden als auch in den Zeitfolgen derjenigen angezeigt, die den Antwortenden unterstützen. In diesem Fall sendet der Benutzer BBB die Antwortnachricht „Ja, hallo.” als Reaktion auf die Nachricht der Benutzerin AAA, und diese Antwortnachricht wird sowohl in der Zeitfolge des Benutzers BBB als auch in den Zeitfolgen der Benutzer angezeigt, die den Benutzer BBB unterstützen (im Beispiel von 2 die Benutzerin AAA).
Die beiden 5(c) und 5(d) beschreiben einen Typ einer Nachrichtenkopie und zeigen Formen des Weitersendens der ursprünglichen Nachricht „Bin zum ersten Mal in dem Mikroblog” der Benutzerin AAA, die in der Zeitfolge des Benutzers CCC als Nachrichtenkopie angezeigt wurde. In beiden Fällen wird die Nachrichtenkopie in den Zeitfolgen von Benutzern angezeigt, die den Benutzer CCC unterstützen (im Beispiel von 2 der Benutzer BBB), jedoch wird diese bei der in 5(c) gezeigten Verfahrensweise in den Zeitfolgen von Benutzern, die den Benutzer CCC unterstützen, mit dem Namen der ursprünglich sendenden Benutzerin AAA und bei dem in 5(d) gezeigten zweiten Modus mit dem Namen des weiterleitenden Benutzers CCC angezeigt. 5(e) beschreibt eine Zitatnachricht. Diese zeigt eine Form des Weitersendens der ursprünglichen Nachricht „Bin zum ersten Mal in dem Mikroblog.” der Benutzerin AAA, die in der Zeitfolge des Benutzers CCC als Nachricht angezeigt wurde, die das Original zitiert und auch die neue Bemerkung „Willkommen!” des Benutzers CCC enthält. Die zitierte Nachricht wird in den Zeitfolgen von Benutzern angezeigt, die den Benutzer CCC unterstützen.
6 ist ein Blockschaubild, das die Hardware-Struktur eines Computers erläutert. Die Hardware-Struktur eines Computers 1 weist einen Bus 10 (mit niedriger oder hoher Übertragungsgeschwindigkeit), eine mit dem Bus 10 verbundene CPU (Zentraleinheit) 11, einen RAM (Direktzugriffsspeicher, eine Speichereinheit) 12, einen ROM (Nur-Lese-Speicher, eine Speichereinheit) 13, ein HDD (Festplattenlaufwerk, eine Speichereinheit) 14, eine Datenübertragungsschnittstelle 15 und eine Eingabe-Ausgabe-Schnittstelle 16 auf. Ferner werden eine Maus 17, ein Flachbildschirm (Bildschirmeinheit) 18 und eine Tastatur 19 bereitgestellt, die mit der Eingabe-Ausgabe-Schnittstelle 16 verbunden sind. Der Computer 1 wird in Bezug auf die normale Architektur eines Personal Computers beschrieben, jedoch können Komponenten wie die CPU 11 und das HDD 14 in größerer Anzahl verwendet werden, um die Datenverarbeitungsleistung und die Verfügbarkeit zu erhöhen. Ferner können anstelle eines Arbeitsplatzcomputers verschiedene andere Typen von Computersystemen verwendet werden.
Die Software-Struktur des Computers 1 weist ein Betriebssystem (OS), das grundlegende Funktionen bereitstellt, Anwendungssoftware, die die Funktionen des OS nutzt und Treibersoftware für die Eingabe-Ausgabe-Einheiten auf. Jedes einzelne dieser Softwareelemente wird zusammen mit diversen Daten in den RAM 12 geladen und durch die CPU 11 ausgeführt. Der Computer 1 in seiner Gesamtheit führt die in 7 gezeigte Verarbeitung durch.
7 ist ein Ablaufplan, der die durch den Computer durchgeführte Verarbeitung erläutert. Zuerst wird vom Computer 1 eine Bedingung an den Mikroblog-Server 2 (Schritt S1) gesendet. Hierbei kann es sich um eine Bedingung, die den Zeitraum angibt, während dessen die Nachricht gesendet wurde, um eine Bedingung, die angibt, dass innerhalb der Nachricht ein bestimmtes Stichwort enthalten sein soll, eine Bedingung, die nur weitergesendete Nachrichten angibt, oder eine Bedingung handeln, die diese Parameter miteinander kombiniert. Sodann empfängt der Computer 1 von dem Mikroblog-Server 2 Daten für eine Gruppe von Nachrichten, auf die die oben angegebene Bedingung zutrifft (Schritt S2). In diesem Augenblick ist es zulässig, dass zusammen mit den Daten für die Gruppe von Nachrichten, auf die die Bedingung zutrifft (4(a)), gleichzeitig auch Daten über die Benutzer empfangen werden, die diesen Nachrichten zugehörig sind (4(b)).
Sodann wird durch den Prozess für jede Nachricht das Potenzial berechnet, dass diese weitergesendet wird (Schritt S3). 8 ist eine erklärende Zeichnung des Formalismus für die Berechnung des Potenzials zum Weitersenden. Hierin werden die vier Parameter Sendezeitpunkt ti, absendender Benutzer ui, in der Nachricht genannter ursprünglicher Benutzer si und Inhalt ci zum Definieren einer Nachricht mi = (ti, ui, si, ci) (i = 1, 2...) verwendet. Eine weitergesendete Nachricht bezeichnet die oben beschriebene Nachrichtenkopie (5(c) und 5(d)) und das Nachrichtenzitat (5(e)). Sowohl die in 5(c) im ersten Modus gezeigte Nachrichtenkopie als auch das Nachrichtenzitat verkörpern eine öffentiche Funktion, die auf der Seite des Mikroblog-Servers 2 erzeugt wurde, sodass, um dies widerzuspiegeln, eine Nachrichtenkopie oder eine Zitatnachricht angezeigt werden kann, indem in die Nachrichten-ID (siehe 4(a)) die Benutzer-ID für den in der Nachricht genannten ursprunglichen Benutzer si einbezogen wird. Im Vergleich hierzu verkörpert die in 5(d) gezeigte Nachrichtenkopie im zweiten Modus keine auf der Seite des Mikroblog-Servers 2 erzeugte öffentliche Funktion, sodass, um dies anzuzeigen, eine in dem Inhalt der Nachrichtenkopie im zweiten Modus anzuzeigende eindeutige Zeichenfolge wie beispielsweise „RT@” verwendet wird, wodurch kenntlich gemacht wird, dass es sich um eine Nachrichtenkopie im zweiten Modus sowie um den in der Nachricht genannten ursprünglichen Benutzer si handelt.
9 ist eine erklärende Zeichnung des zeitlich vor dem Zeitraum T liegenden Zeitraums Tp(T) zum Bewerten des Verbreitungspotenzials während des Zeitraums T. Hierbei wird ein Digraph G(T) = (V(T), E(T)) der folgenden Beziehung auf dem Mikroblog während des Zeitraums T erzeugt. V(T) stellt die Gesamtheit aller Benutzer während des Zeitraums T dar und E(T) ist gleich {e(u, s) | Benutzer u unterstützt Benutzer s während des Zeitraums T}.
Sodann wird das Verbreitungspotenzial burst[m](mi) für die Nachricht mi definiert. Hierbei wird angenommen, dass die durch den Benutzer si gesendete Information während des Zeitraums T durch den Benutzer ui als Nachricht mi weitergesendet wird und das Verbreitungspotenziel burst[m](mi) durch die folgende Gleichung definiert ist. Gleichung 1
Hierbei zeigt der Ausdruck Zentralität(u, T) die Zentralität für den Benutzer u während des Zeitraums T. Der Ausdruck Zentralität(u, T) kann unter Verwendung jedes Typs von Zentralität (Nähezentralität usw.) berechnet werden. Für die Gradzentralität (Anzahl anderer Benutzer, die jeden Benutzer unterstützen) wird ein natürlicher Logarithmus gebildet und der Ausdruck Zentralität(u, T) nimmt den Wert log[e](#Unterstützer) an. Außerdem zeigt der Ausdruck ref(u → s, T) das Ausmaß an, in dem der Benutzer u die durch den Benutzer s während des Zeitraums T gesendete Information zitiert hat. Insbesondere zeigt der Ausdruck ref(u → s, T) an, ob der Benutzer u während des Zeitraums T die Information des Benutzers s zitiert und diese weitergesendet hat, was durch [0, 1] ausgedrückt wird. Der Wert ist gleich 1, wenn der Benutzer u während des Zeitraums T die Information des Benutzers s zitiert und diese weitergesendet hat, und gleich 0, wenn dies nicht der Fall ist. Auf diese Weise kann nach eigenem Ermessen eine Funktion erstellt werden, die mit dem Grad der Bezugnahme ansteigt, jedoch braucht der Wertebereich der Funktion nicht zwischen 0 und 1 zu liegen. Der Ausdruck sim(C, c) zeigt den Grad der Ähnlichkeit zwischen der Gesamtheit C (Großbuchstabe) der Inhalte und dem Inhalt c (Kleinbuchstabe) an. Insbesondere kann der Ausdruck sim(C, c) unter Verwendung einer Kosinus-Ähnlichkeit in einem Vektorraummodell berechnet werden, was durch [0, 1] ausgedrückt wird. Der Ausdruck drückt kurz gesagt den Text durch mehrdimensionale Vektoren von Wörtern (Substantiven usw.) in einem Vektorraummodell aus. Im Ergebnis dessen kann die Ähnlichkeit von zwei Dokumenten als Ähnlichkeit von Vektoren berechnet werden. Die Kosinus-Ähnlichkeit besteht in dem Kosimus des durch die beiden Dokumentvektoren gebildeten Winkels θ (cosθ). Die Kosinus-Ähnlichkeit nimmt den Wert 1 an, wenn die beiden Vektoren vollständig übereinstimmen. Dadurch kann nach eigenem Ermessen eine Funktion erstellt werden, die mit dem Grad der Ähnlichkeit ansteigt, jedoch braucht der Wertebereich der Funktion nicht zwischen 0 und 1 zu liegen. Außerdem zeigt der Ausdruck C(u, T) die Gesamtheit der Bloginhalte, die der Benutzer u während des Zeitraums T gesendet hat. Weiterhin ist α eine Konstante, die den Einfluss von ref bestimmt, wobei in diesem Fall α = 5 ist. β ist eine Konstante, die den Einfluss von sim bestimmt und in diesem Fall ist β = 5.
Aus dem Verbreitungsgrad burst[m](mi) für die während des Zeitraums T gesendeten Nachricht mi kann mittels der folgenden Gleichung der Verbreitungsgrad burst[s](s, T) für während des Zeitraums T durch den Benutzer s gesendete Informationen berechnet werden. Gleichung 2
Sodann wird der Benutzer ermittelt, der zum Referenzursprung für eine Nachricht mit einem Verbreitungspotenziel bei einem ersten anomalen Schwellenwert wird (s S4). Insbesondere werden aus den während des Zeitraums Ti(i = 1, 2...) erhaltenen burst[s](s, Ti)-Werten unter Verwendung des unter sonstige Literatur 1 offenbarten vorhandenen Verfahrens stoßweise Übertragungen und dadurch der Benutzer s ermittelt, der die stoßweise übertragene Information sendet. Mit anderen Worten, der Grad der stoßweisen Übertragung wird auf der Grundlage eines Modells eingeschätzt, das einen Aktivitätsgrad für den verdeckten Modus aufweist und für die vorliegende Folge in einen höheren Aktivitätsgrad wechselt, wenn die Häufigkeit ansteigt.
Sodann werden Nachrichten auf der Grundlage der Gesamtheit weitergesendeter Nachricht, die ursprünglich durch den ermittelten Benutzer gesendet wurden, zu Clustern einer Gruppe ähnlicher Nachrichten zusammengefasst (Schritt S5). Insbesondere wird erkannt, ob der Benutzer S[b] im Zeitraum T eine stoßweise übertragene Information gesendet hat. Für die durch den Benutzer s gesendete Information wird für jeden identischen Inhalt aus der Gesamtheit während des Zeitraums T weitergesendeter Nachrichten M(s, T) = {m[i]|t[i] ∈ T, s[i] = s} ein Cluster M[j] ∈ M(s, T) (j = 1, 2...) erzeugt. Während dieses Prozesses können die beiden folgenden Verfahren angewendet werden. Beim ersten Verfahren werden Zeichenfolgen miteinander verglichen. Hierzu werden Zeichenfolgen miteinander verglichen, um den durch den Benutzer s[b] gesendeten Inhalt („Mundspülwasser scheint sich am besten als Schutz gegen Strahlung zu eignen.” in 8) zu vergleichen, der in dem Inhalt der Nachrichten m ∈ M(s, T) enthalten ist, und die übereinstimmenden Nachrichten werden in denselben Cluster eingefügt. Bei dem anderen Verfahren werden Cluster von Dokumenten erzeugt. Hierbei werden unter Verwendung eines vorhandenen Clusterverfahrens für Dokumente (zum Beispiel das k-Means-Verfahren) aus einer in M(s[b], T[b]) enthaltenen Gesamtheit von Inhalten Cluster erzeugt.
Sodann wird für jeden Cluster das Potenzial für das Weitersenden berechnet (Schritt S6). Insbesondere wird mittels der folgenden Gleichung der Verbreitungsgrad burst[M](M[j]) für den Inhalt des Clusters M[j] berechnet. Gleichung 3
Für das Potenzial wird eine Nachrichtengruppe oberhalb eines zweiten Schwellenwertes ausgegeben. (Schritt S7). Insbesondere wird eine stoßweise Übertragung erkannt, wenn der Wert burst[M](M[j]) einen Schwellenwert (zweiter Schwellenwert) erreicht oder überschritten hat.
Diese Erfindung kann die Form einer kompletten Hardwareausführungsform oder einer kompletten Softwareausführungsform oder einer Ausführungsform annehmen, die sowohl Hardware- als auch Softwareelemente in sich vereint. Gemäß einer bevorzugten Ausführungsform wird, ohne darauf beschränkt zu sein, diese Erfindung durch Software ausgeführt, die Firmware, residente Software, Mikrocode oder einen Picocode zur Syntaxanalyse beinhaltet.
Darüber hinaus kann die Erfindung in Form eines Computers, eines spezialisierten Systems zum Ausführen von Befehlen oder eines Computerprogramms oder computerlesbaren Mediums annehmen, das einen Programmcode in Verbindung mit diesen bereitstellt. Zum Erreichen der Zielstellung der Erfindung kann es sich bei dem computerlesbaren Medium um eine speziell zugeschnittene Einheit handeln, die in der Lage ist, ein Programm für ein speziell zugeschnittenes System, eine entsprechende Vorrichtung oder Einheit zum Ausführen von Befehlen zu enthalten, zu speichern, zu übertragen, weiterzuleiten oder dergleichen. Insbesondere strukturiert das oben erwähnte Steuermodul zur Syntaxanalyse dieses speziell zugeschnittene System zum Ausführen von Befehlen bzw. den „Computer”.
Bei dem Medium kann es sich um ein elektronisches, magnetisches, optisches, elektromagnetisches, Infrarot- oder Halbleitersystem (oder eine entsprechende Vorrichtung oder Einheit) oder Ausbreitungsmedium handeln. Als Beispiele für ein computerlesbares Medium können infrage kommen: ein Halbleiterspeicher, ein Magnetband, eine austauschbare Computerdiskette, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), eine starre elektromagnetische Speicherplatte oder eine optische Speicherplatte. Als aktuelle Beispiele einer optischen Speicherplatte kommen ein Compact Disc-Nur-Lese-Speicher (CD-ROM), ein wiederbeschreibbarer Compact-Disc-Speicher (CD-R/W) und eine DVD infrage.
Als Datenverarbeitungssystem, das zum Speichern und/oder Ausführen des Programmcodes geeignet ist, kann mindestens ein Prozessor dienen, der direkt oder indirekt über einen Systembus mit einem Speicherelement verbunden ist. Als Speicherelement kann eine lokale oder Massenspeichereinheit, die unmittelbar während des Prozesses der Ausführung des Programmcodes verwendet wird, oder, um die Anzahl der Lesezugriffe auf die Massenspeichereinheit während der Ausführung zu verringern, ein Cachespeicher dienen, der für eine temporäre Speicherung zumindest eines Teils des Programmcodes sorgt.
Eine Eingabe-Ausgabe-Einheit oder E/A-Einheit (beispielsweise eine Tastatur, ein Bildschirm und eine Zeigeeinheit, ohne darauf beschränkt zu sein) kann direkt oder über eine zwischengeschaltete E/A-Steuereinheit mit dem System verbunden sein.
Außerdem kann ein Netzwerkadapter mit dem System verbunden sein, und das Datenverarbeitungssystem kann so angeordnet sein, dass es über ein privates oder öffentliches Netzwerk mit einem anderen Datenverarbeitungssystem oder einem fernen Drucker oder einer fernen Speichereinheit verbunden ist. Als gegenwärtig verfügbare Netzwerkadapter kommen ein Modem, ein Kabelmodem und eine Ethernet(R)-Karte infrage.
Bezugszeichenliste

1: Personal Computer.
11: CPU (Zentraleinheit).
12: RAM (Direktzugriffsspeicher, eine Speichereinheit).
13: ROM (Nur-Lese-Speicher, eine Speichereinheit).
14: HDD (Festplattenlaufwerk, eine Speichereinheit).
15: Datenübertragungsschnittstelle.
16: Eingabe-Ausgabe-Schnittstelle.
17: Maus.
18: Flachbildschirm (Anzeigeeinheit).
19: Tastatur.
2: Mikroblog-Server
20, 21: Festplattenlaufwerk.
31: Smartphone.
32: Tablet-Computer.
33: Personal Computer (Notebooktyp).

Claims

Verfahren zum Auswählen einer ermittelten Gruppe von Nachrichten aus einer Vielzahl von Nachrichten, die durch eine Vielzahl von Benutzern über ein soziales Medium gesendet wurden, mittels eines Computers, wobei innerhalb der Nachrichten Nachrichten enthalten sind, die durch Benutzer gesendet wurden, die vom Benutzer einer ursprünglichen Nachricht verschieden sind, und wobei diese Nachrichten die durch den Benutzer der ursprünglichen Nachricht gesendete Nachricht zitieren und das Verfahren die Schritte aufweist: Durchführen einer Erstbewertung des Potenzials für das Weitersenden einer Nachricht, die durch einen Benutzer gesendet wurde, der von dem Benutzer der ursprünglichen Nachricht verschieden ist, und die die durch den Benutzer der ursprünglichen Nachricht gesendete Nachricht zitiert; Ermitteln eines einzelnen Benutzers, der eine Nachricht gesendet hat, für die das Ergebnis der Erstbewertung einen vorgegebenen ersten Schwellenwert überschritten hat; Ermitteln einer Gruppe von Nachrichten, die einer Gruppe weitergesendeter Nachrichten ähnlich ist, auf der Grundlage einer Gruppe weitergesendeter Nachrichten, die die durch den einzelnen Benutzer gesendete Nachricht zitieren; Durchführen einer Zweitbewertung des Potenzials, dass die ähnliche Gruppe von Nachrichten noch einmal weitergesendet wird; und Auswählen einer Gruppe von Nachrichten, für die das Ergebnis der Zweitbewertung einen vorgegebenen zweiten Schwellenwert überschritten hat.
Verfahren nach Anspruch 1, wobei in den Schritten zum Durchführen der Erstbewertung und der Zweitbewertung das Potenzial für das erneute Weitersenden als ansteigende Funktion des Einflusses eines anderen Benutzers berechnet wird.
Verfahren nach Anspruch 2, wobei der Einfluss eines anderen Benutzers als ansteigende Funktion der Anzahl von Benutzern berechnet wird, die den anderen Benutzer unterstützen.
Verfahren nach Anspruch 1, wobei in den Schritten zum Durchführen der Erstbewertung und der Zweitbewertung das Potenzial für das erneute Weitersenden als abnehmende Funktion des Ausmaßes berechnet wird, in dem der andere Benutzer früher Nachrichten weitergesendet hat, die die Nachricht des ersten Benutzers zitiert haben.
Verfahren nach Anspruch 2, wobei das Ausmaß des früheren Weitersendens als Anzahl der Fälle berechnet wird, in denen der andere Benutzer früher innerhalb eines bestimmten Zeitraums Nachrichten weitergesendet hat, die die Nachricht des ersten Benutzers zitiert haben.
Verfahren nach Anspruch 1, wobei in den Schritten zum Durchführen der Erstbewertung und der Zweitbewertung das Potenzial für das erneute Weitersenden als abnehmende Funktion der Ähnlichkeit zwischen dem Inhalt einer Nachricht, die durch den anderen Benutzer weitergesendet wurde, und dem Inhalt einer Nachricht berechnet wird, die früher durch den anderen Benutzer erneut weitergesendet wurde.
Verfahren nach Anspruch 6, wobei die Ähnlichkeit durch Vergleichen einer Textzeichenfolge mit einer durch den anderen Benutzer weitergesendeten Nachricht und einer früher durch den anderen Benutzer erneut weitergesendeten Nachricht berechnet wird.
Verfahren nach Anspruch 6, wobei die Ähnlichkeit durch Zusammenfassen von Sätzen in Clustern für eine Nachricht, die durch den anderen Benutzer weitergesendet wurde, und für eine Nachricht berechnet wird, die früher durch den anderen Benutzer erneut weitergesendet wurde.
Verfahren nach Anspruch 1, wobei es sich bei den Nachrichten um Nachrichten handelt, die unter vorgegebenen Bedingungen den auf einem sozialen Medium mitgeteilten Nachrichten entnommen wurden.
Verfahren nach Anspruch 1, wobei es sich bei den Nachrichten um Nachrichten handelt, die unter vorgegebenen Bedingungen den innerhalb eines vorgegebenen Zeitraums auf einem sozialen Medium versendeten Nachrichten entnommen wurden, die ein vorgegebenes Stichwort enthalten.
Verfahren nach Anspruch 10, wobei der Computer, der Mitteilungen auf einem sozialen Medium versendet, über ein Netzwerk mit einem Computer verbunden ist, der eine ermittelte Gruppe von Nachrichten auswählt, und der ferner einen Schritt zum Auswählen durch den Computer empfangener Nachrichten, die von den versendenden Computern gesendet wurden, als Reaktion auf eine vorgegebene Bedingungsanforderung von dem auswählenden Computer aufweist.
Verfahren nach Anspruch 11, das ferner einen Schritt zum Speichern der empfangenen Nachrichten in einem Speichermittel des auswählenden Computers aufweist.
Verfahren nach Anspruch 1, wobei es sich bei dem sozialen Medium um einen Mikroblog handelt.
Computerprogramm zum Ausführen durch einen Computer, das den Computer zum Ausführen aller Schritte eines beliebigen Verfahrens nach Anspruch 1 bis 13 veranlasst.
Computer zum Auswählen einer erkannten Gruppe von Nachrichten aus einer Vielzahl von Nachrichten, die durch eine Vielzahl von Benutzern über ein soziales Medium gesendet wurden. wobei innerhalb der Nachrichten Nachrichten enthalten sind, die durch Benutzer gesendet wurden, die vom Benutzer der ursprünglichen Nachricht verschieden sind und wobei diese Nachrichten die durch den Benutzer der ursprünglichen Nachricht gesendete Nachricht zitieren; und die Vielzahl von Nachrichten innerhalb des Speichermittels des Computers gespeichert werden, das Datenverarbeitungssteuermittel des Computers eine Erstbewertung des Potenzials für das Weitersenden einer Nachricht, die durch einen Benutzer gesendet wurde, der von dem Benutzer der ursprünglichen Nachricht verschieden ist, die die durch den Benutzer der ursprünglichen Nachricht gesendete Nachricht zitiert, Ermitteln eines einzelnen Benutzers, der eine Nachricht gesendet hat, für die das Ergebnis der Erstbewertung einen vorgegebenen ersten Schwellenwert überschritten hat, Ermitteln einer Gruppe von Nachrichten, die einer Gruppe weitergesendeter Nachrichten ähnlich ist, auf der Grundlage einer Gruppe weitergesendeter Nachrichten, die die durch den einzelnen Benutzer gesendete Nachricht zitieren, Durchführen einer Zweitbewertung des Potenzials, dass die ähnliche Gruppe von Nachrichten erneut weitergesendet wird; und Auswählen einer Gruppe von Nachrichten, für die das Ergebnis der Zweitbewertung einen vorgegebenen zweiten Schwellenwert überschritten hat.
Computer nach Anspruch 15, wobei es sich bei der Vielzahl innerhalb des Speichermittels gespeicherter Nachrichten um Nachrichten handelt, die den an das soziale Medium versendeten Nachrichten entnommen wurden.