CN110457603B - 用户关系抽取方法、装置、电子设备及可读存储介质 - Google Patents

用户关系抽取方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN110457603B
CN110457603B CN201910757832.0A CN201910757832A CN110457603B CN 110457603 B CN110457603 B CN 110457603B CN 201910757832 A CN201910757832 A CN 201910757832A CN 110457603 B CN110457603 B CN 110457603B
Authority
CN
China
Prior art keywords
user
relationship
target
public opinion
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910757832.0A
Other languages
English (en)
Other versions
CN110457603A (zh
Inventor
唐球
杨嘉佳
孙浩楠
张尼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
6th Research Institute of China Electronics Corp
Original Assignee
6th Research Institute of China Electronics Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 6th Research Institute of China Electronics Corp filed Critical 6th Research Institute of China Electronics Corp
Priority to CN201910757832.0A priority Critical patent/CN110457603B/zh
Publication of CN110457603A publication Critical patent/CN110457603A/zh
Application granted granted Critical
Publication of CN110457603B publication Critical patent/CN110457603B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本申请提出一种用户关系抽取方法、装置、电子设备及可读存储介质,涉及数据处理技术领域。首先获得待分析的舆情文本,然后判断该舆情文本是否为目标舆情文本。其中,目标舆情文本中包括第一用户组、第二用户组及位于第一用户组与第二用户组之间的字符串,两个用户组中至少一个用户组中包括之间没有字符串的相邻用户。若是目标舆情文本,则从舆情文本的两个用户组中分别选出一个目标用户,并根据舆情文本获得两个目标用户之间的关系。最后根据两个目标用户之间的关系确定舆情文本的两个用户组中任意两个用户之间的关系。由此,可自动从舆情文本中获得任意两个用户之间的关系。

Description

用户关系抽取方法、装置、电子设备及可读存储介质
技术领域
本申请涉及数据处理领域,具体而言,涉及一种用户关系抽取方法、装置、电子设备及可读存储介质。
背景技术
近年来,随着社交媒体的飞速发展,用户在社交媒体网站中产生的数据量急剧增长,越来越多的个人用户使用社交媒体发布与自己的生活、工作以及社交状态相关的信息。根据社交媒体网站上的舆情文本分析用户之间的关系,对舆情的监测意义重大。以Twitter为例,目前Twitter的用户数量超过5亿,日活跃用户数量达到1.26亿,每天发布的推文约有4亿条,推文内容涉及政治、经济、文化、教育、娱乐等许多方面,众多研究者希望利用Twitter数据分析舆情事件,了解舆情传播规律,对舆情进行监测等研究。为此,如何从舆情文本获得用户在真实世界中的社会关系,是本领域技术人员需要解决的技术问题。
发明内容
有鉴于此,本申请的目的在于提供一种用户关系抽取方法、装置、电子设备及可读存储介质。
为了实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供一种用户关系抽取方法,所述方法包括:
获得待分析的舆情文本;
判断所述舆情文本是否为目标舆情文本,其中,所述目标舆情文本中包括第一用户组、第二用户组及位于所述第一用户组与所述第二用户组之间的字符串,两个用户组中至少一个用户组中包括之间没有字符串的相邻用户;
若所述舆情文本是所述目标舆情文本,则从所述舆情文本的两个用户组中分别选出一个目标用户,并根据所述舆情文本获得两个目标用户之间的关系;
根据两个目标用户之间的关系确定所述舆情文本的两个用户组中任意两个用户之间的关系。
在可选的实施方式中,所述从所述舆情文本的两个用户组中分别选出一个目标用户,并根据所述舆情文本获得两个目标用户之间的关系,包括:
从所述舆情文本的第一用户组中任意选择一个用户作为第一目标用户;
从所述舆情文本的第二用户组中任意选择一个用户作为第二目标用户;
获得所述舆情文本中位于所述第一目标用户与第二目标用户之间的字符串,并根据第一目标用户、第二目标用户及该字符串生成待分析语句;
将所述待分析语句输入训练好的用户关系抽取模型中,获得所述第一目标用户与所述第二目标用户之间的关系。
在可选的实施方式中,所述方法还包括:
获得训练样本集,并根据训练样本集对用户关系抽取模型进行训练,以得到训练好的用户关系抽取模型,其中,所述训练样本集中的训练样本包括用于训练的舆情文本及该舆情文本中用户之间的关系。
在可选的实施方式中,所述根据两个目标用户之间的关系确定所述舆情文本的两个用户组中任意两个用户之间的关系,包括:
从所述舆情文本中提取出所述第一用户组及第二用户组,并确定位于同一用户组中的用户之间为同类项关系;
将两个目标用户之间的关系作为所述第一用户组中的每个第一用户与所述第二用户组中任意一个第二用户之间的关系。
在可选的实施方式中,所述判断所述舆情文本是否为目标舆情文本,包括:
对所述舆情文本进行预设字符串匹配,以识别出所述舆情文本中的用户;
根据识别结果判断所述舆情文本中是否仅包括两个用户组,且两个用户组中至少一个用户组中包括直接相邻的用户;
若是,则判定所述舆情文本为所述目标舆情文本。
第二方面,本申请实施例提供一种用户关系抽取装置,所述装置包括:
文本获取模块,用于获得待分析的舆情文本;
判断模块,用于判断所述舆情文本是否为目标舆情文本,其中,所述目标舆情文本中包括第一用户组、第二用户组及位于所述第一用户组与所述第二用户组之间的字符串,两个用户组中至少一个用户组中包括之间没有字符串的相邻用户;
关系抽取模块,用于在所述舆情文本是所述目标舆情文本时,从所述舆情文本的两个用户组中分别选出一个目标用户,并根据所述舆情文本获得两个目标用户之间的关系;
处理模块,用于根据两个目标用户之间的关系确定所述舆情文本的两个用户组中任意两个用户之间的关系。
在可选的实施方式中,所述关系抽取模块具体用于:
从所述舆情文本的第一用户组中任意选择一个用户作为第一目标用户;
从所述舆情文本的第二用户组中任意选择一个用户作为第二目标用户;
获得所述舆情文本中位于所述第一目标用户与第二目标用户之间的字符串,并根据第一目标用户、第二目标用户及该字符串生成待分析语句;
将所述待分析语句输入训练好的用户关系抽取模型中,获得所述第一目标用户与所述第二目标用户之间的关系。
在可选的实施方式中,所述处理模块具体用于:
从所述舆情文本中提取出所述第一用户组及第二用户组,并确定位于同一用户组中的用户之间为同类项关系;
将两个目标用户之间的关系作为所述第一用户组中的每个第一用户与所述第二用户组中任意一个第二用户之间的关系。
第三方面,本申请实施例提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器可执行所述机器可执行指令以实现前述实施方式任一所述的用户关系抽取方法。
第四方面,本申请实施例提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述实施方式中任一项所述的用户关系抽取方法。
本申请实施例提供的用户关系抽取方法、装置、电子设备和可读存储介质,在获得待分析的舆情文本后,首先判断该舆情文本是否为目标舆情文本。在是时,从该舆情文本仅包括的两个用户组中分别随机选出一个目标用户。然后根据舆情文本确定选出的两个目标用户之间的关系,最后根据两个目标用户之间的关系确定两个用户组中任意两个用户之间的关系。由此,可自动抽取出舆情文本的两个用户组中任意两用户之间的关系。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本申请实施例提供的电子设备的方框示意图;
图2是本申请实施例提供的用户关系抽取方法的流程示意图之一;
图3是本申请实施例提供的用户关系抽取结果示意图;
图4是本申请实施例提供的用户关系抽取方法的流程示意图之二;
图5本申请实施例提供的用户关系抽取装置的方框示意图之一;
图6本申请实施例提供的用户关系抽取装置的方框示意图之二。
图标:100-电子设备;110-存储器;120-处理器;130-通信单元;200-用户关系抽取装置;201-训练模块;210-文本获取模块;220-判断模块;230-关系抽取模块;240-处理模块。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
由于社交媒体平台的开放性,许多个人用户与组织用户均会通过发布文本进行社交活动,从而构成了以社交媒体平台为载体的用户社交网络。用户可通过发布文本与其他用户进行交互。通过对用户发布的文本进行分析,可以获得文本中涉及的用户之间在真实世界中的社会关系,从而可基于此进行舆情环境下人物关系的监控。本申请实施例可以自动提取舆情文本中仅包括的两个用户组中任意两个用户之间的关系,从而便于监控人物关系。
请参照图1,图1是本申请实施例提供的电子设备100的方框示意图。所述电子设备100可以是,但不限于,服务器、个人电脑(Personal Computer,PC)等。所述电子设备100包括存储器110、处理器120及通信单元130。所述存储器110、处理器120以及通信单元130各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
其中,存储器110用于存储程序或者数据。所述存储器110可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(ErasableProgrammable Read-Only Memory,EPROM),电可擦除只读存储器(Electric ErasableProgrammable Read-Only Memory,EEPROM)等。
处理器120用于读/写存储器110中存储的数据或程序,并执行相应地功能。比如,存储器110中存储有用户关系抽取装置200,所述用户关系抽取装置200包括至少一个可以软件或固件(firmware)的形式存储于所述存储器110中的软件功能模块。所述处理器120通过运行存储在存储器110内的软件程序以及模块,如本申请实施例中的用户关系抽取装置200,从而执行各种功能应用以及数据处理,即实现本申请实施例中的用户关系抽取方法。
通信单元130用于通过网络建立所述电子设备100与其它通信终端之间的通信连接,并用于通过所述网络收发数据。
应当理解的是,图1所示的结构仅为电子设备100的结构示意图,所述电子设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
请参照图2,图2是本申请实施例提供的用户关系抽取方法的流程示意图之一。所述方法可应用于所述电子设备100。下面对用户关系抽取方法的具体流程进行详细阐述。
步骤S110,获得待分析的舆情文本。
在本实施例中,可以通过接收其他设备发送的文本的方式,获得待分析的舆情文本;也可以通过网页爬取的方式获得待分析的舆情文本;还可以采用除上述两种方式之外的其他方式获得舆情文本。其中,舆情文本包括用户在社交媒体网站(比如,Twitter网站)中发布的文本。
在本实施例的一种实施方式中,使用Scrapy爬取框架爬取社交媒体网站的数据,从而得到待分析的舆情文本。其中,Scrapy爬取框架是一款开源的爬虫框架,该框架可以通过url(Uniform Resource Locator,统一资源定位符)爬取指定网址的html页面源码,之后根据爬取需求定位到html源码的指定位置,抽取相应文本。比如,在获得作为舆情文本的推文时,根据Twitter网站的html源码结构,利用Scrapy爬取框架抽取出推文正文内容,从而得到待分析的舆情文本。
步骤S120,判断所述舆情文本是否为目标舆情文本。
在本实施例中,可首先识别出舆情文本中的用户,然后根据识别出的用户及预先设定的判断规则确定该舆情文本是否为目标舆情文本。其中,该判断规则中可以包括目标舆情文本的特征。目标舆情文本中包括第一用户组、第二用户组及位于所述第一用户组与所述第二用户组之间的字符串,两个用户组中至少一个用户组中包括之间没有字符串的相邻用户。也就是说,目标舆情文本中包括第一用户组及第二用户组,第一用户组与第二用户组不是直接相邻,第一用户组与第二用户组之间存在符号(比如,“,”)和/或文本串(比如,“play with”);并且,至少一个用户组中包括相邻的用户。第一用户组为目标舆情文本中的任意一个用户组,第二用户组为目标舆情文本中的另一个用户组。其中,舆情文本的用户是一个可指代用户的标识。
在本实施例中,可通过以下方式判断舆情文本是否为目标舆情文本。首先对所述舆情文本进行预设字符串匹配,以识别出所述舆情文本中的用户。然后根据识别结果判断所述舆情文本中是否仅包括两个用户组,且两个用户组中至少一个用户组中包括直接相邻的用户。若是,则判定所述舆情文本为所述目标舆情文本。其中,所述预设字符串具体可以为字符或字符串。
在本实施例中,可根据不同的社交媒体网站的发文格式确定不同的预设字符串,从而根据预设字符串识别出从对应社交媒体网站获得的舆情文本中的用户。比如,若待分析舆情文本为推文,Twitter网站的推文中在涉及用户时会使用“@”,则使用的预设字符串为“@”,通过匹配即可得到该推文中的用户。可选地,在通过匹配确定推文中的“@”后,可根据“@”与空格之间的字符串得到用户。由此,即可识别出推文中的用户。通过该方式,即使舆情文本为非结构化数据,且数据量比较大,依然可以识别出各舆情文本中的用户。
其中,在本实施例中,识别出的用户为预设字符串“@”和用户标识的组合。两个用户组中至少一个用户组中包括之间没有字符串的相邻用户,是指至少一个用户组中仅包括预设字符串“@”及至少两个用户标识,比如,@LBJ@Yao。
在识别用户的过程中,还可检查是否有用户直接相邻。若有用户直接相邻,可将该部分用户作为一用户组,比如,“@Kobe@Messi@LBJ”为一用户组。在识别完用户后,可根据识别结果判断舆情文本中是否仅存在两个用户组、且至少一个用户组中包括直接相邻的@用户。若不是,则判定该舆情文为非目标舆情文本,可将该舆情文本删除。若是,则可判定该舆情文本为目标舆情文本,并执行步骤S130。
可选地,在本实施例的一种实施方式中,可规定目标舆情文本的两个用户组中均包括之间没有字符串的相邻用户。
可选地,在本实施例的一种实施方式中,若获得多个待分析的舆情文本,可选出一舆情文本,并判断该舆情文本是否为目标舆情文本,并在是时,针对该舆情文本执行步骤S130~步骤S140。然后再次选出一舆情文本,并重复步骤S130~步骤S140。直到完成对得到的所有舆情文本的处理。
可选地,在本实施例的另一种实施方式中,若获得多个待分析的舆情文本,可依次判断各舆情文本是否为目标舆情文本。若是,可将该舆情文本保存至原始文本缓冲区。若不是,则将该舆情文本删除。最后,从原始文本缓冲区中依次获得一个舆情文本,并获得该舆情文本中的用户关系。
步骤S130,从所述舆情文本的两个用户组中分别选出一个目标用户,并根据所述舆情文本获得两个目标用户之间的关系。
在本实施例中,从所述舆情文本的第一用户组中任意选择一个用户作为第一目标用户,并从所述舆情文本的第二用户组中任意选择一个用户作为第二目标用户。接着,获得所述舆情文本中位于所述第一目标用户与第二目标用户之间的字符串,并根据第一目标用户、第二目标用户及该字符串生成待分析语句。其中,位于第一目标用户与第二目标用户之间的字符串,为位于第一用户组及第二用户组之间的字符串。将生成的待分析语句输入训练好的用户关系抽取模型中,获得所述第一目标用户与所述第二目标用户之间的关系。
可选地,可根据第一目标用户、第二目标用户、获得的字符串在舆情文本中的位置,将第一目标用户、第二目标用户、获得的字符串进行组合,得到所述待分析语句。
比如,一舆情文本为:@LBJ@Yao,play with@Kobe@Messi。从该舆情文本可以看出,该舆情文本中包括2个直接相邻的@用户部分,分别为:@LBJ@Yao、@Kobe@Messi。分别从两个用户组(即直接相邻的@用户部分)中随机抽取一个@用户,可得到2个@用户,比如:@LBJ,@Kobe。将这2个@用户以及它们之间的字符串组成待分析语句:“@LBJ,play with@Kobe”,并将该待分析语句输入训练好的用户关系抽取模型。
可选地,本申请实施例中的用户关系抽取模型可以是,但不限于,残差神经网络模型。可选地,可先将待分析语句由文本数据转换为向量,再输入训练好的用户关系抽取模型中。其中,在本实施例的一种实施方式中,可以通过word2vec和position embedding方法将文本数据转换为向量。
由于文本格式的数据无法直接输入到神经网络模型中,因此需要将文本格式转化为实数类型的格式,这一过程被称为词向量化。在得到待分析语句后,利用word2vec方法对待分析语句进行分词处理,以将每个词向量化。比如,对于一句话“@LBJ,play with@Kobe”,经过word2vec向量化处理后,可得到各个词的词向量:“@LBJ”的词向量为[1,0,0,0],“play”的词向量为[0,1,0,0],“with”的词向量为[0,0,1,0],“@Kobe”的词向量为[0,0,0,1](该例子仅为说明使用,具体实验过程中的词向量并非这种简单形式)。其中,word2vec是Google在2013年推出的自然语言处理工具,该方法将霍夫曼树和神经网络相结合来得到文本的词向量,具体实现这里不再赘述。
为了利用文本的上下文信息预测出两个@用户在文本中的关系,使用positionembedding方法记录文本中的每个单词与两个@用户之间的相对距离。以“@LBJ,play with@Kobe”为例,在这句话中假设两个@用户分别为“@LBJ”和“@Kobe”,单词“play”与“@LBJ”的相对距离为-1,与“@Kobe”的相对距离为2,则将“play”与两个@用户之间的距离记录为p1=-1,p2=2,之后将p1、p2接入“play”对应的词向量之后,以上述词向量为例,“play”这个单词处理之后得到的向量为v=[0,1,0,0,-1,2]。其他单词处理情况同上。最终,得到整句话的向量表示V。
可选地,在将待分析语句的向量V输入训练好的用户关系提取模型后,可得到一关系标签。然后根据预设的关系标签与用户关系的对应关系,获得两个目标用户之间的关系。比如,1对应朋友关系,2对应上下级关系,若得到的关系标签为1,则可确定两个目标用户之间为朋友关系。
步骤S140,根据两个目标用户之间的关系确定所述舆情文本的两个用户组中任意两个用户之间的关系。
在本实施例中,在确定舆情文本为目标舆情文本后,可提取出该舆情文本中的两个用户组。然后根据提取出的第一用户组、第二用户组及两个目标用户之间的关系,确定该舆情文本中两个用户组中任意两个用户之间的关系。
在本实施例中,在提取出两个用户组后,可确定位于同一用户组中的用户之间为同类项关系。并将两个目标用户之间的关系作为所述第一用户组中的每个第一用户与所述第二用户组中任意一个第二用户之间的关系。由此,可得到两个用户组中任意两用户之间的关系。
请参照图3,图3是本申请实施例提供的用户关系抽取结果示意图。下面结合图3对得到两个用户组中任意两用户之间的关系进行举例说明。
假设舆情文本为推文:@LBJ@Yao,play with@Kobe@Messi。经步骤S120确定该舆情文本为目标舆情文本。同时,可确定第一用户组为:@LBJ@Yao,第二用户组为:@Kobe@Messi。从两个用户组中分别抽取一用户,结合两个用户组之间的字符串,可得到待分析语句“@LBJ,play with@Kobe”。将该分析语句输入训练好的用户关系抽取模型,得到@LBJ与@Kobe之间的关系。
第一用户组中的@LBJ与@Yao为同类项关系,第二用户组中的@Kobe与@Messi为同类项关系。若@LBJ与@Kobe为朋友关系,则可推测第一用户组中的每个第一用户与第二用户组中任意一个第二用户之间为朋友关系。即如图3所示,@LBJ与@Yao为同类项关系,@Kobe与@Messi为同类项关系,@LBJ与@Kobe为朋友关系,@LBJ与@Messi为朋友关系,@Yao与@Kobe为朋友关系,@Yao与@Messi为朋友关系。
在本申请实施例中,首先获得待分析舆情文本,然后判断该舆情文本是否为目标舆情文本。若是,则从该舆情文本中提取出仅包括的两个用户组,并确定同一用户组中的用户之间为同类项关系。从该舆情文本的两个用户组中分别选出一个目标用户,然后根据两个目标用户、两个用户组之间的字符串、及训练好的用户关系抽取模型,得到两个目标用户之间的关系。最后将两个目标用户之间的关系作为一个用户组中每个用户与另一个用户组中任意一个用户之间的关系。由此,可得到舆情文本中两个用户组中任意两个用户之间的关系。
请参照图4,图4是本申请实施例提供的用户关系抽取方法的流程示意图之二。在步骤S130之前,所述方法还包括步骤S101。
步骤S101,获得训练样本集,并根据训练样本集对用户关系抽取模型进行训练,以得到训练好的用户关系抽取模型。
在本实施例中,训练样本集中包括多个训练样本。每个训练样本中包括用于训练的舆情文本及该舆情文本中用户之间的关系。在进行训练前,可将训练样本集由文本格式转化为实数类型的格式。接着,则可以基于该训练样本集对用户关系抽取模型进行训练,在训练完成时即可以得到训练好的用户关系抽取模型。
为了执行上述实施例及各个可能的方式中的相应步骤,下面给出一种用户关系抽取装置200的实现方式,可选地,该用户关系抽取装置200可以采用上述图1所示的电子设备100的器件结构。进一步地,请参照图5,图5本申请实施例提供的用户关系抽取装置200的方框示意图之一。需要说明的是,本实施例所提供的用户关系抽取装置200,其基本原理及产生的技术效果和上述实施例相同,为简要描述,本实施例部分未提及之处,可参考上述的实施例中相应内容。所述用户关系抽取装置200包括:文本获取模块210、判断模块220、关系抽取模块230及处理模块240。
所述文本获取模块210,用于获得待分析的舆情文本。
所述判断模块220,用于判断所述舆情文本是否为目标舆情文本。
其中,所述目标舆情文本中包括第一用户组、第二用户组及位于所述第一用户组与所述第二用户组之间的字符串,两个用户组中至少一个用户组中包括之间没有字符串的相邻用户。
所述关系抽取模块230,用于在所述舆情文本是所述目标舆情文本时,从所述舆情文本的两个用户组中分别选出一个目标用户,并根据所述舆情文本获得两个目标用户之间的关系。
在本实施例中,所述关系抽取模块230具体用于:
从所述舆情文本的第一用户组中任意选择一个用户作为第一目标用户;
从所述舆情文本的第二用户组中任意选择一个用户作为第二目标用户;
获得所述舆情文本中位于所述第一目标用户与第二目标用户之间的字符串,并根据第一目标用户、第二目标用户及该字符串生成待分析语句;
将所述待分析语句输入训练好的用户关系抽取模型中,获得所述第一目标用户与所述第二目标用户之间的关系。
所述处理模块240,用于根据两个目标用户之间的关系确定所述舆情文本的两个用户组中任意两个用户之间的关系。
在本实施例中,所述处理模块240具体用于:
从所述舆情文本中提取出所述第一用户组及第二用户组,并确定位于同一用户组中的用户之间为同类项关系;
将两个目标用户之间的关系作为所述第一用户组中的每个第一用户与所述第二用户组中任意一个第二用户之间的关系。
请参照图6,图6本申请实施例提供的用户关系抽取装置200的方框示意图之二。所述用户关系抽取装置200该可以包括训练模块201。
所述训练模块201用于获得训练样本集,并根据训练样本集对用户关系抽取模型进行训练,以得到训练好的用户关系抽取模型。其中,所述训练样本集中的训练样本包括用于训练的舆情文本及该舆情文本中用户之间的关系。
可选地,上述模块可以软件或固件(Firmware)的形式存储于图1所示的存储器110中或固化于该电子设备100的操作系统(Operating System,OS)中,并可由图1中的处理器120执行。同时,执行上述模块所需的数据、程序的代码等可以存储在存储器110中。
本申请实施例还提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的用户关系抽取方法。
综上所述,本申请实施例提供一种用户关系抽取方法、装置、电子设备及可读存储介质。在获得待分析的舆情文本后,首先判断该舆情文本是否为目标舆情文本。在是时,从该舆情文本仅包括的两个用户组中分别随机选出一个目标用户。然后根据舆情文本确定选出的两个目标用户之间的关系,最后根据两个目标用户之间的关系确定两个用户组中任意两个用户之间的关系。由此,可自动抽取出舆情文本的两个用户组中任意两用户之间的关系。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种用户关系抽取方法,其特征在于,所述方法包括:
获得待分析的舆情文本;
判断所述舆情文本是否为目标舆情文本,其中,所述目标舆情文本中包括第一用户组、第二用户组及位于所述第一用户组与所述第二用户组之间的字符串,两个用户组中至少一个用户组中包括之间没有字符串的相邻用户;
若所述舆情文本是所述目标舆情文本,则从所述舆情文本的两个用户组中分别选出一个目标用户,并根据所述舆情文本获得两个目标用户之间的关系;
根据两个目标用户之间的关系确定所述舆情文本的两个用户组中任意两个用户之间的关系;
其中,所述根据所述舆情文本获得两个目标用户之间的关系,包括:
获得所述舆情文本中位于选出的两个目标用户之间的字符串,并根据两个目标用户及该字符串生成待分析语句;
将所述待分析语句输入训练好的用户关系抽取模型中,获得两个目标用户之间的关系。
2.根据权利要求1所述的方法,其特征在于,所述从所述舆情文本的两个用户组中分别选出一个目标用户,包括:
从所述舆情文本的第一用户组中任意选择一个用户作为第一目标用户;
从所述舆情文本的第二用户组中任意选择一个用户作为第二目标用户,其中,两个目标用户之间的关系为所述第一目标用户与所述第二目标用户之间的关系。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获得训练样本集,并根据训练样本集对用户关系抽取模型进行训练,以得到训练好的用户关系抽取模型,其中,所述训练样本集中的训练样本包括用于训练的舆情文本及该舆情文本中用户之间的关系。
4.根据权利要求1所述的方法,其特征在于,所述根据两个目标用户之间的关系确定所述舆情文本的两个用户组中任意两个用户之间的关系,包括:
从所述舆情文本中提取出所述第一用户组及第二用户组,并确定位于同一用户组中的用户之间为同类项关系;
将两个目标用户之间的关系作为所述第一用户组中的每个第一用户与所述第二用户组中任意一个第二用户之间的关系。
5.根据权利要求1所述的方法,其特征在于,所述判断所述舆情文本是否为目标舆情文本,包括:
对所述舆情文本进行预设字符串匹配,以识别出所述舆情文本中的用户;
根据识别结果判断所述舆情文本中是否仅包括两个用户组,且两个用户组中至少一个用户组中包括直接相邻的用户;
若是,则判定所述舆情文本为所述目标舆情文本。
6.一种用户关系抽取装置,其特征在于,所述装置包括:
文本获取模块,用于获得待分析的舆情文本;
判断模块,用于判断所述舆情文本是否为目标舆情文本,其中,所述目标舆情文本中包括第一用户组、第二用户组及位于所述第一用户组与所述第二用户组之间的字符串,两个用户组中至少一个用户组中包括之间没有字符串的相邻用户;
关系抽取模块,用于在所述舆情文本是所述目标舆情文本时,从所述舆情文本的两个用户组中分别选出一个目标用户,并根据所述舆情文本获得两个目标用户之间的关系;
处理模块,用于根据两个目标用户之间的关系确定所述舆情文本的两个用户组中任意两个用户之间的关系;
其中,所述关系抽取模块具体用于:
获得所述舆情文本中位于选出的两个目标用户之间的字符串,并根据两个目标用户及该字符串生成待分析语句;
将所述待分析语句输入训练好的用户关系抽取模型中,获得两个目标用户之间的关系。
7.根据权利要求6所述的装置,其特征在于,所述关系抽取模块具体用于:
从所述舆情文本的第一用户组中任意选择一个用户作为第一目标用户;
从所述舆情文本的第二用户组中任意选择一个用户作为第二目标用户,其中,两个目标用户之间的关系为所述第一目标用户与所述第二目标用户之间的关系。
8.根据权利要求6所述的装置,其特征在于,所述处理模块具体用于:
从所述舆情文本中提取出所述第一用户组及第二用户组,并确定位于同一用户组中的用户之间为同类项关系;
将两个目标用户之间的关系作为所述第一用户组中的每个第一用户与所述第二用户组中任意一个第二用户之间的关系。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器可执行所述机器可执行指令以实现权利要求1-5任一所述的用户关系抽取方法。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的用户关系抽取方法。
CN201910757832.0A 2019-08-16 2019-08-16 用户关系抽取方法、装置、电子设备及可读存储介质 Active CN110457603B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910757832.0A CN110457603B (zh) 2019-08-16 2019-08-16 用户关系抽取方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910757832.0A CN110457603B (zh) 2019-08-16 2019-08-16 用户关系抽取方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN110457603A CN110457603A (zh) 2019-11-15
CN110457603B true CN110457603B (zh) 2021-08-06

Family

ID=68487031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910757832.0A Active CN110457603B (zh) 2019-08-16 2019-08-16 用户关系抽取方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN110457603B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111400448A (zh) * 2020-03-12 2020-07-10 中国建设银行股份有限公司 对象的关联关系分析方法及装置
CN111581459B (zh) * 2020-06-13 2021-06-15 中国电子信息产业集团有限公司第六研究所 一种字符串匹配方法及字符串匹配系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001067251A (ja) * 1999-08-27 2001-03-16 Takayuki Miyashita 電子データ統合化データ管理システムおよびデータベースシステム
CN103235772A (zh) * 2013-03-08 2013-08-07 北京理工大学 一种文本集人物关系自动提取方法
CN104657750A (zh) * 2015-03-23 2015-05-27 苏州大学张家港工业技术研究院 一种用于人物关系抽取的方法和装置
CN107526722A (zh) * 2017-07-31 2017-12-29 努比亚技术有限公司 一种人物关系分析方法及终端
CN108959418A (zh) * 2018-06-06 2018-12-07 中国人民解放军国防科技大学 一种人物关系抽取方法、装置、计算机装置及计算机可读存储介质
CN109710918A (zh) * 2018-11-26 2019-05-03 平安科技(深圳)有限公司 舆情关系识别方法、装置、计算机设备和存储介质
CN110083759A (zh) * 2019-03-15 2019-08-02 深圳壹账通智能科技有限公司 舆论信息爬取方法、装置、计算机设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001067251A (ja) * 1999-08-27 2001-03-16 Takayuki Miyashita 電子データ統合化データ管理システムおよびデータベースシステム
CN103235772A (zh) * 2013-03-08 2013-08-07 北京理工大学 一种文本集人物关系自动提取方法
CN104657750A (zh) * 2015-03-23 2015-05-27 苏州大学张家港工业技术研究院 一种用于人物关系抽取的方法和装置
CN107526722A (zh) * 2017-07-31 2017-12-29 努比亚技术有限公司 一种人物关系分析方法及终端
CN108959418A (zh) * 2018-06-06 2018-12-07 中国人民解放军国防科技大学 一种人物关系抽取方法、装置、计算机装置及计算机可读存储介质
CN109710918A (zh) * 2018-11-26 2019-05-03 平安科技(深圳)有限公司 舆情关系识别方法、装置、计算机设备和存储介质
CN110083759A (zh) * 2019-03-15 2019-08-02 深圳壹账通智能科技有限公司 舆论信息爬取方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN110457603A (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
Boididou et al. Detection and visualization of misleading content on Twitter
CN106557695B (zh) 一种恶意应用检测方法和系统
CN109145216A (zh) 网络舆情监控方法、装置及存储介质
CN112749284B (zh) 知识图谱构建方法、装置、设备及存储介质
CN109614550A (zh) 舆情监控方法、装置、计算机设备及存储介质
CN108021651B (zh) 一种网络舆情风险评估方法及装置
Olmezogullari et al. Representation of click-stream datasequences for learning user navigational behavior by using embeddings
Boididou et al. Learning to detect misleading content on twitter
CN109189935B (zh) 一种基于知识图谱的app传播分析方法及系统
CN110457603B (zh) 用户关系抽取方法、装置、电子设备及可读存储介质
CN113157871B (zh) 应用人工智能的新闻舆情文本处理方法、服务器及介质
CN110069686A (zh) 用户行为分析方法、装置、计算机装置及存储介质
US11308091B2 (en) Information collection system, information collection method, and recording medium
Bhat et al. Browser simulation-based crawler for online social network profile extraction
Yerlekar et al. A multinomial technique for detecting fake news using the Naive Bayes Classifier
JP5040718B2 (ja) スパム・イベント検出装置及び方法並びにプログラム
Pla Karidi et al. Automatic ground truth dataset creation for fake news detection in social media
CN111127057B (zh) 一种多维用户画像恢复方法
CN112685618A (zh) 用户特征识别方法、装置、计算设备及计算机存储介质
CN115964997A (zh) 选择题的混淆选项生成方法及装置、电子设备、存储介质
Kaur et al. A Review on Sentimental Analysis on Facebook Comments by using Data Mining Technique
CN114625658A (zh) App稳定性测试方法、装置、设备和计算机可读存储介质
Bin Tareaf et al. Malicious behaviour identification in online social networks
CN110413909B (zh) 基于机器学习的大规模嵌入式设备在线固件智能识别方法
Varughese et al. Analyzing the behavior of youth to sociality using social media mining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant