CN111651559B

CN111651559B - 一种基于事件抽取的社交网络用户关系抽取方法

Info

Publication number: CN111651559B
Application number: CN202010474094.1A
Authority: CN
Inventors: 姜彦吉; 孙宁; 郭羽含; 江中宇; 王泽宇; 张雨晴; 田淞; 孟巧巧
Original assignee: Liaoning Technical University
Current assignee: Liaoning Technical University
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2023-05-26
Anticipated expiration: 2040-05-29
Also published as: CN111651559A

Abstract

本发明提供一种基于事件抽取的社交网络用户关系抽取方法，涉及文本信息处理技术领域。该方法首先获取社交网络数据中的文本信息并进行预处理后进行三元组框架抽取；将多个三元组框架看作是一个事件，三元组框架中的任意子元素集看作是三元组框架的子集，用于表示事件的特征；通过三元组框架的突发值来选择事件的特征，进而确定多个事件簇中心；再对三元组框架进行特征聚类，得到多个事件簇，构成事件簇集合；根据事件簇集合，判断两用户所发布的内容是否在同一事件簇中，若在，则两用户之间存在关系，形成用户对；利用非监督模型对用户之间的关系进行抽取，得到用户关系三元组。本发明方法提高了用户关系抽取的准确性以及实时性。

Description

一种基于事件抽取的社交网络用户关系抽取方法

技术领域

本发明涉及文本信息处理技术领域，尤其涉及一种基于事件抽取的社交网络用户关系抽取方法。

背景技术

目前，社交网络逐渐成为人们生活中不可或缺的一部分，成为一种超越新闻、报纸、论坛等的消息传播工具，扩大了社会舆情的范围，带来了信息生产与传播方式的新革命。据大数据分析，2020年中国网民数量达到11亿。由此可知，越来越多的网民用户通过微博、微信平台来发表与传播各种话题，而不同的话题与用户之间也存在着一定的联系。

微信、微博等社交平台对用户进行关系抽取主要是根据不同用户之间的互粉情况、转发、以及评论热点事件等文本信息来提取用户的关系特征，从而获得用户之间的关系。然而现存的信息抽取方法并不能采集到完整的用户文本信息，准确性也相对较低，不能准确的推导出在一定时间段内用户之间的关系。

因此，需要一种新的用户关系抽取方法，进一步提高用户关系抽取的准确性以及实时性。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种基于事件抽取的社交网络用户关系抽取方法，抽取通过爬取社交网络所获得信息的数据特征，实现更有效的挖掘社交网络用户关系。

为解决上述技术问题，本发明所采取的技术方案是：一种基于事件抽取的社交网络用户关系抽取方法，包括以下步骤：

步骤1：获取社交网络数据中的文本信息，并存储到文本数据库中；利用已知的用户id，批量爬取用户的社交网络数据，并从社交网络数据中获取用户所发布的文本信息，存储到文本数据库中；同时，针对社交网络中的图片及视频，通过OCR识别工具来获取图片或视频中的文本信息，并存储到文本数据库中；

步骤2：对文本数据库中的文本数据进行预处理；对文本数据中的中文文本进行中文筛选与归一化处理，并对中文文本进行实体识别；

采用语言检测方法去除文本数据中的非中文文本，利用基于文本抽取的单词级归一化词典来对文本中的单词进行归一化，得到规范词以及对应的规范形式；再采用基于统计机器学习的方法建立LSTM+CRF模型对原始文本信息进行训练，再利用训练好的LSTM+CRF模型识别出文本中的实体；

步骤3：对预处理后的文本数据进行三元组框架抽取；利用三元组抽取工具抽取文本数据中的三元组框架；

首先从文本中抽取谓语动词，其次，再抽取与谓语动词相关的包含主语和宾语的实体对；最后，针对抽取到的三元组框架进行筛选，将抽取到的三元组框架与MicrosoftWeb N-gram在线服务匹配，去除掉不满足三元组框架语法约束的噪声；

步骤4：基于三元组框架的事件检测；将多个三元组框架看作是一个事件，三元组框架中的任意子元素集看作是三元组框架的子集，用于表示事件的特征；通过三元组框架的突发值来选择事件的特征，进而确定多个事件簇中心；再对三元组框架进行特征聚类，得到多个事件簇，构成事件簇集合；

步骤4.1：将三元组框架在文本中分布的概率值作为突发值，并基于突发值获取的事件特征作为事件簇中心；

设定时间段D包含n个时间窗口，D＝{d₁，d₂，...，d_n}；每个文本内容为一个三元组框架集合T＝{f₁，f₂，...，f_l}，其中，l为文本中三元组框架的总数；在时间窗口d内计算文本中每个短语在所有三元组框架内作为任意子元素的概率，如下公式所示：

P_s，d～N(N_dp_s，N_dp_s(1-p_s))

其中，N()表示二项分布，N_d表示为时间窗口d中所包含的文本数量，p_s表示为任意时间窗口内观察到的包含短语s的文本的期望概率，P_s，d表示时间窗口d内短语s在三元组框架内作为任意子元素中的分布概率，也即短语s在窗口d中的突发值；则该短语所在三元组框架的突发值为三元组框架内所有短语的突发值之和；

选取文本中短语个数的t％作为事件的特征数量L，基于短语突发值，通过PageRank方法得到文本中所有短语的排名序列，并从排名序列中前L个具有高突发值的短语作为事件的特征S′＝{s₁，s₂，...，s_m，...，s_L}，并将事件的特征作为特征聚类的多个事件簇中心；

步骤4.2：对三元组框架进行特征聚类，得到多个事件簇；

采用基于时序模型的相似度计算方法，在时间窗口d内，划分H个子时间窗口，计算三元组框架的任意子元素与作为事件簇中心的事件特征之间的相似度，如下公式所示：

其中，sim(s_a，s_m，d)表示在时间窗口d中三元组框架的子元素s_a与作为事件特征的短语s_m的相似值，w(s_a，d_h)与w(s_m，d_h)分别表示s_a和s_m在子时间窗口d_h中的时序特征权重，

表示s_a和s_m所在的文本/>

与文本/>

在子时间窗口d_h中的文本相似值；

其中，f(s_m，d_h)表示在子时间窗口d_h中，短语s_m所出现的频数，

表示为在时间窗口d中短语s_m所出现的频数；

判断在时间窗口d中三元组框架的子元素s_a与作为事件特征的短语s_m的相似值sim(s_a，s_m，d)是否大于设定的阈值δ，若大于，则将该三元组框架的子元素s_a划入事件特征s_m作为事件簇中心的事件簇内；反之，则三元组框架的子元素s_a不在该事件簇内；所得到的事件簇集合表示为set(d)；

步骤5：用户关系抽取；根据步骤4所得到的事件簇集合，判断两用户所发布的内容是否在同一事件簇中，若在，则两用户之间存在关系，形成用户对；利用非监督模型对用户之间的关系进行抽取，得到用户关系三元组；

对用户发布的内容执行步骤2、3获得用户发布内容的三元组框架，将获得的三元组框架与事件簇进行相似性比较，若大于设定的阈值，则将该三元组框架划分到该事件簇中；反之，则计算三元组框架与其他事件簇的相似值，直到将该三元组框架分到某事件簇内；若两用户所发布内容提取的三元组框架均在同一事件簇中，则两用户之间存在关系，形成用户对；

根据得到的用户对，利用非监督模型对用户之间的关系进行抽取，得到用户关系三元组(Uset1，relation，User2)。

采用上述技术方案所产生的有益效果在于：本发明提供的一种基于事件抽取的社交网络用户关系抽取方法，从用户发布的文本信息中提取三元组框架，通过三元组框架的突发值来选择事件的特征，基于事件的特征，对事件簇进行划分，根据事件簇更好的判定用户之间的关系。本发明方法从用户的角度出发，按照用户所发布的内容来获取到特征，结合从图与视频中抽取的内容，更准确的分析用户所表达的真实想法，提高了用户关系抽取的准确性以及实时性。

附图说明

图1为本发明实施例提供的用于社交网络用户关系抽取的电子设备结构示意图；

图2为本发明实施例提供的一种基于事件抽取的社交网络用户关系抽取方法的流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

由于社交网络平台的开放型，许多用户之间会通过文本信息进行沟通，实现社交活动，从而构成了在线社交网络，并可以利用该网络中的文本信息进行分析，获得社交网络中用户之间的真实关系。本申请实施例可以自动提取社交网络文本中两个用户之间的关系，预测用户之间的关系，更好的为用户推荐与他相似的用户，构建更好的用户社交网络。

本实施例基于如图1所示的电子设备进行社交网络用户关系的抽取，该电子设备可以是个人电脑、服务器等，但不限于此。图1中的存储器、处理器以及通信单元相互之间通过直接或间接的连接，实现数据交互。

本实施例中，一种基于事件抽取的社交网络用户关系抽取方法，如图2所示，包括以下步骤：

步骤1：获取社交网络数据中的文本信息，并存储到文本数据库中；

利用已知的用户id，批量爬取用户的社交网络数据，并从社交网络数据中获取用户所发布的文本信息，存储到文本数据库中；同时，针对社交网络中的图片及视频，通过OCR识别工具来获取图片或视频中的文本信息，并存储到文本数据库中；

在本实施例中，使用Scrapy爬取框架获取到社交网络数据。通过开源的Scrapy爬虫框架爬取html网页源码，定位到与文本相关的指定位置，抽取相关文本。例如，在网页中存在一些广告以及推送信息等噪声信息，在网页源码中找到用户所发布的文本信息，利用Scrapy爬取框架抽取出正文部分，获取到社交网络数据。

步骤2：对文本数据库中的文本数据进行预处理；原始的文本内容包含多种语言的文本，且包含噪声数据，例如重复信息、用户自创词以及表达不准确等。本发明主要针对中文文本进行事件抽取。对文本数据中的中文文本进行中文筛选与归一化处理，为了更好的获得到文本中的框架，并对中文文本进行实体识别；

采用语言检测方法去除文本数据中的非中文文本，利用基于文本抽取的单词级归一化词典来对文本中的单词进行归一化，得到规范词以及对应的规范形式；其次，由于中文中包含着名词短语、代词等实体，本发明采用基于统计机器学习的方法建立LSTM+CRF模型对原始文本信息进行训练，再利用训练好的LSTM+CRF模型识别出文本中的实体；

在获取到的社交网络数据中，存在着一些语言表达有误、用户自创词、发布重复信息的伪信息。本实施例中采用语言检测方法langid工具包去除掉非中文文本，利用单词级词典去除掉伪信息。通过统计机器学习方法建立LSTM+CRF模型识别出文本中的实体。例如，在给定文本信息“我今天开始了一段美好的美好的旅程[吃瓜][摊手]”，首先通过语言检测方法去除掉该句中的表情词[吃瓜][摊手]；随后，通过单词级的词典进行比对，去除掉重复词“美好的”；接下来，通过训练好的模型LSTM+CRF提取出该句中的实体对一我和旅程。

步骤3：对预处理后的文本数据进行三元组框架抽取；本发明为获取包含事件信息的三元组框架，包含事件的主体以及谓语。从无结构化的文本中抽取信息。利用三元组抽取工具抽取文本数据中的三元组框架；首先从文本中抽取谓语动词，其次，再抽取与谓语动词相关的包含主语和宾语的实体对；最后，针对抽取到的三元组框架进行筛选，将抽取到的三元组框架与Microsoft Web N-gram在线服务匹配，去除掉不满足三元组框架语法约束的噪声；该种方法不依赖于任何外部资源，利用自身的数据集，达到更好的事件抽取效果。

本实施例中利用ReVerb工具抽取三元组框架，表示为(ar g_s，verb，ar g₀)，其中，ar g_s表示为框架中的主语，verb表示为框架中的谓语，ar g_o表示为框架中的宾语；将原始文本作为输入，经过ReVerb工具，输出三元组框架；首先从文本中抽取谓语动词，其次，再抽取与谓语动词相关的实体对；最后，针对抽取到的三元组框架进行筛选，将抽取到的三元组框架与Microsoft Web N-gram在线服务匹配，去除掉不满足三元组语法约束的噪声，保留至少包含一个主语ar g_s或宾语ar g_o，不可或缺的成分为谓语verb的三元组框架；在此基础上，对三元组框架进行再次筛选，过滤包含不规范缩写、用户自定义词、表情词或表达不充分的句子的三元组框架；例如，给定用户的文本信息“今天我开始了一段新的旅程，我感受到了开心的苹果”，首先，抽取出谓语动词开始和感受，其次，根据开始与感受匹配对应的实体对——我和旅程以及我和苹果，构成新的三元组a(我，开始，旅程)以及a’(我，感受，苹果)，利用Microsoft Web N-gram在线服务匹配三元组中的内容，可以得出a’是不合理的三元组，得出的三元组为(我，开始，旅程)，将三元组形式看作是框架，实现了对数据的框架抽取。

步骤4：基于三元组框架的事件检测；将多个三元组框架看作是一个事件，三元组框架中的任意子元素(ar g_s和verb，verb和ar g₀，或arg_s和arg₀)集看作是三元组框架的子集，用于表示事件的特征；通过三元组框架的突发值来选择事件的特征，进而确定多个事件簇中心；再对三元组框架进行特征聚类，得到多个事件簇，构成事件簇集合；事件指的是包含时间地点人物行为等描述向量，是对三元组框架的拓展，可以将多个三元组看作是一个事件；

P_s，d～N(N_dp_s，N_dp_s(1-p_s))

本实施例选取文本中短语数量的20％作为事件的特征数量L，，基于短语突发值，通过PageRank方法得到文本中所有短语的排名序列，并从排名序列中前L个具有高突发值的短语作为事件的特征S′＝{s₁，s₂，...，s_m，...，s_L}，并将事件的特征作为特征聚类的多个事件簇中心；

步骤4.2：对三元组框架进行特征聚类，得到多个事件簇；

表示s_a和s_m所在的文本/>

与文本/>

在子时间窗口d_h中的文本相似值；本实施例采用TF-IDF方法计算两短语所在文本的文本相似值；

作为事件特征的短语s_m在子时间窗口d_h中的时序特征权重w(s_m，d_h)如下公式所示：

表示为在时间窗口d中短语s_m所出现的频数；

步骤5：用户关系抽取；根据步骤4所得到的事件簇集合，判断两用户所发布的内容是否在同一事件簇中，若在，则两用户之间存在关系，形成用户对；利用非监督模型对用户之间的关系进行抽取，得到用户关系三元组。

根据得到的用户对，利用非监督模型对用户之间的关系进行抽取，得到用户关系三元组(User1，relation，User2)。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于事件抽取的社交网络用户关系抽取方法，包括以下步骤：

步骤3：对预处理后的文本数据进行三元组框架抽取；

P_s，d～N(N_dp_s，N_dp_s(1-p_s))

选取文本中短语个数的t％作为事件的特征数量L，基于短语突发值，通过PageRank方法得到文本中所有短语的排名序列，并从排名序列中选取前L个具有高突发值的短语作为事件的特征S′＝{s₁，s₂，...，s_m，...，s_L}，并将事件的特征作为特征聚类的多个事件簇中心；

步骤4.2：对三元组框架进行特征聚类，得到多个事件簇；

表示s_a和s_m所在的文本/>

与文本/>

在子时间窗口d_h中的文本相似值；

表示为在时间窗口d中短语s_m所出现的频数；

2.根据权利要求1所述的一种基于事件抽取的社交网络用户关系抽取方法，其特征在于：所述步骤1的具体方法为：

利用己知的用户id，批量爬取用户的社交网络数据，并从社交网络数据中获取用户所发布的文本信息，存储到文本数据库中；同时，针对社交网络中的图片及视频，通过OCR识别工具来获取图片或视频中的文本信息，并存储到文本数据库中。

3.根据权利要求1所述的一种基于事件抽取的社交网络用户关系抽取方法，其特征在于：所述步骤2的具体方法为：

采用语言检测方法去除文本数据中的非中文文本，利用基于文本抽取的单词级归一化词典来对文本中的单词进行归一化，得到规范词以及对应的规范形式；再采用基于统计机器学习的方法建立LSTM+CRF模型对原始文本信息进行训练，再利用训练好的LSTM+CRF模型识别出文本中的实体。

4.根据权利要求1所述的一种基于事件抽取的社交网络用户关系抽取方法，其特征在于：

利用三元组抽取工具抽取文本数据中的三元组框架；首先从文本中抽取谓语动词，其次，再抽取与谓语动词相关的包含主语和宾语的实体对；最后，针对抽取到的三元组框架进行筛选，将抽取到的三元组框架与Microsoft Web N-gram在线服务匹配，去除掉不满足三元组框架语法约束的噪声。

5.根据权利要求2到4任一项所述的一种基于事件抽取的社交网络用户关系抽取方法，其特征在于：所述步骤5的具体方法为：

根据得到的用户对，利用非监督模型对用户之间的关系进行抽取，得到用户关系三元组(User1,relation,User2)。