CN116611514B

CN116611514B - 一种基于数据驱动的价值取向评估体系构建方法

Info

Publication number: CN116611514B
Application number: CN202310883308.4A
Authority: CN
Inventors: 张勇东; 毛震东; 陈伟东; 郭俊波; 符凤仪
Original assignee: University of Science and Technology of China USTC; People Co Ltd
Current assignee: University of Science and Technology of China USTC; Konami Sports Club Co Ltd
Priority date: 2023-07-19
Filing date: 2023-07-19
Publication date: 2023-10-10
Anticipated expiration: 2043-07-19
Also published as: CN116611514A

Abstract

本发明涉及人工智能技术领域，公开了一种基于数据驱动的价值取向评估体系构建方法，包括：数据获取；属性获取；标签语义知识体系构建：结合n‑gram属性和文章属性，对各个n‑gram词汇及文章语料建立连接，构建标签语义知识体系；标签语义知识体系包括：n‑gram词汇与文章语料的关联性，以及n‑gram词汇间的关联性；本发明基于社交媒体广泛的数据语料驱动，搭建了一套数据语料的价值取向相关属性的分析处理工具，实现可实时更新的价值取向评估体系的构建，为实现社交媒体价值取向的维护提供基础。

Description

一种基于数据驱动的价值取向评估体系构建方法

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于数据驱动的价值取向评估体系构建方法。

背景技术

随着社会的发展，社交媒体成为用户分享和接收信息的重要来源，其在信息传播方面有着不可忽视的影响力。然而越来越多的自媒体盲目的追求流量，传播价值取向不高的信息。因此，维护社交媒体中的价值取向至关重要，对维持社会生活稳定和网络空间安全都具有重要的意义。而价值取向的计算和判断依赖于价值取向评估体系的构建，才能实现有悖价值取向体系的信息过滤，以及符合价值取向言论的保留与生成。

现有的哲学社科建立知识体系的做法难以做到系统、全面、可持续，是传统意义上的知识的归纳和总结，而基于数据驱动的做法可以得到精准、全面、大规模的构建知识体系。但现有技术在符合价值取向的大规模语料上缺乏基于数据驱动构建的知识体系。因此，一套行之有效的基于数据驱动的价值取向评估体系构建方案是实现社交媒体价值取向维护的基础。

发明内容

为解决上述技术问题，本发明提供一种基于数据驱动的价值取向评估体系构建方法。本发明基于社交媒体广泛的数据语料驱动，搭建了一套数据语料的价值取向相关属性的分析处理工具，实现可实时更新的价值取向评估体系的构建，为实现社交媒体价值取向的维护提供基础。

为解决上述技术问题，本发明采用如下技术方案：

一种基于数据驱动的价值取向评估体系构建方法，包括以下步骤：

步骤一、数据获取：

通过符合价值取向的文章语料构建数据语料，基于点互信息算法计算数据语料中相邻两个词汇的相关性/>：

；

表示词汇x和词汇y接连出现的概率，/>和/>分别表示词汇x出现的概率和词汇y出现的概率，/>表示在词汇y出现的情况下词汇x出现的条件概率，/>表示在词汇x出现的情况下词汇y出现的条件概率，/>分值越大则词汇x与词汇y的相关性越大，以互信息阈值、词频阈值以及长度阈值在数据语料中抽取n-gram词汇，得到n-gram词表；

结合语料语义内容，采用天然分割方式对数据语料中的文章语料进行段落级的划分，得到段落语料；

步骤二、属性获取：

结合n-gram词表对数据语料进行分词得到n-gram分词结果，根据n-gram分词结果获得n-gram词汇的n-gram属性；n-gram属性包括词频、词性、实体类别、来源、向量表示和主流情感；

根据n-gram分词结果得到数据语料的文章属性；文章属性包括文章编号、文章日期、文章聚类标签、文章关键词、文章内容，以及以分级形式嵌入在文章内容中的各段落的段落编号、段落聚类标签、段落关键词、段落内容；其中段落内容为所述段落的段落语料；

步骤三、标签语义知识体系构建：

结合n-gram属性和文章属性，对各n-gram词汇与文章语料建立连接，构建标签语义知识体系；标签语义知识体系包括：n-gram词汇与文章语料的关联性，以及n-gram词汇间的关联性；

其中，n-gram词汇与文章语料的关联性为标签语义知识体系中的上下级语义关联；基于文章语料的n-gram分词结果，能够溯源到包含n-gram词汇的文章语料，从而构建n-gram词汇与文章语料的关联性；

n-gram词汇间的关联性为标签语义知识体系中的同级语义关联；通过n-gram词汇间相似性关系、n-gram词汇的主题归类关系以及n-gram词汇的上下文关系，构造n-gram词汇间的关联性。

进一步地，步骤一中，对文章语料进行段落级划分前，通过停用词、数词量词、日期、地点名词拆解，词性分析，分词后词性分析，命名实体识别低频人名以及人工筛选关键词的方式对初始的n-gram词表进行多轮过滤，以获得最终的n-gram词表。

进一步地，步骤二中，结合n-gram词表对数据语料进行分词时，通过DeepNLP分词工具包以及n-gram词汇的组合替代对数据语料进行分词。

进一步地，步骤二中，根据n-gram分词结果获得n-gram词汇的n-gram属性时：

对于词频，基于数据语料的n-gram分词结果，对各n-gram词汇的词频进行统计；

对于词性，使用DeepNLP中的词性标注工具，通过n-gram分词结果进行词性标注，选取每个n-gram词汇最频繁对应的词性，作为n-gram词汇的词性标注；

对于实体类别，使用DeepNLP中的命名实体识别工具，对n-gram词汇的实体类别进行标注；

对于来源，基于数据语料的n-gram分词结果，溯源各n-gram词汇的语料来源；

对于向量表示：基于方向跳跃图算法对数据语料的n-gram分词结果进行学习，计算n-gram词表的词嵌入特征，作为各n-gram词汇的向量表示；

对于主流情感，使用SKEP情感分析工具，对n-gram词汇进行情感分析与标注。

进一步地，步骤二中，根据n-gram分词结果得到数据语料的文章属性时：

对于文章编号和段落编号，根据文章在数据语料中的位置得到文章编号，根据段落在文章中的位置得到段落编号；

对于文章日期，根据数据语料中文章的发表日期进行标注；

对于文章聚类标签和段落聚类标签，通过n-gram词表的词嵌入特征分别对文章和段落进行聚类，根据得到的聚类标签，分别对文章和段落进行标注；

对于文章关键词和段落关键词，通过n-gram词表的词嵌入特征分别对文章和段落进行聚类，提取距离文章聚类中心和段落聚类中心最接近的N个n-gram词汇，分别作为文章关键词和段落关键词；

对于文章内容和段落内容，文章内容为分级形式的段落，段落内容为对应的段落语料。

进一步地，步骤三中，通过n-gram词汇间相似性关系、n-gram词汇的主题归类关系以及n-gram词汇的上下文关系，构造n-gram词汇间的关联性时，

n-gram词汇间相似性关系构建：基于n-gram词汇的向量表示进行n-gram词汇间的表征语义相似度计算，通过聚类分割，确定同一类别下的n-gram词汇间相似性关系；

n-gram词汇的主题归类关系构建：基于LDA主题分析模型，对n-gram词汇进行主题信息抽取，并对不同的n-gram词汇进行主题归类，确定同一主题下的n-gram词汇的主题归类关系；

n-gram词汇的上下文关系构建：基于数据语料上下文和数据语料的n-gram分词结果，使用DeepNLP命名实体识别工具和DeepNLP关系抽取工具进行处理，获得n-gram词汇的上下文关系。

与现有技术相比，本发明的有益技术效果是：

1.本发明首次聚焦于社交媒体中的价值取向导向，提出了一种基于数据驱动的价值取向评估体系构建方法，填补了以往技术的空缺，基于所获取的价值取向评估体系，本发明技术可以应用于任一社交媒体数据语料的价值取向识别与检测。

2.本发明对多个自然语言处理的工具进行了集成，将一系列复杂的处理流程集成为一套端到端的数据处理方案。该端到端的数据处理方案包含两个方面，一是针对大规模原始数据语料，本发明生成一个包含大规模价值取向核心词汇的n-gram词表，以及一个包含n-gram词汇属性、文章属性，以及n-gram文章关系的标签语义知识体系。二是针对任意一篇新到达的文章语料，可以基于n-gram词表及有关关系生成相应的聚类标签与关键词等信息。本发明中的技术方案对社交媒体语料中价值取向的识别与检测，具有重大意义。

附图说明

图1为本发明价值取向评估体系构建方法的流程图；

图2为本发明标签语义知识体系的示例图；

图3为本发明n-gram分词与简单分词的处理结果对比图。

具体实施方式

下面结合附图对本发明的一种优选实施方式作详细的说明。

术语解释：

（1）词汇：即普通的单个词，例如“多”、“角度”、“观察”；

（2）n-gram词汇：根据一定的判定规则筛选出来的由多个组合频率较高的词汇组成的词汇，如：“多角度观察”；

（3）n-gram词表：由筛选出的所有n-gram词汇构成的词汇列表。

本发明提出一种基于数据驱动的价值取向评估体系构建方法。一套完善的价值取向评估体系主要包含两个方面：（1）包含价值取向属性的n-gram词表；（2）包含价值取向属性的数据语料。

基于以上两个需求，本发明所提出的价值取向评估体系构建方法由以下三个部分组成：（1）数据获取；（2）属性获取；（3）标签语义知识体系构建。总体技术如图1所示，过程如下：

1.数据获取

如图1所示，本发明首先基于原始社交媒体数据语料，进行数据的分割与处理，该过程致力于实现价值取向n-gram词表的获取，以及数据语料的预处理及段落级的切分。

<1>价值取向n-gram词表的获取：

基于符合价值取向的数据语料，比如符合价值取向的新闻报道，本发明期望获取并维护一个可重复使用的涉及经济、发展、生态保护、教育、医疗等多个新闻主题的正向的价值取向n-gram词表。

首先，基于点互信息(Pointwise Mutual Information，PMI)算法计算数据语料中相邻词汇的相关性：

；

分值越大，表征两个词汇x与y相关性越大，同时以互信息阈值、词频阈值以及长度阈值共同调整初始n-gram词汇的抽取，得到涉及上述新闻主题的高频n-gram词汇。

具体的，设置互信息阈值、词频阈值、长度阈值分别为a、b、c，即在满足：，词汇对/>同时出现的频率大于b，且词汇对/>的字符长度小于c时，保留词汇x与词汇y作为新的n-gram词汇，如“多角度”、“观察”共同构成n-gram词汇“多角度观察”。a、b、c可根据需求设置，以满足不同的n-gram词汇提取需求。将所有筛选得到的n-gram词汇进行汇总，获得初始n-gram词表。

进一步地，本发明使用停用词、数词量词、日期、地点名词拆解，词性分析，分词后词性分析，命名实体识别低频人名以及人工筛选关键词等手段对初始n-gram词表多轮过滤，以滤除n-gram词表中无明显意义、语法结构混乱或者语义接近的n-gram词汇，以获得最终的价值取向n-gram词表，包含表意清晰、覆盖多个领域、广泛出现于社交媒体语料中的多个n-gram词汇。

<2>数据语料的段落切分

数据语料的段落切分则致力于实现数据语料的预处理，保留有意义的语料内容，并结合数据语义，进行段落级的划分。首先，对数据语料进行预处理，以滤除无意义的数据内容，比如对于社交媒体中的新闻语料，进行新闻报头报尾，排版编辑内容，记者信息等无意义信息的过滤。然后，本发明结合语料语义内容，对数据语料进行段落级的划分。本发明考虑了获取语料的天然分割方式以及NLP领域中现存的段落分割模型，比较发现，天然分割方式具有更好的段落划分效果。

2.属性获取

在获取了价值取向n-gram词表及段落级数据语料后，本发明进行n-gram词表与段落语料的属性获取。本发明根据价值取向语料本身的特点，拟定了n-gram属性及文章属性两个方向进行获取，从而兼顾局部和全局的信息。具体属性标签如图2右侧所示。

<1>n-gram属性

n-gram词汇的属性依赖于其在上下文文本表征中的含义，因此n-gram属性的获取同样依赖于完整数据语料的处理。本发明首先对数据语料，结合价值取向n-gram词表，进行n-gram分词处理，主要通过自然语言处理（Natural Language Processing，NLP）工具包中的DeepNLP分词工具包以及n-gram词汇的组合替代实现。不使用简单分词工具而使用n-gram分词的原因在于，n-gram分词不仅可以赋予数据语料有效表征价值取向词汇的能力，同时有利于n-gram词表价值取向属性的探索与挖掘，二者是一个相辅相成的过程。图3展示了n-gram分词与简单分词处理的比较案例，充分说明了n-gram分词更有助于价值取向的学习与表征。

基于数据语料的n-gram分词的基础上，本发明进行了进一步的语料处理工作，以获得价值取向n-gram词表的有关属性。图2右侧标识的n-gram属性及相关获取处理如下：

词频：基于完整数据语料的n-gram分词结果，对各n-gram词汇的词频进行统计。

词性：使用DeepNLP中的词性标注（Part-of-Speech tagging，POS）工具，对n-gram分词结果进行词性标注。由于不同的n-gram词汇在不同的上下文中可能表现不同，本发明选取每个n-gram最频繁对应的词性，作为该n-gram词汇的词性标注。

实体类别：使用DeepNLP中的命名实体识别（Named Entity Recognition，NER）工具，对n-gram词汇的实体类别进行识别与标注。

来源：基于完整数据语料的n-gram分词结果，溯源到各个n-gram词汇的语料来源。

向量表示：基于Directional Skip-Gram(DSG，方向跳跃图)算法对数据语料的n-gram分词结果进行学习，计算n-gram词表的词嵌入特征，作为各个n-gram词汇的向量表示。

主流情感：使用SKEP情感分析工具，对n-gram词汇进行情感分析与标注。

<2>文章属性

文章语料的属性由该文章包含的多个段落的属性共同构成，与n-gram属性同理，本发明同样基于数据语料的n-gram分词结果实现。图2右侧标识的文章属性及相关获取处理如下：

编号：根据数据语料中文章的位置和段落的位置进行编号，方便后续处理调用。

日期：根据文章的发表日期标注。

聚类标签：文章与段落的处理相同，下面，文章和段落统称为语料。语料中重要的信息均使用n-gram词汇的形式表示，本发明基于完整n-gram词表的词嵌入特征（DSG特征向量）进行聚类，得到多个类别划分（比如：体育、金融等）。基于所获取的多个聚类标签，对相应语料（文章和段落）的进行标注。

关键词：文章与段落的处理相同，下面，文章和段落统称为语料。对于语料的关键词，本发明对语料中存在的所有n-gram词汇的向量表示（DSG特征向量）进行聚类表示，提取距离聚类中心最接近的N个n-gram词汇作为语料（文章和段落）的关键词。

内容：文章的内容基于段落的形式分级展示，段落的内容即为具体的段落语料。

3.标签语义知识体系构建

结合上述的属性获取，本发明对各个n-gram词汇及文章语料建立连接，以构建一套完整的标签语义知识体系，如图2所示。完整的标签语义知识体系主要包含两个层面，一是n-gram词汇与文章语料的关联性，如图2右侧；二是n-gram词汇与n-gram词汇的关联性，如图2左侧；分别考虑了标签语义知识体系中的上下级语义关系和同级语义关系。

<1>n-gram与文章语料的关联性

基于文章语料的n-gram分词结果，能够很容易溯源到包含n-gram词汇的原始文章语料，从而构建二者的包含关系。n-gram词汇有助于文章语料的价值取向理解，而文章语料同样有助于n-gram词汇的价值取向标注，二者相辅相成，构建了体系中的上下级语义关联。

<2>n-gram与n-gram的关联性

n-gram词汇之间，不存在n-gram与文章语料之间天然的连接关系。因此，本发明通过捕捉不同n-gram的特征相似性与上下文关系抽取，构造n-gram词汇之间的关联性，构建了标签语义知识体系中的同级语义关联。具体包括：

n-gram词汇相似性关系构建：基于n-gram词汇的向量表示，进行表征语义相似度计算，通过细粒度的聚类分割，确定同一类别下的n-gram词汇的相似性关系。

n-gram词汇同主题关系构建：基于LDA主题分析模型，对n-gram词汇进行主题信息抽取，并对不同的n-gram词汇进行主题归类，确定同一主题下的n-gram词汇同主题关系。

n-gram词汇上下文关系构建：基于数据语料上下文以及数据语料的n-gram分词结果，使用DeepNLP工具包中的命名实体识别（Named Entity Recognition，NER）工具及关系抽取（relation extraction，RE）工具进行处理，获得n-gram词汇上下文关系。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立技术方案，说明书的这种叙述方式仅仅是为了清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于数据驱动的价值取向评估体系构建方法，包括以下步骤：

步骤一、数据获取：

；

步骤二、属性获取：

步骤三、标签语义知识体系构建：

n-gram词汇间的关联性为标签语义知识体系中的同级语义关联；通过n-gram词汇间相似性关系、n-gram词汇的主题归类关系以及n-gram词汇的上下文关系，构造n-gram词汇间的关联性，具体包括：

2.根据权利要求1所述的基于数据驱动的价值取向评估体系构建方法，其特征在于，步骤一中，对文章语料进行段落级划分前，通过停用词、数词量词、日期、地点名词拆解，词性分析，分词后词性分析，命名实体识别低频人名以及人工筛选关键词的方式对初始的n-gram词表进行多轮过滤，以获得最终的n-gram词表。

3.根据权利要求1所述的基于数据驱动的价值取向评估体系构建方法，其特征在于：步骤二中，结合n-gram词表对数据语料进行分词时，通过DeepNLP分词工具包以及n-gram词汇的组合替代对数据语料进行分词。

4.根据权利要求1所述的基于数据驱动的价值取向评估体系构建方法，其特征在于：步骤二中，根据n-gram分词结果获得n-gram词汇的n-gram属性时：

5.根据权利要求4所述的基于数据驱动的价值取向评估体系构建方法，其特征在于：步骤二中，根据n-gram分词结果得到数据语料的文章属性时：

对于文章日期，根据数据语料中文章的发表日期进行标注；