CN116108851A

CN116108851A - 基于ner的群体性诉求识别方法和系统

Info

Publication number: CN116108851A
Application number: CN202310231644.0A
Authority: CN
Inventors: 程伯瑄; 钱双; 张德健; 齐和庆
Original assignee: Beijing Guoyan Datang Software Technology Co ltd
Current assignee: Beijing Guoyan Datang Software Technology Co ltd
Priority date: 2023-03-13
Filing date: 2023-03-13
Publication date: 2023-05-12
Anticipated expiration: 2043-03-13
Also published as: CN116108851B

Abstract

本发明公开了一种基于NER技术的群体性诉求识别方法和系统，包括基于深度学习算法和特征工程进行的特征要素信息识别功能，可识别特征要素包括但不限于诉求中的人、地、物、组织以及诉求自身描述性特征数据；基于相似度比较算法的实体比对功能，可量化实体内容的相似程度；基于阈值的人工干预机制，可灵活控制群体性诉求分组与相似性诉求分组的范围边界；本发明的优点在于：能够通过技术手段，较好的实现对于潜在群体性诉求的识别功能，降低人力成本，提高生产效率。

Description

基于NER的群体性诉求识别方法和系统

技术领域

本发明涉及一种群体性诉求识别方法和系统，具体地说是一种基于NER的群体性诉求识别方法和系统，属于智慧城市、智能政务、城市管理领域。

背景技术

NER是指命名实体识别（Named Entity Recognition），它是自然语言处理领域中的一项基本任务。NER的目标是从文本中自动识别出具有特定意义的实体，如人名、地名、组织机构、时间、日期等等。NER技术在信息提取、问答系统、文本分类、信息检索等应用中发挥着重要作用。例如，在文本分类中，NER可以帮助分类器识别文本中提到的实体，从而更好地理解文本的主题。在问答系统中，NER可以帮助系统识别用户提到的实体，并根据这些实体提供相关的答案。在信息检索中，NER可以帮助搜索引擎更好地理解用户的查询意图，从而提供更准确的搜索结果。

在城市管理领域，市民热线是城市管理手段之一，是政府为市民提供的一种快捷、方便的沟通渠道。市民可以通过市民热线对城市管理相关的诉求和意见表达出来，政府则可以通过市民热线了解城市管理中存在的问题，不断完善城市管理服务。因此，市民热线与城市管理是密不可分的。

群体性诉求又是市民热线中群众诉求普遍性、广泛性的集中体现，最能够代表当前正存在的社会性问题。正因如此，对于群体性诉求的处理应当讲求时效性，避免问题进一步加重。

由于群体性诉求涉及面较广，通常涵盖了公共服务、社会治安、环境卫生、交通等方面的诉求。这些诉求可能是来自社区、居民区、工作单位等不同人群的关于公共资源、公共服务设施等方面的诉求，因此仅凭借坐席员根据工作经验进行手动标识和识别会存在耗时长、效率低、不精确等问题，亟待解决。

发明内容

本发明的目的在于，提供了一种基于NER的群体性诉求识别方法和系统，解决了目前群体性诉求识别方式效率低、精度差、耗时长等问题。

本发明的技术方案为：

基于NER的群体性诉求识别方法，包括以下步骤：

步骤S100：获取待识别文本内容和附属特征数据；用于对接业务系统的输入数据，获取输入数据，对数据进行预处理，排除无效数据，并提取特征数据。通过此步骤可以将原始数据转变为有效特征数据。

步骤S200：对待识别文本内容按通用维度进行实体识别；用于提取输入数据中的命名实体，通过命名实体识别模型对输入内容中存在的和识别群体性案件相关性较高的实体进行抽取。通过此步骤可以得到一批高相关性的实体值。

步骤S300：比较实体和特征的相似度，按特定阈值确定群体性诉求分组。用于分组群体性诉求，通过对输入内容中的特征数据和实体值进行相似度比较，确定群体性诉求分组。通过此步骤可以实现在众多诉求中识别出群体性诉求功能。

所述步骤S100包括以下子步骤：

（1）对接业务系统，获取文本数据。获取的数据是当前批次待比较的数据，以数组形式呈现。通过对当前批次数据进行文本预处理操作，去除重复数据和无意义符号数据。当前批次可选近3天、近7天等时间维度，由于群体性诉求的特点在于短时间内高频出现的高度相似的诉求，因此只需要重点关注近期时间范围内，而不需要过多追踪历史数据；

（2）获取文本数据附属特征数据。文本数据的附属特征数据通常和数据本身成对出现，通过文本数据的描述性信息中获取附属特征数据，并组装文本数据和其附属特征数据。

所述步骤S200包括以下子步骤：

（1）利用深度学习网络构建命名实体识别模型

首先收集历史文本数据，对数据进行预处理，包括分词，去除停用词等操作，以使数据更加简洁易懂；

利用标注工具对文本数据中的相关实体进行标注，标注形式选择BIOES序列标注法，其中B即Begin，用于表示一个实体的开始标识；I即Inside，用于表示一个实体的中间标识；O即Outside，用于表示非实体数据部分；E即End，用于表示一个实体的结束标识；S即Single，用于表示当前词自身即构成一个完整实体；

使用LSTM深度学习网络结合标注数据构建命名实体模型，LSTM即Long Short-Term Memory循环神经网络，由于其能够保存长期记忆，所以比较适合处理较长的序列问题以及存在前后依赖关系的序列问题；

（2）通过命名实时识别模型对文本中的实体进行识别，实体类型需要选择和识别群体性案件相关性较高的实体，如地址实体、被诉实体等。

所述步骤S300包括以下子步骤：

（1）按各维度分别设定群体性诉求相似度阈值下限和相似诉求相似度阈值下限。相似诉求在概念上其相似性是低于群体性诉求的，在设置阈值时，应保证相似性诉求的阈值低于群体性诉求的阈值。阈值设置需要按维度逐一设置，如被诉实体维度、地址实体维度、其他特征维度等需要分别设置，彼此互不影响；

（2）通过相似度比较算法对每个维度数据进行比较。相似度比较算法使用余弦相似度算法进行比较。余弦相似度算法是一种度量两个向量相似度的计算方法，通过计算两个向量的夹角余弦值来评估它们的相似度。具体来说，余弦相似度算法首先计算两个向量的点积，然后除以它们的模长的乘积。点积是两个向量的元素相乘的和，而模长则是向量的欧几里得长度。余弦相似度的值介于 -1 和 1 之间，其中 -1 表示完全不相似，1 表示完全相同，结果越接近1则说明待比较维度数据越相似。因此使用该相似度比较算法，首先需要将待比较数据转变为向量表示形式。使用TF-IDF方式，通过计算单词在文本中的词频（TF）和文档频率（IDF），进而将单词转变为向量表示形式。然后再进行向量间的相似度比较；

（3）通过相似度比较算法对每个维度数据进行比较，结果阈值均高于群体性诉求相似度阈值下限的情况下，属于群体性诉求，被划分为某一群体性诉求分组内；

（4）通过相似度比较算法对每个维度数据进行比较，结果阈值均高于相似诉求相似度阈值下限，并且低于群体性诉求相似度阈值下限的情况下，属于相似性诉求，被划分为某一相似性诉求分组内。

用于上述基于NER的群体性诉求识别方法的识别系统，包括数据获取模块、实体识别模块、数据预处理模块、阈值配置模块、相似度比较模块和输出模块；

所述数据获取模块，用于对接业务系统获取待识别的文本内容和特征信息；

所述实体识别模块，用于对文本内容中涉及的特定实体信息作出识别；

所述数据预处理模块，用于对实体信息和特征信息进行预处理，得到符合要求的待比较数据对；

所述阈值配置模块，用于对比较结果相似度阈值进行配置，根据阈值识别文本所属群体性诉求或相似性诉求；

所述相似度比较模块，用于比较相同特征维度的数据的相似程度；

所述输出模块，用于对文本数据的分组结果进行输出。

所述数据获取模块为程序入口模块，对接外部系统的输入数据，被实体识别模块和数据预处理模块所依赖；所述实体识别模块和所述数据预处理模块，用于对输入数据进行数据预处理、实体识别和特征提取等，被所述阈值配置模块和所述相似度比较模块所依赖；所述相似度比较模块和所述阈值配置模块用于具体比较诉求的相似度，并根据预先配置的相似度阈值划定群体性诉求分组，被所述输出模块所依赖；所述输出模块是程序的出口模块，用于将最终分组结果返回输出。

本发明能够实现对于潜在群体性诉求的智能化识别效果。通过深度学习算法和特征工程进行特征要素信息识别，可识别特征要素包括但不限于诉求中的人、地、物、组织以及诉求自身描述性特征数据，结合相似度比较算法，再加上人工对相似度分组阈值的直接干预机制，能够较好的实现对于潜在群体性诉求的识别功能。

本发明的优点在于：通过技术手段，实现了对于群体性诉求的自动化识别；能够自动处理数据，降低人力成本，提高生产效率；能够保证准确性，避免人工原因产生的识别错误等问题。

下面结合附图和实施例对本发明作进一步说明。

附图说明

图1为本发明实施例群体性诉求识别方法的流程图。

实施方式

以下对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例

如图1所示，一种群体性诉求的计算方法，主要包括如下步骤：

步骤S100：获取待识别文本内容和附属特征数据。

获取文本内容，具体来说是对接业务系统，明确当前批次需要获取的数据，通过对接接口实现数据交互，获取业务系统中的数据，对获得的数据进行预处理，去除不合法数据。同时获取文本数据的描述性特征数据，为后面的特征比对过程提供数据支撑。

在一个实施例中，所述获取待识别文本内容的S100步骤包括以下子步骤：

（1）对接业务系统，获取文本数据。获取的数据是当前批次待比较的数据，以数组形式呈现。通过对当前批次数据进行文本预处理操作，去除重复数据和无意义符号数据。当前批次可选近3天、近7天等时间维度，由于群体性诉求的特点在于短时间内高频出现的高度相似的诉求，因此只需要重点关注近期时间范围内，而不需要过多追踪历史数据。

步骤S200：对待识别文本内容按通用维度进行实体识别。

针对文本内容进行实体识别，具体来说将文本内容作为输入，将命名实体识别模型中内含的若干实体类别作为实体类型，将文本输入模型，得到文本中存在的各类实体值。同时过滤出和群体性诉求识别相关的实体，为后面相似度比较过程提供数据支撑。

所述对待识别文本内容进行实体识别的步S200骤中包括以下子步骤：

（1）利用深度学习网络构建命名实体识别模型。

首先收集历史文本数据，对数据进行预处理，包括分词，去除停用词等操作，以使数据更加简洁易懂。

利用标注工具对文本数据中的相关实体进行标注，标注形式选择BIOES序列标注法，其中B即Begin，用于表示一个实体的开始标识；I即Inside，用于表示一个实体的中间标识；O即Outside，用于表示非实体数据部分；E即End，用于表示一个实体的结束标识；S即Single，用于表示当前词自身即构成一个完整实体。

使用LSTM深度学习网络结合标注数据构建命名实体模型。LSTM即Long Short-Term Memory循环神经网络，由于其能够保存长期记忆，所以比较适合处理较长的序列问题以及存在前后依赖关系的序列问题。

（2）通过命名实时识别模型对文本中的实体进行识别。实体类型需要选择和识别群体性案件相关性较高的实体，如地址实体、被诉实体等。

特殊情况下，需要对实体数据和特征数据进行预处理，具体来说包括去除阈值异常值、替换异常值等，只保留和识别群体性诉求相关度最高的数据并封装成特定对象。

步骤S300：比较实体和特征的相似度，按特定阈值确定群体性诉求分组。

配置阈值阶段，需要按各维度分别设定群体性诉求相似度阈值下限和相似诉求相似度阈值下限，阈值取值范围应在[-1,1]之间，并且应保证相似性诉求的阈值低于群体性诉求的阈值。

相似度比较阶段，待比较的输入项为前面步骤中获得的实体和特征数据。首先使文本数据向量化，将文本数据转变为向量表示，再比较向量之间的相似度，当相似度阈值均高于群体性诉求相似度阈值下限的情况下，属于群体性诉求，被划分为某一群体性诉求分组内；当相似度阈值均高于相似诉求相似度阈值下限，并且低于群体性诉求相似度阈值下限的情况下，属于相似性诉求，被划分为某一相似性诉求分组内。

所述对实体和特征进行相似度比较的S300步骤包括以下子步骤：

（1）按各维度分别设定群体性诉求相似度阈值下限和相似诉求相似度阈值下限。相似诉求在概念上其相似性是低于群体性诉求的，在设置阈值时，应保证相似性诉求的阈值低于群体性诉求的阈值。阈值设置需要按维度逐一设置，如被诉实体维度、地址实体维度、其他特征维度等需要分别设置，彼此互不影响。

（2）通过相似度比较算法对每个维度数据进行比较。相似度比较算法使用余弦相似度算法进行比较。余弦相似度算法是一种度量两个向量相似度的计算方法，通过计算两个向量的夹角余弦值来评估它们的相似度。具体来说，余弦相似度算法首先计算两个向量的点积，然后除以它们的模长的乘积。点积是两个向量的元素相乘的和，而模长则是向量的欧几里得长度。余弦相似度的值介于 -1 和 1 之间，其中 -1 表示完全不相似，1 表示完全相同，结果越接近1则说明待比较维度数据越相似。因此使用该相似度比较算法，首先需要将待比较数据转变为向量表示形式。使用TF-IDF方式，通过计算单词在文本中的词频（TF）和文档频率（IDF），进而将单词转变为向量表示形式。然后再进行向量间的相似度比较。

（3）通过相似度比较算法对每个维度数据进行比较，结果阈值均高于群体性诉求相似度阈值下限的情况下，属于群体性诉求，被划分为某一群体性诉求分组内。

最后对群体性诉求的分组结果进行输出。输出分组结果的组织形式为字典对象，包含相似性诉求key键和群体性诉求key键，值为数组形式，分别表示对于当前待识别批次数据的处理结果。

至此为止，群体性诉求识别的整个流程将执行完成，由业务系统对执行结果进行后续加工使用。

Claims

1.基于NER的群体性诉求识别方法，其特征在于，包括以下步骤：

步骤S100：获取待识别文本内容和附属特征数据；

步骤S200：对待识别文本内容按通用维度进行实体识别；

2.根据权利要求1所述的基于NER的群体性诉求识别方法，其特征在于，所述步骤S100包括以下子步骤：

（1）对接业务系统，获取文本数据

获取的数据是当前批次待比较的数据，以数组形式呈现；通过对当前批次数据进行文本预处理操作，去除重复数据和无意义符号数据；由于群体性诉求的特点在于短时间内高频出现的高度相似的诉求，因此只需要重点关注近期时间范围内，而不需要过多追踪历史数据；

获取文本数据附属特征数据

文本数据的附属特征数据通常和数据本身成对出现，通过文本数据的描述性信息中获取附属特征数据，并组装文本数据和其附属特征数据。

3.根据权利要求1所述的基于NER的群体性诉求识别方法，其特征在于，所述步骤S200包括以下子步骤：

（1）利用深度学习网络构建命名实体识别模型

首先收集历史文本数据，对数据进行预处理，包括分词，去除停用词操作，以使数据更加简洁易懂；

利用标注工具对文本数据中的相关实体进行标注，标注形式选择BIOES序列标注法；

使用LSTM深度学习网络结合标注数据构建命名实体模型，由于其能够保存长期记忆，所以比较适合处理较长的序列问题以及存在前后依赖关系的序列问题；

（2）通过命名实时识别模型对文本中的实体进行识别，实体类型需要选择和识别群体性案件相关性较高的实体。

4.根据权利要求1所述的基于NER的群体性诉求识别方法，其特征在于，所述步骤S300包括以下子步骤：

（1）按各维度分别设定群体性诉求相似度阈值下限和相似诉求相似度阈值下限

相似诉求在概念上其相似性是低于群体性诉求的，在设置阈值时，应保证相似性诉求的阈值低于群体性诉求的阈值；阈值设置需要按维度逐一设置，彼此互不影响；

（2）通过相似度比较算法对每个维度数据进行比较

相似度比较算法使用余弦相似度算法进行比较；余弦相似度算法是一种度量两个向量相似度的计算方法，通过计算两个向量的夹角余弦值来评估它们的相似度；具体来说，余弦相似度算法首先计算两个向量的点积，然后除以它们的模长的乘积；点积是两个向量的元素相乘的和，而模长则是向量的欧几里得长度；余弦相似度的值介于 -1 和 1 之间，其中-1 表示完全不相似，1 表示完全相同，结果越接近1则说明待比较维度数据越相似；因此使用该相似度比较算法，首先需要将待比较数据转变为向量表示形式。使用TF-IDF方式，通过计算单词在文本中的词频TF和文档频率IDF，进而将单词转变为向量表示形式；然后再进行向量间的相似度比较；

5.用于权利要求1-4任意一项所述基于NER的群体性诉求识别方法的识别系统，其特征在于，所述识别系统包括数据获取模块、实体识别模块、数据预处理模块、阈值配置模块、相似度比较模块和输出模块；

所述输出模块，用于对文本数据的分组结果进行输出。

6.根据权利要求5所述的基于NER的群体性诉求识别方法的识别系统，其特征在于：所述数据获取模块为程序入口模块，对接外部系统的输入数据，被实体识别模块和数据预处理模块所依赖；所述实体识别模块和所述数据预处理模块，用于对输入数据进行数据预处理、实体识别和特征提取等，被所述阈值配置模块和所述相似度比较模块所依赖；所述相似度比较模块和所述阈值配置模块用于具体比较诉求的相似度，并根据预先配置的相似度阈值划定群体性诉求分组，被所述输出模块所依赖；所述输出模块是程序的出口模块，用于将最终分组结果返回输出。