CN114840677B

CN114840677B - 面向多粒度需求的短文本分类与智能分析方法

Info

Publication number: CN114840677B
Application number: CN202210777724.1A
Authority: CN
Inventors: 阎星娥; 杨昆; 张�林; 刘慰慰; 严荣明; 袁勇斌; 薛世峰
Original assignee: Nanjing Huafei Data Technology Co ltd
Current assignee: Nanjing Huafei Data Technology Co ltd
Priority date: 2022-07-04
Filing date: 2022-07-04
Publication date: 2022-10-11
Anticipated expiration: 2042-07-04
Also published as: CN114840677A

Abstract

本发明面向多粒度需求的短文本分类与智能分析方法属于短信文本分类领域，涉及数据预处理、数据增强、短文本分类和人物关系抽取技术，尤其涉及基于知识图谱的细粒度短文本分类技术。包括S1、采用整合、清洗、统计、标注、替换及归一化的方式进行数据预处理；S2、通过近义词库、文本相似度计算以及词嵌入的技术进行数据增强，扩充标记数据；S3、使用预训练的Bert模型对增强过的数据进行粗粒度的文本分类；S4、采用知识补充的方法，融合文本自身信息和外部引入知识信息，实现细粒度短文本分类；S5、运用命名实体识别技术和关系抽取技术完成人物关系抽取；S6、生成多粒度的文本分类标签，并对分类文本进行智能分析。

Description

面向多粒度需求的短文本分类与智能分析方法

技术领域

本发明面向多粒度需求的短文本分类与智能分析方法属于短信文本分类领域，涉及数据预处理、数据增强、短文本分类和人物关系抽取技术，尤其涉及基于知识图谱的细粒度短文本分类技术。

背景技术

目前短信文本多粒度分类中存在效率低、不规范等难题，难以实现短信文本智能分析。短信文本多粒度分类与智能分析主要过程包括短信数据预处理与增强、短信文本多粒度分类和短信内容智能分析。短信数据预处理与增强涉及数据预处理技术和数据增强技术，数据预处理技术是针对短信类文本的数据处理，流程一般包括数据整合、清洗、统计、标注、替换、归一化等若干步骤；数据增强技术的核心在于改变文本内容的同时保持标签不变，常见的做法有回译（back-translation）、同义词替换（synonym replacement）、随机插入（random insertion）、随机交换（random swap）、随机删除（random deletion）等。短信文本多粒度分类包含粗粒度分类和细粒度分类涉及短文本分类技术，现有的短文本分类方法有特征工程和机器学习两大类方法，文本特征工程分为文本预处理、特征提取、文本表示三个部分，目的是把文本转换成计算机可理解的格式，并封装足够用于分类的信息，其中最重要的是文本表示，传统做法有词袋模型（Bag-of-Words model，BOW）、向量空间模型（VectorSpace Model，VSM）；机器学习类方法包含传统机器学习类方法和深度学习类方法，如朴素贝叶斯（Naive Bayes）、随机森林（Random Forest）等传统机器学习类方法的问题仍然是需要人工地进行特征工程，具有成本高、特征表达能力弱的问题，当前的深度学习方法解决短文本分类问题的核心是解决文本表示问题，再利用卷积神经网络（Convolutional NeuralNetwork, CNN）、循环神经网络（Rerrent Neural Network, RNN）等网络结构自动获取特征表达能力，去掉繁杂的人工特征工程，端到端的解决问题。短信内容智能分析涉及人物关系抽取技术，人物关系抽取是实体关系抽取(ERE)的一种情况，它分为命名实体识别和关系抽取两个过程，用于判断非结构化语言文本中两个实体之间潜在的语义关系，目前实体关系抽取主要研究方法有基于模式匹配的实体关系抽取、基于字典驱动的实体关系抽取、基于机器学习的实体关系抽取等。

短文本相较于普通文本，文本长度更短，信息含量更少，难以抽取有效的特征词，具有稀疏性、海量性和不规范性的问题，现有的短文本分类技术面临着语义信息无法提出、文本表示不够准确、海量文本数据处理效率低等问题。此外面向短文本多粒度分类的任务，目前没有有效的解决技术方案，所以有必要设计出一种新的方案来满足实际的使用需求。

发明内容

本发明的目的是针对上述不足之处开发了一种面向多粒度需求的短文本分类与智能分析方法，融合多项人工智能领域技术，得到一种系统的方案，解决了目前短信文本分类与分析任务中存在的难题。

本发明的主要过程包括短信数据预处理与增强、短信文本多粒度分类和短信内容智能分析。

首先采用数据预处理技术对数据初步清洗，并基于少量标注样本使用无监督学习标注大量无标签语料的方法实现数据增强；在实现短信文本多粒度分类方面，采用预训练文本分类模型-BERT模型实现文本的粗粒度分类，融合知识图谱技术对文本粗粒度分类进一步细分，从而完成短信文本多粒度分类；利用获得的已分类短信文本进行智能分析，发明了基于优先级的称谓字典结合正则匹配技术实现对短信聊天文本人物关系抽取，同时基于pyecharts绘制轨迹图实现数据可视化与智能分析。综合上述多项技术与方法，从而解决目前短信文本多粒度分类中效率低、不规范等难题，以实现短信文本智能分析。

本发明采取以下技术方案实现的：

S1、采用整合、清洗、统计、标注、替换及归一化的方式进行数据预处理；

S2、通过近义词库、文本相似度计算以及词嵌入的技术进行数据增强，扩充标记数据；

S3、使用预训练的Bert模型对增强过的数据进行粗粒度的文本分类；

S4、采用知识补充的方法，融合文本自身信息和外部引入知识信息，实现细粒度短文本分类；

S5、运用命名实体识别技术和关系抽取技术完成人物关系抽取；

S6、生成多粒度的文本分类标签，并对分类文本进行智能分析。

步骤S1的具体清洗过程，包括如下步骤：

S1-1、识别短信发送方及短信接受方的加密后的手机号标识字段，并根据其编号的唯一对应性重新编码用户；

S1-2、按照从先到后的短信接收时间排序，之后删除时间标签；

S1-3、使用正则匹配的方式清洗乱码字符、无意义表情符、无意义测试英文字母数字串，去除因字数限制切分等原因导致的过短或无实意的不完整短信；

步骤S2的具体数据增强过程，包括如下步骤：

S2-1、为每个分类类别标注3-5个代表词，代表词包括已有的分类名，并将其作为关键词加入词库；

S2-2、利用维基百科的近义词词库，将S2-1中的代表词所对应的同义词、近义词作为关键词加入词库；

S2-3、利用S2-2中的词库，找到每个类别代表性的文档，代表性的文档指含有该类别关键词的文档，将文档中与所含关键词文本相似度较高的词加入类别词库；

S2-4、利用词嵌入（Word Embedding）的方式，筛选掉词库类别中一些相似度较低的词，完成词库的构建。

步骤S3具体的粗粒度的短信文本分类技术，包括如下步骤：

S3-1、使用BERT模型加载开源的预训练中文语料模型；

S3-2、划分并加载数据集，使用BERT自带的分词器对文本进行分词处理，计算并生成词向量；

S3-3、训练模型，并按照反馈调整batch size、学习率等超参以修正模型；

S3-4、保存并使用训练好的模型对短信文本进行粗粒度的文本分类。

步骤S4的具体基于知识图谱的细粒度短文本分类技术，包括如下步骤：

S4-1、通过分词及去停用词的步骤完成短文本的文本预处理；

S4-2、利用TextRank方法提取步骤S4-1得到的短文本中的关键词；

S4-3、通过开源中文知识图谱，获取S4-2步骤中提取出的关键词的百科简介作为原短文本的知识补充；

S4-4、利用TextRank方法提取知识补充后的文本中的关键词；

S4-5、使用开源中文知识图谱获取S4-4步骤中提取的关键词的Tag，并将其作为短文本细分类的结果。

步骤S4-1的具体预处理操作，包括如下步骤：

S4-1-1、使用jieba对原短文本分词；

S4-1-2、使用正则匹配筛除无意义的字母和数字。

步骤S4-3的具体操作，包括如下步骤：

S4-3-1、遍历每条文本的关键词列表，获取其中的关键词；

S4-3-2、通过开源知识图谱的API和对应关键词生成访问URL；

S4-3-3、利用urllib.parse.quote访问URL，获取关键词对应实体的知识数据，提取出其中的百科知识文本；

S4-3-4、对获取到的百科知识文本按照步骤S4-1进行文本清洗；

S4-3-5、将清洗后得到的百科知识文本拼接在原短文本后形成知识补充的文本。

步骤S4-5的具体操作，包括如下步骤：

S4-5-1、遍历每条文本的关键词列表，获取其中的关键词；

S4-5-2、通过开源知识图谱的API和对应关键词生成访问URL；

S4-5-3、利用urllib.parse.quote访问URL，获取关键词对应实体的Tag条目，每个文本的Tag最多保留3条；

S4-5-4、返回全部文本的对应的Tag列表，并将其作为细粒度短文本分类结果。

步骤S5的聊天类短文本人物关系抽取基于优先级词典的正则关键词匹配技术的具体操作，包括如下步骤：

S5-1、采集大量自然语言（Natural Language）文本中称谓词数据；

S5-2、整理步骤S5-1获取的称谓词数据，构建基于优先级的称谓词典，其中整理任务包括归类、分层、划分优先级；

S5-3、对目标文本进行数据预处理，分别进行文本筛选、分词和去停用词的处理；其中文本筛选去除无意义人物对话文本，分词、去停用词清洗文本冗余字词；

S5-4、基于正则匹配识别目标文本中的称谓，根据基于优先级的称谓词典进一步确定目标文本中人物实体关系；

S5-5、利用步骤S5-4得到的数据构建目标文本中人物关系网络；

步骤S5-2的具体构建基于优先级的称谓词典过程，包括如下步骤：

S5-2-1、将采集到的称谓词数据进行归类，按照不同的称谓词所属的人物关系；

S5-2-2、将不同类型人物关系按照亲疏程度划分层次，并赋予不同优先级，关系越密切优先级越高；

S5-2-3、利用步骤S5-2-2处理的数据，归纳整理构建基于优先级的称谓词典；

步骤S5-4的人物关系抽取具体过程，包括如下步骤：

S5-4-1、称谓识别，设计精确的正则表达式匹配目标文本中存在潜在关系的称谓，表达式中匹配的目标字符来源于称谓词典；

S5-4-2、基于优先级称谓词典根据识别出的称谓，按照称谓所属的关系类型，确定目标人物关系；

S5-4-3、当文本中包含多个称谓，一对人物存在多重关系时，根据优先级，确定优先级最高的关系为该对人物实体最终关系。

步骤S6的旅游类短文本内容智能分析基于Pyecharts的出行轨迹图绘制技术的具体操作，包括如下步骤：

S6-1、利用上述步骤中短文本分类技术获取包含旅游出行订票信息的文本；

S6-2、文本预处理，去除没有价值的冗余数据；

S6-3、构建国内主要城市列表，用于匹配文本中的旅游出发地及目的地的关键信息；

S6-4、游客出行数据可视化，利用步骤S6-3提取的数据基于Pyecharts绘制文本中人物旅游出行轨迹图；

S6-5、根据人物出行轨迹图，进行数据挖掘，分析人物出行规律。

步骤S6-4的具体数据可视化过程，包括如下步骤：

S6-4-1、将获取的每一条文本中的出行的起点和终点信息以（start,end）二元组形式存储；

S6-4-2、选择合适的背景地图，将目标文本出现的地点分别添加入地图。

S6-4-3、基于Pyecharts利用上述处理的数据绘制游客出行轨迹图。

附图说明

图1是本发明模型的处理流程示意图。

具体实施方式

参照附图1，本实施方式对一种面向多粒度需求的短文本分类与智能分析方法进行如下说明：

1）数据预处理。采用整合、清洗、统计、标注、替换、归一化等方式。

1-1）对短信发送方和短信接收方进行用户id重编码。识别短信发送方及短信接受方的加密后的手机号标识字段，并根据其编号的唯一对应性重新编码用户。

1-2）按照时间顺序对短信数据进行排序。识别提取短信接受时间，按照时间从先到后的顺序统一进行排序，之后删除该字段并写入新文件。

1-3）使用正则匹配的方式进行数据清洗。依靠python和正则表达式，对短信文本内容进行乱码字符、无意义表情符、无意义测试英文字母数字串等内容的清洗，删除因字数限制切分等原因导致的过短或无实意的不完整短信。

2）数据增强。通过近义词库、文本相似度计算以及词嵌入等技术。

2-1）创建扩充标签词库。将原始标签加入创建的词库，并为每个分类类别标注3-5个代表词，将其作为关键词也加入词库。

2-2）为扩充标签词库添加同、近义词。调用维基百科近义词词库的开源api接口，检索词库中所有代表词所对应的同义词、近义词，并将其作为关键词加入词库。

2-3）利用S2-2中的词库，找到每个类别代表性的文档，代表性的文档指含有该类别关键词的文档，计算代表性文档中所有词与所含关键词的余弦相似度，讲计算结果高于0.7的词加入扩充标签词库；

2-4）利用词嵌入（Word Embedding）的方式，筛选掉词库类别中FAC相似度较低的词，完成词库的构建。

其中，相似度的FAC定义为：

（1）

TF(w,c)是词w在类别c中出现的频率，TF_-c(w)是词w在除了类别c以外的类别中出现的频率，var表示取平均。分子右边是表示词w在所有类别出现的平均频率，分母表示词w在除c类别外分布的方差。当FAC(w,c)低于一定阈值时，就将词w从从类别中删除。

3）粗粒度的短信文本分类。使用预训练的Bert模型。

经过对于LDA主题模型、BTM主题模型、基于TF-IDF的关键词匹配以及BERT模型的尝试和对比后，本专利最终采用基于BERT预训练模型的短文本分类模型，其具有强大的语言表征能力和特征提取能力。具体的步骤如下：

3-1）使用BERT模型加载开源的预训练中文语料模型；

3-2）划分并加载数据集，使用BERT自带的分词器对文本进行分词处理，计算并生成词向量；

3-3）训练模型，并按照反馈调整batch size、学习率等超参以修正模型；

3-4）保存并使用训练好的模型对短信文本进行粗粒度的文本分类。

4）采用知识补充的方法，融合文本自身信息和外部引入知识信息，实现细粒度短文本分类；

4-1）短文本的文本预处理。采用分词及去停用词的步骤完成。

4-1-1）使用python包的jieba对原短文本分词，具体地，使用jieba.cut（）接口，其中参数cut_all设置为False；

4-1-2）使用正则匹配筛除无意义的字母和数字。具体地，对于每一个短文本，首先使用puthon中的zhon.hanzi包，导入其中的punctuation，同时导入string包中的string.punctuation，将两者结合得到停用词表punctuation_str。接着，遍历步骤4-1-1）得到的分词列表中的字词，通过判断字词是否在停用词表中来决定是否去除该字词：若字词存在于停用词表中，则去除，否则保留。最后，将清洗过后的字词列表重新合并为一个句子。

4-2）获取短文本中的关键词。利用TextRank方法提取步骤4-1）得到的句子中的关键词。具体地，使用python包jieba中的jieba.analyse.textrank（）接口，其中参数allowPOS=('n', 'vn', 'v')，表示仅提取词性为名词、动名词和动词的关键词，并且仅保留前5个关键词。

4-3）进行短文本的知识补充。通过开源中文知识图谱，获取4-2）步骤中提取出的关键词的百科简介作为原短文本的知识补充。

4-3-1）对于步骤4-2）得到的文本关键词列表，遍历每条文本的关键词列表，并访问其中的每一个关键词；

4-3-2）通过将对应关键词的字符串加入到开源知识图谱ownthink的查询API：'https://api.ownthink.com/kg/knowledge/entity='的末尾，生成查询的访问URL；

4-3-3）利用python包中的接口urllib.parse.quote和rllib.request.urlopen访问生成的URL，获取返回的json数据，并提取其中关键词对应实体的知识数据（返回数据中的‘data’属性中的’desc’属性），提取出其中的百科知识文本，加入到此句子的知识扩充文本列表中；

4-3-4）对文本的知识扩充文本列表中的全部知识文本，按照步骤4-1）进行文本清洗；

4-3-5）将清洗后得到的百科知识文本拼接在原短文本后形成最终的知识补充的文本。

4-4）提取知识补充文本中的关键词。利用同步骤4-2）中的TextRank方法，提取每个知识扩充文本中的关键词，并生成关键词列表；

4-5）短文本细分类。

4-5-1）对于步骤4-4）得到的文本关键词列表，遍历每条文本的关键词列表，并访问其中的每一个关键词；

4-5-2）通过将对应关键词的字符串加入到开源知识图谱ownthink的查询API：'https://api.ownthink.com/kg/knowledge/entity='的末尾，生成查询的访问URL；

4-5-3）利用python包中的接口urllib.parse.quote和rllib.request.urlopen访问生成的URL，获取返回的json数据，并提取其中关键词对应实体的tag标记（返回数据中的‘data’属性中的’tag’属性）。按照关键词的顺序依次提取多个tag，并最终保留最多3个tag，形成tag列表；

4-5-4）对全部的知识扩充文本获取对应的tag列表，并返回全部文本的对应的tag列表，并将其作为最终的细粒度短文本分类结果；

5）运用命名实体识别技术和关系抽取技术完成人物关系抽取；

聊天类短文本人物关系抽取。采用基于优先级词典的正则匹配技术。

5-1）称谓词数据收集。从大量的自然语言文本中采集常见的人物称谓词语，如爸爸、妈妈、老公、兄弟、老板等词语。

5-2）整理称谓词语数据，构建基于优先级的称谓词典。

5-2-1）将称谓词语按照所属的人物关系进行归类，形成人物关系-称谓的对应关系。一对人物之间的关系有对应称谓，常见的人物关系包括夫妻、亲子、兄弟姐妹、上下级、师生等，将采集到的称谓词分类，如属于夫妻关系的称谓有老公、老婆、夫人、太太等。

5-2-2）将人物关系分层，并赋予优先级。按照人物关系亲疏程度进行分层，人物关系越密切优先级越高，人物关系优先级划分由高到低依次为夫妻、亲子、非直系亲戚、兄弟姐妹、上下级、朋友等。

5-2-3）整理数据处理结果，构建基于优先级的称谓词典。

5-3）对目标文本进行数据预处理，首先去除数据集中无意义的文本，然后利用jieba分词工具对文本进行分词，再利用停用词表去除停用词，最后获得有分析价值的词语。

5-4）聊天短文本中人物关系抽取。

5-4-1）称谓识别，利用python编写正则表达式”.*称谓词1.*|.*称谓词2.*|……”，其中称谓词来自于构建的称谓词典，调用python中re模块的compile（）和findall（）方法，分别编译正则表达式和匹配符合条件的文本，最终识别目标文本包含的称谓词语。

5-4-2）利用称谓词典中人物关系-称谓的对应关系，根据识别出的称谓词，确定文本中一组对话人物之间的关系。

5-4-3）当一组对话文本匹配得到多种称谓时，利用基于优先级的称谓词典，根据优先级高低，确定该组对话人物的最终关系。

5-5）根据每对聊天对话文本中人物关系抽取信息，梳理目标文本数据集中人物关系之间联系，最终构建目标数据集人物关系网络。

6）生成多粒度的文本分类标签，并对分类文本进行智能分析。

旅游类短文本智能分析。采用基于Pyecharts的出行轨迹图绘制技术。

6-1）含有旅游出行购票信息文本提取，利用本发明研究的BERT模型，标注一部分目标文本，训练模型，进一步预测提取出数据集中所有含有出行购票信息的文本数据。

6-2）文本进一步筛选，将残缺的、无实际意义的文本去除。

6-3）构建国内主要城市列表，将国内包含机场和火车站的主要城市添加到列表中，当目标文本中出现的词语同时也存在于国内主要城市列表中时匹配成功，从而提取出每条文本中出行信息的地点信息。

6-4）基于pyecharts实现出行数据可视化。

6-4-1）将每条起点和终点数据以（start,end）二元组形式存储，如(’长沙’,’北京’），(’合肥’,’海口’）等。

6-4-2）选择地图，添加目标地点。基于python安装pyecharts库，调用Geo（）模块中add_schema（）和add（）方法，add_schema（）方法参数设置maptype='china'选择中国地图，add（）方法中data_pair参数添加在地图中的出现地点，以（坐标点名称，坐标点值）形式。

6-4-3）绘制游客出行轨迹图，调用add（）方法，利用整理好的（start,end）形式的起点和终点数据，在地图中添加由起点指向终点的动态轨迹线段，最终生成轨迹图。

6-5）根据游客出行轨迹图进行数据挖掘，分析游客出行规律，包括出行地点选择习惯、偶尔不规律出行轨迹等。

Claims

1.一种面向多粒度需求的短文本分类与智能分析方法，其特征在于，包括如下步骤：

S6、生成多粒度的文本分类标签，并对分类文本进行智能分析；

S4-1、通过分词及去停用词的步骤完成短文本的文本预处理；

S4-2、利用TextRank方法提取步骤S4-1得到的短文本中的关键词；

S4-4、利用TextRank方法提取知识补充后的文本中的关键词；

S4-5、使用开源中文知识图谱获取S4-4步骤中提取的关键词的Tag，并将其作为短文本细分类的结果；

步骤S4-1的具体处理过程，包括如下步骤：

S4-1-1、使用jieba对原短文本分词；

S4-1-2、使用正则匹配筛除无意义的字母和数字；

步骤S1的具体清洗过程，包括如下步骤：

S1-1、识别手机号标识并重新编码用户；

S1-2、按照短信接收时间排序后删除时间标签；

S1-3、使用正则匹配的方式进行清洗；

步骤S6的基于Pyecharts的出行轨迹图绘制技术智能分析旅游类短信文本方法，包括如下步骤：

S6-2、文本预处理，去除没有价值的冗余数据；

2.根据权利要求1所述的面向多粒度需求的短文本分类与智能分析方法，其特征在于，步骤S2的具体操作，包括如下步骤：

S2-3、利用已有的词库，找到每个类别代表性的文档，代表性的文档指含有该类别关键词的文档，将文档中与所含关键词文本相似度较高的词加入类别词库；

3.根据权利要求1所述的面向多粒度需求的短文本分类与智能分析方法，其特征在于，步骤S4-3的具体知识补充过程，包括如下步骤：

S4-3-1、遍历每条文本的关键词列表，获取其中的关键词；

S4-3-2、通过开源知识图谱的API和对应关键词生成访问URL；

S4-3-4、对获取到的百科知识文本按照步骤S4-1进行文本清洗；

4.根据权利要求1所述的面向多粒度需求的短文本分类与智能分析方法，其特征在于，步骤S4-5的具体处理过程，包括如下步骤：

S4-5-1、遍历每条文本的关键词列表，获取其中的关键词；

S4-5-2、通过开源知识图谱的API和对应关键词生成访问URL；

5.根据权利要求1所述的面向多粒度需求的短文本分类与智能分析方法，其特征在于，步骤S5的基于优先级词典的正则关键词匹配技术抽取短信人物关系方法，包括如下步骤：

S5-5、利用步骤S5-4得到的数据构建目标文本中人物关系网络。

6.根据权利要求5所述的面向多粒度需求的短文本分类与智能分析方法，其特征在于，步骤S5-2的构建基于优先级的称谓词典过程，包括如下步骤：

S5-2-3、利用步骤S5-2-2处理的数据，归纳整理构建基于优先级的称谓词典。

7.根据权利要求5所述的面向多粒度需求的短文本分类与智能分析方法，其特征在于，步骤S5-4的人物关系抽取过程，包括如下步骤：

8.根据权利要求1所述的面向多粒度需求的短文本分类与智能分析方法，其特征在于，步骤S6-4的数据可视化过程，包括如下步骤：

S6-4-2、选择合适的背景地图，将目标文本出现的地点分别添加入地图；