CN110767211A

CN110767211A - 一种基于文本内容数据清洗的语音合成播报系统

Info

Publication number: CN110767211A
Application number: CN201910901689.8A
Authority: CN
Inventors: 李蜜; 丁超; 胡晓伟
Original assignee: Zhejiang From Thai Network Technology Co Ltd
Current assignee: Zhejiang From Thai Network Technology Co Ltd
Priority date: 2019-09-23
Filing date: 2019-09-23
Publication date: 2020-02-07
Anticipated expiration: 2039-09-23
Also published as: CN110767211B

Abstract

本发明公开一种基于文本内容数据清洗的语音合成播报系统，所述的播报系统包括：信息存储模块、信息归类模块、关键词组提取模块、权重设置模块、敏感信息过滤模块、广告软文过滤模块；进入服务端的文本数据清洗的过程是依次进行关键词组提取、权重设置、敏感信息过滤、广告软文过滤、重复文本过滤，最后将经过过滤清洗完毕的文本存储到服务器中，调用音频合成接口，将清洗完毕的文本转换为音频文件，存储在音频服务器中，当客户端发起请求时，发送该音频到客户端。

Description

一种基于文本内容数据清洗的语音合成播报系统

技术领域

本发明涉及语音合成播报系统，具体指一种基于文本内容数据清洗的语音合成播报系统。

背景技术

随着语音合成技术的不断进步，已经出现了一些语音合成播报系统，目前现有的一些语音合成播报系统是将获取到的文本信息不做任何清洗处理直接转化为音频进行播报，未清洗的文本内容中包含了大量的广告信息、无效信息、重复信息、敏感信息，最后合成出来的音频听感效果比较差，无法很好的达到传递有效信息的用途。

发明内容

本发明目的在于提供一种基于文本内容数据清洗的语音合成播报系统，可以去除文本内容中的广告信息、重复信息、敏感信息，可以让文本信息通过音频方式得到更加有效的传递。

本发明涉及两种类型的文本信息，文本类型在进入数据库时已归类完毕，包括头条快讯类文本和短篇文章类文本，其中，头条快讯类文本：该类文本主要由多个独立的段落构成，主要针对每个段落单独进行清洗，经过分段处理的头条快讯类文本，每个段落都视为一篇独立的文本进行清洗；短篇文章类文本：该类文本主要由一篇具有完整含义或故事的内容构成，需要针对整篇文章进行清洗。

本发明的技术方案如下：

一种基于文本内容数据清洗的语音合成播报系统，所述的播报系统包括：

信息存储模块：用于存储通用信息词库、广告信息词库、敏感信息词库、热门信息词库以帮助系统辨别信息内容；

信息归类模块，用于将录入数据库的文本归类为头条快讯类文本和短篇文章类文本；

关键词组提取模块，从服务端接收到的文本中对标题和正文进行分词提取关键词组；

权重设置模块，对提取出的关键词组进行权重设置；

敏感信息过滤模块，分别过滤标题和正文中包含敏感信息的文本；

广告软文过滤模块，分别过滤标题和正文中包含广告软文信息的文本；

文本信息去重模块，分别过滤标题和正文中判定重复的文本；

进入服务端的文本数据清洗的过程是依次进行关键词组提取、权重设置、敏感信息过滤、广告软文过滤、重复文本过滤，最后将经过过滤清洗完毕的文本存储到服务器中，调用音频合成接口，将清洗完毕的文本转换为音频文件，存储在音频服务器中，当客户端发起请求时，发送该音频到客户端。

所述的热门信息词库来自互联网平台，如百度、新浪微博、腾讯、搜狐等并实时更新；而所述的通用信息词库、广告信息词库、敏感信息词库在进行系统开发时由人工添加，随着对越来越多的文本内容被清洗，信息词库不断得到充实，再经过时间的推移，人工的介入逐渐减少。其中通用信息词库主要包含常见形容词、助词、人称代词、动词等。

所述关键词组提取模块，首先需要对服务端接收到的文本信息做分词处理，处理好的分词对比通用信息词库和热门信息词库，再提取此文本的关键词组。

所述关键词组进行权重设置时需要判断关键词权重的维度，关键词权重的维度判断如下：根据关键词的词汇类型，文本中出现的次数，在热门信息词库中是否出现以及出现后的序列位置，关键词的权重越高对于文本内容是否过滤的参考价值越大，权重由高到低分为1-3级。

所述的敏感信息过滤中，将敏感词汇分为1-3级敏感度，1级敏感词组属于最高等级必须过滤的范畴，其中，

整篇敏感文本过滤包含：（1）任何权重的关键词组出现1级敏感词汇；（2）1级权重的关键词组出现任何敏感词汇；

部分段落涉及敏感词汇的过滤包含：（1）2级权重的关键词组出现非1级的敏感词汇；（2）3级权重的关键词组出现非1级的敏感词汇。

所述广告软文过滤中，通过提取的关键词组对比广告信息词库，做如下处理：

整篇广告软文文本过滤包含：（1）1级权重的关键词组出现广告词汇；（2）2级权重的关键词组50%以上出现广告词汇；

部分段落涉及广告软文的过滤包含：3级权重的关键词组出现广告词汇删除当前关键词所在的段落。

所述的重复文本过滤中做如下处理：

（1）当前文本的各级权重的关键词组与现有的某篇文本对应的各级权重关键词组完全重复或重复度50%以上，需要过滤掉当前整篇文本；

（2）当前文本的各级权重的关键词组与现有的某篇文本对应的各级权重关键词组重复度低于50%，当它们属于同类型的文本时，需要过滤掉整篇文本；当它们属于不同类型的文本时，不需要进行过滤。文本信息去重处理的必要性是：当发生了某件热门事件时，可能获取到的文章大部分都在讲同一件事情，如果重复地为用户提供这样的内容，会导致体验过差，另一个原因则是这篇文本内容本身是转载自其他的平台，可能会导致出现两篇一样的文本信息。

本发明的有益效果在于：

1.本发明所述的播报系统，由于对进入服务端的文本进行广告信息、重复信息、敏感信息的过滤，避免音频客户端播报广告以及敏感信息，同时避免重复播报，可以大大提升用户的使用体验。

2. 本发明在关键词组提取-权重设置-敏感信息过滤-广告软文过滤-重复文本过滤这一数据清洗过滤流程中，不仅从标题到正文的文本数据都能得到过滤和清洗，而且头条快讯类文本和短篇文章类文本两种类型的文本数据都能得到过滤清洗，数据清洗全面，从而提高音频服务器播报的质量。

附图说明

图1为本发明所述播报系统结构示意图；

图2为本发明基于文本内容数据清洗的语音合成播报系统的流程。

具体实施方式

下面结合附图对本发明作进一步的说明。

如图1-2所示的基于文本内容数据清洗的语音合成播报系统，信息存储模块：用于存储通用信息词库、广告信息词库、敏感信息词库、热门信息词库以帮助系统辨别信息内容；

权重设置模块，对提取出的关键词组进行权重设置；

所述的重复文本过滤中做如下处理：

本发明所述的基于文本内容数据清洗的语音合成播报系统的流程包括以下步骤：

步骤一，服务端接收到原始文本信息，并将其存储到数据库中；

步骤二，通过标题对文本信息进行初步过滤，主要针对标题含有敏感信息和整篇文本均为广告软件的情况：

（1）对文本信息的标题做分词处理，提取标题关键词组并计算权重；

（2）将提取后的关键词组对比敏感信息词库，判断标题中是否包含敏感词汇，如果包含则过滤掉该文本；

（3）将提取后的关键词组对比广告软文词库，初步过滤掉广告软文；

步骤三，判断文本信息是头条快讯类文本还是短篇文章类文本；

（1）头条快讯类文章去重处理：通过正则表达式将文本分段，对每段文本进行分词提取关键词组并计算权重，将关键词组与已存在的头条快讯类文本对比进行去重；

（2）短篇文章类文本去重处理：首先判断标题是否重复，标题重复则过滤掉整篇文章，若标题未重复则提取文本信息的正文进行分词处理，然后提取关键词组，对比已存在的短篇文章类文本进行去重处理；

步骤四，过滤正文中的广告内容，正文已提取的关键词组对比广告软文词库，判断正文中是否有广告内容：如果整篇文章都为广告软文，则过滤掉整篇文章，如果是某些段落包含广告软文，则过滤掉文章中的这些段落；

步骤五，过滤正文中的敏感信息，正文已提取的关键词组对比敏感词库，判断正文中是否存在敏感信息，如果有则按照规则过滤整篇文章或某些段落；

步骤六，将清洗完毕的文本存储到服务器中，调用音频合成接口，将清洗完毕的文本转换为音频文件，存储在音频服务器中，当客户端发起请求时，发送该音频到客户端。

本发明所涉及的文本内容数据清洗是一种自我学习的系统，最早期需要人工添加各种基础信息词库：通用信息词库、广告信息词库、敏感信息词库帮助系统辨别信息内容，随着对越来越多的文本内容进行清洗，它会不断的充实这些词库，再经过一段时间的推移，人工的介入逐渐减少，它对于文本信息的判断会越来越准确。

本发明在关键词组提取-权重设置-敏感信息过滤-广告软文过滤-重复文本过滤这一数据清洗过滤流程中，不仅从标题到正文的文本数据都能得到过滤和清洗，而且头条快讯类文本和短篇文章类文本两种类型的文本数据都能得到过滤清洗，数据清洗全面，从而提高音频服务器播报的质量。

应理解，上述实施案例是提供给本领域的普通技术人员来实现或使用本发明的，本领域的普通技术人员可在不脱离本发明的思想情况下，对上述实施案例做出种种修改或变化，因而本发明的保护范围并不被上述实施所限，而应该是符合权利要求书提到的创新型特征的最大范围。

Claims

1.一种基于文本内容数据清洗的语音合成播报系统，其特征在于，所述的播报系统包括：

权重设置模块，对提取出的关键词组进行权重设置；

2.如权利要求1所述的基于文本内容数据清洗的语音合成播报系统，其特征在于：所述的热门信息词库来自互联网平台，而所述的通用信息词库、广告信息词库、敏感信息词库在进行系统开发时由人工添加，随着对越来越多的文本内容被清洗，信息词库不断得到充实，再经过时间的推移，人工的介入逐渐减少。

3.如权利要求1所述的基于文本内容数据清洗的语音合成播报系统，其特征在于：所述关键词组提取模块，首先需要对服务端接收到的文本信息做分词处理，处理好的分词对比通用信息词库和热门信息词库，再提取此文本的关键词组。

4.如权利要求1所述的基于文本内容数据清洗的语音合成播报系统，其特征在于：所述关键词组进行权重设置时需要判断关键词权重的维度，关键词权重的维度判断如下：根据关键词的词汇类型，文本中出现的次数，在热门信息词库中是否出现以及出现后的序列位置，关键词的权重越高对于文本内容是否过滤的参考价值越大，权重由高到低分为1-3级。

5.如权利要求4所述的基于文本内容数据清洗的语音合成播报系统，其特征在于：所述的敏感信息过滤中，将敏感词汇分为1-3级敏感度，1级敏感词组属于最高等级必须过滤的范畴，其中，

6.如权利要求4所述的基于文本内容数据清洗的语音合成播报系统，其特征在于：所述广告软文过滤中，通过提取的关键词组对比广告信息词库，做如下处理：

7.如权利要求4所述的基于文本内容数据清洗的语音合成播报系统，其特征在于：所述的重复文本过滤做如下处理：

（2）当前文本的各级权重的关键词组与现有的某篇文本对应的各级权重关键词组重复度低于50%，当它们属于同类型的文本时，需要过滤掉整篇文本；当它们属于不同类型的文本时，不需要进行过滤。