CN105335483B - 一种文本敏感词过滤系统和方法 - Google Patents

一种文本敏感词过滤系统和方法 Download PDF

Info

Publication number
CN105335483B
CN105335483B CN201510662461.XA CN201510662461A CN105335483B CN 105335483 B CN105335483 B CN 105335483B CN 201510662461 A CN201510662461 A CN 201510662461A CN 105335483 B CN105335483 B CN 105335483B
Authority
CN
China
Prior art keywords
text
audio data
sensitive word
temporary
data file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510662461.XA
Other languages
English (en)
Other versions
CN105335483A (zh
Inventor
杨晨阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGZHOU CHANGYUN INFORMATION TECHNOLOGY Co Ltd
Original Assignee
GUANGZHOU CHANGYUN INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGZHOU CHANGYUN INFORMATION TECHNOLOGY Co Ltd filed Critical GUANGZHOU CHANGYUN INFORMATION TECHNOLOGY Co Ltd
Priority to CN201510662461.XA priority Critical patent/CN105335483B/zh
Publication of CN105335483A publication Critical patent/CN105335483A/zh
Application granted granted Critical
Publication of CN105335483B publication Critical patent/CN105335483B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

本发明提供了一种文本敏感词过滤系统,其包括:第一转换单元,用于通过文本‑语音转换将敏感词文本库转换成敏感词音频数据库;接收单元,用于接收待发送的文本文件;第二转换单元,用于通过文本‑语音转换将临时文本文件转换成临时音频数据文件并存储;判断单元,用于将所述敏感词音频数据组分别与临时音频数据文件进行比对;过滤单元,用于对临时文本文件进行过滤,并发送至接收终端。本发明还公开了一种文本敏感词过滤方法。本发明在现有敏感词文本库的基础上,将待发送文本文件以及敏感词文本库均通过文本‑语音转换后形成音频数据文件和敏感词音频数据库,然后再进行比对,在很大程度上满足信息过滤的要求,而且计算量小、速度快。

Description

一种文本敏感词过滤系统和方法
技术领域
本发明涉及信息过滤技术领域,具体涉及基于语音的文本敏感词过滤系统和方法。
背景技术
目前先有的文本文件内容主要有四种敏感词过滤技术,即基于因特网内容分级平台(PICS)过滤、敏感词数据库过滤、关键字或词过滤以及智能内容理解过滤。
由于信息传送者一般不会主动给其与发送的文本文件按照PICS标准贴标签,所以基于PICS过滤在实际应用中效果不大;敏感词数据库过滤方式为现有技术中应用作为广泛的方式,其将长期积累的敏感词形成的敏感词数据库(敏感词文本库)对文本内容进行逐个排查,当与敏感词一致时,则对其进行过滤,但是,由于敏感词数据库是共用或为大家所熟知的,因此,信息传送者可以采用修改待发送文本文件的方式进行规避,例如在发送文本文件中带有的敏感词中间增加空格或特殊符号,或者敏感词中部分字、词以拼音替代,这样,敏感词数据库无法对其进行识别和过滤;关键字或词过滤能够实现较快的过滤速度,但是往往不考虑文本内容,漏报、错报率较高,而且关键字词更容易规避;智能内容理解过滤技术发展不成熟,同时其计算量大、速度慢。
发明内容
针对以上不足,本发明的目的之一在于提供一种文本敏感词过滤系统,其在现有敏感词文本库的基础上,将待发送文本文件以及敏感词文本库均通过文本-语音转换后形成音频数据文件和敏感词音频数据库,然后再进行比对,在很大程度上满足信息过滤的要求,而且计算量小、速度快。
为了实现上述目的,本发明通过下列技术方案来实现:
一种文本敏感词过滤系统,其包括:
第一转换单元,用于通过文本-语音转换将敏感词文本库转换成敏感词音频数据库,所述敏感词音频数据库包括若干个敏感词音频数据组;
接收单元,用于通过第一网络接收待发送的文本文件,并存储为临时文本文件;
第二转换单元,用于通过文本-语音转换将临时文本文件转换成临时音频数据文件并存储,所述临时文本文件和临时音频数据文件相关联;
判断单元,用于将所述敏感词音频数据组分别与临时音频数据文件进行比对,获得所述临时音频数据文件中具有的敏感词音频数据组,组成音频过滤集合,并记录这些敏感词音频数据组在临时音频数据文件中的位置;
过滤单元,用于对临时文本文件进行过滤,并通过第二网络将过滤后的临时文本文件发送至接收终端,所述对临时文本文件进行过滤的方法是将临时文本文件中与所述位置相对应的文本内容进行删除。
本发明的另一目的在于提供一种文本敏感词过滤方法,其在现有敏感词文本库的基础上,将待发送文本文件以及敏感词文本库均通过文本-语音转换后形成音频数据文件和敏感词音频数据库,然后再进行比对,在很大程度上满足信息过滤的要求,而且计算量小、速度快。
为了实现上述目的,本发明通过下列技术方案来实现:
一种文本敏感词过滤方法,其包括以下步骤:
步骤1、通过文本-语音转换将敏感词文本库转换成敏感词音频数据库,所述敏感词音频数据库包括若干个敏感词音频数据组;
步骤2、通过第一网络接收待发送的文本文件,并存储为临时文本文件;
步骤3、通过文本-语音转换将临时文本文件转换成临时音频数据文件并存储,所述临时文本文件和临时音频数据文件相关联;
步骤4、将所述敏感词音频数据组分别与临时音频数据文件进行比对,获得所述临时音频数据文件中具有的敏感词音频数据组,组成音频过滤集合,并记录这些敏感词音频数据组在临时音频数据文件中的位置;
步骤5、对临时文本文件进行过滤,并通过第二网络将过滤后的临时文本文件发送至接收终端,所述对临时文本文件进行过滤的方法是将临时文本文件中与所述位置相对应的文本内容进行删除。
与现有技术相比,本发明的有益效果在于:本发明在现有敏感词文本库的基础上,将待发送文本文件以及敏感词文本库均通过文本-语音转换后形成音频数据文件和敏感词音频数据库,然后再进行比对,在很大程度上满足信息过滤的要求,而且敏感词音频数据库只需要转换一次即可对所有文本文件进行过滤,计算量小、速度快。
附图说明
图1是本发明文本敏感词过滤系统的结构框图;
图2是本发明文本敏感词过滤方法的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明的内容做进一步详细说明。
请参照图1和2所示,一种文本敏感词过滤方法,其包括以下步骤:
S101、通过文本-语音转换将敏感词文本库转换成敏感词音频数据库。
敏感词文本库1为常规数据库,其由被视为敏感词的若干个敏感词组整理形成,已广泛应用于互联网中。敏感词文本库1经由代理服务器4中的文本-语音转换单元42转换形成敏感词音频数据库44。该文本-语音转换单元42的转换方法有多种,其为常规技术,这里不再赘述。敏感词音频数据库44包括若干个敏感词音频数据组,敏感词音频数据组与敏感词组为一一对应关系。敏感词音频数据库44存储于代理服务器4中,只有在敏感词文本库1更新后,才进行一次敏感词文本库1的音频转换,并且这时只需要对更新的敏感词组进行转换即可,计算量小。
S102、通过第一网络接收待发送的文本文件,并存储为临时文本文件。
待发送的文本文件1存储于发送终端上,发送终端可以是手机、平板电脑、PC机等设备,第一网络2可以为有线网络或无线网络,临时文本文件41存储于代理服务器4中,避免了重复调用文本文件1的可能性。
S103、通过文本-语音转换将临时文本文件转换成临时音频数据文件并存储。
临时文本文件41通过文本-语音转换单元42转换形成临时音频数据文件43,该临时音频数据文件43也存储于代理服务器4中,同时临时文本文件41和临时音频数据文件43在内容上是相关联的,也就是临时文本文件41中的每个字均对应临时音频数据文件43中的一个音频数据,对于临时文本文件41中的标点、特殊符号、空格以及乱码等,则可直接忽略。
S104、将所述敏感词音频数据组分别与临时音频数据文件进行比对,获得所述临时音频数据文件中具有的敏感词音频数据组,组成音频过滤集合,并记录这些敏感词音频数据组在临时音频数据文件中的位置。
通过代理服务器4中的过滤单元45在临时音频数据文件43中遍历敏感词音频数据库44中的每个敏感词音频数据组,当临时音频数据文件43具有一致的敏感词音频数据组,则对该敏感词音频数据组以及其位置进行标记。
S105、对临时文本文件进行过滤,并通过第二网络将过滤后的临时文本文件发送至接收终端,所述对临时文本文件进行过滤的方法是将临时文本文件中与所述位置相对应的文本内容进行删除。
在临时音频数据文件43标记的敏感词音频数据组及其位置,必然在临时文本文件41中的相应位置具有一定与该敏感词音频数据组相关联的文本内容(该文本内容中可能会出现的标点、特殊符号、空格以及乱码等),然后将这些文本内容进行删除后的临时文本文件41通过第二网络5发送给接收终端6,从而完成了文本敏感词的过滤。
上述实施例只是为了说明本发明的技术构思及特点,其目的是在于让本领域内的普通技术人员能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡是根据本发明内容的实质所做出的等效的变化或修饰,都应涵盖在本发明的保护范围内。

Claims (2)

1.一种文本敏感词过滤系统,其特征在于,其包括:
第一转换单元,用于通过文本-语音转换将敏感词文本库转换成敏感词音频数据库,所述敏感词音频数据库包括若干个敏感词音频数据组;
接收单元,用于通过第一网络接收待发送的文本文件,并存储为临时文本文件;
第二转换单元,用于通过文本-语音转换将临时文本文件转换成临时音频数据文件并存储,所述临时文本文件和临时音频数据文件相关联;
判断单元,用于将所述敏感词音频数据组分别与临时音频数据文件进行比对,获得所述临时音频数据文件中具有的敏感词音频数据组,组成音频过滤集合,并记录这些敏感词音频数据组在临时音频数据文件中的位置;
过滤单元,用于对临时文本文件进行过滤,并通过第二网络将过滤后的临时文本文件发送至接收终端,所述对临时文本文件进行过滤的方法是将临时文本文件中与所述位置相对应的文本内容进行删除。
2.一种文本敏感词过滤方法,其特征在于,其包括以下步骤:
步骤1、通过文本-语音转换将敏感词文本库转换成敏感词音频数据库,所述敏感词音频数据库包括若干个敏感词音频数据组;
步骤2、通过第一网络接收待发送的文本文件,并存储为临时文本文件;
步骤3、通过文本-语音转换将临时文本文件转换成临时音频数据文件并存储,所述临时文本文件和临时音频数据文件相关联;
步骤4、将所述敏感词音频数据组分别与临时音频数据文件进行比对,获得所述临时音频数据文件中具有的敏感词音频数据组,组成音频过滤集合,并记录这些敏感词音频数据组在临时音频数据文件中的位置;
步骤5、对临时文本文件进行过滤,并通过第二网络将过滤后的临时文本文件发送至接收终端,所述对临时文本文件进行过滤的方法是将临时文本文件中与所述位置相对应的文本内容进行删除。
CN201510662461.XA 2015-10-14 2015-10-14 一种文本敏感词过滤系统和方法 Active CN105335483B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510662461.XA CN105335483B (zh) 2015-10-14 2015-10-14 一种文本敏感词过滤系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510662461.XA CN105335483B (zh) 2015-10-14 2015-10-14 一种文本敏感词过滤系统和方法

Publications (2)

Publication Number Publication Date
CN105335483A CN105335483A (zh) 2016-02-17
CN105335483B true CN105335483B (zh) 2018-11-09

Family

ID=55286010

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510662461.XA Active CN105335483B (zh) 2015-10-14 2015-10-14 一种文本敏感词过滤系统和方法

Country Status (1)

Country Link
CN (1) CN105335483B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055541B (zh) * 2016-06-29 2018-12-28 清华大学 一种新闻内容敏感词过滤方法及系统
CN106294555A (zh) * 2016-07-26 2017-01-04 捷开通讯(深圳)有限公司 一种过滤音乐文件的方法及系统
CN106446232A (zh) * 2016-10-08 2017-02-22 深圳市彬讯科技有限公司 一种基于规则的敏感文本过滤方法
US10453447B2 (en) * 2017-11-28 2019-10-22 International Business Machines Corporation Filtering data in an audio stream
CN108228760A (zh) * 2017-12-25 2018-06-29 湛江正信科技服务有限公司 敏感词过滤的方法、装置、移动终端及存储介质
CN108390857B (zh) * 2018-01-12 2020-12-04 刘喆 一种高敏感网络向低敏感网络导出文件的方法和装置
CN110489657B (zh) * 2019-07-05 2022-08-26 五八有限公司 一种信息过滤方法、装置、终端设备及存储介质
CN112885371B (zh) * 2021-01-13 2021-11-23 北京爱数智慧科技有限公司 音频脱敏的方法、装置、电子设备以及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1480876A (zh) * 2002-06-28 2004-03-10 ���´��ֹ�˾ 为便携音频设备存储在互联网上搜索的信息的系统和方法
CN102760436A (zh) * 2012-08-09 2012-10-31 河南省烟草公司开封市公司 一种语音词库筛选方法
CN104505090A (zh) * 2014-12-15 2015-04-08 北京国双科技有限公司 敏感词的语音识别方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7865501B2 (en) * 2005-11-15 2011-01-04 International Business Machines Corporation Method and apparatus for locating and retrieving data content stored in a compressed digital format

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1480876A (zh) * 2002-06-28 2004-03-10 ���´��ֹ�˾ 为便携音频设备存储在互联网上搜索的信息的系统和方法
CN102760436A (zh) * 2012-08-09 2012-10-31 河南省烟草公司开封市公司 一种语音词库筛选方法
CN104505090A (zh) * 2014-12-15 2015-04-08 北京国双科技有限公司 敏感词的语音识别方法和装置

Also Published As

Publication number Publication date
CN105335483A (zh) 2016-02-17

Similar Documents

Publication Publication Date Title
CN105335483B (zh) 一种文本敏感词过滤系统和方法
CN105701122B (zh) 一种日志收集方法、装置及系统
CN109872242B (zh) 信息推送方法和装置
CN108229704B (zh) 用于推送信息的方法和装置
US10025872B2 (en) Managing browser tabs based on uniform resource locators
CN105760399A (zh) 一种数据检索方法及设备
CN111077496B (zh) 一种基于麦克风阵列的语音处理方法、装置及终端设备
CN103956167A (zh) 一种基于Web的可视化手语翻译方法及设备
CN108228760A (zh) 敏感词过滤的方法、装置、移动终端及存储介质
CN106165015A (zh) 用于促进对于通信设备处的内容传输的基于加水印的回声管理的机制
CN103886860A (zh) 一种信息处理方法和电子设备
CN110990598A (zh) 资源检索方法、装置、电子设备及计算机可读存储介质
CN109002500A (zh) 对话生成方法、装置、设备及计算机可读介质
CN110379406B (zh) 语音评论转换方法、系统、介质和电子设备
CN103927006A (zh) 一种基于机器人的资讯互动系统及方法
WO2018005979A1 (en) Bi-magnitude processing framework for nonlinear echo cancellation in mobile devices
CN102393811A (zh) 音频接口的数字信号传输方法、装置及电子设备
CN107622766B (zh) 用于搜索信息的方法和装置
CN104239371A (zh) 一种指令信息处理方法及装置
CN113986958B (zh) 文本信息的转换方法、装置、可读介质和电子设备
CN103856552A (zh) 用于互动直播的方法和设备
WO2012073175A1 (en) Process for selective and personalized transmission of data to a mobile device and client/server system capable of implementing the process
JP2020004380A (ja) ウェアラブルデバイス、情報処理方法、装置及びシステム
CN104536570A (zh) 智能手表的信息处理方法及装置
CN111626044B (zh) 文本生成方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant