CN111783447B - 基于ngram距离的敏感词检测方法、装置、设备及存储介质 - Google Patents

基于ngram距离的敏感词检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111783447B
CN111783447B CN202010467172.5A CN202010467172A CN111783447B CN 111783447 B CN111783447 B CN 111783447B CN 202010467172 A CN202010467172 A CN 202010467172A CN 111783447 B CN111783447 B CN 111783447B
Authority
CN
China
Prior art keywords
ngram
text
distance
sensitive
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010467172.5A
Other languages
English (en)
Other versions
CN111783447A (zh
Inventor
王博锐
许强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Property and Casualty Insurance Company of China Ltd
Original Assignee
Ping An Property and Casualty Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Property and Casualty Insurance Company of China Ltd filed Critical Ping An Property and Casualty Insurance Company of China Ltd
Priority to CN202010467172.5A priority Critical patent/CN111783447B/zh
Publication of CN111783447A publication Critical patent/CN111783447A/zh
Application granted granted Critical
Publication of CN111783447B publication Critical patent/CN111783447B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请公开了一种基于ngram距离的敏感词检测方法、装置、设备及存储介质,属于人工智能技术领域,所述方法通过实时获取语音通话过程中产生的语音信息;将语音信息转化为文本信息;将文本信息输入到N‑gram语言模型,得到第一ngram集合;计算第一ngram集合与第二ngram集合之间的ngram距离,其中,第二ngram集合为预设在本地数据库中的敏感文本的ngram集合;将ngram距离与预设的阈值距离做比对;若小于或等于,则判定语音信息中包含敏感词汇;若大于,则判定语音信息中不包含敏感词汇。本申请通过对客服与客户进行交谈过程中产生的语音信息进行实时获取和即时处理,实现了客服与客户的通话录音的全覆盖检测以及即时检测,有助于客服部门的日常管理。

Description

基于ngram距离的敏感词检测方法、装置、设备及存储介质
技术领域
本申请属于人工智能技术领域,具体涉及一种基于ngram距离的敏感词检测方法、装置、设备及存储介质。
背景技术
随着电信网络技术的发展,电话语音、网络音频为主的语音应用日渐成熟,但是,含有敏感信息、非法信息的语音传播不利于社会和谐稳定和国家长治久安,因此,如何从海量的语音数据中检测敏感信息已经成为亟待解决的问题。
传统的语音质检功能需要获取客服与客户完成通话后的通话录音,并需要通过人工的方式去播放整个通话录音,以判断通话录音的对话中是否包含违规信息,这种通过人工检测的方式需要耗费大量的时间和精力,并且大多数情况下只能实现随机抽查通话录音的某些片段,很难对所有客服与客户的通话录音进行全覆盖检测。另外,一般来讲传统的获取录音的过程只能在通话服务结束后进行,不适合在客服与客户的语音交谈过程中实时的判断此段对话是否包含违规信息,具有一定的延时性。
发明内容
本申请实施例的目的在于提出一种基于ngram距离的敏感词检测方法、装置、设备及存储介质,以解决传统语音质检方式存在的无法实现对客服与客户进行交谈过程中产生的语音信息进行全覆盖检测以及即时检测的问题。
为了解决上述技术问题,本申请实施例提供一种基于ngram距离的敏感词检测方法,采用了如下所述的技术方案:
实时获取语音通话过程中产生的语音信息;
将语音信息转化为文本信息;
将文本信息输入到N-gram语言模型,得到第一ngram集合;
计算第一ngram集合与存在于本地数据库中的第二ngram集合之间的ngram距离,其中,第二ngram集合为预设在本地数据库中的敏感文本的ngram集合;
将ngram距离与预设的阈值距离做比对;
若ngram距离小于或等于预设的阈值距离,则判定语音信息中包含敏感词汇;
若ngram距离大于预设的阈值距离,则判定语音信息中不包含敏感词汇。
进一步地,在将文本信息输入到N-gram语言模型,得到第一ngram集合之前,还包括:
对文本信息进行标准化处理,得到标准文本;
将标准文本与本地数据库中预设的敏感文本进行比对,判断标准文本与预设的敏感文本是否一致;
若标准文本与预设的敏感文本一致,则判定语音信息中包含敏感词汇。
进一步地,将标准文本与本地数据库中预设的敏感文本进行比对,判断标准文本与预设的敏感文本是否一致,具体包括:
检测标准文本的文本长度;
将标准文本的文本长度与预设文本长度做比对;
若标准文本的文本长度小于预设文本长度,则标准文本的文本长度与预设文本长度之间的比对采用第一规则匹配,其中,在第一规则匹配下,标准文本与预设的敏感文本完全一致;
若标准文本的文本长度大于或等于预设文本长度,则标准文本的文本长度与预设文本长度之间的比对采用第二规则匹配,其中,第二规则匹配下,标准文本与预设的敏感文本的相似度大于预设相似度。
进一步地,在计算第一ngram集合与存在于本地数据库中的第二ngram集合之间的ngram距离之前,还包括:
对标准文本与预设的敏感文本的相似度进行排序;
在相似度排序结果中,获取与标准文本相似度最高的敏感文本。
进一步地,计算第一ngram集合与本地数据库中第二ngram集合之间的ngram距离,具体包括:
将与标准文本相似度最高的敏感文本输入到N-gram语言模型,得到第二ngram集合;
计算第一ngram集合与第二ngram集合之间的ngram距离。
进一步地,将ngram距离与预设的阈值距离做比对,具体包括:
对计算得到的所有ngram距离进行大小排序;
在ngram距离排序结果中,获取最小ngram距离,将最小ngram距离与预设的阈值距离做比对。
为了解决上述技术问题,本申请实施例还提供一种基于ngram距离的敏感词检测装置,采用了如下所述的技术方案:
获取模块,用于实时获取语音通话过程中产生的语音信息;
转化模块,用于将语音信息转化为文本信息;
第一ngram集合获取模块,用于将文本信息输入到N-gram语言模型,得到第一ngram集合;
计算模块,用于计算第一ngram集合与存在于本地数据库中的第二ngram集合之间的ngram距离,其中,第二ngram集合为预设在本地数据库中的敏感文本的ngram集合;
ngram距离比对模块,用于将ngram距离与预设的阈值距离做比对;
第一比对结果模块,用于若ngram距离小于或等于预设的阈值距离,则判定语音信息中包含敏感词汇;
第二比对结果模块,用于若ngram距离大于预设的阈值距离,则判定语音信息中不包含敏感词汇。
进一步地,计算模块具体包括:
第二ngram集合获取单元,用于将与标准文本相似度最高的敏感文本输入到N-gram语言模型,得到第二ngram集合;
计算单元,用于计算第一ngram集合与第二ngram集合之间的ngram距离。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如上述任意一项所述的基于ngram距离的敏感词检测方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一项所述的基于ngram距离的敏感词检测方法的步骤。
与现有技术相比,本申请公开的基于ngram距离的敏感词检测方法装置、设备及存储介质主要有以下有益效果:
本申请通过实时获取语音通话过程中产生的语音信息;将语音信息转化为文本信息;将文本信息输入到N-gram语言模型,得到第一ngram集合;计算第一ngram集合与存在于本地数据库中的第二ngram集合之间的ngram距离,其中,第二ngram集合为预设在本地数据库中的敏感文本的ngram集合;将ngram距离与预设的阈值距离做比对;若ngram距离小于或等于预设的阈值距离,则判定语音信息中包含敏感词汇;若ngram距离大于预设的阈值距离,则判定语音信息中不包含敏感词汇。通过对客服与客户进行交谈过程中产生的语音信息进行实时获取和检测,将语音信息实时转化为对应的文本信息,并将文本信息输入到N-gram语言模型,得到第一ngram集合,计算第一ngram集合与预设的敏感文本的ngram集合之间的ngram距离,最后通过比对计算得到的ngram距离和预设的阈值距离,判断语音信息中是否包含敏感词汇。本申请通过对客服与客户进行交谈过程中产生的语音信息进行实时获取和即时处理,实现了客服与客户的通话录音的全覆盖检测,并且在客服与客户进行交谈过程中即可实时判断出检测结果,有助于客服部门的日常管理。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1本申请可以应用于其中的示例性系统架构图;
图2根据本申请基于ngram距离的敏感词检测方法的一个实施例的流程图;
图3根据本申请基于ngram距离的敏感词检测方法的将标准文本与预设的敏感文本进行比对的方法流程图;
图4根据本申请基于ngram距离的敏感词检测方法的一个ngram距离计算的具体实施流程图
图5根据本申请的基于ngram距离的敏感词检测装置的一个实施例的结构示意图;
图6根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(MovingPictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供基于ngram距离的敏感词检测方法一般由服务器执行,相应地,基于ngram距离的敏感词检测装置一般设置于服务器中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的基于ngram距离的敏感词检测方法的一个实施例的流程图。所述的基于ngram距离的敏感词检测方法,包括以下步骤:
S201,实时获取语音通话过程中产生的语音信息。
在本申请具体的实施例中,以客服和客户之间的语音通话为例,传统的语音质检功能需要获取客服与客户的通话录音后,通过人工检测方式去播放通话录音,以判断此段对话是否包含违规信息,但通过人工检测的方式需要耗费大量的时间和精力,并且大多只能实现随机抽查通话录音的某些片段,很难对所有客服与客户的通话录音进行全覆盖的即时检测。
具体的,在本申请实施例中,实时对客服的通讯设备进行监控,当监控设备运行时,实时获取语音通话过程中的语音信息,通信设备如客服的座机、办公电脑等。
在本实施例中,基于ngram距离的敏感词检测方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式实时获取客服与客户进行交谈过程中产生的语音信息。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
S202,将语音信息转化为文本信息。
具体的,将在获取到语音通话过程中产生的语音信息后,将得到的语音信息实时输入到语音识别模型中,将所述语音信息实时转化为对应的文本信息。在本申请具体的实施例中,可以将得到的语音信息实时输入到预设的ASR(Automatic Speech Recognition,语音识别)智能语音识别模型中,将语音信息实时转化为对应的文本信息。其中,ASR语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。采用ASR语音识别技术不仅仅能识别或确认发出语音的说话人,而且可以精确识别出语音信息中包含的词汇内容,同时还能根据说话者的语气信息以及上下文的联系生成相应的标点符号,是目前语音识别技术中较为成熟的一个具体方向。
S203,将文本信息输入到N-gram语言模型,得到第一ngram集合。
其中,N-gram语言模型(有时也称为N元模型)是自然语言处理中一个非常重要的概念,通常在NLP(自然语言处理技术)中,人们基于一定的语料库,可以利用N-Gram来预计或者评估一个句子是否合理。另外一方面,N-Gram的另外一个作用是用来评估两个字符串之间的差异程度,这是模糊匹配中常用的一种手段。在将文本信息输入到N-gram语言模型前,需要确定ngram参数n(n为正整数),n可以根据实际应用场景来进行选择,n的取值越小,代表检测识别的结果越严格,相反,n的取值越大,代表检测识别结果越宽松。
例如,在本申请一种具体的实施例中,文本信息“我爱你中国”,将文本信息输入到N-gram语言模型,若ngram参数为1,则得到的第一ngram集合S1为“我、爱、你、中、国”,若ngram参数为2,则得到的第一ngram集合S2为“我爱、爱你、你中、中国”,若ngram参数为3,则得到的第一ngram集合S3为“我爱你、爱你中,你中国”,不同的ngram参数对应不同的第一ngram集合。
S204,计算第一ngram集合与存在于本地数据库中的第二ngram集合之间的ngram距离,其中,第二ngram集合为预设在本地数据库中的敏感文本的ngram集合。
具体的,从本地数据库中提取所有敏感文本ngram集合,分别计算当前文本信息对应的ngram集合与本地数据库中所有敏感文本ngram集合之间的ngram距离。
在本申请实施例中,按照如下公式计算第一ngram集合与本地数据库中敏感文本的第二ngram集合之间的ngram距离:
Figure BDA0002513029590000081
其中,S、S’分别表示两个不同文本的ngarm集合,即第一ngram集合和第二ngram集合,∣∣运算表示ngarm集合元素的数量,&运算表示对两个ngarm集合作交集操作,∣S&S’∣表示对ngarm集合S和ngarm集合S’进行交集运算。
需要说明的是,从本地数据库中提取敏感文本的ngram集合时,应该根据第一ngram集合的ngram参数n来提取,即第二ngram集合的ngram参数n应与第一ngram集合的ngram参数n相同,如第一ngram集合的ngram参数n为2时,则第二ngram集合的ngram参数也应为2。
S205,将ngram距离与预设的阈值距离做比对。
S206,若ngram距离小于或等于预设的阈值距离,则判定语音信息中包含敏感词汇。
S207,若ngram距离大于预设的阈值距离,则判定语音信息中不包含敏感词汇。
其中,S205中的阈值距离可以根据经验值提前进行设置,如阈值距离设定为0.1,需要说明的是,阈值距离越小则判断结果越严格,检测的准确度更高。
具体的,将计算得到的所述ngram距离与提前设置的阈值距离进行比较,若计算得到的所述ngram距离小于或等于提前设置的阈值距离,则表明文本信息中存在敏感词汇,即所述语音信息中存在敏感词汇,若计算得到的ngram距离大于预设的阈值距离,则判定语音信息中不包含敏感词汇,通过将ngram距离与预设的阈值距离做比对,根据比对结果判定语音信息中是否包含敏感词汇,以完成语音信息的检测。
本申请实施例公开的基于ngram距离的敏感词检测方法通过实时获取语音通话过程中产生的语音信息;将语音信息转化为文本信息;将文本信息输入到N-gram语言模型,得到第一ngram集合;计算第一ngram集合与存在于本地数据库中的第二ngram集合之间的ngram距离,其中,第二ngram集合为预设在本地数据库中的敏感文本的ngram集合;将ngram距离与预设的阈值距离做比对;若ngram距离小于或等于预设的阈值距离,则判定语音信息中包含敏感词汇;若ngram距离大于预设的阈值距离,则判定语音信息中不包含敏感词汇。通过对客服与客户进行交谈过程中产生的语音信息进行实时获取和检测,将语音信息实时转化为对应的文本信息,并将文本信息输入到N-gram语言模型,得到第一ngram集合,计算第一ngram集合与预设的敏感文本的ngram集合之间的ngram距离,最后通过比对计算得到的ngram距离和预设的阈值距离,判断语音信息中是否包含敏感词汇。本申请通过对客服与客户进行交谈过程中产生的语音信息进行实时获取和即时处理,实现了客服与客户的通话录音的全覆盖检测,并且在客服与客户进行交谈过程中即可判断出检测结果,有助于客服部门的日常管理。
进一步地,在将文本信息输入到N-gram语言模型,得到第一ngram集合之前,还包括:
对文本信息进行标准化处理,得到标准文本;
将标准文本与本地数据库中预设的敏感文本进行比对,判断标准文本与预设的敏感文本是否一致;
若标准文本与预设的敏感文本一致,则判定语音信息中包含敏感词汇。
具体的,在本申请实施例中,将语音信息转化为文本信息之后,可以先对得到的文本信息进行标准处理,得到标准文本。其中,标准化处理包括文本信息的英文大小写转化以及文本信息的标点符号去除。
在本申请一种具体的实施例中,英文大小写转化为将文本信息中的英文大写字母统一转化为英文小写字母,例如文本信息“这个APP真好用!”,对上述文本信息进行标准化后得到标准文本为“这个app真好用”,其中,文本信息中的“APP”被转化为“app”,文本信息中的“!”被去除。在本申请实施例中,对文本信息进行标准化处理可以提高语音识别系统的泛化能力,即使得语音识别系统的应用场景更广泛的,同时也提高了检测效率和检测精度。
在本申请实施例中,本地数据库中的敏感文本为预先配置,预先配置敏感文本具体为各类场景下有可能出现的各种携带有敏感词汇的敏感语句,对上述敏感语句进行进行标准化处理,去除敏感语句中的标点符号,并对敏感语句中存在的英文字母进行大小写转化,得到敏感语句对应的标准文本,将敏感语句对应的标准文本存储在本地数据库中。
在本申请实施例中,若本地数据库中存在任意一条敏感文本与标准文本一致,则判定所述文本信息包含敏感词汇,检测结束,不再继续进行步骤S203;若本地数据库中不存在任意一条敏感文本与所述标准文本一致,继续进行步骤S203将该文本信息输入到N-gram语言模型。
在上述实施例中,通过对文本信息进行标准化处理,得到标准文本,将标准文本与本地数据库中预设的敏感文本进行比对,判断标准文本与预设的敏感文本是否一致,若标准文本与预设的敏感文本一致,则判定语音信息中包含敏感词汇,若本地数据库中存在任意一条敏感文本与标准文本一致,则判定所述文本信息包含敏感词汇,检测结束,不再继续进行步骤S203将文本信息输入到N-gram语言模型可以有效提高实时语音检测的效率和精度。
进一步地,请参考图3,图3示出了根据本申请基于ngram距离的敏感词检测方法的将标准文本与预设的敏感文本进行比对的方法流程图,将标准文本与本地数据库中预设的敏感文本进行比对,判断标准文本与预设的敏感文本是否一致,具体包括:
S301,检测标准文本的文本长度;
S302,将标准文本的文本长度与预设文本长度做比对;
S303,若标准文本的文本长度小于预设文本长度,则标准文本的文本长度与预设文本长度之间的比对采用第一规则匹配,其中,在第一规则匹配下,要求标准文本与预设的敏感文本完全一致;
S304,若标准文本的文本长度大于或等于预设文本长度,则标准文本的文本长度与预设文本长度之间的比对采用第二规则匹配,其中,第二规则匹配下,要求标准文本与预设的敏感文本的相似度大于预设相似度。
具体的,判断标准文本与预设的敏感文本是否一致时,可以根据标准文本的文本长度不同采用不同的比对规则,如当标准文本的文本长度较短时,要求标准文本的文本长度与预设文本长度之间的比对采用第一规则匹配,其中,第一规则匹配为严格规则匹配,即标准文本与预设的敏感文本相似度为100%时,才判定为一致,如标准文本为2个字符,要求标准文本与本地数据库中的敏感文本存在100%的相同字符时,才判定文本信息包含敏感词汇。当标准文本的文本长度较长时,标准文本的文本长度与预设文本长度之间的比对采用第二规则匹配,其中,第二规则匹配为宽松规则匹配,即只要标准文本与预设的敏感文本相似度高于一定阈值(如80%),就可以判定为一致,如标准文本为10个字符,比对后发现标准文本与本地数据库中的敏感文本存在80%的相同字符时,就可以判定文本信息包含敏感词汇。在上述实施例中,判断标准文本与预设的敏感文本是否一致时,可以根据标准文本的文本长度不同采用不同的比对规则,可以有效提高实时语音检测的效率和精度。
进一步地,计算第一ngram集合与本地数据库中第二ngram集合之间的ngram距离之前,还包括:
对标准文本与预设的敏感文本的相似度进行排序;
在相似度排序结果中,获取与标准文本相似度最高的敏感文本。
在本申请一种具体的实施例中,若将标准文本与本地数据库中预设的敏感文本进行比对,判断标准文本与预设的敏感文本不一致,则在计算第一ngram集合与本地数据库中第二ngram集合之间的ngram距离之前,可以先计算标准文本与预设的敏感文本的相似度,对标准文本与预设的敏感文本的相似度进行排序,并在相似度排序结果中,获取与标准文本相似度最高的敏感文本。
进一步地,参考图4,图4示出了根据本申请基于ngram距离的敏感词检测方法的ngram距离计算的一个具体实施流程图,计算第一ngram集合与本地数据库中第二ngram集合之间的ngram距离,其中,第二ngram集合为预设在本地数据库中的敏感文本的ngram集合,具体包括:
S401,将与标准文本相似度最高的敏感文本输入到N-gram语言模型,得到第二ngram集合;
其中,将与标准文本相似度最高的敏感文本输入到N-gram语言模型时,应该根据第一ngram集合的ngram参数n来提取第二ngram集合,即将与标准文本相似度最高的敏感文本输入到N-gram语言模型时,第二ngram集合的ngram参数n应与第一ngram集合的ngram参数n相同。
S402,计算第一ngram集合与第二ngram集合之间的ngram距离。
需要说明的是,在本申请一种具体的实施例中,在将文本信息输入到N-gram语言模型时,可以采用不同的ngram参数,以得到该文本信息的不同ngram集合。若采用不同的ngram参数,则需要分别计算不同ngram集合与本地数据库中敏感文本ngram集合之间的ngram距离,最后对得到的多个ngram距离进行加权平均,得到平均ngram距离。例如,对上述文本信息“我爱你中国”,将上述文本信息输入到N-gram语言模型时,ngram参数分别取1、2、3,得到的ngram集合分别为S1、S2、S3,分别计算S1、S2、S3与本地数据库中敏感文本ngram集合之间的ngram距离,得到1gram距离、2gram距离、3gram距离,最后对1gram距离、2gram距离、3gram距离进行加权平均。在本实施例中,通过在将文本信息输入到N-gram语言模型时采用不同的ngram参数,对最后计算得到的ngram距离进行加权平均,使得语音检测的精度更高。
进一步地,将ngram距离与预设的阈值距离做比对,具体包括:
对计算得到的所有ngram距离进行大小排序;
在ngram距离排序结果中,获取最小ngram距离,判断最小ngram距离与预设的阈值距离做比对。
具体的,从本地数据库中提取所有敏感文本ngram集合,分别计算当前文本信息对应的ngram集合与本地数据库中所有敏感文本ngram集合之间的ngram距离之后,对计算得到的所有ngram距离进行大小排序,在ngram距离排序结果中,获取最小ngram距离,通过将最小ngram距离与预设的阈值距离做比对,判断语音信息中是否包含敏感词汇。
在上述实施例中,对计算得到的所有ngram距离进行大小排序,在ngram距离排序结果中,获取最小ngram距离,只需比对最小ngram距离与预设的阈值距离,就可以判断语音信息中是否包含敏感词汇,提高了语音检测的效率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图5,作为对上述图2所示方法的实现,本申请提供了一种基于ngram距离的敏感词检测装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例所述的基于ngram距离的敏感词检测装置包括:
获取模块501,用于实时获取语音通话过程中产生的语音信息;
转化模块502,用于将语音信息转化为文本信息;
第一ngram集合获取模块503,用于将文本信息输入到N-gram语言模型,得到第一ngram集合;
计算模块504,用于计算第一ngram集合与存在于本地数据库中的第二ngram集合之间的ngram距离,其中,第二ngram集合为预设在本地数据库中的敏感文本的ngram集合;
ngram距离比对模块505,用于将ngram距离与预设的阈值距离做比对;
第一比对结果模块506,用于若ngram距离小于或等于预设的阈值距离,则判定语音信息中包含敏感词汇;
第二比对结果模块507,用于若ngram距离大于预设的阈值距离,则判定语音信息中不包含敏感词汇。
进一步地,该基于ngram距离的敏感词检测装置还包括:
标准化处理模块,用于对文本信息进行标准化处理,得到标准文本;
判断模块,用于将标准文本与本地数据库中预设的敏感文本进行比对,判断标准文本与预设的敏感文本是否一致;
判断结果模块,用于若标准文本与预设的敏感文本一致,则判定语音信息中包含敏感词汇。
进一步地,判断模块具体包括:
检测单元,用于检测标准文本的文本长度;
文本长度比对单元,用于将标准文本的文本长度于预设文本长度做比对;
第一文本长度比对结果单元,用于当标准文本的文本长度小于预设文本长度时,标准文本的文本长度与预设文本长度之间的比对采用严格规则匹配,其中,在严格规则匹配下,要求标准文本与预设的敏感文本完全一致;
第二文本长度比对结果单元,用于当标准文本的文本长度大于或等于预设文本长度时,标准文本的文本长度与预设文本长度之间的比对采用宽松规则匹配,其中,宽松规则匹配下,要求标准文本与预设的敏感文本的相似度大于预设相似度。
进一步地,该基于ngram距离的敏感词检测装置还包括:
相似度排序模块,用于对标准文本与预设的敏感文本的相似度进行排序;
敏感文本获取模块,用于在相似度排序结果中,获取与标准文本相似度最高的敏感文本。
进一步地,计算模块504具体包括:
第二ngram集合获取单元,用于将与标准文本相似度最高的敏感文本输入到N-gram语言模型,得到第二ngram集合;
计算单元,用于计算第一ngram集合与第二ngram集合之间的ngram距离。
进一步地,ngram距离比对模块505具体包括:
ngram距离排序单元,用于对计算得到的所有ngram距离进行大小排序;
ngram距离比对单元,用于在ngram距离排序结果中,获取最小ngram距离,判断最小ngram距离与预设的阈值距离做比对。
本申请实施例公开了一种基于ngram距离的敏感词检测装置,包括获取模块501,用于实时获取语音通话过程中产生的语音信息;转化模块502,用于将语音信息转化为文本信息;第一ngram集合获取模块503,用于将文本信息输入到N-gram语言模型,得到第一ngram集合;计算模块504,用于计算第一ngram集合与存在于本地数据库中的第二ngram集合之间的ngram距离,其中,第二ngram集合为预设在本地数据库中的敏感文本的ngram集合;ngram距离比对模块505,用于将ngram距离与预设的阈值距离做比对;第一比对结果模块506,用于若ngram距离小于或等于预设的阈值距离,则判定语音信息中包含敏感词汇;第二比对结果模块507,用于若ngram距离大于预设的阈值距离,则判定语音信息中不包含敏感词汇。通过对客服与客户进行交谈过程中产生的语音信息进行实时获取和检测,将语音信息实时转化为对应的文本信息,并将文本信息输入到N-gram语言模型,得到第一ngram集合,计算第一ngram集合与预设的敏感文本的ngram集合之间的ngram距离,最后通过比对计算得到的ngram距离和预设的阈值距离,判断语音信息中是否包含敏感词汇。本申请通过对客服与客户进行交谈过程中产生的语音信息进行实时获取和即时处理,实现了客服与客户的通话录音的全覆盖检测,并且在客服与客户进行交谈过程中即可判断出检测结果,有助于客服部门的日常管理。
本申请实施例还提供一种计算机设备。具体请参阅图6,图6为本实施例计算机设备基本结构框图。
所述计算机设备6包括通过系统总线相互通信连接的存储器61、处理器62、网络接口63。需要指出的是,图中仅示出了具有存储器61、处理器62、网络接口63的计算机设备6,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器61至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器61可以是所述计算机设备6的内部存储单元,例如该计算机设备6的硬盘或内存。在另一些实施例中,所述存储器61也可以是所述计算机设备6的外部存储设备,例如该计算机设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器61还可以既包括所述计算机设备6的内部存储单元也包括其外部存储设备。本实施例中,所述存储器61通常用于存储安装于所述计算机设备6的操作系统和各类应用软件,例如基于ngram距离的敏感词检测方法的程序代码等。此外,所述存储器61还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器62在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器62通常用于控制所述计算机设备6的总体操作。本实施例中,所述处理器62用于运行所述存储器61中存储的程序代码或者处理数据,例如运行所述基于ngram距离的敏感词检测方法的程序代码。
所述网络接口63可包括无线网络接口或有线网络接口,该网络接口63通常用于在所述计算机设备6与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有基于ngram距离的敏感词检测方法的程序,所述基于ngram距离的敏感词检测方法的程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于ngram距离的敏感词检测方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (7)

1.一种基于ngram距离的敏感词检测方法,其特征在于,包括:
实时获取语音通话过程中产生的语音信息;
将所述语音信息转化为文本信息;
将所述文本信息输入到N-gram语言模型,得到第一ngram集合;
计算所述第一ngram集合与存在于本地数据库中的第二ngram集合之间的ngram距离,其中,所述第二ngram集合为预设在所述本地数据库中的敏感文本的ngram集合;
将所述ngram距离与预设的阈值距离做比对;
若所述ngram距离小于或等于所述预设的阈值距离,则判定所述语音信息中包含敏感词汇;
若所述ngram距离大于所述预设的阈值距离,则判定所述语音信息中不包含敏感词汇;
在所述计算所述第一ngram集合与存在于本地数据库中的第二ngram集合之间的ngram距离之前,还包括:
获取所述第一ngram集合的ngram参数,并根据所述ngram参数在本地数据库中提取所述第二ngram集合;
在所述将所述文本信息输入到N-gram语言模型,得到第一ngram集合之前,还包括:
对所述文本信息进行标准化处理,得到标准文本;
在所述计算所述第一ngram集合与存在于本地数据库中的第二ngram集合之间的ngram距离之前,还包括:
对所述标准文本与预设的所述敏感文本的相似度进行排序;
在相似度排序结果中,获取与所述标准文本相似度最高的所述敏感文本;
所述计算所述第一ngram集合与本地数据库中第二ngram集合之间的ngram距离,具体包括:
将与所述标准文本相似度最高的所述敏感文本输入到N-gram语言模型,得到第二ngram集合;
计算所述第一ngram集合与所述第二ngram集合之间的ngram距离。
2.如权利要求1所述的基于ngram距离的敏感词检测方法,其特征在于,在所述对所述文本信息进行标准化处理,得到标准文本之后,还包括:
将所述标准文本与本地数据库中预设的所述敏感文本进行比对,判断所述标准文本与预设的所述敏感文本是否一致;
若所述标准文本与预设的所述敏感文本一致,则判定所述语音信息中包含敏感词汇。
3.如权利要求2所述的基于ngram距离的敏感词检测方法,其特征在于,所述将所述标准文本与本地数据库中预设的所述敏感文本进行比对,判断所述标准文本与预设的所述敏感文本是否一致,具体包括:
检测所述标准文本的文本长度;
将所述标准文本的文本长度与预设文本长度做比对;
若所述标准文本的文本长度小于所述预设文本长度,则所述标准文本的文本长度与所述预设文本长度之间的比对采用第一规则匹配,其中,在所述第一规则匹配下,所述标准文本与预设的所述敏感文本完全一致;
若所述标准文本的文本长度大于或等于所述预设文本长度,则所述标准文本的文本长度与所述预设文本长度之间的比对采用第二规则匹配,其中,所述第二规则匹配下,所述标准文本与预设的所述敏感文本的相似度大于预设相似度。
4.如权利要求1所述的基于ngram距离的敏感词检测方法,其特征在于,所述将所述ngram距离与预设的阈值距离做比对,具体包括:
对计算得到的所有所述ngram距离进行大小排序;
在ngram距离排序结果中,获取最小ngram距离,将所述最小ngram距离与预设的阈值距离做比对。
5.一种基于ngram距离的敏感词检测装置,其特征在于,包括:
获取模块,用于实时获取语音通话过程中产生的语音信息;
转化模块,用于将所述语音信息转化为文本信息;
第一ngram集合获取模块,用于将所述文本信息输入到N-gram语言模型,得到第一ngram集合;
计算模块,用于计算所述第一ngram集合与存在于本地数据库中的第二ngram集合之间的ngram距离,其中,所述第二ngram集合为预设在所述本地数据库中的敏感文本的ngram集合;
ngram距离比对模块,用于将所述ngram距离与预设的阈值距离做比对;
第一比对结果模块,用于若所述ngram距离小于或等于所述预设的阈值距离,则判定所述语音信息中包含敏感词汇;
第二比对结果模块,用于若所述ngram距离大于所述预设的阈值距离,则判定所述语音信息中不包含敏感词汇;
所述基于ngram距离的敏感词检测装置,还包括:
第二ngram集合获取模块,用于获取所述第一ngram集合的ngram参数,并根据所述ngram参数在本地数据库中提取所述第二ngram集合;
所述基于ngram距离的敏感词检测装置,还包括:
标准化处理模块,用于对所述文本信息进行标准化处理,得到标准文本;
所述基于ngram距离的敏感词检测装置,还包括:
相似度排序模块,用于对所述标准文本与预设的所述敏感文本的相似度进行排序;
敏感文本获取模块,用于在相似度排序结果中,获取与所述标准文本相似度最高的所述敏感文本;
所述计算模块具体包括:
第二ngram集合获取单元,用于将与所述标准文本相似度最高的所述敏感文本输入到N-gram语言模型,得到第二ngram集合;
计算单元,用于计算所述第一ngram集合与所述第二ngram集合之间的ngram距离。
6.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的基于ngram距离的敏感词检测方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的基于ngram距离的敏感词检测方法的步骤。
CN202010467172.5A 2020-05-28 2020-05-28 基于ngram距离的敏感词检测方法、装置、设备及存储介质 Active CN111783447B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010467172.5A CN111783447B (zh) 2020-05-28 2020-05-28 基于ngram距离的敏感词检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010467172.5A CN111783447B (zh) 2020-05-28 2020-05-28 基于ngram距离的敏感词检测方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111783447A CN111783447A (zh) 2020-10-16
CN111783447B true CN111783447B (zh) 2023-02-03

Family

ID=72754212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010467172.5A Active CN111783447B (zh) 2020-05-28 2020-05-28 基于ngram距离的敏感词检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111783447B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017113974A1 (zh) * 2015-12-30 2017-07-06 宇龙计算机通信科技(深圳)有限公司 一种语音处理的方法、装置以及终端
CN108170806A (zh) * 2017-12-28 2018-06-15 东软集团股份有限公司 敏感词检测过滤方法、装置和计算机设备
CN108519970A (zh) * 2018-02-06 2018-09-11 平安科技(深圳)有限公司 文本中敏感信息的鉴定方法、电子装置及可读存储介质
CN109151218A (zh) * 2018-08-21 2019-01-04 平安科技(深圳)有限公司 通话语音质检方法、装置、计算机设备及存储介质
CN110532866A (zh) * 2019-07-22 2019-12-03 平安科技(深圳)有限公司 视频数据检测方法、装置、计算机设备及存储介质
CN111161730A (zh) * 2019-12-27 2020-05-15 中国联合网络通信集团有限公司 语音指令匹配方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10592514B2 (en) * 2015-09-28 2020-03-17 Oath Inc. Location-sensitive ranking for search and related techniques
CN108737667B (zh) * 2018-05-03 2021-09-10 平安科技(深圳)有限公司 语音质检方法、装置、计算机设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017113974A1 (zh) * 2015-12-30 2017-07-06 宇龙计算机通信科技(深圳)有限公司 一种语音处理的方法、装置以及终端
CN108170806A (zh) * 2017-12-28 2018-06-15 东软集团股份有限公司 敏感词检测过滤方法、装置和计算机设备
CN108519970A (zh) * 2018-02-06 2018-09-11 平安科技(深圳)有限公司 文本中敏感信息的鉴定方法、电子装置及可读存储介质
CN109151218A (zh) * 2018-08-21 2019-01-04 平安科技(深圳)有限公司 通话语音质检方法、装置、计算机设备及存储介质
CN110532866A (zh) * 2019-07-22 2019-12-03 平安科技(深圳)有限公司 视频数据检测方法、装置、计算机设备及存储介质
CN111161730A (zh) * 2019-12-27 2020-05-15 中国联合网络通信集团有限公司 语音指令匹配方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111783447A (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN112685565B (zh) 基于多模态信息融合的文本分类方法、及其相关设备
WO2019184217A1 (zh) 热点事件分类方法、装置及存储介质
CN112101041B (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN109543030A (zh) 客服机器人会话文本分类方法及装置、设备、存储介质
CN110334241A (zh) 客服录音的质检方法、装置、设备及计算机可读存储介质
CN112328761B (zh) 一种意图标签设置方法、装置、计算机设备及存储介质
CN112633003A (zh) 一种地址识别方法、装置、计算机设备及存储介质
CN112686022A (zh) 违规语料的检测方法、装置、计算机设备及存储介质
CN112468659B (zh) 应用于电话客服的质量评价方法、装置、设备及存储介质
CN111694937A (zh) 基于人工智能的面试方法、装置、计算机设备及存储介质
CN111695338A (zh) 基于人工智能的面试内容精炼方法、装置、设备及介质
CN110427453B (zh) 数据的相似度计算方法、装置、计算机设备及存储介质
CN110808032A (zh) 一种语音识别方法、装置、计算机设备及存储介质
CN112669842A (zh) 人机对话控制方法、装置、计算机设备及存储介质
CN112395391B (zh) 概念图谱构建方法、装置、计算机设备及存储介质
CN112507167A (zh) 一种识别视频合集的方法、装置、电子设备及存储介质
CN112836521A (zh) 问答匹配方法、装置、计算机设备及存储介质
CN112468658A (zh) 语音质量检测方法、装置、计算机设备及存储介质
CN112446209A (zh) 一种意图标签的设置方法、设备、装置及存储介质
CN112084752A (zh) 基于自然语言的语句标注方法、装置、设备及存储介质
CN115438149A (zh) 一种端到端模型训练方法、装置、计算机设备及存储介质
CN114817478A (zh) 基于文本的问答方法、装置、计算机设备及存储介质
CN112669850A (zh) 语音质量检测方法、装置、计算机设备及存储介质
CN116881446A (zh) 一种语义分类方法、装置、设备及其存储介质
CN111783447B (zh) 基于ngram距离的敏感词检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant