CN114022933A

CN114022933A - 一种直播话术敏感词监测方法及系统

Info

Publication number: CN114022933A
Application number: CN202111296886.5A
Authority: CN
Inventors: 汤伟杰
Original assignee: Shanghai Lexiang Information Technology Co ltd
Current assignee: Shanghai Lexiang Information Technology Co ltd
Priority date: 2021-11-02
Filing date: 2021-11-02
Publication date: 2022-02-08

Abstract

本发明公开了一种直播话术敏感词监测方法及系统，包括获取直播视频及直播音频，对直播视频进行预处理生成带时间戳的人脸图片集，对直播音频进行预处理生成带时间戳的语音片段集；从带时间戳的人脸图片集中筛选特定表情图片，基于带时间戳的语音片段集生成带时间戳的文本片段集；基于时间戳将特定表情图片与对应的文本片段进行匹配生成话术文本；基于敏感词库检测话术文本中是否含有敏感词，若检测到敏感词，则基于敏感词的命中率对话术文本对应的主播进行扣分；统计每个主播的扣分得到每个主播的总扣分，当任一主播的总扣分大于阈值时对该主播进行监管；该方法有针对性的对负面表情对应的文本片段(话术)进行检测，有效地提高了监测效率。

Description

一种直播话术敏感词监测方法及系统

技术领域

本发明涉及音视频检测技术领域，具体涉及一种直播话术敏感词监测方法及系统。

背景技术

随着直播带货业务越来越火爆，行业监管也逐渐趋严，直播话术的内容把控成为NLP领域急需解决的痛点；无论从品牌方还是MCN角度，直播话术的监管都迫在眉睫。

而目前各平台大部分采用人工监测的方法进行敏感词监测，即人工抽查直播间对直播话术中是否存在敏感词进行监听，该监测方法的缺点是无法覆盖全部直播间，且存在人力成本较高的缺陷；也有些平台采用截取主播用户在直播客户端输出的语音文本和文字文本，将所得语音文本转化为转化文本(文字格式)，对转化文本和文字文本进行敏感词匹配、获取敏感词数值的方法进行敏感词检测，该方法虽然能够大幅减少管理员在直播平台上的工作量，但其盲目的直接对语音片段集生成的文本片段集进行检测，存在检测无针对性、检测效率低的问题。

发明内容

针对上述问题，本发明的一个目的是提供一种直播话术敏感词监测方法，该方法针对敏感词(政治敏感词、广告法违规词、平台违规词、提及竞品名称等)对直播话术进行智能监测及预警；而且该方法采用有针对性的对负面表情对应的文本片段(话术)进行检测，有效地提高了监测效率，缩短监测时间。

本发明的第二个目的是提供一种直播话术敏感词监测系统。

本发明所采用的第一个技术方案是：一种直播话术敏感词监测方法，包括以下步骤：

S100：获取直播视频及直播音频，对直播视频进行预处理以生成带时间戳的人脸图片集，对直播音频进行预处理以生成带时间戳的语音片段集；

S200：从带时间戳的人脸图片集中筛选特定表情图片，基于带时间戳的语音片段集生成带时间戳的文本片段集；

S300：基于时间戳查找与所述特定表情图片与对应的文本片段，并生成话术文本；

S400：基于敏感词库检测话术文本中是否含有敏感词，若检测到敏感词，则统计敏感词的命中率，并基于敏感词的命中率对所述话术文本对应的主播进行扣分；

S500：对每个主播的扣分进行统计得到每个主播的总扣分，以及当任一主播的总扣分大于阈值时对该主播进行监管。

优选地，所述步骤S100中对直播视频进行预处理包括：对直播视频按时间切片生成带时间戳的人脸图片集。

优选地，所述步骤S100中对直播音频进行预处理包括：对直播音频按时间切片生成带时间戳的语音片段集。

优选地，所述步骤S200中从带时间戳的人脸图片集中筛选特定表情图片包括以下子步骤：

S211：识别每个人脸图片的表情，并分配对应的表情标签；

S212：基于表情标签筛选具有特定表情类型的人脸图片，所述特定表情类型包括预先设定的一个或多个表情类型。

优选地，所述步骤S211包括：

采用Emotion-recognition算法对人脸图片进行表情实时识别，并按不同的表情类型为每个人脸图片分配对应的表情标签。

优选地，所述步骤S200中基于带时间戳的语音片段集生成带时间戳的文本片段集包括：

利用自动语音识别算法将所述语音片段集中的各个语音片段转换为对应的文本片段，得到带有时间戳的文本片段集。

优选地，还包括对自动语音识别算法进行语料预训练，包括以下步骤：

将待训练语料库中的话术语料进行TF-IDF权重赋值；

将所有赋值后的词语按照分值从高到低进行排序以得到话术预训练分值；

在自动语音识别遇到同音字时，基于话术预训练分值从高到低地进行匹配。

优选地，所述S400包括：

基于敏感词库对话术文本中的词进行匹配，若检测到敏感词，则基于所述话术文本对应的时间戳以及直播场次的排班表找到所述话术文本对应的主播；统计所述话术文本中敏感词的命中率，并基于所述命中率对所述话术文本对应的主播进行扣分。

优选地，还包括S600：基于所述敏感词命中率的统计结果形成敏感词智能看板，实时显示各主播的扣分情况。

本发明所采用的第二个技术方案是：一种直播话术敏感词监测系统，包括预处理模块、筛选模块、文本片段集生成模块、匹配模块、检测模块和预警模块；

所述预处理模块用于获取直播视频及直播音频，对直播视频进行预处理以生成带时间戳的人脸图片集，对直播音频进行预处理以生成带时间戳的语音片段集；

所述筛选模块用于从带时间戳的人脸图片集中筛选特定表情图片；

所述文本片段集生成模块用于基于带时间戳的语音片段集生成带时间戳的文本片段集；

所述匹配模块用于基于时间戳查找与所述特定表情图片对应的文本片段，并生成话术文本；

所述检测模块用于基于敏感词库检测话术文本中是否含有敏感词，若检测到敏感词，则统计敏感词的命中率，并基于敏感词的命中率对该话术文本对应的主播进行扣分；

所述预警模块用于对每个主播的扣分进行统计得到每个主播的总扣分，以及当主播的总扣分大于阈值时对主播进行监管。

上述技术方案的有益效果：

(1)本发明公开的一种直播话术敏感词监测方法针对敏感词(政治敏感词、广告法违规词、平台违规词、提及竞品名称等)对直播话术进行智能监测及预警。

(2)本发明采用有针对性的对负面表情对应的文本片段(话术)进行检测，有效地提高了监测效率，缩短监测时间。

(3)本发明为了更准确地将“同音不同字”输出正确的文本，构建了大量快消品领域的语料库；以美妆行业为例，构建美妆行业语料库，基于美妆行业语料库中的语料对ASR进行语料预训练，当“同音”字需要转译成文本时，优先转译成美妆行业语料库中的文字，从而提高ASR在快消品领域直播转译的准确率。

附图说明

图1为本发明一个实施例提供的一种直播话术敏感词监测方法的流程框图；

图2为本发明一个实施例提供的一种直播话术敏感词监测方法的流程图；

图3为本发明一个实施例提供的话术文本的示意图；

图4为本发明一个实施例提供的话术文本中敏感词检测结果的示意图；

图5为本发明一个实施例提供的敏感词智能看板的示意图；

图6为本发明一个实施例提供的一种直播话术敏感词监测系统的结构示意图。

具体实施方式

下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例的详细描述和附图用于示例性地说明本发明的原理，但不能用来限制本发明的范围，即本发明不限于所描述的优选实施例，本发明的范围由权利要求书限定。

在本发明的描述中，需要说明的是，除非另有说明，“多个”的含义是两个或两个以上；术语“第一”“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性；对于本领域的普通技术人员而言，可视具体情况理解上述术语在本发明中的具体含义。

实施例1

如图1和图2所示，本实施例公开了一种直播话术敏感词监测方法，包括以下步骤：

S100：获取直播视频及直播音频；对直播视频进行预处理以生成带时间戳的人脸图片集，对直播音频进行预处理以生成带时间戳的语音片段集；

在同一场直播中会按时间轴一一对应的对直播视频(画面)和直播音频(声音)分别进行存储，即将直播视频存储至视频数据库中，将直播音频存储至语音数据库中；直播视频和直播音频按时间轴一一对应起来进行存储方便后续切片处理；

获取直播视频是从视频数据库中获取过往所有的直播视频(所有历史直播视频)，获取直播音频从语音数据库中获取过往所有的直播音频(所有历史直播音频)；

对直播视频进行预处理(切片处理)具体为：对直播视频按时间切片，生成带时间戳的人脸图片集；例如将任一直播视频按每30秒逐帧截图完成直播视频图像切片；

对直播音频进行预处理(切片处理)具体为：对直播音频按时间切片，生成带时间戳的语音片段集；例如将任一直播音频按每30秒切出一段一段的音频完成直播音频切片。

S200：从带时间戳的人脸图片集中筛选特定表情图片(具有特定表情的带时间戳的人脸图片)，基于带时间戳的语音片段集生成带时间戳的文本片段集；

筛选具有特定表情类型的带时间戳的人脸图片包括以下子步骤：

S211：给带时间戳的人脸图片集中的每个带时间戳的人脸图片分配对应的表情标签，具体为：采用Emotion-recognition算法对带时间戳的人脸图片集进行表情实时识别，并按不同的表情类型(表情类型例如包括生气、厌恶、害怕、高兴、难过、惊讶和中立)为每个带时间戳的人脸图片分配对应的表情标签；Emotion-recognition算法是一套已开源的表情识别算法，能实时识别主播的表情类别，从而形成实时的表情标签；表情标签包括Angry——生气、Disgust——厌恶，Scared——害怕，Happy——高兴，Sad——难过，Surprise——惊讶和Neutral——中立(但并不限于此)；

S212：基于表情标签筛选具有特定表情类型的带时间戳的人脸图片，特定表情包括负面表情，负面表情例如包括生气、厌恶、害怕、惊讶等；

上述表情标签均为文本数据，计算机能自动筛选出这些“文本标签”背后的“人脸图片”以及对应的时间戳。

基于带时间戳的语音片段集生成带时间戳的文本片段集包括以下子步骤：

利用自动语音识别算法将带时间戳的语音片段集中的各个语音片段转换为对应的文本片段，得到带有时间戳的文本片段集。

进一步的，在一个实施例中，自动语音识别算法例如为Automatic SpeechRecognition(ASR)，针对各领域快消品行业，为了更准确地将“同音不同字”输出正确的文本，本发明构建了大量快消品领域的语料库；以美妆行业为例，构建美妆行业语料库，基于美妆行业语料库中的语料对ASR进行语料预训练，当“同音”字需要转译成文本时，优先转译成美妆行业语料库中的文字，从而提高ASR在快消品领域直播转译的准确率。

对ASR进行语料预训练具体为：将任一快消品领域语料库中的行业话术语料进行TF-IDF(term frequency–inverse document frequency)权重赋值，即基于出现频率以及具有的实际意义对每个词进行赋值，例如将出现频率高且具有实际意义的词赋予更高的分值，将所有赋值后的词语按照分值从高到低进行排序得到行业话术预训练分值，在ASR同音字转译过程中，基于行业话术预训练分值从高到低地进行匹配；比如“yan xian an”优先匹配“烟酰胺”而不是“眼线按”。

S300：基于时间戳将特定表情图片(具有特定表情类型的带时间戳的人脸图片)与对应的文本片段进行匹配以生成话术文本；

带时间戳的文本片段集中的文本片段均带有时间戳，具有特定表情类型的带时间戳的人脸图片中也有时间戳，根据筛选出的图片(具有特定表情类型的带时间戳的人脸图片)对应的时间戳，从带时间戳的文本片段集中找到与筛选出的图片相同时间戳的文本片段即得到话术文本(话术文本即与特定表情对应的文本片段)；话术文本如图3所示，话术文本包括但不限于生气、厌恶、害怕、惊讶表情(负面表情)对应的文本。

一些负面表情背后大概率会存在谩骂等不文明的行为以及夸大商品描述等广告法禁止的描述，所以本发明中在这些负面表情出现后，采用按照对应的时间戳去查看相应主播的话术，检测话术中是否含有违规行为；相较于盲目的直接对语音片段集生成的文本片段集进行检测，本发明采用有针对性的对负面表情对应的文本片段(话术)进行检测，有效地提高了监测效率，缩短监测时间。

S400：基于敏感词(禁用词)库检测话术文本中是否含有敏感词，若检测到敏感词，则基于敏感词的命中率对该话术文本对应的主播进行扣分；

如图4所示，基于敏感词(禁用词)库对话术文本中的词进行匹配，若检测到敏感词(命中敏感词)，则基于该话术文本对应的时间戳以及直播场次的排班表(排班表中记载不同时段、不同直播间对应的主播名称)找到该话术文本对应的主播，并对该话术文本对应的主播进行扣分(例如扣1分)，每触发一次敏感词(命中一次敏感词)就扣一次分，统计该话术文本中敏感词的命中率并对该话术文本对应的主播进行扣分。

如图5所示，基于上述敏感词命中率的结果形成敏感词智能看板，通过敏感词智能看板能复盘主播每场触发的违规记录以实现不断改进；方便品牌方了解直播间发生了什么以实现及时预警，防止直播平台对直播间扣分甚至封号下架。

敏感词类型包括竞品名(类型1)、代言人/粉丝(类型2)、平台违规词(类型3)、商品描述违规(类型4)和广告法违规(类型5)；

平台违规词(类型3)和广告法违规(类型5)的敏感词(禁用词)库中包括但不限于最系列、与一有关、与终/极有关、与国/首/家有关、与品牌有关、与虚假宣传有关、与权威有关、与欺诈有关(诱导消费者)、与时间有关以及美妆类常用词；平台违规词(敏感词)和广告法违规词(敏感词)有重叠部分，会存在同时触发两种违规信息的情况；商品描述违规(类型4)中的敏感词(禁用词)库中包括但不限于化妆品虚假宣传相关的词；竞品名(类型1)中不同品牌定义的竞品不同，因此没有固定的敏感词(禁用词)库；代言人/粉丝(类型2)中基于监管要求不同品牌会有特定词语被触发，直播间不能煽动粉丝为“偶像”刷单、冲动消费。

其中，最系列的敏感词包括最(最优秀、最高端、最便宜、最先享受、最先进)、最佳(最好、最奢侈、史上最低价、最符合、最后)、最具(最大、最低、最流行、最舒适、最后一波)、最爱(最大程度、最低级、最受欢迎、最先、最新)、最赚(最高、最低价、最时尚、最先进技术、最新技术)和最优(最高级、最底、最聚拢、最新款)；可以采用能够使用的相关的替换词来替换敏感词，最系列敏感词的相关替换词包括比较遮瑕、表舒适、非常、特别、冰点价、再来一波、省略最字来说等(但并不限于此)；

与一有关的敏感词包括中国第一、NO1、仅此一次、仅此一天、全网第一、TOP1、最后一波、销量第一、第一无二、全网X大品牌之一、排名第一、第一品牌、唯一、一流和一天(但并不限于此)，与一有关敏感词的相关替换词包括销量很好、拳头产品、当家产品、说明具体的活动日期和排名靠前(但并不限于此)；

与终/极有关的敏感词包括国家级/顶级/顶尖/极品、顶级工艺/国家级产品、全球极/顶级、宇宙级、高级、极致、尖端和绝对(但并不限于此)，与终/极有关敏感词的相关替换词包括国家/全球等极限词；

与国/首/家有关的敏感词包括首个、全网首发、中国驰名商标、X网首发、首选、全国首发、首次、国际品质、独家、首家、独家配方、国家领导人、国家免检和填补国内空白(但并不限于此)；与国/首/家有关敏感词的相关替换词包括率先、优先选择、为数不多(但并不限于此)；

与品牌有关的敏感词包括大牌、奢侈、领导品牌、至尊、领袖、金牌、世界领先、巅峰、之王、领先上市、巨量、冠军、王者、王牌、优秀、领袖品牌、掌门人、缔造者和资深(但并不限于此)；与品牌有关敏感词的相关替换词包括大家都知道的品牌、非常火和非常热门的(但并不限于此)；

与虚假宣传有关的敏感词包括特效、史无前例、无敌、前无古人、永久、纯天然、万能和真皮(但并不限于此)；与虚假宣传有关敏感词的相关替换词包括不含XX添加、保真保正等(但并不限于此)；

与权威有关的敏感词包括老字号、专家推荐、XX特别人物推荐、质量免检、国家驰名商标、特供、专供(但并不限于此)；与权威有关敏感词的相关替换词包括有资质的(但并不限于此)；

与欺诈有关(诱导消费者)的敏感词包括全国免单、点击抽奖、恭喜获奖、全民免单、点击翻转、点击获奖、没有比他更便宜来、再不抢就没了、万人疯抢和秒杀(但并不限于此)；与欺诈有关(诱导消费者)敏感词的相关替换词包括不能诱导点击、福利价、库存不多不要错过和一上架就被拍空(但并不限于此)；

与时间有关的敏感词包括限时、倒计时、仅限、今日、周末、品牌团、精品团、几天几夜、严禁使用、恢复原价、马上降价、随时涨价和随时结束(但并不限于此)；与时间有关敏感词的相关替换词包括必须有具体的时间、下单时间倒计时(但并不限于此)；

美妆类常用词中的敏感词包括美白、祛斑、黑头、毛孔、痘痘、除皱、孕妇、紧致提升、抗衰老(但并不限于此)；美妆类常用词中敏感词相关的替换词包括白白的、脸上有的小斑斑、鼻子上有点黑黑的、小褶皱想改善、准妈妈、动作示范出来紧致提升和担心年纪轻轻看起来像老阿姨(但并不限于此)。

化妆品虚假宣传相关的敏感词包括特效、强效、高效、速效、一洗白、X天见效、全方位、全面、安全、无毒、燃脂、瘦身、瘦脸、减肥、延年益寿、提高记忆力、化解/清除死细胞、提高肌肤抗刺激、去除皱纹、恢复断裂弹力纤维、采用新型着色肌理、破坏黑色素、阻断黑色素形成、丰乳、丰胸、预防下垂和促进睡眠；化妆品虚假宣传相关敏感词的相关替换词包括效果描述不能夸大、功效性详情页没有不能讲、周期性词语不能说、XX天后慢慢改善。

S500：按直播场次、天、周或月对每个主播的扣分进行统计得到每个主播每场次、每天、每周或每个月的总扣分；当主播的总扣分大于阈值时对主播进行监管；具体包括当总扣分大于第一阈值时，对主播发出警告；当总扣分大于第二阈值时，勒令该主播停播整改等。

将每个主播的总扣分按照从高到低的方式进行排序得到主播排序，基于主播排序对排序在前(扣分较多、违规较多)的主播进行预警。

实施例2

如图6所示，本发明提供了一种直播话术敏感词监测系统，包括预处理模块、筛选模块、文本片段集生成模块、匹配模块、检测模块和预警模块；

预处理模块用于获取直播视频及直播音频，对直播视频进行预处理以生成带时间戳的人脸图片集，对直播音频进行预处理以生成带时间戳的语音片段集；

筛选模块用于从带时间戳的人脸图片集中筛选特定表情图片；

文本片段集生成模块用于基于带时间戳的语音片段集生成带时间戳的文本片段集；

匹配模块用于基于时间戳将特定表情图片与对应的文本片段进行匹配以生成话术文本；

检测模块用于基于敏感词库检测话术文本中是否含有敏感词，若检测到敏感词，则基于敏感词的命中率对该话术文本对应的主播进行扣分；

预警模块用于对每个主播的扣分进行统计得到每个主播的总扣分；当主播的总扣分大于阈值时对主播进行监管措施。

虽然已经参考优选实施例对本发明进行了描述，但在不脱离本发明范围的情况下，可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是，只要不存在结构冲突，各个实施例中所提到的各项技术特征均可以任意方式组合起来。本发明并不局限于文中公开的特定实施例，而是包括落入权利要求范围内的所有技术方案。本发明未详细阐述部分属于本领域技术人员的公知技术。

Claims

1.一种直播话术敏感词监测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的敏感词监测方法，其特征在于，所述步骤S100中对直播视频进行预处理包括：对直播视频按时间切片生成带时间戳的人脸图片集。

3.根据权利要求1所述的敏感词监测方法，其特征在于，所述步骤S100中对直播音频进行预处理包括：对直播音频按时间切片生成带时间戳的语音片段集。

4.根据权利要求1所述的敏感词监测方法，其特征在于，所述步骤S200中从带时间戳的人脸图片集中筛选特定表情图片包括以下子步骤：

S211：识别每个人脸图片的表情，并分配对应的表情标签；

5.根据权利要求4所述的敏感词监测方法，其特征在于，所述步骤S211包括：

6.根据权利要求1所述的敏感词监测方法，其特征在于，所述步骤S200中基于带时间戳的语音片段集生成带时间戳的文本片段集包括：

7.根据权利要求6所述的敏感词监测方法，其特征在于，还包括对自动语音识别算法进行语料预训练，包括以下步骤：

将待训练语料库中的话术语料进行TF-IDF权重赋值；

8.根据权利要求1所述的敏感词监测方法，其特征在于，所述S400包括：

9.根据权利要求1所述的敏感词监测方法，其特征在于，还包括S600：基于所述敏感词命中率的统计结果形成敏感词智能看板，实时显示各主播的扣分情况。

10.一种直播话术敏感词监测系统，其特征在于，包括预处理模块、筛选模块、文本片段集生成模块、匹配模块、检测模块和预警模块；