CN111105788A - 敏感词分数检测方法、装置、电子设备及存储介质 - Google Patents

敏感词分数检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111105788A
CN111105788A CN201911329327.2A CN201911329327A CN111105788A CN 111105788 A CN111105788 A CN 111105788A CN 201911329327 A CN201911329327 A CN 201911329327A CN 111105788 A CN111105788 A CN 111105788A
Authority
CN
China
Prior art keywords
sensitive word
audio signal
word
sample
sensitive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911329327.2A
Other languages
English (en)
Other versions
CN111105788B (zh
Inventor
李世杰
陈欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN201911329327.2A priority Critical patent/CN111105788B/zh
Publication of CN111105788A publication Critical patent/CN111105788A/zh
Application granted granted Critical
Publication of CN111105788B publication Critical patent/CN111105788B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种敏感词分数检测方法、装置、电子设备及存储介质,涉及语音识别技术领域。包括:对待检测的音频信号进行特征提取,得到该音频信号的第一声学特征,通过敏感词识别模型中的特征处理层,对第一声学特征进行解析处理,得到至少一个词语声学特征,确定每个词语声学特征的敏感词分数,从而识别出敏感词,完成敏感词分数检测。通过对待检测的音频信号的进行特征提取,根据词语特征的敏感词分数确定该音频信号中的敏感词,完成敏感词检测,避免了将音频信号转换成文本数据,简化了敏感词检测的步骤,并且,通过敏感词识别模型得到至少一个词语声学特征,提高了提取词语声学特征的准确性,进而提高了敏感词检测的准确性。

Description

敏感词分数检测方法、装置、电子设备及存储介质
技术领域
本公开涉及语音识别技术领域,特别涉及一种敏感词分数检测方法、装置、电子设备及存储介质。
背景技术
为了建立安全的网络环境,常需要对用户通过网络平台上传的视频或音频进行审核;或者,为了了解服务的质量,常将服务过程进行录音,对录制的音频进行监督。该审核或监督过程可以通过敏感词检测技术实现。通过敏感词检测技术,可以检测视频或音频中的音频信号中是否包含敏感词,从而筛选出包含敏感词的音频信号。
发明内容
本公开实施例提供了一种敏感词分数检测方法、装置、电子设备及存储介质,能够解决对音频信号中的敏感词进行检测时,需要将音频信号转换成文本数据,再对文本数据进行敏感词检测,导致的敏感词检测的过程繁琐的问题。该技术方案如下:
一方面,提供了一种敏感词分数检测方法,所述方法包括:
获取待检测的音频信号;
通过敏感词识别模型中的特征处理层,对所述第一声学特征进行解析处理,得到所述至少一个词语声学特征;
对所述第一声学特征进行解析处理,得到所述第一声学特征包含的至少一个词语声学特征;
确定所述至少一个词语声学特征的敏感词分数,所述词语声学特征的敏感词分数指示所述词语声学特征对应的词语属于敏感词的概率值。
另一方面,提供了一种敏感词分数检测装置,所述装置包括:
第一获取模块,用于获取待检测的音频信号;
特征提取模块,用于通过敏感词识别模型中的特征处理层,对所述第一声学特征进行解析处理,得到所述至少一个词语声学特征;
特征解析模块,用于对所述第一声学特征进行解析处理,得到所述第一声学特征包含的至少一个词语声学特征;
第一确定模块,用于确定所述至少一个词语声学特征的敏感词分数,所述词语声学特征的敏感词分数指示所述词语声学特征对应的词语属于敏感词的概率值。
在一种可能的实现方式中,所述分数确定模块,还用于通过所述敏感词识别模型中的敏感词分数确定层,确定每个词语声学特征的敏感词分数。
在另一种可能的实现方式中,所述特征提取模块,还用于对所述音频信号进行特征提取,得到所述音频信号的原始声学特征;将所述原始声学特征转换为向量格式,得到第二声学特征;通过所述敏感词识别模型中的声学转换网络对所述第二声学特征进行转换,得到所述第一声学特征。
在另一种可能的实现方式中,所述装置还包括:
第二获取模块,用于获取至少一个第一样本数据,以及获取至少一个第二样本数据,每个第一样本数据包括不包含敏感词的第一样本音频信号,每个第二样本数据包括包含敏感词的第一样本音频信号和所述包含敏感词的第一样本音频信号中包含的敏感词;
第一训练模块,用于根据所述至少一个第一样本数据和所述至少一个第二样本数据,训练所述敏感词识别模型。
在另一种可能的实现方式中,所述第二获取模块,还用于获取多个敏感词;生成包含至少一个敏感词的至少一个正样本语句;将所述至少一个正样本语句转换成音频信号,得到第一样本音频信号;将所述至少一个正样本语句对应的第一样本音频信号和第一样本音频信号中包含的至少一个敏感词,确定为所述至少一个第二样本数据。
在另一种可能的实现方式中,所述装置还包括:
第三获取模块,用于获取至少一个第二样本音频信号;
分数检测模块,用于通过当前训练的所述敏感词识别模型,对所述至少一个第二样本音频信号进行敏感词分数检测,得到每个第二样本音频信号中词语的敏感词分数;
第二确定模块,用于将包含敏感词分数大于第一预设阈值的词语的第二样本音频信号确定为第三样本数据;
第三确定模块,用于将包含的词语的敏感词分数均小于第二预设阈值的第二样本音频信号确定为第四样本数据;
第二训练模块,用于根据确定的第三样本数据和第四样本数据,训练所述敏感词识别模型。
另一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储至少一条指令,所述至少一条指令由所述处理器加载并执行,以实现如本公开实施例中所述的敏感词分数检测方法。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储至少一条指令,所述至少一条指令由处理器加载并执行,以实现如本公开实施例中任一项所述的敏感词分数检测方法。
在本公开实施例中,通过对待检测的音频信号进行特征提取,得到该音频信号的第一声学特征,通过敏感词识别模型中的特征处理层,对第一声学特征进行解析处理,得到至少一个词语声学特征,分别确定至少一个词语声学特征中每个词语声学特征的敏感词分数。通过对待检测的音频信号的进行特征提取,对提取到的第一声学特征进行敏感词分数检测,得到该音频信号的敏感词分数检测结果,以便根据该词语特征的敏感词分数确定该音频信号中的敏感词,完成敏感词检测,避免了将音频信号转换成文本数据进行敏感词检测,简化了敏感词检测的步骤,并且,通过敏感词识别模型对第一声学特征进行解析处理,得到至少一个词语声学特征,提高了提取词语声学特征的准确性,从而提高了确定词语声学特征的对应的敏感词分数的准确性,因此,本方案提供的方法可以在简化敏感词检测步骤的同时提高敏感词检测的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据本公开部分示例性实施例示出的一种敏感词分数检测方法所涉及的系统架构图;
图2是根据本公开部分示例性实施例示出的一种敏感词分数检测方法的流程图;
图3是根据本公开部分示例性实施例示出的一种敏感词分数检测方法的流程图;
图4是根据本公开部分示例性实施例示出的一种敏感词分数检测方法的流程图;
图5是根据本公开部分示例性实施例示出的一种敏感词分数检测方法的流程图;
图6是根据本公开部分示例性实施例示出的一种敏感词分数检测方法的流程图;
图7是根据本公开部分示例性实施例示出的一种敏感词分数检测方法的流程图;
图8是根据本公开部分示例性实施例示出的一种敏感词分数检测方法的流程图;
图9是根据本公开部分示例性实施例示出的一种敏感词分数检测方法的流程图;
图10是根据本公开部分示例性实施例示出的一种敏感词分数检测装置结构示意图;
图11是根据本公开部分示例性实施例示出的一种终端的结构示意图;
图12是根据本公开部分示例性实施例示出的一种服务器的结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开实施方式作进一步地详细描述。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开实施例可以应用于语音服务质量检测、内容审核等方面。其中,语音服务质量检测可以为对出租车司机的服务进行的质量检测、对催收业务进行的质量检查或对语音客服的服务质量检测等,例如,本公开实施例可以应用在出租车司机接到乘客后,在出租车行程的录音中检测是否有敏感词;在催收员拨打的催收电话的录音中检测是否有敏感词;在客服或售后提供的答疑或售后服务的电话录音中检测是否有敏感词。内容审核可以为对音频或视频进行审核,例如,本公开实施例可以应用在语音或视频分享网站中,在用户上传的音频或视频的语音内容中检测是否有敏感词。
图1是根据本公开部分示例性实施例示出的一种敏感词分数检测方法涉及的系统架构图,该系统架构包括:音频信号生成模块、特征提取模块、深度神经网络模块和半监督学习增强模块。
其中,该音频信号生成模块的输出端与该特征提取的输入端连接,该特征提取的输出端与深度神经网络模块的输入端连接,该深度神经网络模块的输出端与该半监督学习增强模块的输入端连接,该半监督学习增强模块的输出端与该特征提取模块连接。
该音频信号生成模块用于在模型训练的过程中,接收预设的多个敏感词,根据该多个敏感词生成包含至少一个敏感词的至少一个正样本语句和不包含该多个敏感词的至少一个负样本语句,将该至少一个正样本语句和至少一个负样本语句转换成音频信号,得到第一样本音频信号,将至少一个负样本语句对应的第一样本音频信号确定为至少一个第一样本数据,将该至少一个正样本语句对应的第一样本音频信号和每个第一样本音频信号中包含的至少一个敏感词,确定为该至少一个第二样本数据。将该至少一个第一样本数据和至少一个第二样本数据输入至特征提取模块。
在本实现方式中,通过音频信号生成模块生成至少一个第一样本数据和至少一个第二样本数据,从而增加了模型训练过程中样本数据的数量,解决了仅使用真实样本数据造成的样本数据不足的问题,提高了模型训练的准确性,从而提高了敏感词分数检测的准确度。
该深度神经网络模块,用于在接收到音频信号时,确定当前是否为训练模式,在当前为训练模式时,该音频信号为样本数据,则根据该样本数据对敏感词识别模型进行训练。在当前不是训练模式时,该音频信号为待检测的音频信号,通过该敏感词识别模型对该音频信号进行敏感词分数检测,对该音频信号的进行敏感词分数检测,得到该音频信号的包含的每个词语声学特征的敏感词分数。
半监督学习增强模块,用于调用深度神经网络模块中的当前训练的敏感词识别模型,通过当前训练的敏感词识别模型对未标注的至少一个第二样本音频信号进行敏感词分数检测,得到该至少一个第二样本音频信号中词语的敏感词分数,从至少一个第二样本音频信号中选择敏感词分数大于第一预设阈值的第二样本音频信号作为第三样本数据,该第三样本数据为正样本,选择敏感词分数均小于第二预设阈值的第二样本音频信号作为第四样本数据,该第四样本数据为负样本,将该第三样本数据和第四样本数据输入到深度神经网络模块中,深度神经网络模块根据该第三样本数据和第四样本数据继续对当前训练的敏感词识别模型进行强化训练。
在本实现方式中,通过从识别的多个第二样本音频信号中获取多个正样本对应的第三样本数据和多个负样本对应的第四样本数据,通过该第三样本数据和第四样本数据对当前训练的敏感词识别模型进行强化训练,增加了模型训练过程中样本数据的数量,解决了样本数据不足的问题,并且,通过对当前训练的敏感词识别模型进行半监督的强化学习训练,提高了模型训练的准确性,从而提高了敏感词分数检测的准确度。
该特征提取模块,用于对输入的音频信号进行特征提取,得到音频信号的第二声学特征,将该第二声学特征输入至深度神经网络模块中。其中,该音频信号可以包括待检测的音频信号、第一样本音频信号、第二样本音频信号等。
在本实现方式中,电子设备对音频信号进行预处理,从而提取出音频信号中更有效的原始声学特征,提高了模型训练的准确度,从而提高了敏感词分数检测的准确度。
需要说明的一点是,该特征提取模块、音频信号生成模块、深度神经网络模块和半监督学习增强模块可以集成在一个电子设备中,也可以为不同电子设备中的模块,在本公开实施例中,以特征提取模块、音频信号生成模块、深度神经网络模块和半监督学习增强模块集成在一个电子设备中为例进行说明。其中,该电子设备可以为终端,也可以为服务器,在本公开实施例中,对该电子设备不作具体限定。例如,该电子设备可以为手机、电脑等终端,该电子设备也可以为单独的服务器、多个服务器组成的服务器集群或云服务器等。
在本公开实施例中,通过对待检测的音频信号进行特征提取,得到该音频信号的第一声学特征,通过敏感词识别模型中的特征处理层,对第一声学特征进行解析处理,得到至少一个词语声学特征,分别确定至少一个词语声学特征中每个词语声学特征的敏感词分数。通过对待检测的音频信号的进行特征提取,对提取到的第一声学特征进行敏感词分数检测,得到该音频信号的敏感词分数检测结果,以便根据该词语特征的敏感词分数确定该音频信号中的敏感词,完成敏感词检测,避免了将音频信号转换成文本数据进行敏感词检测,简化了敏感词检测的步骤,并且,通过敏感词识别模型对第一声学特征进行解析处理,得到至少一个词语声学特征,提高了提取词语声学特征的准确性,从而提高了确定词语声学特征的对应的敏感词分数的准确性,因此,本方案提供的方法可以在简化敏感词检测步骤的同时提高敏感词检测的准确性。
图2是根据一示例性实施例提供的一种敏感词分数检测方法流程图,如图2所示,该敏感词分数检测方法包括以下步骤:
步骤201:获取待检测的音频信号。
步骤202:对该音频信号进行特征提取,得到该音频信号的第一声学特征;
步骤203:通过敏感词识别模型中的特征处理层,对该第一声学特征进行解析处理,得到该至少一个词语声学特征。
步骤204:确定该至少一个词语声学特征的敏感词分数,该词语声学特征的敏感词分数指示该词语声学特征对应的词语属于敏感词的概率值。
在另一种可能的实现方式中,该确定该至少一个词语声学特征的敏感词分数,包括:
通过该敏感词识别模型中的敏感词分数确定层,确定每个词语声学特征的敏感词分数。
在另一种可能的实现方式中,该对该音频信号进行特征提取,得到该音频信号的第一声学特征,包括:
对所述音频信号进行特征提取,得到所述音频信号的原始声学特征;
将所述原始声学特征转换为向量格式,得到第二声学特征;
通过该敏感词识别模型中的声学转换网络对该第二声学特征进行转换,得到该第一声学特征。
在另一种可能的实现方式中,该方法还包括:
获取至少一个第一样本数据,以及获取至少一个第二样本数据,每个第一样本数据包括不包含敏感词的第一样本音频信号,每个第二样本数据包括包含敏感词的第一样本音频信号和该包含敏感词的第一样本音频信号中包含的敏感词;
根据该至少一个第一样本数据和该至少一个第二样本数据,训练该敏感词识别模型。
在另一种可能的实现方式中,该获取至少一个第一样本数据,包括:
获取多个敏感词;
生成包含至少一个敏感词的至少一个正样本语句;
将该至少一个正样本语句转换成音频信号,得到第一样本音频信号;
将该至少一个正样本语句对应的第一样本音频信号和第一样本音频信号中包含的至少一个敏感词,确定为该至少一个第二样本数据。
在另一种可能的实现方式中,该根据该至少一个第一样本数据,训练该敏感词识别模型之后,该方法还包括:
获取至少一个第二样本音频信号;
通过当前训练的该敏感词识别模型,对该至少一个第二样本音频信号进行敏感词分数检测,得到每个第二样本音频信号中词语的敏感词分数;
将包含敏感词分数大于第一预设阈值的词语的第二样本音频信号确定为第三样本数据;
将包含的词语的敏感词分数均小于第二预设阈值的第二样本音频信号确定为第四样本数据;
根据确定的第三样本数据和第四样本数据,训练该敏感词识别模型。
在本公开实施例中,通过对待检测的音频信号进行特征提取,得到该音频信号的第一声学特征,通过敏感词识别模型中的特征处理层,对第一声学特征进行解析处理,得到至少一个词语声学特征,分别确定至少一个词语声学特征中每个词语声学特征的敏感词分数。通过对待检测的音频信号的进行特征提取,对提取到的第一声学特征进行敏感词分数检测,得到该音频信号的敏感词分数检测结果,以便根据该词语特征的敏感词分数确定该音频信号中的敏感词,完成敏感词检测,避免了将音频信号转换成文本数据进行敏感词检测,简化了敏感词检测的步骤,并且,通过敏感词识别模型对第一声学特征进行解析处理,得到至少一个词语声学特征,提高了提取词语声学特征的准确性,从而提高了确定词语声学特征的对应的敏感词分数的准确性,因此,本方案提供的方法可以在简化敏感词检测步骤的同时提高敏感词检测的准确性。
图3是根据一示例性实施例提供的一种敏感词分数检测方法流程图,在本公开实施例中,以训练敏感词识别模型为例进行说明,如图3所示,该敏感词分数检测方法包括以下步骤:
步骤301:电子设备获取至少一个第一样本数据,以及获取至少一个第二样本数据。
其中,每个第一样本数据包括不包含敏感词的第一样本音频信号,每个第二样本数据包括包含敏感词的第一样本音频信号和该包含敏感词的第一样本音频信号中包含的敏感词。该至少一个第一样本数据和至少一个第二样本数据可以为从音频信号数据库中获取音频信号,对获取到的音频信号进行标注得到的真实样本数据;该至少一个第一样本数据和至少一个第二样本数据也可以为根据敏感词生成的伪样本数据;该至少一个第一样本数据和至少一个第二样本数据还可以为真实样本数据和伪样本数据组成的样本数据。
其中,当该至少一个样本数据或至少一个第二样本数据为真实样本数据时,电子设备获取至少一个第一样本数据或至少一个第二样本数据的过程可以为:电子设备从音频信号数据库中获取至少一个第一样本音频信号;确定该至少一个第一样本音频信号中,不包含敏感词的至少一个第一样本音频信号,将该不包含敏感词的至少一个第一样本音频信号确定为至少一个第一样本数据,或者,确定该至少一个第一样本音频信号中,包含敏感词的至少一个第一样本音频信号,以及确定该包含敏感词的至少一个第一样本音频信号中包含的敏感词,将该包含敏感词的第一样本音频信号和该第一样本音频信号中包含的敏感词作为第二样本数据。
当该至少一个样本数据或至少一个第二样本数据为伪样本数据时,电子设备可以通过语音合成技术,合成伪样本数据。
电子设备生成第二样本数据对应的伪样本数据的过程可以通过以下步骤(A1)-(A4)实现,包括:
(A1)电子设备确定多个敏感词。
该多个敏感词可以根据不同的应用场景进行设置并更改,该多个敏感词可以为低俗用语、政治敏感词、人名或语气词等,例如,该多个敏感词可以为人名“A”、地点“B”、人名“C”、地点“D”和语气词“E”等。该多个敏感词可以为用户输入的多个敏感词,相应的,本步骤可以为,电子设备接收用户输入的多个敏感词。该多个敏感词还可以为电子设备中事先存储的多个敏感词,相应的,在本步骤中,电子设备可以通过数据接口调用事先存储的多个敏感词。
另外,该多个敏感词的数量也可以根据需要进行设置并更改,在本公开实施例中,对该多个敏感词的数量不作具体限定,例如,该多个敏感词的数量可以为5个、8个或10个等。
(A2)电子设备生成包含至少一个敏感词的至少一个正样本语句。
参见图4,电子设备可以从该多个敏感词中,选择至少一个敏感词,生成包含该至少一个敏感词的至少一个正样本语句,例如,该多个敏感词可以为人名“A”、地点“B”、人名“C”、地点“D”和语气词“E”等,该至少一个敏感词可以为人名“A”和地点“B”,则生成的正样本语句可以为“我在B看到了A”或者“A到B去了”等。
另外,该至少一个敏感词的数量也可以根据需要进行设置并更改,在本公开实施例中,对该至少一个敏感词的数量不作具体限定。例如,该至少一个目标敏感词的数量可以为1个、2个或4个等。
(A3)电子设备将该至少一个正样本语句转换成音频信号,得到第一样本音频信号。
在本步骤中,电子设备通过语音合成技术将文本格式的至少一个正样本语句转换成音频信号。其中,电子设备可以通过任一语音合成技术将文本格式的至少一个正样本语句转换成音频信号,例如,电子设备可以通过TTS(Text to Speech,文本到语音)技术将文本格式的至少一个正样本语句转换成音频信号。
需要说明的一点是,电子设备可以每生成一个文本格式的正样本语句,就将该正样本语句转换成音频信号;电子设备也可以在电子设备生成完该至少一个正样本语句时,将该至少一个正样本语句转换成音频信号,在本公开实施例中,对电子设备将文本格式的正样本语句转换为音频信号的时机不作具体限定。
(A4)电子设备将该至少一个正样本语句对应的至少一个第一样本音频信号和该每个第一样本音频信号中包含的至少一个敏感词,确定为该至少一个第二样本数据。
在本步骤中,电子设备确定每个第一样本音频信号中的至少一个敏感词,将该第一样本音频信号和该第一样本音频信号包含的至少一个敏感词组成第二样本数据。
其中,电子设备可以根据生成该第一样本音频信号的正样本语句确定该第一样本音频信号的至少一个敏感词;电子设备还可以重新对该第一样本音频信号进行标注,确定该第一样本音频信号中的至少一个敏感词。
相应的,在一种可能的实现方式中,电子设备可以确定生成该第二样本数据中的第一样本音频信号对应的正样本语句,确定该正样本语句生成过程中依据的至少一个敏感词,相应的,电子设备在生成正样本语句时,记录生成该正样本语句时包含的至少一个敏感词,在本步骤中,电子设备调用记录的该第一样本音频信号对应的正样本语句的至少一个敏感词。
在另一种可能的实现方式中,电子设备对每个第一样本音频信号进行标注,该标注过程可以为人为标注过程,相应的,电子设备接收用户输入的第一样本音频信号的至少一个敏感词。
电子设备生成第一样本数据对应的伪样本数据的过程可以通过以下步骤(B1)-(B4)实现,包括:
(B1)电子设备确定多个敏感词。
本步骤与步骤(A1)相似,在此不再赘述。
(B2)电子设备生成不包含该多个敏感词的至少一个负样本语句。
继续参见图4,在本步骤中,电子设备生成多个不包含该多个敏感词的至少一个负样本语句,例如,多个敏感词可以为人名“A”、地点“B”、人名“C”、地点“D”和语气词“E”等,则电子设备可以生成不包含人名“A”、地点“B”、人名“C”、地点“D”和语气词“E”的至少一个负样本语句,例如,负样本语句可以为“今天天气很好”、“现在是2019年11月”等。
其中,该至少一个负样本语句和至少一个正样本语句的比例可以为N∶1,N为大于0的数,N的大小可以根据需要进行设置并更改,在本公开实施例中,对N的大小不作具体限定。例如,N可以为3,则每生成1个正样本语句时,电子设备生成3个负样本语句。
(B3)电子设备将该至少一个负样本语句转换成音频信号,得到第一样本音频信号。
本步骤与步骤(A3)相似,在此不再赘述。
(B4)电子设备将该至少一个负样本语句对应的第一样本音频信号,确定为该至少一个第一样本数据。
在本步骤中,电子设备将生成的不包含多个敏感词的至少一个第一样本音频信号组织成至少一个第一样本数据。
需要说明的另一点是,电子设备通过语音合成技术获取第一样本数据或第二样本数据时,可以确定需要生成的第一样本数据或第二样本数据的目标数量,继续参见图4,每当执行完步骤(A4)或(B4)时,检测当前第一样本数据或第二样本数据的数量是否大于目标数量,当检测到当前第一样本数据或第二样本数据的数量大于该目标数量时,完成获取至少一个第一样本数据或至少一个第二样本数据的步骤;当检测到当前第一样本数据和第二样本数据的数量不大于该目标数量时,重复执行步骤(A1)-(A4)或(B1)-(B4)获取至少一个第一样本数据或至少一个第二样本数据,直到该第一样本数据和第二样本数据的数量不小于该目标数量。
需要说明的另一点是,当电子设备重复执行步骤(A1)-(A4)时,电子设备获取在步骤(A2)中,生成包含至少一个敏感词的正样本数据时,每次获取的至少一个敏感词可以为相同的至少一个敏感词,每次获取的至少一个敏感词也可以为不同的至少一个敏感词,在本公开实施例中,对此不作具体限定。
在本实现方式中,通过语音合成技术生成多个伪样本数据,增加了模型训练过程中样本数据的数量,解决了仅使用真实样本数据造成的样本数据不足的问题,提高了模型训练的准确性,从而提高了敏感词分数检测的准确度。
需要说明的一点是,当该至少一个第一样本数据和至少一个第二样本数据可以包括真实样本数据和伪样本数据。例如,该至少一个第一样本数据都为真实样本数据,该至少一个第二样本数据都为伪样本数据;或者,该至少一个第一样本数据都为伪样本数据,该至少一个第二样本数据都为真实样本数据;或者,该至少一个第一样本数据和至少一个第二样本数据中,都包括真实样本数据和伪样本数据;或者,该至少一个第一样本数据和至少一个第二样本数据中,至少一个第一样本数据全部为真实样本数据,至少一个第二样本数据中包含正样本数据或负样本数据等。
步骤302:电子设备根据该至少一个第一样本数据和该至少一个第二样本数据,训练该敏感词识别模型。
在本步骤中,电子设备根据该至少一个第一样本数据和该至少一个第二样本数据中的第一样本音频信号以及第二样本数据中第一样本音频信号包含的敏感词对敏感词识别模型进行训练。
第一种实现方式,该敏感词识别模型包括分类网络和全连接层。其中,该分类网络包括特征处理层和敏感词分数确定层。其中,该特征处理层可以为Bi-RGU(Bi-directionGate Recurrent Unit,双向门限循环单元),通过该Bi-RGU双向提取该第一样本数据中的特征数据。该敏感词分数确定层可以为注意力机制(Attention)结构,通过该分类网络由特征处理层和敏感词分数确定层强化敏感词对应的词语声学特征的权重,最后由全连接层输出各个敏感词对应的词语声学特征的分数。其中,该全连接层可以为sigmoid激活函数,通过sigmoid激活函数将各个敏感词对应的词语声学特征的分数转换为0-1的概率值。
第二种实现方式,参见图5,该第二敏感词识别模型包括声学模型网络和分类网络,该声学模型网络和分类网络连接。该分类网络的结构与第一种实现方式中分类网络的结构相似,在此不再赘述。该声学模型网络可以包括时域或频域的CNN(ConvolutionalNeural Networks,卷积神经网络)、LSTM(Long Short-Term Memory,长短期记忆网络)或者这些网络结构的变形结构等,在本公开实施例中,对此不作具体限定。
需要说明的一点是,该声学模型网络可以为事先训练好的声学模型网络,相应的,在本步骤中,该电子设备对敏感词识别模型进行训练的过程中,可以只对该分类网络进行训练。
在模型训练的过程中,电子设备提取每个第一样本数据或第二样本数据中第一样本音频信号的第一声学特征,根据第一样本音频信号的第一声学特征和该第二样本数据中包含的敏感词对应的词语声学特征,对该敏感词识别模型进行训练。
该第一声学特征包括音频信号中多个词语的声学特征。该词语声学特征为该音频信号中敏感词的声学特征。通过对敏感词识别模型进行训练,使得敏感词识别模型可以根据标记的敏感词的词语声学特征,识别出音频信号中的敏感词对应的词语特征,其中,敏感词识别模型可以通过模型训练学习敏感词的词语声学特征,或者,敏感词识别模型可以通过模型训练学习敏感词在音频信号中可能出现的位置等。
在本步骤中,电子设备可以先对第一样本音频信号进行特征提取,得到该第一样本音频信号的第二声学特征,再对该第一样本音频信号的第二声学特征进行特征转换,得到该第一样本音频信号的第一声学特征。其中,电子设备对该第一样本音频信号进行特征提取得到该第一样本音频信号的第二声学特征的过程可以通过以下步骤(1)-(2)实现,包括:
(1)电子设备对该第一样本音频信号进行特征提取,得到该第一样本音频信号的原始声学特征。
参见图6,电子设备在对该第一样本音频信号进行特征提取之前,还可以对该第一样本音频信号进行预处理,该预处理过程可以为将第一样本音频信号转换为单通道音频数据、去除静音、预加重或分帧加窗中的至少一种处理操作。通过该预处理可以得到该第一样本音频信号的去除杂音的波形音频数据。电子设备提取该波形音频数据的原始声学特征。
其中,该原始声学特征可以为线性声谱图、Mel(梅尔)谱图或MFCC(Mel-scaleFrequency Cepstral Coefficients,梅尔倒谱系数)等中的至少一种声学特征。
(2)电子设备将该原始声学特征转换为向量格式,得到第二声学特征。
在本实现方式中,电子设备对第一样本音频信号进行特征提取,从而提取出第一样本音频信号中更有效的原始声学特征,将该原始声学特征转换成向量格式,得到第二声学特征,提高了模型训练的准确度,从而提高了敏感词分数检测的准确度。
需要说明的一点是,当该敏感词识别模型只包括分类网络时,电子设备可以将该第二声学特征作为第一声学特征,对该敏感词识别模型进行模型训练。当该敏感词识别模型还包括声学模型网络时,电子设备还可以通过该声学模型网络对该第二声学特征进行转换,得到第一样本音频信号的第一声学特征,根据该第一声学特征对该敏感词识别模型进行模型训练。
参见图7,该电子设备将该至少一个第一样本数据和至少一个第二样本数据输入到敏感词识别模型中时,敏感词识别模型确定当前是否为训练模式,当前为训练模式时,根据至少一个第一样本数据和至少一个第二样本数据中第一样本音频信号的第一声学特征和至少一个第二样本数据中包含的敏感词,对敏感词识别模型的模型参数进行调整,使敏感词识别模型可以根据第二样本数据中第一样本音频信号的第一声学特征,输出的第二样本数据中包括的敏感词的敏感词分数,且输出的敏感词的敏感词分数大于第三预设阈值;并且,敏感词识别模型根据第一样本数据中的第一样本音频信号的第一声学特征输出敏感词的敏感词分数均小于第四预设阈值。其中,该第三预设阈值和第四预设阈值可以根据需要进行设置并调整,在本公开实施例中,对该第三预设阈值和第四预设阈值不作具体限定。例如,该第三预设阈值可以为0.7、0.8或0.9等,第四预设阈值可以为0.2、0.15或0.1等。
当该至少一个第一样本数据和至少一个第二样本数据都通过该敏感词识别模型进行敏感词识别后,该敏感词识别模型完成模型训练。电子设备根据该至少一个第一样本数据和至少一个第二样本数据对该敏感词识别模型进行训练完成后,可以根据该敏感词识别模型对待检测的第二样本音频信号进行敏感词分数检测;电子设备还可以继续执行步骤303,通过第二样本音频信号对该电子设备进行强化训练。
步骤303:电子设备获取至少一个第二样本音频信号。
电子设备可以对当前训练的敏感词识别模型进行强化训练,该强化训练的过程可以使用没有标记标签的至少一个第二样本音频信号进行。
其中,该至少一个第二样本音频信号可以为音频数据库中,未被检测的音频信号。在本步骤中,电子设备可以通过数据接口从音频数据库中获取该待检测的至少一个第二样本音频信号。电子设备还可以接收音频数据库发送的多个第二音频数据信号。在本公开实施例中,对电子设备获取该至少一个第二样本音频信号的方式不作具体限定。
步骤304:电子设备通过当前训练的敏感词识别模型对该至少一个第二样本音频信号进行敏感词分数检测,得到该每个第二样本音频信号中词语声学特征的敏感词分数。
对于每个第二样本音频信号,电子设备对该第二样本音频信号进行特征提取,得到该第二样本音频信号的第一声学特征,根据该第二样本音频信号的第一声学特征确定该第二样本音频信号中各个词语声学特征的敏感词分数。
其中,电子设备对该第二样本音频信号进行特征提取,得到该第二样本音频信号的第一声学特征的过程可以通过以下步骤(A1)-(A2)实现,包括:
(A1)电子设备对该第二样本音频信号进行特征提取,得到该第二样本音频信号的第二声学特征。
该过程与步骤302中的步骤(1)-(2)相似,在此不再赘述。
(A2)电子设备通过该当前训练的敏感词识别模型中的声学模型网络对该第二声学特征进行转换,得到该第二样本音频信号的第一声学特征。
在本实现方式中,通过当前训练的敏感词识别模型对该第二样本音频信号的第二声学特征进行转换,得到第二样本音频信号的第一声学特征,使得获取到的第二样本音频信号的声学特征更加准确,从而提高了敏感词分数检测的准确性。
电子设备根据该第二样本音频信号的第一声学特征确定该第二样本音频信号中各个词语声学特征的敏感词分数的过程可以通过以下步骤(B1)-(B2)实现,包括:
(B1)电子设备通过当前训练的敏感词识别模型中的特征处理层对该第一声学特征进行解析处理,得到该至少一个词语声学特征。
电子设备将该第一声学特征输入至该当前训练的敏感词识别模型中,继续参见图7,当电子设备将第一声学特征输入到当前训练的敏感词识别模型中时,当前训练的敏感词识别模型确定当前是否为训练模式,当前不是训练模式时,对该第一声学特征进行敏感词分数检测。
其中,该词语声学特征为不同的词语对应的词语特征。在本步骤中,电子设备通过该分类网络中的Bi-RGU双向提取该第一声学特征中的词语特征,得到多个词语特征,分别根据该多个词语特征生成多个词语声学特征。
(B2)电子设备通过该当前训练的敏感词识别模型的敏感词分数确定层,确定该多个词语声学特征中每个词语声学特征为敏感词的概率值,将该每个词语声学特征为敏感词的概率值确定为该词语声学特征的敏感词分数。
在本步骤中,电子设备根据该分类网络的敏感词分数确定层,对该多个词语声学特征中每个词语声学特征进行打分。电子设备根据敏感词分数确定层中的注意力机制,确定每个词语声学特征为敏感词的概率值,将该概率值作为该词语声学特征的敏感词分数。
步骤305:电子设备将包含敏感词分数大于第一预设阈值的第二样本音频信号确定为第三样本数据。
在本步骤中,电子设备确定第二样本音频信号中,每个词语声学特征的敏感词分数,将包含大于第一预设阈值的词语声学特征的第二样本音频信号标记为第三样本数据,将该第三样本数据作为正样本数据,电子设备将该第二样本音频信号以及该第二样本音频信号中敏感词的分数组织成第三样本数据。
其中,该第一预设阈值可以根据需要进行设置并更改,在本公开实施例中,对该第一预设阈值的大小不作具体限定。例如,该第一预设阈值可以为0.8、0.85或0.9等。
步骤306:电子设备将包含的敏感词分数均小于第二预设阈值的第二样本音频信号确定为第四样本数据。
在本步骤中,电子设备确定第二样本音频信号中,每个词语声学特征的敏感词分数,将每个词语声学特征的敏感词分数均小于第二预设阈值的词语声学特征的第二样本音频信号标记为第四样本数据,将该第四样本数据作为负样本数据,电子设备将该第二样本音频信号以及该第二样本音频信号中敏感词的分数组织成第四样本数据。
其中,第二预设阈值小于第一预设阈值,该第二预设阈值值可以根据需要进行设置并更改,在本公开实施例中,对该第二预设阈值的大小不作具体限定。例如,第二预设阈值可以为0.3、0.2或0.1等
在本步骤中电子设备将根据至少一个第二样本音频信号得到第三样本数据和第四样本数据。通过对没有标注的至少一个第二样本音频信号进行标注,得到多个第三样本数据和第四样本数据,丰富了模型训练的样本数据,解决了仅使用真实样本数据造成的样本数据不足的问题,从而提高了模型训练的准确性。
步骤307:电子设备根据确定的第三样本数据和第四样本数据,训练该敏感词识别模型。
参见图8,电子设备获取到第三样本数据和第四样本数据后,根据该第三样本数据和第四样本数据继续对敏感词识别模型进行模型训练,直到该敏感词识别模型为稳定的模型。电子设备可以确定该敏感词识别模型的损失函数,当该损失函数的函数值小于第四预设阈值时,确定该敏感词识别模型为稳定的识别模型。
在本实现方式中,通过未标注的第二样本音频信号确定第三样本数据和第四样本数据,通过该第三样本数据和第四样本数据,使用半监督学习的方法对敏感词识别模型进行训练,丰富了模型训练的样本数据,解决了仅使用真实样本数据造成的样本数据不足的问题,从而提高了模型训练的准确性。
在本公开实施例中,通过至少一个第一样本数据和至少一个第二样本数据对敏感词识别模型进行模型训练,通过训练得到的敏感词识别模型对至少一个第二样本音频信号进行敏感词分数检测,根据多个第二样本音频信号的敏感词分数检测结果,从该多个第二样本音频信号中,选择第三样本数据和第四样本数据,根据该第三样本数据和第四样本数据继续对该敏感词识别模型进行强化训练,通过将使用第二样本音频信号对敏感词识别模型进行模型训练,丰富了模型训练的样本数据,解决了仅使用真实样本数据造成的样本数据不足的问题,并且,通过未标注的第二样本音频数据使敏感词识别模型进行强化学习,高了敏感词识别模型的准确性。
并且,当通过该敏感词识别模型对第一声学特征进行解析处理,得到至少一个词语声学特征时,可以提了提取词语声学特征的准确性,从而提高确定词语声学特征的对应的敏感词分数的准确性,因此,本方案提供的方法可以在简化敏感词检测步骤的同时提高敏感词检测的准确性。
图9是根据一示例性实施例提供的一种敏感词分数检测方法流程图,在本公开实施例中,以通过第一识别模型对待检测的音频信号进行识别为例进行说明,如图9所示,该敏感词分数检测方法包括以下步骤:
步骤901:电子设备获取待检测的音频信号。
本步骤与步骤303相似,在此不再赘述。
步骤902:电子设备对该音频信号进行特征提取,得到该音频信号的第二声学特征。
本步骤与步骤304中步骤(A1)相似,在此不再赘述。
该过程可以通过以下步骤(1)-(2)实现,包括:
(1)电子设备对该音频信号进行特征提取,得到该音频信号的原始声学特征。
本步骤与步骤302中步骤(1)相似,在此不再赘述。
(2)电子设备将该原始声学特征转换为向量格式,得到第二声学特征。
本步骤与步骤302中步骤(2)相似,在此不再赘述。
步骤903:电子设备通过该敏感词识别模型中的声学模型网络对该第二声学特征进行转换,得到第一声学特征。
本步骤与步骤304中步骤(A2)相似,在此不再赘述。
步骤904:电子设备通过该敏感词识别模型中的特征处理层对该第一声学特征进行解析处理,得到该至少一个词语声学特征。
本步骤与步骤304中步骤(B1)相似,在此不再赘述。
步骤905:电子设备通过敏感词识别模型中的敏感词分数确定层,确定该至少一个词语声学特征中每个词语声学特征的敏感词分数。
本步骤与步骤304中步骤(B2)相似,在此不再赘述。
在本公开实施例中,通过对待检测的音频信号进行特征提取,得到该音频信号的第一声学特征,通过敏感词识别模型中的特征处理层,对第一声学特征进行解析处理,得到至少一个词语声学特征,分别确定至少一个词语声学特征中每个词语声学特征的敏感词分数。通过对音频信号的进行特征提取,对提取到的第一声学特征进行敏感词分数检测,得到该音频信号的敏感词分数检测结果,以便根据该词语特征的敏感词分数确定该音频信号中的敏感词,完成敏感词检测,避免了将音频信号转换成文本数据进行敏感词检测,简化了敏感词检测的步骤,并且,通过敏感词识别模型对第一声学特征进行解析处理,得到至少一个词语声学特征,提高了提取词语声学特征的准确性,从而提高了确定词语声学特征的对应的敏感词分数的准确性,因此,本方案提供的方法可以在简化敏感词检测步骤的同时提高敏感词检测的准确性。
图10是根据一示例性实施例提供的一种敏感词分数检测装置的框图,如图10所示,该敏感词分数检测装置包括:
第一获取模块1001,用于获取待检测的音频信号;
特征提取模块1002,用于通过敏感词识别模型中的特征处理层,对该第一声学特征进行解析处理,得到该至少一个词语声学特征;
特征解析模块1003,用于对该第一声学特征进行解析处理,得到该第一声学特征包含的至少一个词语声学特征;
第一确定模块1004,用于确定该至少一个词语声学特征的敏感词分数,该词语声学特征的敏感词分数指示该词语声学特征对应的词语属于敏感词的概率值。
在另一种可能的实现方式中,该分数确定模块,还用于通过该敏感词识别模型中的敏感词分数确定层,确定每个词语声学特征的敏感词分数。
在另一种可能的实现方式中,该特征提取模块1002,还用于对该音频信号进行特征提取,得到该音频信号的原始声学特征;将该原始声学特征转换为向量格式,得到第二声学特征;通过该敏感词识别模型中的声学转换网络对该第二声学特征进行转换,得到该第一声学特征。
在另一种可能的实现方式中,该装置还包括:
第二获取模块,用于获取至少一个第一样本数据,以及获取至少一个第二样本数据,每个第一样本数据包括不包含敏感词的第一样本音频信号,每个第二样本数据包括包含敏感词的第一样本音频信号和该包含敏感词的第一样本音频信号中包含的敏感词;
第一训练模块,用于根据该至少一个第一样本数据和该至少一个第二样本数据,训练该敏感词识别模型。
在另一种可能的实现方式中,该第二获取模块,还用于获取多个敏感词;生成包含至少一个敏感词的至少一个正样本语句;将该至少一个正样本语句转换成音频信号,得到第一样本音频信号;将该至少一个正样本语句对应的第一样本音频信号和第一样本音频信号中包含的至少一个敏感词,确定为该至少一个第二样本数据。
在另一种可能的实现方式中,该装置还包括:
第三获取模块,用于获取至少一个第二样本音频信号;
分数检测模块,用于通过当前训练的该敏感词识别模型,对该至少一个第二样本音频信号进行敏感词分数检测,得到每个第二样本音频信号中词语的敏感词分数;
第二确定模块,用于将包含敏感词分数大于第一预设阈值的词语的第二样本音频信号确定为第三样本数据;
第三确定模块,用于将包含的词语的敏感词分数均小于第二预设阈值的第二样本音频信号确定为第四样本数据;
第二训练模块,用于根据确定的第三样本数据和第四样本数据,训练该敏感词识别模型。
在本公开实施例中,通过对待检测的音频信号进行特征提取,得到该音频信号的第一声学特征,通过敏感词识别模型中的特征处理层,对第一声学特征进行解析处理,得到至少一个词语声学特征,分别确定至少一个词语声学特征中每个词语声学特征的敏感词分数。通过对音频信号的进行特征提取,对提取到的第一声学特征进行敏感词分数检测,得到该音频信号的敏感词分数检测结果,以便根据该词语特征的敏感词分数确定该音频信号中的敏感词,完成敏感词检测,避免了将音频信号转换成文本数据进行敏感词检测,简化了敏感词检测的步骤,并且,通过敏感词识别模型对第一声学特征进行解析处理,得到至少一个词语声学特征,提高了提取词语声学特征的准确性,从而提高了确定词语声学特征的对应的敏感词分数的准确性,因此,本方案提供的方法可以在简化敏感词检测步骤的同时提高敏感词检测的准确性。
需要说明的是:上述实施例提供的敏感词分数检测装置在敏感词分数检测时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将终端的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的敏感词分数检测装置与敏感词分数检测方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图11示出了本公开一个示例性实施例提供的终端1100的结构框图。该终端1100可以是:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio LayerIII,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group AudioLayer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1100还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端1100包括有:处理器1101和存储器1102。
处理器1101可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1101可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1101可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1101还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1102可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1102还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1102中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1101所执行以实现本公开中方法实施例提供的敏感词分数检测方法。
在一些实施例中,终端1100还可选包括有:外围设备接口1103和至少一个外围设备。处理器1101、存储器1102和外围设备接口1103之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1103相连。具体地,外围设备包括:射频电路1104、触摸显示屏1105、摄像头1106摄像头组件1106、音频电路1107、定位组件1108和电源1109中的至少一种。
外围设备接口1103可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1101和存储器1102。在一些实施例中,处理器1101、存储器1102和外围设备接口1103被集成在同一芯片或电路板上;在一些其他实施例中,处理器1101、存储器1102和外围设备接口1103中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1104用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1104将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1104包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1104可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1104还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本公开对此不加以限定。
显示屏1105用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1105是触摸显示屏时,显示屏1105还具有采集在显示屏1105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1101进行处理。此时,显示屏1105还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1105可以为一个,设置终端1100的前面板;在另一些实施例中,显示屏1105可以为至少两个,分别设置在终端1100的不同表面或呈折叠设计;在再一些实施例中,显示屏1105可以是柔性显示屏,设置在终端1100的弯曲表面上或折叠面上。甚至,显示屏1105还可以设置成非矩形的不规则图形,也即异形屏。显示屏1105可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件1106用于采集图像或视频。可选地,摄像头组件1106包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1106还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1107可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1101进行处理,或者输入至射频电路1104以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1101或射频电路1104的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1107还可以包括耳机插孔。
定位组件1108用于定位终端1100的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件1108可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或俄罗斯欧盟的伽利略系统的定位组件。
电源1109用于为终端1100中的各个组件进行供电。电源1109可以是交流电、直流电、一次性电池或可充电电池。当电源1109包括可充电电池时,该可充电电池可以是支持有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端1100还包括有一个或多个传感器1110。该一个或多个传感器1110包括但不限于:加速度传感器1111、陀螺仪传感器1112、压力传感器1113、指纹传感器1114、光学传感器1115以及接近传感器1116。
加速度传感器1111可以检测以终端1100建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1111可以用于检测重力加速度在三个坐标轴上的分量。处理器1101可以根据加速度传感器1111采集的重力加速度信号,控制触摸显示屏1105以横向视图或纵向视图进行用户界面的显示。加速度传感器1111还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1112可以检测终端1100的机体方向及转动角度,陀螺仪传感器1112可以与加速度传感器1111协同采集用户对终端1100的3D动作。处理器1101根据陀螺仪传感器1112采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1113可以设置在终端1100的侧边框和/或触摸显示屏1105的下层。当压力传感器1113设置在终端1100的侧边框时,可以检测用户对终端1100的握持信号,由处理器1101根据压力传感器1113采集的握持信号进行左右手识别或快捷操作。当压力传感器1113设置在触摸显示屏1105的下层时,由处理器1101根据用户对触摸显示屏1105的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器1114用于采集用户的指纹,由处理器1101根据指纹传感器1114采集到的指纹识别用户的身份,或者,由指纹传感器1114根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1101授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1114可以被设置终端1100的正面、背面或侧面。当终端1100上设置有物理按键或厂商Logo时,指纹传感器1114可以与物理按键或厂商Logo集成在一起。
光学传感器1115用于采集环境光强度。在一个实施例中,处理器1101可以根据光学传感器1115采集的环境光强度,控制触摸显示屏1105的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏1105的显示亮度;当环境光强度较低时,调低触摸显示屏1105的显示亮度。在另一个实施例中,处理器1101还可以根据光学传感器1115采集的环境光强度,动态调整摄像头组件1106的拍摄参数。
接近传感器1116,也称距离传感器,通常设置在终端1100的前面板。接近传感器1116用于采集用户与终端1100的正面之间的距离。在一个实施例中,当接近传感器1116检测到用户与终端1100的正面之间的距离逐渐变小时,由处理器1101控制触摸显示屏1105从亮屏状态切换为息屏状态;当接近传感器1116检测到用户与终端1100的正面之间的距离逐渐变大时,由处理器1101控制触摸显示屏1105从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图11中示出的结构并不构成对终端1100的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图12是本公开实施例提供的一种基站的结构示意图,该服务器1200可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central ProcessingUnits,CPU)1201和一个或一个以上的存储器1202,其中,该存储器1202中存储有至少一条指令,该至少一条指令由该处理器1201加载并执行以实现上述各个方法实施例提供的敏感词分数检测方法。当然,该服务器1200还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器1200还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,计算机可读存储介质中存储至少一条指令,至少一条指令由服务器加载并执行,以实现上述实施例中资源转移方法。该计算机可读存储介质可以是存储器。例如,该计算机可读存储介质可以是ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory,紧凑型光盘只读储存器)、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上内容仅为本公开的可选实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种敏感词分数检测方法,其特征在于,所述方法包括:
获取待检测的音频信号;
对所述音频信号进行特征提取,得到所述音频信号的第一声学特征;
通过敏感词识别模型中的特征处理层,对所述第一声学特征进行解析处理,得到所述至少一个词语声学特征;
确定所述至少一个词语声学特征的敏感词分数,所述词语声学特征的敏感词分数指示所述词语声学特征对应的词语属于敏感词的概率值。
2.根据权利要求1所述的方法,其特征在于,所述确定所述至少一个词语声学特征的敏感词分数,包括:
通过所述敏感词识别模型中的敏感词分数确定层,确定每个词语声学特征的敏感词分数。
3.根据权利要求1所述的方法,其特征在于,所述对所述音频信号进行特征提取,得到所述音频信号的第一声学特征,包括:
对所述音频信号进行特征提取,得到所述音频信号的原始声学特征;
将所述原始声学特征转换为向量格式,得到第二声学特征;
通过所述敏感词识别模型中的声学转换网络对所述第二声学特征进行转换,得到所述第一声学特征。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取至少一个第一样本数据,以及获取至少一个第二样本数据,每个第一样本数据包括不包含敏感词的第一样本音频信号,每个第二样本数据包括包含敏感词的第一样本音频信号和所述包含敏感词的第一样本音频信号中包含的敏感词;
根据所述至少一个第一样本数据和所述至少一个第二样本数据,训练所述敏感词识别模型。
5.根据权利要求4所述的方法,其特征在于,所述获取至少一个第二样本数据,包括:
获取多个敏感词;
生成包含至少一个敏感词的至少一个正样本语句;
将所述至少一个正样本语句转换成音频信号,得到第一样本音频信号;
将所述至少一个正样本语句对应的第一样本音频信号和第一样本音频信号中包含的至少一个敏感词,确定为所述至少一个第二样本数据。
6.根据权利要求4所述的方法,其特征在于,所述根据所述至少一个第一样本数据,训练所述敏感词识别模型之后,所述方法还包括:
获取至少一个第二样本音频信号;
通过当前训练的所述敏感词识别模型,对所述至少一个第二样本音频信号进行敏感词分数检测,得到每个第二样本音频信号中词语的敏感词分数;
将包含敏感词分数大于第一预设阈值的词语的第二样本音频信号确定为第三样本数据;
将包含的词语的敏感词分数均小于第二预设阈值的第二样本音频信号确定为第四样本数据;
根据确定的第三样本数据和第四样本数据,训练所述敏感词识别模型。
7.一种敏感词分数检测装置,其特征在于,所述装置包括:
第一获取模块,用于获取待检测的音频信号;
特征提取模块,用于通过敏感词识别模型中的特征处理层,对所述第一声学特征进行解析处理,得到所述至少一个词语声学特征;
特征解析模块,用于对所述第一声学特征进行解析处理,得到所述第一声学特征包含的至少一个词语声学特征;
第一确定模块,用于确定所述至少一个词语声学特征的敏感词分数,所述词语声学特征的敏感词分数指示所述词语声学特征对应的词语属于敏感词的概率值。
8.根据权利要求7所述的装置,其特征在于,所述分数确定模块,还用于通过所述敏感词识别模型中的敏感词分数确定层,确定每个词语声学特征的敏感词分数。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储至少一条指令,所述至少一条指令由所述处理器加载并执行,以实现如权利要求1至6任一项所述的敏感词分数检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储至少一条指令,所述至少一条指令由处理器加载并执行,以实现如权利要求1至6任一项所述的敏感词分数检测方法。
CN201911329327.2A 2019-12-20 2019-12-20 敏感词分数检测方法、装置、电子设备及存储介质 Active CN111105788B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911329327.2A CN111105788B (zh) 2019-12-20 2019-12-20 敏感词分数检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911329327.2A CN111105788B (zh) 2019-12-20 2019-12-20 敏感词分数检测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111105788A true CN111105788A (zh) 2020-05-05
CN111105788B CN111105788B (zh) 2023-03-24

Family

ID=70422854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911329327.2A Active CN111105788B (zh) 2019-12-20 2019-12-20 敏感词分数检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111105788B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112885371A (zh) * 2021-01-13 2021-06-01 北京爱数智慧科技有限公司 音频脱敏的方法、装置、电子设备以及可读存储介质
CN113674768A (zh) * 2021-04-02 2021-11-19 深圳市微纳感知计算技术有限公司 基于声学的呼救检测方法、装置、设备及存储介质
CN115148220A (zh) * 2021-03-31 2022-10-04 广东高云半导体科技股份有限公司 一种音频检测系统及音频检测方法
CN116825088A (zh) * 2023-08-25 2023-09-29 深圳市国硕宏电子有限公司 一种基于深度学习的会议语音检测方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105006230A (zh) * 2015-06-10 2015-10-28 合肥工业大学 一种面向非特定人的语音敏感信息检测和过滤方法
CN106373564A (zh) * 2015-07-22 2017-02-01 谷歌公司 个性化热词检测模型
CN107944442A (zh) * 2017-11-09 2018-04-20 北京智芯原动科技有限公司 基于改进卷积神经网络的对象检测装置及方法
CN108538285A (zh) * 2018-03-05 2018-09-14 清华大学 一种基于多任务神经网络的多样例关键词检测方法
CN109448719A (zh) * 2018-12-11 2019-03-08 网易(杭州)网络有限公司 神经网络模型建立方法及语音唤醒方法、装置、介质和设备
CN110322871A (zh) * 2019-05-30 2019-10-11 清华大学 一种基于声学表征矢量的样例关键词检索方法
US10453447B2 (en) * 2017-11-28 2019-10-22 International Business Machines Corporation Filtering data in an audio stream

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105006230A (zh) * 2015-06-10 2015-10-28 合肥工业大学 一种面向非特定人的语音敏感信息检测和过滤方法
CN106373564A (zh) * 2015-07-22 2017-02-01 谷歌公司 个性化热词检测模型
CN107944442A (zh) * 2017-11-09 2018-04-20 北京智芯原动科技有限公司 基于改进卷积神经网络的对象检测装置及方法
US10453447B2 (en) * 2017-11-28 2019-10-22 International Business Machines Corporation Filtering data in an audio stream
CN108538285A (zh) * 2018-03-05 2018-09-14 清华大学 一种基于多任务神经网络的多样例关键词检测方法
CN109448719A (zh) * 2018-12-11 2019-03-08 网易(杭州)网络有限公司 神经网络模型建立方法及语音唤醒方法、装置、介质和设备
CN110322871A (zh) * 2019-05-30 2019-10-11 清华大学 一种基于声学表征矢量的样例关键词检索方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112885371A (zh) * 2021-01-13 2021-06-01 北京爱数智慧科技有限公司 音频脱敏的方法、装置、电子设备以及可读存储介质
CN115148220A (zh) * 2021-03-31 2022-10-04 广东高云半导体科技股份有限公司 一种音频检测系统及音频检测方法
CN113674768A (zh) * 2021-04-02 2021-11-19 深圳市微纳感知计算技术有限公司 基于声学的呼救检测方法、装置、设备及存储介质
CN116825088A (zh) * 2023-08-25 2023-09-29 深圳市国硕宏电子有限公司 一种基于深度学习的会议语音检测方法及系统
CN116825088B (zh) * 2023-08-25 2023-11-07 深圳市国硕宏电子有限公司 一种基于深度学习的会议语音检测方法及系统

Also Published As

Publication number Publication date
CN111105788B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
CN111105788B (zh) 敏感词分数检测方法、装置、电子设备及存储介质
CN111564152B (zh) 语音转换方法、装置、电子设备及存储介质
CN110322760B (zh) 语音数据生成方法、装置、终端及存储介质
CN110556127B (zh) 语音识别结果的检测方法、装置、设备及介质
CN112116904B (zh) 语音转换方法、装置、设备及存储介质
CN110600040B (zh) 声纹特征注册方法、装置、计算机设备及存储介质
CN111524501A (zh) 语音播放方法、装置、计算机设备及计算机可读存储介质
CN110992927A (zh) 音频生成方法、装置、计算机可读存储介质及计算设备
CN111370025A (zh) 音频识别方法、装置及计算机存储介质
CN114299933A (zh) 语音识别模型训练方法、装置、设备、存储介质及产品
CN113918767A (zh) 视频片段定位方法、装置、设备及存储介质
CN111223475B (zh) 语音数据生成方法、装置、电子设备及存储介质
CN113220590A (zh) 语音交互应用的自动化测试方法、装置、设备及介质
CN111081277B (zh) 音频测评的方法、装置、设备及存储介质
CN110337030B (zh) 视频播放方法、装置、终端和计算机可读存储介质
CN109829067B (zh) 音频数据处理方法、装置、电子设备及存储介质
CN113409770A (zh) 发音特征处理方法、装置、服务器及介质
CN115206305B (zh) 语义文本的生成方法、装置、电子设备及存储介质
CN113744736B (zh) 命令词识别方法、装置、电子设备及存储介质
CN114360494A (zh) 韵律标注方法、装置、计算机设备及存储介质
CN112116908B (zh) 唤醒音频确定方法、装置、设备及存储介质
CN111028846B (zh) 免唤醒词注册的方法和装置
CN111125424A (zh) 提取歌曲核心歌词的方法、装置、设备及存储介质
CN113362836B (zh) 训练声码器方法、终端及存储介质
CN113593521B (zh) 语音合成方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant