CN112634903B - 业务语音的质检方法、装置、设备及存储介质 - Google Patents

业务语音的质检方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112634903B
CN112634903B CN202011476012.3A CN202011476012A CN112634903B CN 112634903 B CN112634903 B CN 112634903B CN 202011476012 A CN202011476012 A CN 202011476012A CN 112634903 B CN112634903 B CN 112634903B
Authority
CN
China
Prior art keywords
voice data
text
detected
service
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011476012.3A
Other languages
English (en)
Other versions
CN112634903A (zh
Inventor
石英伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011476012.3A priority Critical patent/CN112634903B/zh
Publication of CN112634903A publication Critical patent/CN112634903A/zh
Priority to PCT/CN2021/090410 priority patent/WO2022126969A1/zh
Application granted granted Critical
Publication of CN112634903B publication Critical patent/CN112634903B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明涉及人工智能领域,公开了业务语音的质检方法、装置、设备及存储介质,用于提高对业务语音进行质检的准确率和质检效率。业务语音的质检方法包括:根据业务语音数据与预置声明编码数据之间的基础相似度筛选待检测声明语音编码数据;生成待检测声明文本的多个待检测声明句向量;根据待检测声明句向量确定目标待纠错文本;对目标待纠错文本进行纠错并筛查预置关键词,若存在预置关键词,则判定业务语音数据存在声明类风险语音数据;通过意图识别算法生成业务语音数据对应的业务识别意图,若业务识别意图中存在预置风险意图,则判定业务语音数据存在语义类风险语音数据。本发明还涉及区块链技术,业务语音数据可存储于区块链中。

Description

业务语音的质检方法、装置、设备及存储介质
技术领域
本发明涉及人工智能中的语音语义领域,尤其涉及一种业务语音的质检方法、装置、设备及存储介质。
背景技术
电话业务语音质检主要是用于检查电话业务人员在沟通过程中是否存在诱导、辱骂客户以及规避免责声明等现象,避免沟通过程中因不规范的语音行为导致客户投诉或法律风险。现有对电话业务语音质检的质检方式主要是对电话语音进行监听,判断监听内容中是否存在违规(风险)语音,若存在违规语音则说明该电话业务语音违规。
但是在利用这种质检方式对电话业务语音进行质检时,需要进行质检的业务语音繁多冗杂,导致对业务语音进行质检的准确率以及质检效率低下。
发明内容
本发明提供了一种业务语音的质检方法、装置、设备及存储介质,用于提高对业务语音进行质检的准确率以及质检效率。
本发明第一方面提供了一种业务语音的质检方法,包括:获取业务语音数据,并利用编码器对所述业务语音数据进行编码,得到编码语音数据,计算所述编码语音数据与预置声明编码数据之间的基础相似度,根据所述基础相似度的数值在所述编码语音数据中筛选待检测声明语音编码数据;基于语音识别算法将所述待检测声明语音编码数据转化为待检测声明文本,利用bert网络模型生成所述待检测声明文本的多个待检测声明句向量;计算每个待检测声明句向量与标准声明句向量之间的基础相似概率值,将基础相似概率大于标准阈值所对应的待检测声明文本确定为目标待纠错文本;利用模糊匹配算法对所述目标待纠错文本进行纠错,得到待判定文本,在所述待判定文本中筛查预置关键词,若所述待判定文本中存在所述预置关键词,则判定所述业务语音数据存在声明类风险语音数据;通过意图识别算法生成所述业务语音数据对应的业务识别意图,判断所述业务识别意图中是否存在预置风险意图,若所述业务识别意图中存在预置风险意图,则判定所述业务语音数据存在语义类风险语音数据。
可选的,在本发明第一方面的第一种实现方式中,所述获取业务语音数据,并利用编码器对所述业务语音数据进行编码,得到编码语音数据,计算所述编码语音数据与预置声明编码数据之间的基础相似度,根据所述基础相似度的数值在所述编码语音数据中筛选待检测声明语音编码数据包括:获取业务语音数据,利用奈奎斯特采样算法对所述业务语音数据进行采样,得到业务语音波形;对所述业务语音波形进行量化处理,得到量化语音数据,将所述量化语音数据转化为数字脉冲,生成编码语音数据;利用相似度算法计算所述编码语音数据与预置声明编码数据之间的相似度数值,得到基础相似度;将数值最大的基础相似度所对应的编码语音数据确定为待检测声明语音编码数据。
可选的,在本发明第一方面的第二种实现方式中,所述基于语音识别算法将所述待检测声明语音编码数据转化为待检测声明文本,利用bert网络模型生成所述待检测声明文本的多个待检测声明句向量包括:基于语音识别算法获取所述待检测声明语音编码数据对应的待检测业务语音数据,提取所述对应的待检测业务语音数据中的语音特征,根据所述语音特征匹配得到待检测声明文本;利用bert网络模型生成所述待检测声明文本的多个待检测声明句向量。
可选的,在本发明第一方面的第三种实现方式中,所述基于语音识别算法获取所述待检测声明语音编码数据对应的待检测业务语音数据,提取所述对应的待检测业务语音数据中的语音特征,根据所述语音特征匹配得到待检测声明文本包括:基于语音识别算法获取所述待检测声明语音编码数据对应的待检测业务语音数据,提取所述对应的待检测业务语音数据中的语音特征;将所述语音特征转化为音素信息,其中,所述音素信息用于指示构成音节的最小语音单位;在预置字典中匹配与所述音素信息相同的文字信息,得到待检测声明文本。
可选的,在本发明第一方面的第四种实现方式中,所述利用bert网络模型生成所述待检测声明文本的多个待检测声明句向量包括:获取所述待检测声明文本的多个语句序列,在每个语句序列的初始位置添加预置标记字符,得到多个第一标记序列;在相邻两个第一标记序列之间添加预置间隔字符,得到多个第二标记序列;利用bert网络模型对所述多个第二标记序列进行训练,生成多个待检测声明句向量。
可选的,在本发明第一方面的第五种实现方式中,所述利用模糊匹配算法对所述目标待纠错文本进行纠错,得到待判定文本,在所述待判定文本中筛查预置关键词,若所述待判定文本中存在所述预置关键词,则判定所述业务语音数据存在声明类风险语音数据包括:利用模糊匹配算法将所述目标待纠错文本转化为待纠错拼音语句,在所述待纠错拼音语句中筛选出目标音标,并将所述目标音标转化为相似音标,生成转化拼音语句,其中,所述目标音标包括具有易混淆的韵母和/或声母;在所述转化拼音语句中提取出所述相似音标对应的纠错文本,计算所述纠错文本与预置字典中标准文本之间的匹配值,得到多个基础匹配值;当目标匹配值大于纠错阈值时,将所述目标匹配值对应的纠错文本替换为对应的标准文本,得到待判定文本;在所述待判定文本中进行预置关键词筛查,若所述待判定文本中存在预置关键词,则判定所述业务语音数据存在声明类风险语音数据。
可选的,在本发明第一方面的第六种实现方式中,所述通过意图识别算法生成所述业务语音数据对应的业务识别意图,判断所述业务识别意图中是否存在预置风险意图,若所述业务识别意图中存在预置风险意图,则判定所述业务语音数据存在语义类风险语音数据包括:将所述业务语音数据输入至语言模型中,对所述业务语音数据作字嵌入处理,生成业务字向量,并对所述业务字向量按照语句长度进行降序处理,得到待识别字向量;通过意图识别算法中的双向长短期记忆网络对所述待识别字向量进行特征提取,生成对应的特征值;对所述待识别字向量的长度进行赋值,并将赋值后的长度与所述特征值进行加权求和,得到特征权重参数,将所述特征权重参数与所述待识别字向量相乘,得到识别文本向量;在预置意图列表中查询所述识别文本向量对应的基础意图,并将所述基础意图确定为所述待识别字向量的业务识别意图,判断所述业务识别意图中是否存在预置风险意图;若所述业务识别意图中存在预置风险意图,则判定所述业务语音数据存在语义类风险语音数据。
本发明第二方面提供了一种业务语音的质检装置,包括:筛选模块,用于获取业务语音数据,并利用编码器对所述业务语音数据进行编码,得到编码语音数据,计算所述编码语音数据与预置声明编码数据之间的基础相似度,根据所述基础相似度的数值在所述编码语音数据中筛选待检测声明语音编码数据;转化模块,用于基于语音识别算法将所述待检测声明语音编码数据转化为待检测声明文本,利用bert网络模型生成所述待检测声明文本的多个待检测声明句向量;确定模块,用于计算每个待检测声明句向量与标准声明句向量之间的基础相似概率值,将基础相似概率大于标准阈值所对应的待检测声明文本确定为目标待纠错文本;第一判定模块,用于利用模糊匹配算法对所述目标待纠错文本进行纠错,得到待判定文本,在所述待判定文本中筛查预置关键词,若所述待判定文本中存在所述预置关键词,则判定所述业务语音数据存在声明类风险语音数据;第二判定模块,用于通过意图识别算法生成所述业务语音数据对应的业务识别意图,判断所述业务识别意图中是否存在预置风险意图,若所述业务识别意图中存在预置风险意图,则判定所述业务语音数据存在语义类风险语音数据。
可选的,在本发明第二方面的第一种实现方式中,所述筛选模块具体用于:获取业务语音数据,利用奈奎斯特采样算法对所述业务语音数据进行采样,得到业务语音波形;对所述业务语音波形进行量化处理,得到量化语音数据,将所述量化语音数据转化为数字脉冲,生成编码语音数据;利用相似度算法计算所述编码语音数据与预置声明编码数据之间的相似度数值,得到基础相似度;将数值最大的基础相似度所对应的编码语音数据确定为待检测声明语音编码数据。
可选的,在本发明第二方面的第二种实现方式中,所述转化模块包括:匹配单元,用于基于语音识别算法获取所述待检测声明语音编码数据对应的待检测业务语音数据,提取所述对应的待检测业务语音数据中的语音特征,根据所述语音特征匹配得到待检测声明文本;生成单元,用于利用bert网络模型生成所述待检测声明文本的多个待检测声明句向量。
可选的,在本发明第二方面的第三种实现方式中,所述匹配单元具体用于:基于语音识别算法获取所述待检测声明语音编码数据对应的待检测业务语音数据,提取所述对应的待检测业务语音数据中的语音特征;将所述语音特征转化为音素信息,其中,所述音素信息用于指示构成音节的最小语音单位;在预置字典中匹配与所述音素信息相同的文字信息,得到待检测声明文本。
可选的,在本发明第二方面的第四种实现方式中,所述生成单元具体用于:获取所述待检测声明文本的多个语句序列,在每个语句序列的初始位置添加预置标记字符,得到多个第一标记序列;在相邻两个第一标记序列之间添加预置间隔字符,得到多个第二标记序列;利用bert网络模型对所述多个第二标记序列进行训练,生成多个待检测声明句向量。
可选的,在本发明第二方面的第五种实现方式中,所述第一判定模块具体用于:利用模糊匹配算法将所述目标待纠错文本转化为待纠错拼音语句,在所述待纠错拼音语句中筛选出目标音标,并将所述目标音标转化为相似音标,生成转化拼音语句,其中,所述目标音标包括具有易混淆的韵母和/或声母;在所述转化拼音语句中提取出所述相似音标对应的纠错文本,计算所述纠错文本与预置字典中标准文本之间的匹配值,得到多个基础匹配值;当目标匹配值大于纠错阈值时,将所述目标匹配值对应的纠错文本替换为对应的标准文本,得到待判定文本;在所述待判定文本中进行预置关键词筛查,若所述待判定文本中存在预置关键词,则判定所述业务语音数据存在声明类风险语音数据。
可选的,在本发明第二方面的第六种实现方式中,所述第二判定模块具体用于:将所述业务语音数据输入至语言模型中,对所述业务语音数据作字嵌入处理,生成业务字向量,并对所述业务字向量按照语句长度进行降序处理,得到待识别字向量;通过意图识别算法中的双向长短期记忆网络对所述待识别字向量进行特征提取,生成对应的特征值;对所述待识别字向量的长度进行赋值,并将赋值后的长度与所述特征值进行加权求和,得到特征权重参数,将所述特征权重参数与所述待识别字向量相乘,得到识别文本向量;在预置意图列表中查询所述识别文本向量对应的基础意图,并将所述基础意图确定为所述待识别字向量的业务识别意图,判断所述业务识别意图中是否存在预置风险意图;若所述业务识别意图中存在预置风险意图,则判定所述业务语音数据存在语义类风险语音数据。
本发明第三方面提供了一种业务语音的质检设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述业务语音的质检设备执行上述的业务语音的质检方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的业务语音的质检方法。
本发明提供的技术方案中,获取业务语音数据,并利用编码器对所述业务语音数据进行编码,得到编码语音数据,计算所述编码语音数据与预置声明编码数据之间的基础相似度,根据所述基础相似度的数值在所述编码语音数据中筛选待检测声明语音编码数据;基于语音识别算法将所述待检测声明语音编码数据转化为待检测声明文本,利用bert网络模型生成所述待检测声明文本的多个待检测声明句向量;计算每个待检测声明句向量与标准声明句向量之间的基础相似概率值,将基础相似概率大于标准阈值所对应的待检测声明文本确定为目标待纠错文本;利用模糊匹配算法对所述目标待纠错文本进行纠错,得到待判定文本,在所述待判定文本中筛查预置关键词,若所述待判定文本中存在所述预置关键词,则判定所述业务语音数据存在声明类风险语音数据;通过意图识别算法生成所述业务语音数据对应的业务识别意图,判断所述业务识别意图中是否存在预置风险意图,若所述业务识别意图中存在预置风险意图,则判定所述业务语音数据存在语义类风险语音数据。本发明实施例中,通过对业务语音数据进行编码后筛选出待检测声明语音编码数据,利用语音识别算法与bert网络模型生成待检测声明语音编码数据对应的待检测声明句向量,利用模糊匹配算法对待检测声明句向量进行文本纠错,并对纠错后的文本进行声明风险判定,然后通过意图识别算法生成业务语音数据对应的业务识别意图,对业务识别意图进行语义风险判定,最终得到对业务语音数据的质检结果,提高了对业务语音进行质检的准确率以及质检效率。
附图说明
图1为本发明实施例中业务语音的质检方法的一个实施例示意图;
图2为本发明实施例中业务语音的质检方法的另一个实施例示意图;
图3为本发明实施例中业务语音的质检装置的一个实施例示意图;
图4为本发明实施例中业务语音的质检装置的另一个实施例示意图;
图5为本发明实施例中业务语音的质检设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种业务语音的质检方法、装置、设备及存储介质,用于提高对业务语音进行质检的准确率以及质检效率。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中业务语音的质检方法的一个实施例包括:
101、获取业务语音数据,并利用编码器对业务语音数据进行编码,得到编码语音数据,计算编码语音数据与预置声明编码数据之间的基础相似度,根据基础相似度的数值在编码语音数据中筛选待检测声明语音编码数据;
可以理解的是,本发明的执行主体可以为业务语音的质检装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
电话业务语音质检的主要质检内容分为声明类业务语音质检和语义类业务语音质检,声明类业务语音质检对应的质检点可以为:用户在签约或同意某项协议时,需要明确协议对应的条款项、对应的费用和后续操作方案等,声明类业务语音的质检点通常存在经过法律合规部门确认过后的标准的话术和关键词,业务语音数据中需要存在相应的标准话术和关键词,才能证明该业务语音数据不为声明类风险语音数据。
语义类业务语音质检对应的质检点没有标准话术,可以存在多种语言表达方式,例如:引导教唆用户填写虚假信息、误导用户明确错误的流程或谎报错误身份信息等。在业务语音数据中存在了该种意图的语音,即证明业务语音数据为语义类风险语音数据。
在对业务语音数据进行处理时,首先需要利用编码器对业务语音数据进行编码,得到编码语音数据,这个过程即将业务语音数据转化为数字编码的过程,使得计算机可以直接对编码语音数据进行处理,然后服务器极端编码语音数据与预置声明编码数据之间的基础相似度,这里利用到的是相似度算法,预置声明编码数据指的是需要明确协议对应的条款项、对应的费用和后续操作方案等对应的语音数据的编码数据,两者之间的基础相似度的数值越高,则说明两者相似,也就是证明业务语音数据中存在需要明确协议对应的条款项、对应的费用和后续操作方案等。
需要强调的是,为进一步保证上述业务语音数据的私密和安全性,上述业务语音数据还可以存储于一区块链的节点中。
102、基于语音识别算法将待检测声明语音编码数据转化为待检测声明文本,利用bert网络模型生成待检测声明文本的多个待检测声明句向量;
这里服务器利用语音识别算法将待检测声明语音编码数据转化为待检测声明文本,即将语音数据转化为文本数据,可以对待检测声明文本进行进一步的检测。语音识别算法为本技术领域中的惯用技术手段,故在此并不赘述。这里得到待检测声明文本之后,服务器利用bert网络模型生成待检测声明文本的多个待检测声明句向量,BERT(BidirectionalEncoder Representations from Transformers)是一种预训练语言表示的方法,可以作为Word2Vec的替代者,在进行预训练的过程中,可以将文本文字转化为对应的句向量,因此,在本技术方案中,利用bert网络模型生成待检测声明文本的多个待检测声明句向量。
103、计算每个待检测声明句向量与标准声明句向量之间的基础相似概率值,将基础相似概率大于标准阈值所对应的待检测声明文本确定为目标待纠错文本;
服务器需要进一步计算每个待检测声明句向量与标准声明句向量之间的基础相似概率值,将基础相似概率大于标准阈值所对应的待检测声明文本确定为目标待纠错文本,由于由语音转化为文本的过程中存在一定的误差,转化后的文本中可能存在语法错误或字词错误,例如:将“同意”转写成“朋友”,将“利息”转写成“李西”等。转写的错误会影响模型的准确率,因此需要服务器进一步确定待检测声明文本中哪些文本数据为需要进行下一步操作的文本,得到目标待纠错文本。
104、利用模糊匹配算法对目标待纠错文本进行纠错,得到待判定文本,在待判定文本中筛查预置关键词,若待判定文本中存在预置关键词,则判定业务语音数据存在声明类风险语音数据;
服务器在确定目标待纠错文本之后,即可以利用模糊匹配算法对目标待纠错文本进行纠错,模糊匹配算法的原理是将目标待纠错文本转化为与其对应的拼音,将具有易混淆音标的目标音标转化为相似音标,这样就可以得到多种与目标待纠错文本近音的语句,得到识别出语句的多种可能性,再从这些可能性的语句中选择一个最标准的语句(与预置字典中的标准文本进行匹配),即会得到纠正后的待判定文本。
服务器在得到纠正后的待判定文本之后,直接在待判定文本中进行预置关键词的筛查,若待判定文本中存在预置关键词,则判定业务语音数据存在声明类风险语音数据。
105、通过意图识别算法生成业务语音数据对应的业务识别意图,判断业务识别意图中是否存在预置风险意图,若业务识别意图中存在预置风险意图,则判定业务语音数据存在语义类风险语音数据。
服务器在对业务语音数据进行语义类质检时,需要通过意图识别算法生成业务语音数据对应的业务识别意图,进而判断业务识别意图中是否存在预置风险意图,若业务识别意图中存在预置风险意图,则说明将业务语音数据中存在风险语音数据,则直接判定业务语音数据存在语义类风险语音数据。
本发明实施例中,通过对业务语音数据进行编码后筛选出待检测声明语音编码数据,利用语音识别算法与bert网络模型生成待检测声明语音编码数据对应的待检测声明句向量,利用模糊匹配算法对待检测声明句向量进行文本纠错,并对纠错后的文本进行声明风险判定,然后通过意图识别算法生成业务语音数据对应的业务识别意图,对业务识别意图进行语义风险判定,最终得到对业务语音数据的质检结果,提高了对业务语音进行质检的准确率以及质检效率。
请参阅图2,本发明实施例中业务语音的质检方法的另一个实施例包括:
201、获取业务语音数据,并利用编码器对业务语音数据进行编码,得到编码语音数据,计算编码语音数据与预置声明编码数据之间的基础相似度,根据基础相似度的数值在编码语音数据中筛选待检测声明语音编码数据;
具体的,服务器首先获取业务语音数据,利用奈奎斯特采样算法对业务语音数据进行采样,得到业务语音波形;其次服务器对业务语音波形进行量化处理,得到量化语音数据,将量化语音数据转化为数字脉冲,生成编码语音数据;然后服务器利用相似度算法计算编码语音数据与预置声明编码数据之间的相似度数值,得到基础相似度;最后服务器将数值最大的基础相似度所对应的编码语音数据确定为待检测声明语音编码数据。
这里首先对业务语音数据进行采样,采样即为从一个时间上连续变化的模拟信号中取出若干个有代表性的样本值,来代表这个连续变化的模拟信号,按照奈奎斯特采样定理:要从采样值序列中完全恢复成原始波形,采样频率必须大于原始信号最高频率的2倍,只有当采样频率大于两倍的信号最高频率,才能避免混叠现象的发生,进而得到业务语音波形。
在采样之后需要进一步对业务语音波形进行量化处理,量化的过程就是将采样后的信号按整个声波的幅度划分成有限个区段的集合,把落入某个区段的样值归为一类,并赋予相同的量化值,常见有8bit和16bit来划分纵轴。需要说明的是,这里采用的是非均匀量化方式对业务语音波形进行量化,进而得到量化语音数据。采样、量化后得到量化语音数据并不为数字信号,因此需要将量化语音数据转化成数字脉冲,这个转化过程即为编码,从而得到编码语音数据。
采样、量化和编码是对音频的基础处理,将处理过后的编码语音数据与对应预置声明编码数据进行相似度的计算即可明确业务语音中具体的需要进行声明质检的部分在哪里。服务器可以利用相似度算法计算编码语音数据与预置声明编码数据之间的相似度数值,得到基础相似度,这里的预置声明编码数据为声明类质检中的标准话术和关键词对应的编码语音数据,计算两者之间的相似度数值,可以进一步确定业务语音中需要进行声明质检的部分。
需要说明的是,这里预置声明编码数据为预置声明语音对应编码数据,预置声明语音内容为用户需要明确的条款或须知,举例说明:您本次借款金额为XX、借款期限XX期、还款方式为本金加费用按月还款,月还款金额逐月递减;您首月需还款XX元,最后一个月需还款XX元,具体还款金额以每月实际还款通知为准,您现在可打开还款计划表查看每月还款额。
需要强调的是,为进一步保证上述业务语音数据的私密和安全性,上述业务语音数据还可以存储于一区块链的节点中。
202、基于语音识别算法获取待检测声明语音编码数据对应的待检测业务语音数据,提取对应的待检测业务语音数据中的语音特征,根据语音特征匹配得到待检测声明文本;
具体的,服务器首先基于语音识别算法获取待检测声明语音编码数据对应的待检测业务语音数据,提取对应的待检测业务语音数据中的语音特征;然后服务器将语音特征转化为音素信息,其中,音素信息用于指示构成音节的最小语音单位;最后服务器在预置字典中匹配与音素信息相同的文字信息,得到待检测声明文本。
这里利用的是语音识别算法将待检测声明语音编码转化为待检测声明文本,服务器首先提取待检测业务语音数据中的语音特征,然后将语音特征转化为音素信息,其中,音素信息用于指示构成音节的最小语音单位,音素信息是根据语音的自然属性划分出来的最小语音单位,其依据音节里的发音动作来分析,一个动作构成一个音素。最后在预置字典中匹配音素信息对应的文字信息,生成待检测声明语音编码数据对应的待检测声明文本,预置字典中包括标准词语或语句以及两者对应的音素,因此直接在预置字典中对音素信息匹配对应的文字信息即可得到对应的待检测声明文本。
203、利用bert网络模型生成待检测声明文本的多个待检测声明句向量;
具体的,服务器首先获取待检测声明文本的多个语句序列,在每个语句序列的初始位置添加预置标记字符,得到多个第一标记序列;然后服务器在相邻两个第一标记序列之间添加预置间隔字符,得到多个第二标记序列;最后服务器利用bert网络模型对多个第二标记序列进行训练,生成多个待检测声明句向量。
在得到待检测声明文本之后服务器利用bert网络模型生成待检测声明文本的多个待检测声明句向量,首先服务器获取待检测声明文本的多个语句序列,在每个语句序列的初始位置添加预置标记字符,预置标记字符为[CLS],该字符主要是用于存储整个输入序列的语义信息,进而得到多个第一标记序列,然后服务器在相邻两个第一标记序列之间添加预置间隔字符,预置间隔字符为[SEP],该字符主要是用于存间隔不同的待检测声明句向量,得到多个第二标记序列,利用bert网络模型对多个第二标记序列进行训练,即可生成对应的多个待检测声明句向量。
204、计算每个待检测声明句向量与标准声明句向量之间的基础相似概率值,将基础相似概率大于标准阈值所对应的待检测声明文本确定为目标待纠错文本;
服务器需要进一步计算每个待检测声明句向量与标准声明句向量之间的基础相似概率值,将基础相似概率大于标准阈值所对应的待检测声明文本确定为目标待纠错文本,由于由语音转化为文本的过程中存在一定的误差,转化后的文本中可能存在语法错误或字词错误,例如:将“同意”转写成“朋友”,将“利息”转写成“李西”等。转写的错误会影响模型的准确率,因此需要服务器进一步确定待检测声明文本中哪些文本数据为需要进行下一步操作的文本,得到目标待纠错文本。
205、利用模糊匹配算法对目标待纠错文本进行纠错,得到待判定文本,在待判定文本中筛查预置关键词,若待判定文本中存在预置关键词,则判定业务语音数据存在声明类风险语音数据;
具体的,服务器首先利用模糊匹配算法将目标待纠错文本转化为待纠错拼音语句,在待纠错拼音语句中筛选出目标音标,并将目标音标转化为相似音标,生成转化拼音语句,其中,目标音标包括具有易混淆的韵母和/或声母;其次服务器在转化拼音语句中提取出相似音标对应的纠错文本,计算纠错文本与预置字典中标准文本之间的匹配值,得到多个基础匹配值;然后服务器当目标匹配值大于纠错阈值时,将目标匹配值对应的纠错文本替换为对应的标准文本,得到待判定文本;最后服务器在待判定文本中进行预置关键词筛查,若待判定文本中存在预置关键词,则判定业务语音数据存在声明类风险语音数据。
服务器首先利用模糊匹配算法将目标待纠错文本转化为待纠错拼音语句,在待纠错拼音语句中筛选出存在易混淆的韵母和/或声母的目标音标,并将目标音标转化为对应易混淆的相似音标,生成转化拼音语句,具有易混淆音标的目标音标以及其对应的相似音标为:辅音易混淆:n/l;前后鼻音易混淆:an/ang;平翘舌易混淆:c/ch。然后在转化拼音语句中提取出相似音标对应纠错文本,计算纠错文本与预置字典中标准文本之间的匹配值,得到多个基础匹配值,计算基础匹配值的目的是为了检测纠错文本是否是预置字典中的标准文本(存在实际意义的词语),若计算出来的基础匹配值大于纠错阈值,则将对应的纠错文本替换为对应的标准文本,得到待判定文本。
服务器在得到待判定文本之后,直接在待判定文本中进行预置关键词筛查,判断待判定文本中是否存在预置关键词,这里的预置关键词为销售话术中必须提到的词汇,以销售保险为例,对应的预置关键词可以为“年利率”、“月服务费”、“月保险费”等,具体并不对预置关键词的内容进行限定。若待判定文本中存在预置关键词,则直接判定业务语音数据中存在声明类风险语音数据。
206、通过意图识别算法生成业务语音数据对应的业务识别意图,判断业务识别意图中是否存在预置风险意图,若业务识别意图中存在预置风险意图,则判定业务语音数据存在语义类风险语音数据。
具体的,服务器首先将业务语音数据输入至语言模型中,对业务语音数据作字嵌入处理,生成业务字向量,并对业务字向量按照语句长度进行降序处理,得到待识别字向量;其次服务器通过意图识别算法中的双向长短期记忆网络对待识别字向量进行特征提取,生成对应的特征值;然后服务器对待识别字向量的长度进行赋值,并将赋值后的长度与特征值进行加权求和,得到特征权重参数,将特征权重参数与待识别字向量相乘,得到识别文本向量;服务器在预置意图列表中查询识别文本向量对应的基础意图,并将基础意图确定为待识别字向量的业务识别意图,判断业务识别意图中是否存在预置风险意图;若业务识别意图中存在预置风险意图,则服务器判定业务语音数据存在语义类风险语音数据。
服务器在进行对业务语音数据进行意图识别时,需要将业务语音数据转化为对应的文本,然后在对其进行意图识别。服务器首先加载预训练的语言模型,并将业务语音数据输入至语言模型中,对输入的业务语音数据进行字嵌入处理,生成对应的业务字向量,其次服务器对业务字向量按照语句长度的长短进行降序处理,并对处理后的业务字向量进行打包处理,得到待识别字向量,然后服务器将待识别字向量输入至双向长短期记忆网络(longshort-term memory,LSTM)中,通过LSTM网络对待识别字向量进行特征提取,生成对应的特征值,之后服务器开始进行意图识别,服务器对待识别字向量的长度进行赋值,并将赋值后的长度与特征值进行加权求和,得到特征权重参数,将特征权重参数与待识别字向量相乘,得到识别文本向量,然后将识别文本向量与预置字典中的标准文本向量列表进行拼接,直接在标准文本向量列表中查询与识别文本向量相同所对应的基础意图,待查询到基础意图之后,即将基础意图确定为待识别字向量的业务识别意图,完成了对业务语音数据的意图识别。
获取到业务语音数据对应的意图之后,服务器即可判断业务语音数据是否为语义类风险语音数据,举例说明:下方为两个业务语音数据对应的文本数据,其中第一段为第一电话销售人员播报语音数据,第二段为第二电话销售人员播报语音数据:
1、因为你初始额度所有的客户初始额度都是1万,你有保险可以帮你提的能够给到你保险年缴保费的20倍到40倍,那你想如果你是3万的保险那你就算20倍也可以最高的额度帮你提升这个额度的。
2、如果您再需要的时候,那么您在APP上再来申请的时候,您是不是属于老客户了对不对?那么老客户的话,您这次的额度是20万零4千,那么您下一次来借的时候呢,您的额度就会在20万零4千的基础上帮您提升。
上述两段话虽然文字表达完全不相同,但是服务器经过意图识别之后发现语义相同,均属于承诺额度的意图,当业务语音数据中存在必要的预置标准意图,而没有预置风险意图时,则说明业务语音数据为正常,不为语义类风险语音数据也不为声明类风险语音数据。
本发明实施例中,通过对业务语音数据进行编码后筛选出待检测声明语音编码数据,利用语音识别算法与bert网络模型生成待检测声明语音编码数据对应的待检测声明句向量,利用模糊匹配算法对待检测声明句向量进行文本纠错,并对纠错后的文本进行声明风险判定,然后通过意图识别算法生成业务语音数据对应的业务识别意图,对业务识别意图进行语义风险判定,最终得到对业务语音数据的质检结果,提高了对业务语音进行质检的准确率以及质检效率。
上面对本发明实施例中业务语音的质检方法进行了描述,下面对本发明实施例中业务语音的质检装置进行描述,请参阅图3,本发明实施例中业务语音的质检装置一个实施例包括:
筛选模块301,用于获取业务语音数据,并利用编码器对业务语音数据进行编码,得到编码语音数据,计算编码语音数据与预置声明编码数据之间的基础相似度,根据基础相似度的数值在编码语音数据中筛选待检测声明语音编码数据;
转化模块302,用于基于语音识别算法将待检测声明语音编码数据转化为待检测声明文本,利用bert网络模型生成待检测声明文本的多个待检测声明句向量;
确定模块303,用于计算每个待检测声明句向量与标准声明句向量之间的基础相似概率值,将基础相似概率大于标准阈值所对应的待检测声明文本确定为目标待纠错文本;
第一判定模块304,用于利用模糊匹配算法对目标待纠错文本进行纠错,得到待判定文本,在待判定文本中筛查预置关键词,若待判定文本中存在预置关键词,则判定业务语音数据存在声明类风险语音数据;
第二判定模块305,用于通过意图识别算法生成业务语音数据对应的业务识别意图,判断业务识别意图中是否存在预置风险意图,若业务识别意图中存在预置风险意图,则判定业务语音数据存在语义类风险语音数据。
本发明实施例中,通过对业务语音数据进行编码后筛选出待检测声明语音编码数据,利用语音识别算法与bert网络模型生成待检测声明语音编码数据对应的待检测声明句向量,利用模糊匹配算法对待检测声明句向量进行文本纠错,并对纠错后的文本进行声明风险判定,然后通过意图识别算法生成业务语音数据对应的业务识别意图,对业务识别意图进行语义风险判定,最终得到对业务语音数据的质检结果,提高了对业务语音进行质检的准确率以及质检效率。
请参阅图4,本发明实施例中业务语音的质检装置的另一个实施例包括:
筛选模块301,用于获取业务语音数据,并利用编码器对业务语音数据进行编码,得到编码语音数据,计算编码语音数据与预置声明编码数据之间的基础相似度,根据基础相似度的数值在编码语音数据中筛选待检测声明语音编码数据;
转化模块302,用于基于语音识别算法将待检测声明语音编码数据转化为待检测声明文本,利用bert网络模型生成待检测声明文本的多个待检测声明句向量;
确定模块303,用于计算每个待检测声明句向量与标准声明句向量之间的基础相似概率值,将基础相似概率大于标准阈值所对应的待检测声明文本确定为目标待纠错文本;
第一判定模块304,用于利用模糊匹配算法对目标待纠错文本进行纠错,得到待判定文本,在待判定文本中筛查预置关键词,若待判定文本中存在预置关键词,则判定业务语音数据存在声明类风险语音数据;
第二判定模块305,用于通过意图识别算法生成业务语音数据对应的业务识别意图,判断业务识别意图中是否存在预置风险意图,若业务识别意图中存在预置风险意图,则判定业务语音数据存在语义类风险语音数据。
可选的,筛选模块301具体用于:
获取业务语音数据,利用奈奎斯特采样算法对业务语音数据进行采样,得到业务语音波形;
对业务语音波形进行量化处理,得到量化语音数据,将量化语音数据转化为数字脉冲,生成编码语音数据;
利用相似度算法计算编码语音数据与预置声明编码数据之间的相似度数值,得到基础相似度;
将数值最大的基础相似度所对应的编码语音数据确定为待检测声明语音编码数据。
可选的,转化模块302包括:
匹配单元3021,用于基于语音识别算法获取待检测声明语音编码数据对应的待检测业务语音数据,提取对应的待检测业务语音数据中的语音特征,根据语音特征匹配得到待检测声明文本;
生成单元3022,用于利用bert网络模型生成待检测声明文本的多个待检测声明句向量。
可选的,匹配单元3021具体用于:
基于语音识别算法获取待检测声明语音编码数据对应的待检测业务语音数据,提取对应的待检测业务语音数据中的语音特征;
将语音特征转化为音素信息,其中,音素信息用于指示构成音节的最小语音单位;
在预置字典中匹配与音素信息相同的文字信息,得到待检测声明文本。
可选的,生成单元3022具体用于:
获取待检测声明文本的多个语句序列,在每个语句序列的初始位置添加预置标记字符,得到多个第一标记序列;
在相邻两个第一标记序列之间添加预置间隔字符,得到多个第二标记序列;
利用bert网络模型对多个第二标记序列进行训练,生成多个待检测声明句向量。
可选的,第一判定模块304具体用于:
利用模糊匹配算法将目标待纠错文本转化为待纠错拼音语句,在待纠错拼音语句中筛选出目标音标,并将目标音标转化为相似音标,生成转化拼音语句,其中,目标音标包括具有易混淆的韵母和/或声母;
在转化拼音语句中提取出相似音标对应的纠错文本,计算纠错文本与预置字典中标准文本之间的匹配值,得到多个基础匹配值;
当目标匹配值大于纠错阈值时,将目标匹配值对应的纠错文本替换为对应的标准文本,得到待判定文本;
在待判定文本中进行预置关键词筛查,若待判定文本中存在预置关键词,则判定业务语音数据存在声明类风险语音数据。
可选的,第二判定模块305具体用于:
将业务语音数据输入至语言模型中,对业务语音数据作字嵌入处理,生成业务字向量,并对业务字向量按照语句长度进行降序处理,得到待识别字向量;
通过意图识别算法中的双向长短期记忆网络对待识别字向量进行特征提取,生成对应的特征值;
对待识别字向量的长度进行赋值,并将赋值后的长度与特征值进行加权求和,得到特征权重参数,将特征权重参数与待识别字向量相乘,得到识别文本向量;
在预置意图列表中查询识别文本向量对应的基础意图,并将基础意图确定为待识别字向量的业务识别意图,判断业务识别意图中是否存在预置风险意图;
若业务识别意图中存在预置风险意图,则判定业务语音数据存在语义类风险语音数据。
本发明实施例中,通过对业务语音数据进行编码后筛选出待检测声明语音编码数据,利用语音识别算法与bert网络模型生成待检测声明语音编码数据对应的待检测声明句向量,利用模糊匹配算法对待检测声明句向量进行文本纠错,并对纠错后的文本进行声明风险判定,然后通过意图识别算法生成业务语音数据对应的业务识别意图,对业务识别意图进行语义风险判定,最终得到对业务语音数据的质检结果,提高了对业务语音进行质检的准确率以及质检效率。
上面图3和图4从模块化功能实体的角度对本发明实施例中的业务语音的质检装置进行详细描述,下面从硬件处理的角度对本发明实施例中业务语音的质检设备进行详细描述。
图5是本发明实施例提供的一种业务语音的质检设备的结构示意图,该业务语音的质检设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对业务语音的质检设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在业务语音的质检设备500上执行存储介质530中的一系列指令操作。
业务语音的质检设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的业务语音的质检设备结构并不构成对业务语音的质检设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种业务语音的质检设备,所述计算机设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述业务语音的质检方法的步骤。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述业务语音的质检方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种业务语音的质检方法,其特征在于,所述业务语音的质检方法包括:
获取业务语音数据,并利用编码器对所述业务语音数据进行编码,得到编码语音数据,计算所述编码语音数据与预置声明编码数据之间的基础相似度,根据所述基础相似度的数值在所述编码语音数据中筛选待检测声明语音编码数据;
基于语音识别算法将所述待检测声明语音编码数据转化为待检测声明文本,利用bert网络模型生成所述待检测声明文本的多个待检测声明句向量;
计算每个待检测声明句向量与标准声明句向量之间的基础相似概率值,将基础相似概率大于标准阈值所对应的待检测声明文本确定为目标待纠错文本;
利用模糊匹配算法对所述目标待纠错文本进行纠错,得到待判定文本,在所述待判定文本中筛查预置关键词,若所述待判定文本中存在所述预置关键词,则判定所述业务语音数据存在声明类风险语音数据;
通过意图识别算法生成所述业务语音数据对应的业务识别意图,判断所述业务识别意图中是否存在预置风险意图,若所述业务识别意图中存在预置风险意图,则判定所述业务语音数据存在语义类风险语音数据。
2.根据权利要求1所述的业务语音的质检方法,其特征在于,所述获取业务语音数据,并利用编码器对所述业务语音数据进行编码,得到编码语音数据,计算所述编码语音数据与预置声明编码数据之间的基础相似度,根据所述基础相似度的数值在所述编码语音数据中筛选待检测声明语音编码数据包括:
获取业务语音数据,利用奈奎斯特采样算法对所述业务语音数据进行采样,得到业务语音波形;
对所述业务语音波形进行量化处理,得到量化语音数据,将所述量化语音数据转化为数字脉冲,生成编码语音数据;
利用相似度算法计算所述编码语音数据与预置声明编码数据之间的相似度数值,得到基础相似度;
将数值最大的基础相似度所对应的编码语音数据确定为待检测声明语音编码数据。
3.根据权利要求1所述的业务语音的质检方法,其特征在于,所述基于语音识别算法将所述待检测声明语音编码数据转化为待检测声明文本,利用bert网络模型生成所述待检测声明文本的多个待检测声明句向量包括:
基于语音识别算法获取所述待检测声明语音编码数据对应的待检测业务语音数据,提取所述对应的待检测业务语音数据中的语音特征,根据所述语音特征匹配得到待检测声明文本;
利用bert网络模型生成所述待检测声明文本的多个待检测声明句向量。
4.根据权利要求3所述的业务语音的质检方法,其特征在于,所述基于语音识别算法获取所述待检测声明语音编码数据对应的待检测业务语音数据,提取所述对应的待检测业务语音数据中的语音特征,根据所述语音特征匹配得到待检测声明文本包括:
基于语音识别算法获取所述待检测声明语音编码数据对应的待检测业务语音数据,提取所述对应的待检测业务语音数据中的语音特征;
将所述语音特征转化为音素信息,其中,所述音素信息用于指示构成音节的最小语音单位;
在预置字典中匹配与所述音素信息相同的文字信息,得到待检测声明文本。
5.根据权利要求3所述的业务语音的质检方法,其特征在于,所述利用bert网络模型生成所述待检测声明文本的多个待检测声明句向量包括:
获取所述待检测声明文本的多个语句序列,在每个语句序列的初始位置添加预置标记字符,得到多个第一标记序列;
在相邻两个第一标记序列之间添加预置间隔字符,得到多个第二标记序列;
利用bert网络模型对所述多个第二标记序列进行训练,生成多个待检测声明句向量。
6.根据权利要求4所述的业务语音的质检方法,其特征在于,所述利用模糊匹配算法对所述目标待纠错文本进行纠错,得到待判定文本,在所述待判定文本中筛查预置关键词,若所述待判定文本中存在所述预置关键词,则判定所述业务语音数据存在声明类风险语音数据包括:
利用模糊匹配算法将所述目标待纠错文本转化为待纠错拼音语句,在所述待纠错拼音语句中筛选出目标音标,并将所述目标音标转化为相似音标,生成转化拼音语句,其中,所述目标音标包括具有易混淆的韵母和/或声母;
在所述转化拼音语句中提取出所述相似音标对应的纠错文本,计算所述纠错文本与预置字典中标准文本之间的匹配值,得到多个基础匹配值;
当目标匹配值大于纠错阈值时,将所述目标匹配值对应的纠错文本替换为对应的标准文本,得到待判定文本;
在所述待判定文本中进行预置关键词筛查,若所述待判定文本中存在预置关键词,则判定所述业务语音数据存在声明类风险语音数据。
7.根据权利要求1-5中任一项所述的业务语音的质检方法,其特征在于,所述通过意图识别算法生成所述业务语音数据对应的业务识别意图,判断所述业务识别意图中是否存在预置风险意图,若所述业务识别意图中存在预置风险意图,则判定所述业务语音数据存在语义类风险语音数据包括:
将所述业务语音数据输入至语言模型中,对所述业务语音数据作字嵌入处理,生成业务字向量,并对所述业务字向量按照语句长度进行降序处理,得到待识别字向量;
通过意图识别算法中的双向长短期记忆网络对所述待识别字向量进行特征提取,生成对应的特征值;
对所述待识别字向量的长度进行赋值,并将赋值后的长度与所述特征值进行加权求和,得到特征权重参数,将所述特征权重参数与所述待识别字向量相乘,得到识别文本向量;
在预置意图列表中查询所述识别文本向量对应的基础意图,并将所述基础意图确定为所述待识别字向量的业务识别意图,判断所述业务识别意图中是否存在预置风险意图;
若所述业务识别意图中存在预置风险意图,则判定所述业务语音数据存在语义类风险语音数据。
8.一种业务语音的质检装置,其特征在于,所述业务语音的质检装置包括:
筛选模块,用于获取业务语音数据,并利用编码器对所述业务语音数据进行编码,得到编码语音数据,计算所述编码语音数据与预置声明编码数据之间的基础相似度,根据所述基础相似度的数值在所述编码语音数据中筛选待检测声明语音编码数据;
转化模块,用于基于语音识别算法将所述待检测声明语音编码数据转化为待检测声明文本,利用bert网络模型生成所述待检测声明文本的多个待检测声明句向量;
确定模块,用于计算每个待检测声明句向量与标准声明句向量之间的基础相似概率值,将基础相似概率大于标准阈值所对应的待检测声明文本确定为目标待纠错文本;
第一判定模块,用于利用模糊匹配算法对所述目标待纠错文本进行纠错,得到待判定文本,在所述待判定文本中筛查预置关键词,若所述待判定文本中存在所述预置关键词,则判定所述业务语音数据存在声明类风险语音数据;
第二判定模块,用于通过意图识别算法生成所述业务语音数据对应的业务识别意图,判断所述业务识别意图中是否存在预置风险意图,若所述业务识别意图中存在预置风险意图,则判定所述业务语音数据存在语义类风险语音数据。
9.一种业务语音的质检设备,其特征在于,所述业务语音的质检设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述业务语音的质检设备执行如权利要求1-7中任意一项所述的业务语音的质检方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-7中任一项所述业务语音的质检方法。
CN202011476012.3A 2020-12-15 2020-12-15 业务语音的质检方法、装置、设备及存储介质 Active CN112634903B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011476012.3A CN112634903B (zh) 2020-12-15 2020-12-15 业务语音的质检方法、装置、设备及存储介质
PCT/CN2021/090410 WO2022126969A1 (zh) 2020-12-15 2021-04-28 业务语音的质检方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011476012.3A CN112634903B (zh) 2020-12-15 2020-12-15 业务语音的质检方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112634903A CN112634903A (zh) 2021-04-09
CN112634903B true CN112634903B (zh) 2023-09-29

Family

ID=75313574

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011476012.3A Active CN112634903B (zh) 2020-12-15 2020-12-15 业务语音的质检方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN112634903B (zh)
WO (1) WO2022126969A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112634903B (zh) * 2020-12-15 2023-09-29 平安科技(深圳)有限公司 业务语音的质检方法、装置、设备及存储介质
CN114049890A (zh) * 2021-11-03 2022-02-15 杭州逗酷软件科技有限公司 语音控制方法、装置以及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016095399A (ja) * 2014-11-14 2016-05-26 日本電信電話株式会社 音声認識結果整形装置、方法及びプログラム
CN108737667A (zh) * 2018-05-03 2018-11-02 平安科技(深圳)有限公司 语音质检方法、装置、计算机设备及存储介质
CN109658923A (zh) * 2018-10-19 2019-04-19 平安科技(深圳)有限公司 基于人工智能的语音质检方法、设备、存储介质及装置
CN110176252A (zh) * 2019-05-08 2019-08-27 江西尚通科技发展股份有限公司 基于风险管控模式的智能语音质检方法及系统
CN110597964A (zh) * 2019-09-27 2019-12-20 神州数码融信软件有限公司 一种双录质检语义分析方法、装置及双录质检系统
CN111405128A (zh) * 2020-03-24 2020-07-10 中国—东盟信息港股份有限公司 一种基于语音转文字的通话质检系统
CN111696557A (zh) * 2020-06-23 2020-09-22 深圳壹账通智能科技有限公司 语音识别结果的校准方法、装置、设备及存储介质
CN112069796A (zh) * 2020-09-03 2020-12-11 阳光保险集团股份有限公司 一种语音质检方法、装置,电子设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10176798B2 (en) * 2015-08-28 2019-01-08 Intel Corporation Facilitating dynamic and intelligent conversion of text into real user speech
US9865249B2 (en) * 2016-03-22 2018-01-09 GM Global Technology Operations LLC Realtime assessment of TTS quality using single ended audio quality measurement
CN109389971B (zh) * 2018-08-17 2022-06-17 深圳壹账通智能科技有限公司 基于语音识别的保险录音质检方法、装置、设备和介质
CN110378562B (zh) * 2019-06-17 2023-07-28 中国平安人寿保险股份有限公司 语音质检方法、装置、计算机设备及存储介质
CN111445928A (zh) * 2020-03-31 2020-07-24 深圳前海微众银行股份有限公司 语音质检方法、装置、设备及存储介质
CN111883115B (zh) * 2020-06-17 2022-01-28 马上消费金融股份有限公司 语音流程质检的方法及装置
CN111696528B (zh) * 2020-06-20 2021-04-23 龙马智芯(珠海横琴)科技有限公司 一种语音质检方法、装置、质检设备及可读存储介质
CN112036705A (zh) * 2020-08-05 2020-12-04 苏宁金融科技(南京)有限公司 一种质检结果数据获取方法、装置及设备
CN112634903B (zh) * 2020-12-15 2023-09-29 平安科技(深圳)有限公司 业务语音的质检方法、装置、设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016095399A (ja) * 2014-11-14 2016-05-26 日本電信電話株式会社 音声認識結果整形装置、方法及びプログラム
CN108737667A (zh) * 2018-05-03 2018-11-02 平安科技(深圳)有限公司 语音质检方法、装置、计算机设备及存储介质
CN109658923A (zh) * 2018-10-19 2019-04-19 平安科技(深圳)有限公司 基于人工智能的语音质检方法、设备、存储介质及装置
CN110176252A (zh) * 2019-05-08 2019-08-27 江西尚通科技发展股份有限公司 基于风险管控模式的智能语音质检方法及系统
CN110597964A (zh) * 2019-09-27 2019-12-20 神州数码融信软件有限公司 一种双录质检语义分析方法、装置及双录质检系统
CN111405128A (zh) * 2020-03-24 2020-07-10 中国—东盟信息港股份有限公司 一种基于语音转文字的通话质检系统
CN111696557A (zh) * 2020-06-23 2020-09-22 深圳壹账通智能科技有限公司 语音识别结果的校准方法、装置、设备及存储介质
CN112069796A (zh) * 2020-09-03 2020-12-11 阳光保险集团股份有限公司 一种语音质检方法、装置,电子设备及存储介质

Also Published As

Publication number Publication date
WO2022126969A1 (zh) 2022-06-23
CN112634903A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
WO2020200178A1 (zh) 语音合成方法、装置和计算机可读存储介质
CN111883115B (zh) 语音流程质检的方法及装置
EP1952271A1 (en) Word recognition using ontologies
CN112634903B (zh) 业务语音的质检方法、装置、设备及存储介质
CN107437417B (zh) 基于循环神经网络语音识别中语音数据增强方法及装置
CN112151014B (zh) 语音识别结果的测评方法、装置、设备及存储介质
CN111177324B (zh) 基于语音识别结果进行意图分类的方法和装置
CN102568469B (zh) G.729a压缩语音流信息隐藏检测装置及检测方法
US20230036020A1 (en) Text-to-Speech Synthesis Method and System, a Method of Training a Text-to-Speech Synthesis System, and a Method of Calculating an Expressivity Score
US9087519B2 (en) Computer-implemented systems and methods for evaluating prosodic features of speech
CN109584906B (zh) 口语发音评测方法、装置、设备及存储设备
CN112397056B (zh) 语音评测方法及计算机存储介质
CN111930914A (zh) 问题生成方法和装置、电子设备以及计算机可读存储介质
CN114360557B (zh) 语音音色转换方法、模型训练方法、装置、设备和介质
CN112669810A (zh) 语音合成的效果评估方法、装置、计算机设备及存储介质
CN117292680A (zh) 一种基于小样本合成的输电运检的语音识别的方法
CN117238321A (zh) 语音综合评估方法、装置、设备及存储介质
CN112069816A (zh) 中文标点符号添加方法和系统及设备
CN116702765A (zh) 一种事件抽取方法、装置及电子设备
CN115394286A (zh) 正则化方法和装置,以及正则化模型的训练方法和装置
CN113053409A (zh) 音频测评方法及装置
CN112466324A (zh) 一种情绪分析方法、系统、设备及可读存储介质
CN113255361B (zh) 语音内容的自动检测方法、装置、设备以及存储介质
CN113850085A (zh) 企业的等级评估方法、装置、电子设备及可读存储介质
Zhang Text Normalization for Text-to-Speech

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant