CN113255361B

CN113255361B - 语音内容的自动检测方法、装置、设备以及存储介质

Info

Publication number: CN113255361B
Application number: CN202110544657.4A
Authority: CN
Inventors: 李正扬; 王健宗; 黄章成; 司世景
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2023-12-22
Anticipated expiration: 2041-05-19
Also published as: CN113255361A

Abstract

本发明公开了一种语音内容的自动检测方法，包括：获取记录有语音内容的录音文件；将所述录音文件转换为记录有所述语音内容对应的文本的录音文本文件；基于预设的关键词集合对所述录音文本文件执行预设的匹配操作，得到所述录音文本文件中的待检测文本；将预设的检测问题文本和所述待检测文本输入至预设的机器阅读理解模型进行分析，得到所述检测问题文本对应的答案文本；根据所述检测问题文本和所述答案文本确定所述语音内容的自动检测结果。可见，本发明在关键词检测的基础之上使用机器阅读理解模型进行检测，能够提高语音内容的自动检测方法的检测准确度。本发明还涉及区块链技术领域。

Description

语音内容的自动检测方法、装置、设备以及存储介质

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种语音内容的自动检测方法、装置、计算机设备以及存储介质。

背景技术

随着计算机技术的发展，在对电话客服的语音质检中，已可以利用计算机技术对电话客服的语音内容进行自动检测以保证电话客服的服务质量和服务合规性。然而，现有的语音内容的自动检测方法通常做法是：先将语音转换成对应的文本，然后通过检测文本中的关键词、敏感词的方式或者通过正则表达式匹配的方式对语音内容进行检测，但是，中文文本的表述方式多种多样，而基于关键词或者正则表达式的检测方法的泛化能力较差，难以应对中文的多样化表述。例如，基于关键词或者正则表达式的检测方法通常需要借助于预设的语料库，而在中文的表述中，通常可以使用不同的语句来表达同一个意思，如，语句A和语句B可以是用于表达同一个意思，但是语句A中的词语在语料库中，而语句B中的词语不在语料库中，此时，基于关键词或者正则表达式的检测方法则有很大的可能只能检测出语句A，而不能检测出语句B。而且，在实际应用中，有许多语音内容是一问一答或者多轮对话的内容，许多信息会隐藏在对话内容的上下文中，基于关键词或者正则表达式的检测方法通常是无法检测到这些信息的。可见，目前的语音内容的自动检测方法的检测准确度仍有提升的空间。

发明内容

本发明所要解决的技术问题在于，目前的语音内容的自动检测方法的检测准确度较低。

为了解决上述技术问题，本发明第一方面公开了一种语音内容的自动检测方法，所述方法包括：

获取记录有语音内容的录音文件；

将所述录音文件转换为记录有所述语音内容对应的文本的录音文本文件；

基于预设的关键词集合对所述录音文本文件执行预设的匹配操作，得到所述录音文本文件中的待检测文本，所述待检测文本是指所述录音文本文件所记录的文本中包含有所述关键词集合中任意一个关键词的部分文本；

将预设的检测问题文本和所述待检测文本输入至预设的机器阅读理解模型进行分析，得到所述检测问题文本对应的答案文本；

根据所述检测问题文本和所述答案文本确定所述语音内容的自动检测结果，所述自动检测结果用于表示所述语音内容通过自动检测或者未通过自动检测。

本发明第二方面公开了一种语音内容的自动检测装置，所述装置包括：

获取模块，用于获取记录有语音内容的录音文件；

转换模块，用于将所述录音文件转换为记录有所述语音内容对应的文本的录音文本文件；

匹配模块，用于基于预设的关键词集合对所述录音文本文件执行预设的匹配操作，得到所述录音文本文件中的待检测文本，所述待检测文本是指所述录音文本文件所记录的文本中包含有所述关键词集合中任意一个关键词的部分文本；

分析模块，用于将预设的检测问题文本和所述待检测文本输入至预设的机器阅读理解模型进行分析，得到所述检测问题文本对应的答案文本；

确定模块，用于根据所述检测问题文本和所述答案文本确定所述语音内容的自动检测结果，所述自动检测结果用于表示所述语音内容通过自动检测或者未通过自动检测。

本发明第三方面公开了一种计算机设备，所述计算机设备包括：

存储有可执行程序代码的存储器；

与所述存储器连接的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明第一方面公开的语音内容的自动检测方法中的部分或全部步骤。

本发明第四方面公开了一种计算机存储介质，所述计算机存储介质存储有计算机指令，所述计算机指令被调用时，用于执行本发明第一方面公开的语音内容的自动检测方法中的部分或全部步骤。

本发明实施例中，在获取到录音文件之后，先将录音文件转换为录音文本文件，然后基于关键词集合从录音文本文件中提取出待检测文本，接着将待检测文本和检测问题文本输入至机器阅读理解模型进行分析得到答案文本，最后根据检测问题文本和答案文本确定自动检测结果。通过先使用关键词检测的形式对语音内容进行检测，再在关键词检测的基础之上使用机器阅读理解模型进行检测，能够提高语音内容检测的泛化能力，并且能够基于语音内容的语义理解得到最终的自动检测结果，从而提高语音内容的自动检测方法的检测准确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种语音内容的自动检测方法的流程示意图；

图2是本发明实施例公开的机器阅读理解模型的结构示意图；

图3是本发明实施例公开的一种语音内容的自动检测装置的结构示意图；

图4是本发明实施例公开的一种计算机设备的结构示意图；

图5是本发明实施例公开的一种计算机存储介质的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明公开了一种语音内容的自动检测方法、装置、计算机设备以及存储介质，在获取到录音文件之后，先将录音文件转换为录音文本文件，然后基于关键词集合从录音文本文件中提取出待检测文本，接着将待检测文本和检测问题文本输入至机器阅读理解模型进行分析得到答案文本，最后根据检测问题文本和答案文本确定自动检测结果。通过先使用关键词检测的形式对语音内容进行检测，再在关键词检测的基础之上使用机器阅读理解模型进行检测，能够提高语音内容检测的泛化能力，并且能够基于语音内容的语义理解得到最终的自动检测结果，从而提高语音内容的自动检测方法的检测准确度。以下分别进行详细说明。

实施例一

请参阅图1，图1是本发明实施例公开的一种语音内容的自动检测方法的流程示意图。如图1所示，该语音内容的自动检测方法可以包括以下操作：

101、获取记录有语音内容的录音文件。

在上述步骤101中，可以通过对客服坐席的电话进行录音，从而获取到记录有客服与客户之间的通话的语音内容的录音文件。

102、将所述录音文件转换为记录有所述语音内容对应的文本的录音文本文件。

在上述步骤102中，可以通过现有的ASR(Automatic Speech Recognition)技术将录音文件中的语音转换为文本(即录音文本文件)。可选地，录音文件中的录音可以是双轨录音，这样，在基于双轨录音转换后得到的录音文本文件中还可以包括文本的说话人的标签，例如，在双轨录音中，语音1的说话人是客服，语音2的说话人是客户，则在转换得到的录音文本文件中，语音1对应的文本可以标注有客服标签，用于表示该文本的说话人是客服，语音2对应的文本可以标注有客户标签，用于表示该文本的说话人是客户。双轨录音的录音文本文件相对于单轨录音的录音文本文件，能够提供更多维度的信息(即能够提供语音的说话人的身份)，这样，在后续进行模型分析时，能够提高更多维度的信息作为输入，从而使模型的分析结果更加准确。

103、基于预设的关键词集合对所述录音文本文件执行预设的匹配操作，得到所述录音文本文件中的待检测文本，所述待检测文本是指所述录音文本文件所记录的文本中包含有所述关键词集合中任意一个关键词的部分文本。

在上述步骤103中，在对语音内容的质检过程中，通常会设置不同的质检点，其中，不同的质检点通常用于进行不同质检内容的质检，例如，质检点a用于进行“客户工作单位是否造假”的质检，质检点b用于进行“贷款额度是否匹配”的质检。质检内容的不同则会导致所使用的关键词集合不同，如，质检点a对应的关键词集合可以包括“现单位”、“原单位”、“现公司”、“原公司”等关键词，质检点b对应的关键词集合则可以包括“坐席额度”、“客户额度”、“花呗”、“信用卡”等关键词。当在录音文本文件中检测到某一关键词时，即可以根据该关键词在录音文本文件中的位置提取出相应的待检测文本(具体的提取过程稍后进行描述)。

104、将预设的检测问题文本和所述待检测文本输入至预设的机器阅读理解模型进行分析，得到所述检测问题文本对应的答案文本。

在上述步骤104中，机器阅读理解模型可以是一个基于BERT-MRC模型构建的模型。由于不同的质检点的质检内容不同，所以不同的质检点对应的检测问题文本也不同，如，质检点a对应的检测问题文本可以为“客户工作单位是否造假”，质检点b对应的检测问题文本可以为“贷款额度是否匹配”。机器阅读理解模型是一个具有语义理解能力的模型，所以能够从待检测文本中分析出检测问题文本所记录的问题对应的答案(即答案文本)。如，在质检点a中，需要回答“客户工作单位是否造假”这一问题，则需要从待检测文本中分析出客户的现工作单位和原工作单位来回答这一问题，所以机器阅读理解模型可以从待检测文本中分析出用于记录客户现工作单位的答案文本“A公司”、用于记录客户原工作单位的答案文本“B公司”。

105、根据所述检测问题文本和所述答案文本确定所述语音内容的自动检测结果，所述自动检测结果用于表示所述语音内容通过自动检测或者未通过自动检测。

在上述步骤105中，根据质检点对应的检测问题文本和答案文本即可以确定出该质检点的自动检测结果。如，质检点a对应的检测问题文本为“客户工作单位是否造假”，答案文本为“A公司”和“B公司”，显然这里的答案文本中客户的现工作单位和原工作单位不一致，所以可以确定语音内容未通过质检点a的检测。

可见，实施图1所描述的语音内容的自动检测方法，在获取到录音文件之后，先将录音文件转换为录音文本文件，然后基于关键词集合从录音文本文件中提取出待检测文本，接着将待检测文本和检测问题文本输入至机器阅读理解模型进行分析得到答案文本，最后根据检测问题文本和答案文本确定自动检测结果。通过先使用关键词检测的形式对语音内容进行检测，再在关键词检测的基础之上使用机器阅读理解模型进行检测，能够提高语音内容检测的泛化能力，并且能够基于语音内容的语义理解得到最终的自动检测结果，从而提高语音内容的自动检测方法的检测准确度。

在一个可选的实施例中，所述机器阅读理解模型是一个基于BERT-MRC模型构建的模型，且所述机器阅读理解模型包括BERT Embedding模块、Transformer-XL模块和答案抽取模块；

以及，所述将预设的检测问题文本和所述待检测文本输入至预设的机器阅读理解模型进行分析，得到所述检测问题文本对应的答案文本，包括：

将预设的检测问题文本和所述待检测文本输入所述BERT Embedding模块进行分析，以将所述检测问题文本和所述待检测文本转换为对应的向量；

将所述检测问题文本和所述待检测文本对应的向量输入所述Transformer-XL模块进行分析，得到多个备选答案文本；

所述答案抽取模块从多个所述备选答案文本中筛选出答案文本。

在该可选的实施例中，参见图2，图2是示出了本发明实施例中的机器阅读理解模型的结构图。可以将检测问题文本和待检测文本按照bert的输入格式进行组装，组装完成后输入BERT Embedding层，从而将检测问题文本和待检测文本映射到向量空间，生成对应的向量。然后将生成的向量输入至Transformer-XL模块分析，得到多个可能为正确的答案文本的备选答案文本。如，质检点a中Transformer-XL模块得到的多个备选答案文本可能为“A公司”、“A公”、“B公”等诸如此类的文本。最后，答案抽取模块(span extraction)从多个备选答案文本中筛选出正确的答案文本。如，在质检点a中筛选出“A公司”作为正确的答案文本。其中，BERT embedding层可以包括数字与汉字一一对应的token embeddings，区分检测问题文本、待检测文本和先验知识的segment embeddings和记录每个词在输入文本中的位置信息的position embeddings。与传统的Transformer相比，本发明实施例中的Transformer-XL模块利用循环机制缓存并利用上一个segment中所有层的隐向量，同时采用了相对位置编码的方式，从而能够在自动检测涉及一轮，乃至多轮对话的情况下更好的捕捉句子内容之间的联系，增加有效上下文的距离，同时，由于缓存了尽可能多的segment信息，所以在推理时不用再次计算，运算速度得到极大提升。

可选地，Transformer-XL模块的输出还可以包括每个备选答案文本是正确的答案文本的概率的相关信息，如，备选答案文本的文本初始位置是正确的答案文本的文本初始位置的概率p_srart，备选答案文本的文本结束位置是正确的答案文本的文本结束位置的概率p_end，备选答案文本是正确的答案文本的概率等等。此时，答案抽取模块可以从多个备选答案文本中筛选出正确概率最高的备选答案文本作为正确的答案文本。具体地，答案抽取模块对备选答案文本进行筛选时可以使用非极大值抑制方法。

可见，实施该可选的实施例，通过基于BERT-MRC模型构建机器阅读理解模型，能够实现基于机器语义理解对语音内容进行检测，从而提高语音内容的自动检测方法的检测准确度。

将预设的检测问题文本、所述待检测文本和预设的答案文本对应的目标答案类型标识输入所述BERT Embedding模块进行分析，以将所述检测问题文本、所述待检测文本和所述目标答案类型标识转换为对应的向量；

将所述检测问题文本、所述待检测文本和所述目标答案类型标识对应的向量输入所述Transformer-XL模块进行分析，得到多个备选答案文本和每个所述备选答案文本对应的答案类型标识；

所述答案抽取模块根据所述目标答案类型标识和每个所述备选答案文本对应的答案类型标识，从多个所述备选答案文本中筛选出答案文本。

在该可选的实施例中，由于BERT-MRC的模型还具有检测问题的先验知识的输入，所以可以将检测问题对应的答案文本的目标答案类型标识作为机器阅读理解模型的输入，为机器阅读理解模型的分析过程提供更多维度的信息，从而提高机器阅读理解模型输出的答案文本的准确度。根据先验知识容易确定出不同的检测问题对应的答案的答案类型，如，检测问题是“客户工作单位是否造假”，根据先验知识可以确定该检测问题对应的答案肯定是某个公司的名称，则正确的答案文本中包含的肯定是某个公司名称的汉字字符，所以输入至机器阅读理解模型的先验的目标答案类型是汉字字符，又如，检测问题是“贷款额度是否匹配”，根据先验知识可以确定该检测问题对应的答案肯定是客户的贷款额度，则正确的答案文本中包含的肯定是客户的贷款额度的数字字符，所以输入至机器阅读理解模型的先验的目标答案类型是数字字符。在模型的输入包括了先验的答案文本对应的目标答案类型的情况下，Transformer-XL模块的输出还可以包括每个备选答案文本对应的答案类型，这样，答案抽取模块在从多个备选答案文本中筛选答案文本时即可以参考输入的先验的目标答案类型进行筛选。例如，先验的目标答案类型为数字字符，若Transformer-XL模块的输出中的备选答案文本为汉字字符，则在从备选答案文本中筛选答案文本时可以直接将汉字字符的备选答案文本过滤，不作为最终筛选出的答案文本，这样，加入了更多的规则进行答案文本的筛选，能够提高最终筛选的准确度。

可见，实施该可选的实施例，通过将先验的检测问题对应的答案文本的目标答案类型标识作为机器阅读理解模型的输入，能够为机器阅读理解模型的分析过程提供更多维度的信息，从而能够进一步提高机器阅读理解模型输出的答案文本的准确度。

在一个可选的实施例中，训练所述机器阅读理解模型时，所使用的损失函数为：

其中，x_i用于表示所述机器阅读理解模型输出的备选答案文本的预测文本起始位置，x_j用于表示所述机器阅读理解模型输出的备选答案文本的预测文本结束位置，y_srart用于表示所述机器阅读理解模型输出的备选答案文本对应的真实文本起始位置，y_end用于表示所述机器阅读理解模型输出的备选答案文本对应的真实文本结束位置，用于表示所述机器阅读理解模型输出的备选答案文本，y_srart,end用于表示所述机器阅读理解模型输出的备选答案文本对应的真实答案文本，/>是所述机器阅读理解模型输出的备选答案文本的文本起始位置的损失函数，/>是所述机器阅读理解模型输出的备选答案文本的文本结束位置的损失函数，/>是所述机器阅读理解模型输出的备选答案文本的损失函数，/>是所述机器阅读理解模型的总损失函数。

在该可选的实施例中，通过使用Cross_entropy函数作为机器阅读理解模型训练时的损失函数，能够使训练完成的机器阅读理解模型具有预测备选答案文本、备选答案文本的文本起始位置、备选答案文本的文本结束位置等信息的能力。

可见，实施该可选的实施例，通过使用Cross_entropy函数作为机器阅读理解模型训练时的损失函数，使得训练完成的机器阅读理解模型具有预测检测问题文本对应的答案文本的能力，实现语音内容的自动检测。

在一个可选的实施例中，所述Transformer-XL模块中的Attention层的计算方式为：

其中，为待检测文本中字符i，j的embedding，R为相对位置向量，W、u、v为要学习的参数矩阵，q为query，即待检测文本中当前计算的字符，k为key，即待检测文本中当前计算的字符的上下文的其他字符。

可见，实施该可选的实施例，通过使用上述计算方式的Attention层，能够使Transformer-XL模块更好地理解待检测文本的上下文，从而能够提高机器阅读理解模型输出的答案文本的准确度。

在一个可选的实施例中，所述基于预设的关键词集合对所述录音文本文件执行预设的匹配操作，得到所述录音文本文件中的待检测文本，包括：

从所述录音文本文件所记录的文本中搜索出目标关键词，所述目标关键词是指预设的关键词集合中的任意一个关键词；

从所述录音文本文件所记录的文本中提取预设的目标文本范围内的文本，以作为所述录音文本文件中的待检测文本，所述目标文本范围是一个预设的以所述目标关键词为中心的文本范围。

在该可选的实施例中，在录音文本文件中搜索到关键词集合中的某一关键词时，即可以提取该关键词所在的句子，或者该关键词所在的句子和该关键词所在的句子的前后一句，或者该关键词所在的句子和该关键词所在的句子的前后三句作为待检测文本进行后续的分析。其中，目标文本范围可以根据质检点的不同设置为不同的范围，如，部分质检点只需要一轮对话即可以检测，则对应的目标文本范围可以设置为关键词所在的句子和该关键词所在的句子的前后一句，另一部分质检点需要前后三轮对话进行检测，则对应的目标文本范围可以设置为关键词所在的句子和该关键词所在的句子的前后三句。

可见，实施该可选的实施例，先搜索录音文本文件中的目标关键词，然后以目标关键词为中心提取预设的目标文本范围内的文本作为待检测文本，能够根据实际需求从录音文本文件中提取出合适的待检测文本进行后续的分析，从而有利于保证语音内容的自动检测方法的检测准确度。

可选地，还可以：将所述语音内容的自动检测方法的语音内容的自动检测信息上传至区块链中。

具体来说，语音内容的自动检测信息是通过运行所述语音内容的自动检测方法后得到的，用于记录语音内容的自动检测情况，例如，录音文件的获取时间、所使用的关键词集合、模型输出的答案文本等等。将语音内容的自动检测信息上传至区块链可保证其安全性和对用户的公正透明性。用户可以从区块链中下载得到该语音内容的自动检测信息，以便查证所述语音内容的自动检测方法的语音内容的自动检测信息是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

实施例二

请参阅图3，图3是本发明实施例公开的一种语音内容的自动检测装置的结构示意图。如图3所示，该语音内容的自动检测装置可以包括：

获取模块301，用于获取记录有语音内容的录音文件；

转换模块302，用于将所述录音文件转换为记录有所述语音内容对应的文本的录音文本文件；

匹配模块303，用于基于预设的关键词集合对所述录音文本文件执行预设的匹配操作，得到所述录音文本文件中的待检测文本，所述待检测文本是指所述录音文本文件所记录的文本中包含有所述关键词集合中任意一个关键词的部分文本；

分析模块304，用于将预设的检测问题文本和所述待检测文本输入至预设的机器阅读理解模型进行分析，得到所述检测问题文本对应的答案文本；

确定模块305，用于根据所述检测问题文本和所述答案文本确定所述语音内容的自动检测结果，所述自动检测结果用于表示所述语音内容通过自动检测或者未通过自动检测。

对于上述语音内容的自动检测装置的具体描述可以参照上述语音内容的自动检测方法的具体描述，为避免重复，在此不再一一赘述。

实施例三

请参阅图4，图4是本发明实施例公开的一种计算机设备的结构示意图。如图4所示，该计算机设备可以包括：

存储有可执行程序代码的存储器401；

与存储器401连接的处理器402；

处理器402调用存储器401中存储的可执行程序代码，执行本发明实施例一公开的语音内容的自动检测方法中的步骤。

实施例四

本发明实施例公开了一种计算机存储介质501，计算机存储介质501存储有计算机指令，该计算机指令被调用时，用于执行本发明实施例一公开的语音内容的自动检测方法中的步骤。

以上所描述的装置实施例仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施例的具体描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(RandomAccess Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory，EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-OnlyMemory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

最后应说明的是：本发明实施例公开的一种语音内容的自动检测方法、装置、计算机设备以及存储介质所揭露的仅为本发明较佳实施例而已，仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各项实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims

1.一种语音内容的自动检测方法，其特征在于，所述方法包括：

获取记录有语音内容的录音文件；

根据所述检测问题文本和所述答案文本确定所述语音内容的自动检测结果，所述自动检测结果用于表示所述语音内容通过自动检测或者未通过自动检测；

其中，所述机器阅读理解模型是一个基于BERT-MRC模型构建的模型，且所述机器阅读理解模型包括BERT Embedding模块、Transformer-XL模块和答案抽取模块；以及，所述将预设的检测问题文本和所述待检测文本输入至预设的机器阅读理解模型进行分析，得到所述检测问题文本对应的答案文本，包括：将预设的检测问题文本、所述待检测文本和预设的答案文本对应的目标答案类型标识输入所述BERT Embedding模块进行分析，以将所述检测问题文本、所述待检测文本和所述目标答案类型标识转换为对应的向量；将所述检测问题文本、所述待检测文本和所述目标答案类型标识对应的向量输入所述Transformer-XL模块进行分析，得到多个备选答案文本和每个所述备选答案文本对应的答案类型标识；所述答案抽取模块根据所述目标答案类型标识和每个所述备选答案文本对应的答案类型标识，从多个所述备选答案文本中筛选出答案文本；

其中，训练所述机器阅读理解模型时，所使用的损失函数为：

其中，x_i用于表示所述机器阅读理解模型输出的备选答案文本的预测文本起始位置，x_j用于表示所述机器阅读理解模型输出的备选答案文本的预测文本结束位置，y_srart用于表示所述机器阅读理解模型输出的备选答案文本对应的真实文本起始位置，y_end用于表示所述机器阅读理解模型输出的备选答案文本对应的真实文本结束位置，用于表示所述机器阅读理解模型输出的备选答案文本，y_srart,end用于表示所述机器阅读理解模型输出的备选答案文本对应的真实答案文本，/>是所述机器阅读理解模型输出的备选答案文本的文本起始位置的损失函数，/>是所述机器阅读理解模型输出的备选答案文本的文本结束位置的损失函数，/>是所述机器阅读理解模型输出的备选答案文本的损失函数，/>是所述机器阅读理解模型的总损失函数；

其中，所述Transformer-XL模块中的Attention层的计算方式为：

2.根据权利要求1所述的语音内容的自动检测方法，其特征在于，所述机器阅读理解模型是一个基于BERT-MRC模型构建的模型，且所述机器阅读理解模型包括BERT Embedding模块、Transformer-XL模块和答案抽取模块；

3.根据权利要求1-2任一项所述的语音内容的自动检测方法，其特征在于，所述基于预设的关键词集合对所述录音文本文件执行预设的匹配操作，得到所述录音文本文件中的待检测文本，包括：

4.根据权利要求2所述的语音内容的自动检测方法，其特征在于，所述答案抽取模块从多个所述备选答案文本中筛选出答案文本，包括：

所述答案抽取模块基于非极大值抑制方法从多个所述备选答案文本中筛选出答案文本。

5.一种语音内容的自动检测装置，其特征在于，所述装置包括：

获取模块，用于获取记录有语音内容的录音文件；

其中，所述Transformer-XL模块中的Attention层的计算方式为：

其中，为待检测文本中字符i，j的embedding，R为相对位置向量，W、u、v为要学习的参数矩阵，q为query，即待检测文本中当前计算的字符，k为key，即待检测文本中当前计算的字符的上下文的其他字符；

6.一种计算机设备，其特征在于，所述计算机设备包括：

存储有可执行程序代码的存储器；

与所述存储器连接的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行如权利要求1-4任一项所述的语音内容的自动检测方法。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4任一项所述的语音内容的自动检测方法。