CN109389493A

CN109389493A - 基于语音识别的自定义测试题目录入方法、系统及设备

Info

Publication number: CN109389493A
Application number: CN201811150784.0A
Authority: CN
Inventors: 高凌云; 牛华
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-09-29
Filing date: 2018-09-29
Publication date: 2019-02-26

Abstract

本公开提供了一种基于语音识别的自定义测试题目录入方法，其特征在于，包括：响应于语音录制信号，录制坐席输入的语音，其中，语音包括坐席自定义的测试题目；将语音识别为包含自定义的测试题目的本文；获取包含被测用户作答自定义的测试题目时产生的微表情的微表情视频；基于微表情视频，确定被测用户针对自定义的测试题目的欺诈率；以及在欺诈率满足预设规则的情况下，将包含自定义的测试题目的文本录入题目数据库内。本公开还提供了一种基于语音识别的自定义测试题目录入系统、一种计算机设备以及一种计算机可读存储介质。

Description

基于语音识别的自定义测试题目录入方法、系统及设备

技术领域

本发明涉及计算机技术领域，具体涉及基于语音识别的自定义测试题目录入方法、系统、计算机设备及计算机可读存储介质。

背景技术

在个人贷款面签业务中，为了防止出现贷款申请人骗贷的情况，提供贷款服务的企业通常会预先设置一些测试题目，并根据这些测试题目形成一份电子调查问卷。这样，坐席就可以根据电子调查问卷上固定的测试题目对贷款申请人进行提问。

但是，坐席根据固定的测试题目对贷款申请人进行提问时无法因人而异、比较死板。另一现有技术是针对不同的客户坐席自定义问题，并将自定义的问题手动输入系统中，然而这种手动输入自定义问题的操作十分不便。

目前未存在解决上述缺陷的方案。

发明内容

本公开目的是提供一种基于语音识别的自定义测试题目录入方法、系统、计算机设备及计算机可读存储介质，以至少解决现有技术坐席根据固定的测试题目对贷款申请人进行提问时无法因人而异、比较死板，以及手动输入自定义问题时操作十分不便的缺陷。

本公开的一个方面提供了一种基于语音识别的自定义测试题目录入方法，其特征在于，包括：响应于语音录制信号，录制坐席输入的语音，其中，上述语音包括上述坐席自定义的测试题目；将上述语音识别为包含上述自定义的测试题目的文本；获取包含被测用户作答上述自定义的测试题目时产生的微表情的微表情视频；基于上述微表情视频，确定上述被测用户针对上述自定义的测试题目的欺诈率；以及在上述欺诈率满足预设规则的情况下，将上述包含上述自定义的测试题目的文本录入题目数据库内。

根据本公开的实施例，将上述语音识别为包含上述自定义的测试题目的文本，包括：对上述语音进行分帧处理，以得到上述语音的多个语音帧；将上述多个语音帧中的各个语音帧转换成特征向量，得到多个特征向量，其中，上述特征向量中包含与其对应的语音帧的特征数据；确定上述多个特征向量对应的多个音素，其中，上述音素与至少一个特征向量对应；以及将上述多个音素进行组合，以得到上述包含上述自定义的测试题目的文本。

根据本公开的实施例，确定上述多个特征向量对应的多个音素，包括：确定上述多个特征向量中各个特征向量对应的状态，得到多个状态；将上述多个状态中相邻且相同的状态分为一组，得到多个状态组；以及基于上述多个状态组，确定上述多个音素，其中，上述音素与预设数量的状态组相对应。

根据本公开的实施例，上述基于上述微表情视频，确定上述被测用户针对上述自定义的测试题目的欺诈率，包括：分析上述微表情视频，得到微表情数据；将上述微表情数据发送至欺诈值模型，以使得上述欺诈值模型输出上述被测用户针对上述自定义的测试题目的欺诈值；以及根据上述欺诈值，计算上述欺诈率。

根据本公开的实施例，上述根据上述欺诈值，计算欺诈率，包括：获取预先设定的欺诈阈值；判断上述欺诈值是否大于等于上述欺诈阈值；以及若判断出上述欺诈值大于等于上述欺诈阈值，则根据上述欺诈值和上述欺诈阈值，计算上述欺诈率；或者若判断出上述欺诈值小于上述欺诈阈值，则将上述欺诈率置为零。

根据本公开的实施例，在上述欺诈率满足预设规则的情况下，将上述包含上述自定义的测试题目的文本录入题目数据库内，包括：获取预设阀值；判断上述欺诈率是否大于等于上述预设阀值；以及若判断出上述欺诈率大于等于上述预设阀值，则将上述包含上述自定义的测试题目的文本录入上述题目数据库内。

根据本公开的实施例，上述方法还包括：确定电子测试问卷对应的基本字体大小，其中，上述电子测试问卷包括多个预设测试题目；以及基于上述基本字体大小，将上述包含上述自定义的测试题目的文本展示在上述电子测试问卷的预设区域内。

根据本公开的实施例，确定上述多个特征向量中任一特征向量对应的状态，包括：获取多条第一映射关系，其中，上述第一映射关系中包括历史特征向量和预设状态的映射关系，上述历史特征向量是根据历史语音得到的；从上述多条第一映射关系中确定出该特征向量对应的第一映射关系；以及将该第一映射关系中的预设状态确定该特征向量对应的状态。

根据本公开的实施例，从上述多条第一映射关系中确定出该特征向量对应的第一映射关系，包括：计算上述多条第一映射关系中各条第一映射关系的历史特征向量与该特征向量的相似度，得到多个相似度；确定上述多个相似度中数值最大的相似度；以及将上述多条第一映射关系中与上述数值最大的相似度对应的第一映射关系作为该特征向量对应的第一映射关系。

本公开的另一个方面提供了一种基于语音识别的自定义测试题目录入系统，其特征在于，包括：录制模块，用于响应于语音录制信号，录制坐席输入的语音，其中，上述语音包括上述坐席自定义的测试题目；识别模块，用于将上述语音识别为包含上述自定义的测试题目的文本；获取模块，用于获取包含被测用户作答上述自定义的测试题目时产生的微表情的微表情视频；确定欺诈率模块，用于基于上述微表情视频，确定上述被测用户针对上述自定义的测试题目的欺诈率；以及录入模块，用于在上述欺诈率满足预设规则的情况下，将上述包含上述自定义的测试题目的文本录入题目数据库内。

根据本公开的实施例，上述识别模块包括：分帧单元，用于对上述语音进行分帧处理，以得到上述语音的多个语音帧；转换单元，用于将上述多个语音帧中的各个语音帧转换成特征向量，得到多个特征向量，其中，上述特征向量中包含与其对应的语音帧的特征数据；确定单元，用于确定上述多个特征向量对应的多个音素，其中，上述音素与至少一个特征向量对应；组合单元，用于将上述多个音素进行组合，以得到上述包含上述自定义的测试题目的文本。

根据本公开的实施例，上述确定单元包括：第一确定子单元，用于确定上述多个特征向量中各个特征向量对应的状态，得到多个状态；分组子单元，用于将上述多个状态中相邻且相同的状态分为一组，得到多个状态组；以及第二确定子单元，用于基于上述多个状态组，确定上述多个音素，其中，上述音素与预设数量的状态组相对应。

根据本公开的实施例，上述确定欺诈率模块包括：分析单元，用于分析上述微表情视频，得到微表情数据；发送单元，用于将上述微表情数据发送至欺诈值模型，以使得上述欺诈值模型输出上述被测用户针对上述自定义的测试题目的欺诈值；以及计算单元，用于根据上述欺诈值，计算上述欺诈率。

根据本公开的实施例，上述计算单元包括：获取子单元，用于获取预先设定的欺诈阈值；判断子单元，用于判断上述欺诈值是否大于等于上述欺诈阈值；以及计算子单元，用于在判断出上述欺诈值大于等于上述欺诈阈值的情况下，根据上述欺诈值和上述欺诈阈值，计算上述欺诈率；或者设置子单元，用于在判断出上述欺诈值小于上述欺诈阈值的情况下，将上述欺诈率置为零。

根据本公开的实施例，录入模块包括：获取单元，用于获取预设阀值；判断单元，用于判断上述欺诈率是否大于等于上述预设阀值；以及录入单元，用于在判断出上述欺诈率大于等于上述预设阀值的情况下，将上述包含上述自定义的测试题目的文本录入上述题目数据库内。

根据本公开的实施例，上述系统还包括：确定字体模块，用于确定电子测试问卷对应的基本字体大小，其中，上述电子测试问卷包括多个预设测试题目；以及展示模块，用于基于上述基本字体大小，将上述包含上述自定义的测试题目的文本展示在上述电子测试问卷的预设区域内。

根据本公开的实施例，上述第一确定子单元在确定上述多个特征向量中任一特征向量对应的状态时用于：获取多条第一映射关系，其中，上述第一映射关系中包括历史特征向量和预设状态的映射关系，上述历史特征向量是根据历史语音得到的；从上述多条第一映射关系中确定出该特征向量对应的第一映射关系；以及将该第一映射关系中的预设状态确定该特征向量对应的状态。

根据本公开的实施例，上述第一确定子单元在从上述多条第一映射关系中确定出该特征向量对应的第一映射关系时用于：计算上述多条第一映射关系中各条第一映射关系的历史特征向量与该特征向量的相似度，得到多个相似度；确定上述多个相似度中数值最大的相似度；以及将上述多条第一映射关系中与上述数值最大的相似度对应的第一映射关系作为该特征向量对应的第一映射关系。

本公开的再一个方面提供了一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，上述处理器执行上述计算机程序时用于实现如上任一项所述的基于语音识别的自定义测试题目录入方法的步骤。

本公开的又一个方面提供了一种计算机可读存储介质，其上存储有计算机程序，上述计算机程序被处理器执行时用于实现如上任一项所述的基于语音识别的自定义测试题目录入方法的步骤。

本公开提供的基于语音识别的自定义测试题目录入方法，通过在监测到语音录制信号时，对坐席输入的包含自定义的测试题目的语音进行录制，使得坐席可以根据其自定义的测试题目对被测用户进行测试，克服了现有技术中坐席根据固定的测试题目对贷款申请人进行测试存在无法因人而异、比较死板的缺陷，进一步，根据被测用户的微表情视频得到被测用户针对该自定义的测试问题的欺诈率，且在该欺诈率预设规则时，表明被测用户在回答该自定义的测试题目时欺诈程度较高，此时可以将包含该自定义的测试题目的本文录入题目数据库内，以便后续对被测用户继续进行考察，进而可以避免现有技术中通过手动输入自定义题目导致操作十分不便的缺陷。

附图说明

图1示意性示出了根据本公开实施例的基于语音识别的自定义测试题目录入方法的流程图；

图2示意性示出了根据本公开另一实施例的基于语音识别的自定义测试题目录入方法的流程图；

图3示意性示出了根据本公开实施例的基于语音识别的自定义测试题目录入系统的框图；以及

图4示意性示出了根据本公开实施例的适于实现基于语音识别的自定义测试题目录入方法的计算机设备的硬件架构示意图。

具体实施方式

为了使本公开的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本公开进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本公开，并不用于限定本公开。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

考虑到现有技术中坐席根据固定的测试题目对贷款申请人进行提问时无法因人而异、比较死板，以及手动输入自定义题目时操作十分不便的缺陷。本公开的实施例通过在监测到语音录制信号时，对坐席输入的包含自定义的测试题目的语音进行录制，使得坐席可以根据其自定义的测试题目对被测用户进行测试，克服了现有技术中坐席根据固定的测试题目对贷款申请人进行测试存在无法因人而异、比较死板的缺陷，进一步，根据被测用户的微表情视频得到被测用户针对该自定义的测试问题的欺诈率，且在该欺诈率预设规则时，表明被测用户在回答该自定义的测试题目时欺诈程度较高，此时可以将包含该自定义的测试题目的本文录入题目数据库内，以便后续对被测用户继续进行考察，进而可以避免现有技术中通过手动输入自定义题目导致操作十分不便的缺陷。

图1示意性示出了根据本公开实施例的基于语音识别的自定义测试题目录入方法的流程图。

如图1所示，该基于语音识别的自定义测试题目录入方法可以包括步骤S101～步骤S105，其中：

步骤S101，响应于语音录制信号，录制坐席输入的语音，其中，该语音包括坐席自定义的测试题目。

在本公开的实施例中，在个人贷款面签业务中，为了防止出现贷款申请人骗贷的情况，提供贷款服务的企业通常会预先设置一些固定的测试题目，并根据这些固定的测试题目形成一份电子测试问卷。然而，若是只根据这些固定的测试题目对贷款申请人进行测试，未免过于死板，且无法因人而异。

根据本公开的实施例，坐席可以根据贷款申请人的特征添加自定义的测试题目，并将该自定义的测试题目通过语音录入系统中。比如，在电子测试问卷中预先设置“开始录制”按钮，当坐席点击“开始录制”按钮时，系统可以生成并响应语音录制信号，开始录制坐席输入的语音，该语音中至少包含有坐席根据贷款申请人的特征自定义的测试题目。再比如，在坐席点击“开始录制”按钮后，该“开始录制”按钮自动更换为“结束录制”按钮，在坐席说完包含自定义的测试题目的语音后，可以点击“结束录制”按钮，以完成自定义的测试题目的录制。

例如，根据贷款申请人的特征，坐席想要通过其自定义的测试题目例如“您的贷款用途是什么”继续对贷款申请人进行测试，此时，坐席可以点击电子测试问卷中的“开始录制”按钮，并说出包含“您的贷款用途是什么”语音，系统会自动录制该语音，且在坐席点击“结束录制”按钮后停止录制。

根据本公开的实施例，在录制坐席输入的语音时，可以通过电子设备上的拾音模块例如麦克风进行录制，也可以通过电子设备外接的拾音设备例如耳机(带麦克风)进行录制。

下面以电子设备上的麦克风为例，录制坐席输入的语音。

坐席点击“开始录制”按钮时，可以激活电子设备上安装的录音软件，该录音软件通过调用电子设备上的麦克风可以录取坐席输入的语音，坐席点击“结束录制”按钮时，麦克风停止录制，此时录音软件完成对坐席输入的语音的录制。

下面以电子设备外接耳机(带麦克风)为例，录制坐席输入的语音。

坐席点击“开始录制”按钮时，可以激活电子设备上安装的录音软件，该录音软件可以调用电子设备上的将耳机(带麦克风)与电子设备进行插接的接口，并通过该接口获取由耳机(带麦克风)上的麦克风拾取的坐席输入的语音。在坐席点击点击“结束录制”按钮时，电子设备可以停止调用该接口，此时录音软件完成对坐席输入的语音的录制。

需要说明的是，语音的格式可以包括但不限于ACT、REC、VY1、VY2、VY3、VY4、SC4、DVF、MSC、WMA、MP3、WAV，ACT、MP3、WMA、WAV等。

步骤S102，将语音识别为包含自定义的测试题目的文本。

其中，将语音识别为包含该自定义的测试题目的文本可以包括：对语音进行分帧处理，以得到语音的多个语音帧；将多个语音帧中的各个语音帧转换成特征向量，得到多个特征向量，其中，特征向量中包含与其对应的语音帧的特征数据；确定多个特征向量对应的多个音素，其中，音素与至少一个特征向量对应；以及将多个音素进行组合，以得到包含自定义的测试题目的文本。

在本公开的实施例中，语音属于准稳态信号，即短时平稳，在进行语音处理时，为了减少语音整体的非稳态、时变的影响，需要对语音进行分帧处理，为了将该语音识别为文本，可以先对语音进行分帧处理。由于该语音是长时长语音，对语音进行分帧处理即是将该语音分为多个时短时长的语音帧。例如，该语音的时长为20s，为了能够准确的识别语音，可以将该20s的语音分为1000个20ms的语音帧。优选地，每个语音帧的长度可以位于20ms～50ms之间，例如，20ms、25ms、32ms、40ms等。需要说明的是，在对语音进行分帧处理时，可以采用移动窗口函数例如rolling_count、rolling_sum、rolling_mean、rolling_median、rolling_var、rolling_window等实现。

根据本公开的实施例，由于语音以及语音帧均是模拟信号，因此在将语音识别为文本之前，需要将每一个语音帧转换成数字信号。具体地，可以提取每一个语音帧中的特征数据，并将特征数据以特征向量的形式表征，这个特征向量即包含着这个语音帧中的内容信息。例如，每一个特征向量可以为12行、1列的向量，假设有N个特征向量，则这N个特征向量可以组成一个12行、N列的矩阵，其中，每一列代表一个特征向量。例如，结合上述示例，有1000个语音帧，由于语音帧与特征向量一一对应，则N的值可以是1000，即存在1000个特征向量。

需要说明的是，可以通过梅尔频率谱系数(Mel Frequency CepstrumCoefficient，简称为MFCC)提取语音帧中的特征数据，具体提取方式本公开的实施例不再赘述。

根据本公开的实施例，确定所述多个特征向量对应的多个音素可以是：确定所述多个特征向量中各个特征向量对应的状态，得到多个状态；将所述多个状态中相邻且相同的状态分为一组，得到多个状态组；以及基于所述多个状态组，确定所述多个音素，其中，所述音素与预设数量的状态组相对应。

具体地，可以确定每一个特征向量对应的状态以得到多个状态，确定多个状态对应的多个音素(语音中的最小单位，例如a、i、g等)，将多个音素组合成词语，再将这多个词语进行组合即可得到该包含自定义的测试题目的文本。其中，至少一个特征向量对应一个状态，至少一个状态对应一个音素，至少一个音素对应一个词语。需要说明的是，本公开实施例中的文本可以是韩汉语、英语、法语等各国语言，该文本可以是包含：时间戳、词句置信度、词属性以及句子标志的文本信息，其中，时间戳可以用于表征当前时间，例如2018年7月20日，语句置信度可以用于表征该文本的真实概率，词属性可以用于表征该文本类别，句子标志的文本信息可以用于表征文本的意思。

根据本公开的实施例，可以根据多条第一映射关系确定每一个特征向量对应的状态。具体地，可以获取多条第一映射关系，其中，每条第一映射关系中均可以包括历史特征向量和预设状态的映射关系，该历史特征向量是根据历史语音得到的；从多条第一映射关系中确定出该特征向量对应的第一映射关系，如，确定多条第一映射关系中各条第一映射关系的历史特征向量与该特征向量的相似度，得到多个相似度；确定多个相似度中数值最大的相似度；以及将多条第一映射关系中与数值最大的相似度对应的第一映射关系作为该特征向量对应的第一映射关系；将该第一映射关系中的预设状态确定为该特征向量对应的状态。

例如，有三条第一映射关系，分别是第一映射关系A，第一映射关系B和第一映射关系C，其中，第一映射关系A中包括历史特征向量A和预设状态A，第一映射关系B中包括历史特征向量B和预设状态B，第一映射关系C中包括历史特征向量C和预设状态C。对于任意一个特征向量，计算得知该特征向量与历史特征向量A的相似度为相似度A，特征向量与历史特征向量B的相似度为相似度B，特征向量与历史特征向量C的相似度为相似度C。其中，若相似度C的值最大，则可以将第一映射关系C中的预设状态C作为该特征向量的状态。

根据本公开的实施例，还可以利用上述多条第一映射关系对有监督的机器学习模型(例如深度神经网络、隐马尔科夫模型等)进行训练，进而可以得到声学模型，该声学模型可以基于输入其自身的特征向量输出该特征向量的状态。

例如，结合上述示例，通过第一映射关系A，第一映射关系B和第一映射关系C训练隐马尔科夫模型可以得到声学模型，将上述示例中的特征向量输入该声学模型后，该声学模型可以输出该特征向量的状态例如预设状态C。

根据本公开的实施例，确定多个状态对应的多个音素可以是，将多个状态中相邻且相同的状态分为一组，得到多个状态组；基于多个状态组，确定多个音素，其中，每个音素与预设数量的状态组相对应。

例如，结合上述示例，由于有1000个特征向量，则对应的状态为1000个，假设第1～4个状态均为状态1，第5～20个状态均为状态2，第21～23个状态均为状态3，第24～29个状态均为状态4，第30～34个状态均为状态5，第35～40个状态均为状态6，等等，则可以将第1～4个状态分为状态组1，第5～20个状态分为状态组2，第21～23个状态分为状态组3，第24～29个状态分为状态组4，第30～34个状态分为状态组5，第35～40个状态分为状态组6。若预设数量为3，则可以根据状态组1、状态组2、和状态组3确定音素1，根据状态组4、状态组5和状态组6确定音素2，等等。

需要说明的是，在确定音素时，也可以根据隐马尔可夫模型(Hidden MarkovModel，简称为HMM)进行确定，具体确定方式本公开的实施例不再赘述。

根据本公开的实施例，在确定出多个音素之后，可以将音素按照拼音规则进行组合，以得到多个词语，再将多个词语组合成包含自定义的测试题目的文本。

例如，结合上述示例，若确定出的音素分别为“n”、“i”、“n”、“d”、“e”、“d”、“a”、“i”、“k”、“u”、“a”、“n”、“y”、“o”、“n”、“g”、“t”、“u”、“s”、“h”、“i”、“s”、“h”、“e”、“n”、“m”、“o”，则可以将这些音素进行组合，进而得到词语：“您”、“的”、“贷”、“款”、“用”、“途”、“是”、“什”、“么”，再将这些词语进行组合即可得到文本：您的贷款用途是什么。

步骤S103，获取包含被测用户作答自定义的测试题目时产生的微表情的微表情视频。

根据本公开的实施例，获取包含被测用户作答自定义的测试题目时产生的微表情的微表情视频可以是：获取第一时长内包含被测用户针对自定义的测试题目所产生的微表情的微表情视频。其中，对于该自定义的测试题目，其可以对应一个第一开始按钮和一个第一结束按钮，该第一时长可以是从第一开始按钮被触发的时间到第一结束按钮被触发的时间。例如，第一开始按钮被触发的时间为11点10分20秒，第一结束按钮被触发的时间为11点10分36秒，则该第一时长可以是从11点10分20秒到11点10分36秒之间的时间。或者，对于当前测试题目，其可以对应一个第二开始按钮，该第一时长可以是以该第二开始按钮被触发的时间为开始时间的预设时间段。例如，预设时间段长度为10秒，第二开始按钮被触发的时间为11点10分20秒，则第一时长为从11点10分20秒到11点10分30秒之间的时间。

步骤S104，基于微表情视频，确定被测用户针对自定义的测试题目的欺诈率。

其中，基于微表情视频，确定被测用户针对自定义的测试题目的欺诈率可以包括：分析微表情视频，得到微表情数据；将微表情数据发送至欺诈值模型，以使得欺诈值模型输出被测用户针对自定义的测试题目的欺诈值；根据欺诈值，计算欺诈率。

根据本公开的实施例，系统可以自动分析愉快、悲伤、害怕、厌恶、惊讶、愤怒、自然、轻蔑等面部表情。具体地，可以先判断视频或者图像中是否存在面部，若存在，则可以识别出面部的特征，并将这些特征解析成数据(又称为微表情数据)。例如，若当前视频帧中存在面部，且识别出的面部特征为：皱眉、上眼睑上升、眼轮匝肌内圈收紧、收紧嘴唇，则根据运动单元(简称为AU)编码可以知道皱眉对应AU4，上眼睑上升对应AU5，眼轮匝肌内圈收紧对应AU7，收紧嘴唇对应AU23。

需要说明的是，人的面部一共有39个主要的AU，这些AU可以相互组合，不同的AU组合代表了不同的情绪。例如，结合上述示例，AU4、AU5、AU7、AU23组合起来可以代表愤怒。此外，本公开的实施例还可以识别被测用户的视线方向，例如眼球左右滚动。

根据本公开的实施例，欺诈值模型可以包括多条第二映射关系，每条第二映射关系中可以包括历史微表情数据和历史欺诈值，其中，历史微表情数据是根据历史微表情视频得到的，例如可以通过微表情控件对历史微表情视频进行分析得到历史微表情数据。在接收到微表情数据之后，欺诈值模型可以从其包含的多条第二映射关系中确定出与该微表情数据对应的第二映射关系。例如确定出与该微表情数据最相似的历史微表情数据，并将该历史微表情数据所在的第二映射关系作为该微表情数据对应的第二映射关系。进一步，可以根据该对应的第二映射关系确定出欺诈值，例如可以将该对应的第二映射关系中的历史欺诈值作为被测用户针对当前测试题目的欺诈值。

例如，假设欺诈值模型中包括第二映射关系A，第二映射关系B和第二映射关系C，其中，第二映射关系A中包括历史微表情数据A和历史欺诈值A(假设为0.4)，第二映射关系B中包括历史微表情数据B和历史欺诈值B(假设为0.6)，第二映射关系中包括历史微表情数据C和历史欺诈值C(假设为0.3)。若本公开实施例中的微表情数据与第二映射关系B中历史微表情数据B最接近，则可以将历史微表情数据B对应的历史欺诈值B作为本公开实施例中的被测用户针对当前测试题目的欺诈值，即被测用户针对当前测试题目的欺诈值为0.6。

需要说明的是，某一历史微表情数据可能对应多个欺诈值，此时，需要判断(可以是人工判断)哪个欺诈值才是与该历史微表情数据相关联的历史欺诈值。例如，某一历史微表情数据A对应两个欺诈值，这两个欺诈值分别为欺诈值1和欺诈值2。经判断发现，欺诈值1为错误的，欺诈值2为正确的，则可以将欺诈值2作为与该历史微表情数据A相关联的历史欺诈值。

在本公开的实施例中，根据所述欺诈值，计算欺诈率可以包括：获取预先设定的欺诈阈值；判断欺诈值是否大于等于欺诈阈值；以及若判断出欺诈值大于等于欺诈阈值，则根据欺诈值和欺诈阈值，计算欺诈率；或者若判断出欺诈值小于欺诈阈值，则将欺诈率置为零。

具体地，本公开的实施例只有在欺诈值高于某一数值例如欺诈阈值时，才会认为被测用户在回答测试问题时存在说谎的情况，但若是坐席直接查看欺诈值，则需要坐席自行判断该欺诈值是否高于欺诈阈值，比较繁琐，并且坐席也不容易直观的了解到被测用户的欺诈程度。为了便于坐席更明确的获知被测用户在回答当前测试问题时是否说谎以及说谎的程度，本公开的实施例可以根据欺诈值计算欺诈概率。具体包括：获取预先设定的欺诈阈值；判断欺诈值是否大于等于欺诈阈值；若判断出欺诈值大于等于欺诈阈值，则根据欺诈值和欺诈阈值，计算欺诈概率。

根据本公开的实施例，坐席或者其他工作人员可以预先在微表情控件中设置一个欺诈阈值，其中，该欺诈阈值是根据历史经验得出的，例如，正常微表情和说谎微表情之间存在一定的差距，该差距可以通过大数据统计得出，进而可以将统计出的值作为该欺诈阈值。微表情控件可以判断欺诈值是否大于等于该欺诈阈值，若是，则表明被测用户在回答当前测试题目时存在欺诈行为，此时微表情控件可以利用预设算法对该欺诈值和欺诈阈值进行计算，以得到欺诈概率，其中，该预设算法可以为：

欺诈概率＝(欺诈值-欺诈阈值)/欺诈阈值×100％。

例如，在被测用户回答当前测试题目后，根据微表情计算得出欺诈值为0.6。微表情控件提供的欺诈阈值为0.45，由于0.6>0.45，则可以利用预设算法计算出欺诈概率＝(0.6-0.45)/0.45×100％≈33％。

根据本公开的实施例，若微表情控件判断出欺诈值小于该欺诈阈值，则表明被测用户在回答当前测试题目时不存在欺诈行为，此时可以将欺诈概率置为0。

步骤S105，在欺诈率满足预设规则的情况下，将包含自定义的测试题目的文本录入题目数据库内。

其中，在欺诈率满足预设规则的情况下，将包含自定义的测试题目的文本录入题目数据库内可以包括：获取预设阀值；判断欺诈率是否大于等于预设阀值；以及若判断出欺诈率大于等于预设阀值，则将包含自定义的测试题目的文本录入题目数据库内。

由于坐席自定义的测试题目可能并不具有代表性，因此本公开的实施例没有必要将坐席自定义的所有测试题目均录入题目数据库中，而是在被测用户作答该自定义的测试题目时的说谎程度达到一定级别时，才将包含该自定义的测试题目的文本录入题目数据库中，以便后续使用。

具体地，可以设定一个预设阀值，其中，该预设阀值的设定依据可以是，利用大数据计算历史欺诈率在达到什么程度时会对被测用户的信誉度产生明显影响。在被测用户针对该自定义的测试题目的欺诈率达到该预设阀值时，表明该被测用户作答该定义的测试题目时的说谎程度较为严重，此时，可以将包含该自定义的测试题目的文本录入题目数据库内。

例如，预设阈值为60％，某一个自定的测试题目为“今天去公司的路上堵车吗？”，被测用户针对该自定义的测试题目的欺诈率为61％，则可以将“今天去公司的路上堵车吗？”的文本录入题目数据库中。

图2示意性示出了根据本公开另一实施例的基于语音识别的自定义测试题目录入方法的流程图。

如图2所示，该基于语音识别的自定义测试题目录入方法除了可以包括步骤S101～S105之外，还可以包括步骤S201和步骤S202，其中：

步骤S201，确定电子测试问卷对应的基本字体大小，其中，电子测试问卷包括多个预设测试题目；

步骤S202，基于基本字体大小，将包含自定义的测试题目的文本展示在电子测试问卷的预设区域内。

在本公开的实施例中，为了方便坐席了解识别结果，可以将识别出的包含自定义的测试题目的文本展示在电子测试问卷的预设区域内。此外，为了不突兀的进行展示，还可以先行确定出电子测试问卷对应的基本字体大小，并将该包含自定义的测试题目的文本的字体大小设置为该基本字体大小，进而将其展示在上述预设区域内。

例如，电子测试问卷包括20个预设测试题目，每个预设测试题目的字体大小均为“五号字”，此时可以将基本字体大小确定为“五号字”。进一步可以将识别出的包含自定义的测试题目的文本的字体大小设置为“五号字”，并将其展示在电子测试问卷的预设区域内。

再例如，结合上述示例，若15个预设测试题目的字体大小为“五号字”，5个预设测试题目的字体大小为“小五号字”，则可以将基本字体大小确定为“五号字”，进而可以将识别出的包含自定义的测试题目的文本的以“五号字”展示在电子测试问卷的预设区域内。

再例如，结合上述示例，若10个预设测试题目的字体大小为“五号字”，10个预设测试题目的字体大小为“小五号字”，则将基本字体大小确定为“五号字”或者“小五号字”均可，进而可以将识别出的包含自定义的测试题目的文本的以“五号字”或者“小五号字”展示在电子测试问卷的预设区域内。

根据本公开的实施例，电子测试问卷还可以包括“开始录制”按钮，预设区域可以是包含该“开始录制”按钮的区域。

根据本公开的实施例，文字展示可以是一个逐步的过程，比如，可以预先设置每1秒请求一次识别接口，以将最新的识别结果展示在电子测试问卷的预设区域中(例如html绑定的展示元素区域)。

例如，对于识别出的文本“您的贷款用途是什么”，可以是第1秒获取的文字为“您的贷款”，第2秒获取到的文字为“您的贷款用途”，第3秒获取到的文字为“您的贷款用途是什么”。

图3示意性示出了根据本公开实施例的基于语音识别的自定义测试题目录入系统的框图。

如图3所示，该基于语音识别的自定义测试题目录入系统300可以包括录制模块310、识别模块320、获取模块330、确定欺诈率模块340和录入模块350，其中：

录制模块310用于响应于语音录制信号，录制坐席输入的语音，其中，语音包括坐席自定义的测试题目；

识别模块320用于将语音识别为包含自定义的测试题目的本文；

获取模块330用于获取包含被测用户作答自定义的测试题目时产生的微表情的微表情视频；

确定欺诈率模块340用于基于微表情视频，确定被测用户针对自定义的测试题目的欺诈率；以及

录入模块350用于在欺诈率满足预设规则的情况下，将包含自定义的测试题目的文本录入题目数据库内。

作为一种可选的实施例，识别模块包括：分帧单元，用于对语音进行分帧处理，以得到语音的多个语音帧；转换单元，用于将多个语音帧中的各个语音帧转换成特征向量，得到多个特征向量，其中，特征向量中包含与其对应的语音帧的特征数据；确定单元，用于确定多个特征向量对应的多个音素，其中，音素与至少一个特征向量对应；组合单元，用于将多个音素进行组合，以得到包含自定义的测试题目的文本。

作为一种可选的实施例，确定单元包括：第一确定子单元，用于确定多个特征向量中各个特征向量对应的状态，得到多个状态；分组子单元，用于将多个状态中相邻且相同的状态分为一组，得到多个状态组；以及第二确定子单元，用于基于多个状态组，确定多个音素，其中，音素与预设数量的状态组相对应。

作为一种可选的实施例，确定欺诈率模块包括：分析单元，用于分析微表情视频，得到微表情数据；发送单元，用于将微表情数据发送至欺诈值模型，以使得欺诈值模型输出被测用户针对自定义的测试题目的欺诈值；以及计算单元，用于根据欺诈值，计算欺诈率。

作为一种可选的实施例，计算单元包括：获取子单元，用于获取预先设定的欺诈阈值；判断子单元，用于判断欺诈值是否大于等于欺诈阈值；以及计算子单元，用于在判断出欺诈值大于等于欺诈阈值的情况下，根据欺诈值和欺诈阈值，计算欺诈率；或者设置子单元，用于在判断出欺诈值小于欺诈阈值的情况下，将欺诈率置为零。

作为一种可选的实施例，录入模块包括：获取单元，用于获取预设阀值；判断单元，用于判断欺诈率是否大于等于预设阀值；以及录入单元，用于在判断出欺诈率大于等于预设阀值的情况下，将包含自定义的测试题目的文本录入题目数据库内。

作为一种可选的实施例，系统还包括：确定字体模块，用于确定电子测试问卷对应的基本字体大小，其中，电子测试问卷包括多个预设测试题目；以及展示模块，用于基于基本字体大小，将包含自定义的测试题目的文本展示在电子测试问卷的预设区域内。

作为一种可选的实施例，第一确定子单元在确定多个特征向量中任一特征向量对应的状态时用于：获取多条第一映射关系，其中，第一映射关系中包括历史特征向量和预设状态，历史特征向量是根据历史语音得到的；从多条第一映射关系中确定出该特征向量对应的第一映射关系；以及将该第一映射关系中的预设状态确定该特征向量对应的状态。

作为一种可选的实施例，第一确定子单元在从多条第一映射关系中确定出该特征向量对应的第一映射关系时用于：计算多条第一映射关系中各条第一映射关系的历史特征向量与该特征向量的相似度，得到多个相似度；确定多个相似度中数值最大的相似度；以及将多条第一映射关系中与数值最大的相似度对应的第一映射关系作为该特征向量对应的第一映射关系。

图4示意性示出了根据本公开实施例的适于实现基于语音识别的自定义测试题目录入方法的计算机设备的硬件架构示意图。本实施例中，计算机设备400是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。例如，可以是智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图所示，计算机设备400至少包括但不限于：可通过系统总线相互通信连接存储器410、处理器420、网络接口430。其中：

存储器410至少包括一种类型的计算机可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器410可以是计算机设备400的内部存储模块，例如该计算机设备400的硬盘或内存。在另一些实施例中，存储器410也可以是计算机设备400的外部存储设备，例如该计算机设备400上配备的插接式硬盘，智能存储卡(Smart Media Card，简称为SMC)，安全数字(Secure Digital，简称为SD)卡，闪存卡(Flash Card)等。当然，存储器410还可以既包括计算机设备400的内部存储模块也包括其外部存储设备。本实施例中，存储器410通常用于存储安装于计算机设备400的操作系统和各类应用软件，例如基于语音识别的自定义测试题目录入方法的程序代码等。此外，存储器410还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器420在一些实施例中可以是中央处理器(Central Processing Unit，简称为CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器420通常用于控制计算机设备400的总体操作，例如执行与计算机设备400进行数据交互或者通信相关的控制和处理等。本实施例中，处理器420用于运行存储器410中存储的程序代码或者处理数据。

网络接口430可包括无线网络接口或有线网络接口，该网络接口430通常用于在计算机设备400与其他计算机设备之间建立通信连接。例如，网络接口430用于通过网络将计算机设备400与外部终端相连，在计算机设备400与外部终端之间的建立数据传输通道和通信连接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，简称为GSM)、宽带码分多址(Wideband CodeDivision Multiple Access，简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图4仅示出了具有部件410-430的计算机设备，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器410中的基于语音识别的自定义测试题目录入方法还可以被分割为一个或者多个程序模块，并由一个或多个处理器(本实施例为处理器420)所执行，以完成本发明。

本实施例还提供一种计算机可读存储介质，计算机可读存储介质其上存储有计算机程序，计算机程序被处理器执行时实现实施例中的基于语音识别的自定义测试题目录入方法的步骤。

本实施例中，计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，计算机可读存储介质可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，计算机可读存储介质也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，简称为SMC)，安全数字(Secure Digital，简称为SD)卡，闪存卡(Flash Card)等。当然，计算机可读存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，计算机可读存储介质通常用于存储安装于计算机设备的操作系统和各类应用软件，例如实施例中的基于语音识别的自定义测试题目录入方法的程序代码等。此外，计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的各类数据。

显然，本领域的技术人员应该明白，上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于语音识别的自定义测试题目录入方法，其特征在于，包括：

响应于语音录制信号，录制坐席输入的语音，其中，所述语音包括所述坐席自定义的测试题目；

将所述语音识别为包含所述自定义的测试题目的文本；

获取包含被测用户作答所述自定义的测试题目时产生的微表情的微表情视频；

基于所述微表情视频，确定所述被测用户针对所述自定义的测试题目的欺诈率；以及

在所述欺诈率满足预设规则的情况下，将所述包含所述自定义的测试题目的文本录入题目数据库内。

2.根据权利要求1所述的方法，其特征在于，所述将所述语音识别为包含所述自定义的测试题目的文本，包括：

对所述语音进行分帧处理，以得到所述语音的多个语音帧；

将所述多个语音帧中的各个语音帧转换成特征向量，得到多个特征向量，其中，所述特征向量中包含与其对应的语音帧的特征数据；

确定所述多个特征向量对应的多个音素，其中，所述音素与至少一个特征向量对应；以及

将所述多个音素进行组合，以得到所述包含所述自定义的测试题目的文本。

3.根据权利要求2所述的方法，其特征在于，确定所述多个特征向量对应的多个音素，包括：

确定所述多个特征向量中各个特征向量对应的状态，得到多个状态；

将所述多个状态中相邻且相同的状态分为一组，得到多个状态组；以及基于所述多个状态组，确定所述多个音素，其中，所述音素与预设数量的状态组相对应。

4.根据权利要求1所述的方法，其特征在于，所述基于所述微表情视频，确定所述被测用户针对所述自定义的测试题目的欺诈率，包括：

分析所述微表情视频，得到微表情数据；

将所述微表情数据发送至欺诈值模型，以使得所述欺诈值模型输出所述被测用户针对所述自定义的测试题目的欺诈值；以及

根据所述欺诈值，计算所述欺诈率。

5.根据权利要求4所述的方法，其特征在于，所述根据所述欺诈值，计算欺诈率，包括：

获取预先设定的欺诈阈值；

判断所述欺诈值是否大于等于所述欺诈阈值；以及

若判断出所述欺诈值大于等于所述欺诈阈值，则根据所述欺诈值和所述欺诈阈值，计算所述欺诈率；或者

若判断出所述欺诈值小于所述欺诈阈值，则将所述欺诈率置为零。

6.根据权利要求1所述的方法，其特征在于，在所述欺诈率满足预设规则的情况下，将所述包含所述自定义的测试题目的文本录入题目数据库内，包括：

获取预设阀值；

判断所述欺诈率是否大于等于所述预设阀值；以及

若判断出所述欺诈率大于等于所述预设阀值，则将所述包含所述自定义的测试题目的文本录入所述题目数据库内。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定电子测试问卷对应的基本字体大小，其中，所述电子测试问卷包括多个预设测试题目；以及

基于所述基本字体大小，将所述包含所述自定义的测试题目的文本展示在所述电子测试问卷的预设区域内。

8.一种基于语音识别的自定义测试题目录入系统，其特征在于，包括：

录制模块，用于响应于语音录制信号，录制坐席输入的语音，其中，所述语音包括所述坐席自定义的测试题目；

识别模块，用于将所述语音识别为包含所述自定义的测试题目的文本；

获取模块，用于获取包含被测用户作答所述自定义的测试题目时产生的微表情的微表情视频；

确定欺诈率模块，用于基于所述微表情视频，确定所述被测用户针对所述自定义的测试题目的欺诈率；以及

录入模块，用于在所述欺诈率满足预设规则的情况下，将所述包含所述自定义的测试题目的文本录入题目数据库内。

9.一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时用于实现权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时用于实现权利要求1至7任一项所述方法的步骤。