一种识别AI来电的方法、装置、语音助手、终端、计算机设备及
计算机可读存储介质
技术领域
本发明涉及通讯技术领域,特别涉及一种识别人工智能AI来电的方法。
背景技术
目前,由于语音合成技术的不断发展,各类广告、推销电话不再采用人工方式拨打电话,采用AI来电方式的越来越多。由于AI来电方式可以节约大量的人力成本,被商家等大规模的应用,使得用户经常接收到该类电话,影响用户的体验。尤其当用户不便于接听来电时,若未对该类电话进行识别,直接采用预设的自动应答方式进行答复或者采用语音助手自动接听来电时容易造成个人信息泄露,存在一定的安全风险。
发明内容
针对现有技术中存在的上述问题,本发明提出一种AI来电识别方法及装置,用以克服上述问题。
本发明实施例提供了一种识别AI来电的方法,包括:
步骤101、终端接收到来电呼叫时,语音助手自动接通来电;
步骤102、获取来电的语音信号,对语音信号进行预处理;
步骤103、利用数据库对预处理后的语音信号进行分析判断,识别该来电是否属于AI来电。
优选地,
步骤102具体包括:语音助手获取来电的语音信号,滤除语音信号中的噪声值。
优选地,在步骤103之前,预先建立数据库,其中包括以下步骤:
步骤1、获取多个真人语音样本以及多个AI语音样本,形成语料库;
步骤2、对真人语音样本、AI语音样本按照完整语意、词组两个维度进行切分,形成真人语音段、AI语音段,分别提取两种语音段的长期频谱特征The Long Term AverageSpectrum(LTAS),获取LTAS的基频特征,根据LTAS中的基频特征确定两种语音段的音调;其中完整语意切分粒度大于或等于词组切分粒度;
步骤3、分别识别真人语音段、AI语音段的音素序列,根据各音素的变化位置确定每个音素的发音时间长度,得出两种语音段的发音节奏;
步骤4、建立数据库,将语音段转换为文本,以该文本为索引,存储对应的真人语音段、AI语音段的LTAS的基频特征、音调、音素的发音时间长度以及对应的节奏这四个特征参数。其中一个文本可对应于一个或多个真人语音段、一个或多个AI语音段。
优选地,由云服务器或者终端预先建立数据库,数据库存储于云服务器或者终端。
优选地,利用数据库对预处理后的语音信号进行分析判断,识别该来电是否属于AI来电,具体包括以下步骤:
步骤1031、将预处理后的语音信号按照完整语意进行切分,将切分后的语音段转换为文本,以该文本为索引,查找数据库中是否存在该文本索引,执行步骤1032;
步骤1032、若数据库中存在对应的文本,获取切分后的语音段对应的LTAS 的基频特征及与其对应的音调、音素的发音时间长度以及对应的节奏这四个特征参数;将切分后的语音段对应的LTAS的基频特征及与其对应的音调、音素的发音时间长度以及对应的节奏分别与数据库中该文本索引对应的真人语音段、 AI语音段的LTAS的基频特征、音调、音素的发音时间长度、节奏进行比较,计算切分后的语音段的四个特征参数分别与真人语音、AI语音的四个特征参数的相似度;当数据库中该文本对应于多个真人语音段、和/或多个AI语音段时,将切分后的语音段的四个特征参数分别与数据库中的每个真人语音段、AI语音段的四个特征参数进行相似度计算,并执行步骤1033;若数据库中不存在对应的文本,将预处理后的语音信号按照词组进行切分,获取按照词组切分后的语音段对应的LTAS的基频特征及与其对应的音调、音素的发音时间长度以及对应的节奏这四个特征参数,并执行步骤1034;
步骤1033、当按照语意和/或按照词组切分后的语音段的四个特征参数与真人语音段/AI语音段的四个特征参数比较后的每个特征参数的相似度均高于预设值时,为该语音段的真人属性/AI属性赋值1+a(N-1),否则赋值0;其中N 为按照语意和/或按照词组切分后的语音段与多个真人语音段/多个AI语音段的比较中每个特征参数的相似度均高于预设值时真人语音段/AI语音段的个数,a 为权重因子,a为正数;执行步骤1035;
步骤1034、将按照词组切分后的语音段转换为文本,以该文本为索引,查找数据库中对应于该文本的真人语音段、AI语音段的LTAS的基频特征、音调、音素的发音时间长度、节奏这四个特征参数;将按照词组切分后的语音段的四个特征参数分别与数据库中该文本索引对应的真人语音段、AI语音段的LTAS 的基频特征、音调、音素的发音时间长度、节奏进行比较,计算切分后的语音段的四个特征参数分别与真人语音、AI语音的四个特征参数的相似度;当数据库中该文本对应于多个真人语音段、和/或AI语音段时,将切分后的语音段的四个特征参数分别与数据库中的每个真人语音、AI语音的四个特征参数进行相似度计算,并执行步骤1033;
步骤1035、对来电的语音信号对应的语音段中真人属性、AI属性分别求和,当真人属性的和值大于AI属性的和值,则判断该来电属于真人来电,否则为 AI来电,结束;若真人属性的和值与AI属性的和值相同,则执行步骤1036;
步骤1036、语音助手播放预设语音,与来电进行对话,如向来电提问等;判断来电的回复是否与预设语音内容相关,若相关,则对回复的语音信号进行预处理,执行步骤1031;否则判断其为AI来电,结束。
优选地,在步骤103之后,进一步包括步骤104,当来电被识别为AI语音来电时,语音助手直接结束通话。
优选地,在步骤101中,语音助手判断是否满足自动接通来电的条件,当满足条件时,接通来电。
优选地,所述语音助手为云语音助手。
本发明实施例还提供了一种识别AI来电的装置,该装置包括接听模块、预处理模块、识别模块;其中,
接听模块,用于当终端接收到来电呼叫时,自动接通来电;
预处理模块,用于获取来电的语音信号,对语音信号进行预处理;
识别模块,用于利用数据库对预处理后的语音信号进行分析判断,识别该来电是否属于AI来电。
该方法可以实现语音助手识别AI来电的功能,降低用户个人信息泄露的概率,帮助用户解决骚扰电话,提升智能来电的人性化,提高用户体验。
附图说明
图1是本发明一种实施例中的识别AI来电的方法。
图2是本发明一种实施例中的识别AI来电的装置。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。本发明的实施例以及实施例的具体特征是对本发明实施例技术方案的详细说明,而非对本发明说明书技术方案的限定,在不冲突的情况下,本发明的实施例以及实施例的技术特征可以相互结合。
图1是本发明一实施例提出的一种识别AI来电的方法,包括以下步骤:
步骤101、终端接收到来电呼叫时,语音助手自动接通来电;
步骤102、获取来电的语音信号,对语音信号进行预处理;
步骤103、利用数据库对预处理后的语音信号进行分析判断,识别该来电是否属于AI来电。
在上述步骤101中,可以设置语音助手自动接通来电的条件,当满足自动接通来电的条件时,语音助手自动接通该来电,该自动接通的条件包括但不限于:用户会议中、用户休息中、用户处于通话状态、用户在10秒内未接听来电,或者来电号码为陌生电话等。
在另一实施方式中,在步骤101中,终端接收到来电呼叫时,判断是否启用了语音助手自动接听来电功能,当启用该功能时,由语音助手接听来电。进一步的,语音助手判断是否满足其接听的条件,当满足条件时接听来电。
步骤102中,语音助手获取来电的语音信号,滤除语音信号中的噪声,如环境噪声或其他人的声音等,实现对语音信号的预处理。通过该步骤可以提高后续语音信号分析的准确性。
在步骤103之前,预先建立数据库,其中包括以下步骤:
步骤1、获取多个真人语音样本以及多个AI语音样本,形成语料库;
步骤2、对真人语音样本、AI语音样本按照完整语意、词组两个维度进行切分,形成真人语音段、AI语音段,分别提取两种语音段的长期频谱特征The Long Term AverageSpectrum(LTAS),获取LTAS的基频特征,根据LTAS中的基频特征确定两种语音段的音调;其中完整语意切分粒度大于或等于词组切分粒度;
以下面的实施例具体进行说明。
假设真人语音样本与AI语音样本均为“您好,请问您有出国留学的需求吗”,按照语意进行切分时,将上述样本均切分为“您好”、“请问您有出国留学的需求吗”两个语音段,按照词组进行切分时,将其切分为“您好”、“请问”、“您”、“有”、“出国留学”、“的”、“需求”、“吗”多个语音段。对上述经两个维度切分后的语音段进行分析,得到各语音段的LTAS的基频特征、音调。
步骤3、分别识别真人语音段、AI语音段的音素序列,根据各音素的变化位置确定每个音素的发音时间长度,得出两种语音段的发音节奏;
对于上述示例,同样的对上述经两个维度切分后的语音段进行分析,得到各语音段的每个音素的发音时间长度、发音节奏。
步骤4、建立数据库,将语音段转换为文本,以该文本为索引,存储对应的真人语音段、AI语音段的LTAS的基频特征、音调、音素的发音时间长度以及对应的节奏这四个特征参数。其中一个文本可对应于一个或多个真人语音段、一个或多个AI语音段。下表为示例性的存储方式。
表1AI语音识别表
如表1所示,其中文本列为索引列,其对应于真人语音段、AI语音段的语音内容,真人语音段列、AI语音段列分别用于存储真人语音段、AI语音段的LTAS 的基频特征、音调、音素的发音时间长度、节奏这四个特征参数,如表所示,文本2对应于2个真人语音段、4个AI语音段,将各个语音段得到的特征参数分别进行存储,以序号区分对应于同一文本索引的不同真人语音段、AI语音段。
上述建立数据库的过程和/或数据库的存储可以在终端本地或者云服务器,其中由云服务器执行上述过程可以降低对终端本地资源的消耗。
在步骤103中,利用数据库对预处理后的语音信号进行分析判断,识别该来电是否属于AI来电,具体包括以下步骤:
步骤1031、将预处理后的语音信号按照完整语意进行切分,将切分后的语音段转换为文本,以该文本为索引,查找数据库中是否存在该文本索引,执行步骤1032;
步骤1032、若数据库中存在对应的文本,获取切分后的语音段对应的LTAS 的基频特征及与其对应的音调、音素的发音时间长度以及对应的节奏这四个特征参数;将切分后的语音段对应的LTAS的基频特征及与其对应的音调、音素的发音时间长度以及对应的节奏分别与数据库中该文本索引对应的真人语音段、 AI语音段的LTAS的基频特征、音调、音素的发音时间长度、节奏进行比较,计算切分后的语音段的四个特征参数分别与真人语音、AI语音的四个特征参数的相似度;当数据库中该文本对应于多个真人语音段、和/或多个AI语音段时,将切分后的语音段的四个特征参数分别与数据库中的每个真人语音段、AI语音段的四个特征参数进行相似度计算,并执行步骤1033;若数据库中不存在对应的文本,将预处理后的语音信号按照词组进行切分,获取按照词组切分后的语音段对应的LTAS的基频特征及与其对应的音调、音素的发音时间长度以及对应的节奏这四个特征参数,并执行步骤1034;
步骤1033、当按照语意和/或按照词组切分后的语音段的四个特征参数与真人语音段/AI语音段的四个特征参数比较后的每个特征参数的相似度均高于预设值时,为该语音段的真人属性/AI属性赋值1+a(N-1),否则赋值0;其中N 为按照语意和/或按照词组切分后的语音段与多个真人语音段/多个AI语音段的比较中每个特征参数的相似度均高于预设值时真人语音段/AI语音段的个数,a 为权重因子,a为正数;执行步骤1035;
以表1为例,假设来电的语音信号切分后为语音段1、2,分别对应于文本 1、文本2,a=0.3,语音段1与对应于文本1的真人语音段、AI语音段的比较结果为真人属性赋值0,AI属性赋值1;
对于语音段2,分别与真人语音段1、2,AI语音段1-4的四个特征参数进行相似度计算后,与真人语音段1的比较结果中每个特征参数的相似度均高于预设值,与真人语音段2的比较结果中每个特征参数的相似度未均高于预设值,则语音段2的真人属性为1+0.3*(1-1)=1,与AI语音段1-3的比较结果中每个特征参数的相似度均高于预设值,与AI语音段4的比较结果中每个特征参数的相似度未均高于预设值,则语音段2的AI属性为1+0.3*(3-1)=1.6。
步骤1034、将按照词组切分后的语音段转换为文本,以该文本为索引,查找数据库中对应于该文本的真人语音段、AI语音段的LTAS的基频特征、音调、音素的发音时间长度、节奏这四个特征参数;将按照词组切分后的语音段的四个特征参数分别与数据库中该文本索引对应的真人语音段、AI语音段的LTAS 的基频特征、音调、音素的发音时间长度、节奏进行比较,计算切分后的语音段的四个特征参数分别与真人语音、AI语音的四个特征参数的相似度;当数据库中该文本对应于多个真人语音段、和/或AI语音段时,将切分后的语音段的四个特征参数分别与数据库中的每个真人语音、AI语音的四个特征参数进行相似度计算,并执行步骤1033;
步骤1035、对来电的语音信号对应的语音段中真人属性、AI属性分别求和,当真人属性的和值大于AI属性的和值,则判断该来电属于真人来电,否则为 AI来电,结束;若真人属性的和值与AI属性的和值相同,则执行步骤1036;
同样的,对于该示例,对来电的语音信号的语音段1、2的真人属性求和为 1,AI属性求和为1+1.6=2.6,比较上述两个和值,判断该来电为AI来电。
步骤1036、语音助手播放预设语音,与来电进行对话,如向来电提问等;判断来电的回复是否与预设语音内容相关,若相关,则对回复的语音信号进行预处理,执行步骤1031;否则判断其为AI来电,结束。
例如语音助手提问“请问你是谁”,来电答复“我们可以约个时间谈一谈”,判断上述答复内容与语音助手的语音内容不相关,由此判断其为AI来电,若来电答复“我是客服XXX”,则判断该答复与语音助手提问相关,对该答复的语音信号进行预处理,进一步执行步骤1031;
优选的,上述过程可以在云服务器完成,语音助手将预处理后的语音信号发送至云服务器,由云服务器执行上述识别过程,并将识别结果发送给语音助手。
在步骤103之后,进一步包括步骤104,当来电被识别为AI语音来电时,语音助手直接结束通话。
通过上述识别方法,可以降低用户个人信息泄露的概率,帮助用户解决骚扰电话,提升智能来电的人性化,提高用户体验。
优选的,为了防止语音助手误挂来电,遗漏重要电话,对于识别为AI的来电,语音助手将来电号码记录,并通知用户。
本发明还提出一种识别AI来电的装置,如图2所示,用于执行上述方法,以识别AI来电,该装置包括接听模块、预处理模块、识别模块。
接听模块,用于当终端接收到来电呼叫时,自动接通来电;
预处理模块,用于获取来电的语音信号,对语音信号进行预处理;
识别模块,用于利用数据库对预处理后的语音信号进行分析判断,识别该来电是否属于AI来电。
优选地,该装置还包括设置模块,用于设置接听模块自动接通来电的条件,当满足自动接通来电的条件时,接听模块则自动接通该来电。
优选地,该装置还包括统计分析模块,用于执行以下步骤:
步骤1、获取多个真人语音样本以及多个AI语音样本,形成语料库;
步骤2、对真人语音样本、AI语音样本按照完整语意、词组两个维度进行切分,形成真人语音段、AI语音段,分别提取两种语音段的长期频谱特征The Long Term AverageSpectrum(LTAS),获取LTAS的基频特征,根据LTAS中的基频特征确定两种语音段的音调;其中完整语意切分粒度大于或等于词组切分粒度;
步骤3、分别识别真人语音段、AI语音段的音素序列,根据各音素的变化位置确定每个音素的发音时间长度,得出两种语音段的发音节奏;
步骤4、建立数据库,将语音段转换为文本,以该文本为索引,存储对应的真人语音段、AI语音段的LTAS的基频特征、音调、音素的发音时间长度以及对应的节奏这四个特征参数。其中一个文本可对应于一个或多个真人语音段、一个或多个AI语音段。
优选地,该预处理模块和/或统计分析模块位于云服务器,或者位于终端。
优选地,识别模块具体用于:
步骤1031、将预处理后的语音信号按照完整语意进行切分,将切分后的语音段转换为文本,以该文本为索引,查找数据库中是否存在该文本索引,执行步骤1032;
步骤1032、若数据库中存在对应的文本,获取切分后的语音段对应的LTAS 的基频特征及与其对应的音调、音素的发音时间长度以及对应的节奏这四个特征参数;将切分后的语音段对应的LTAS的基频特征及与其对应的音调、音素的发音时间长度以及对应的节奏分别与数据库中该文本索引对应的真人语音段、 AI语音段的LTAS的基频特征、音调、音素的发音时间长度、节奏进行比较,计算切分后的语音段的四个特征参数分别与真人语音、AI语音的四个特征参数的相似度;当数据库中该文本对应于多个真人语音段、和/或多个AI语音段时,将切分后的语音段的四个特征参数分别与数据库中的每个真人语音段、AI语音段的四个特征参数进行相似度计算,并执行步骤1033;若数据库中不存在对应的文本,将预处理后的语音信号按照词组进行切分,获取按照词组切分后的语音段对应的LTAS的基频特征及与其对应的音调、音素的发音时间长度以及对应的节奏这四个特征参数,并执行步骤1034;
步骤1033、当按照语意和/或按照词组切分后的语音段的四个特征参数与真人语音段/AI语音段的四个特征参数比较后的每个特征参数的相似度均高于预设值时,为该语音段的真人属性/AI属性赋值1+a(N-1),否则赋值0;其中N 为按照语意和/或按照词组切分后的语音段与多个真人语音段/多个AI语音段的比较中每个特征参数的相似度均高于预设值时真人语音段/AI语音段的个数,a 为权重因子,a为正数;执行步骤1035;
步骤1034、将按照词组切分后的语音段转换为文本,以该文本为索引,查找数据库中对应于该文本的真人语音段、AI语音段的LTAS的基频特征、音调、音素的发音时间长度、节奏这四个特征参数;将按照词组切分后的语音段的四个特征参数分别与数据库中该文本索引对应的真人语音段、AI语音段的LTAS 的基频特征、音调、音素的发音时间长度、节奏进行比较,计算切分后的语音段的四个特征参数分别与真人语音、AI语音的四个特征参数的相似度;当数据库中该文本对应于多个真人语音段、和/或AI语音段时,将切分后的语音段的四个特征参数分别与数据库中的每个真人语音、AI语音的四个特征参数进行相似度计算,并执行步骤1033;
步骤1035、对来电的语音信号对应的语音段中真人属性、AI属性分别求和,当真人属性的和值大于AI属性的和值,则判断该来电属于真人来电,否则为 AI来电,结束;若真人属性的和值与AI属性的和值相同,则执行步骤1036;
步骤1036、语音助手播放预设语音,与来电进行对话,如向来电提问等;判断来电的回复是否与预设语音内容相关,若相关,则对回复的语音信号进行预处理,执行步骤1031;否则判断其为AI来电,结束。
优选地,当来电被识别为AI语音来电时,接听模块直接结束通话。
进一步的,该装置还包括记录及提醒模块,用于将记录来电,并通知用户。
本发明还提出一种语音助手,包括上述识别AI来电的装置。
进一步的,该语音助手为云语音助手。
在另一实施方式中,该语音助手还包括开关模块,用于开启/关闭语音助手。
本发明还提供一种终端,该终端包括上述语音助手。
本发明还提供一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器存储可被处理器执行的计算机指令,当处理器执行上述计算机指令时,实现如上所述的方法。
本发明还提供一种计算机可读存储介质,存储计算机指令,所述计算机指令用于实现如上所述的方法。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质可以包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、闪存、可擦式可编程只读存储器(EPROM)、光纤、便携式紧凑磁盘只读存储器 (CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码。
以上说明只是为了方便理解本发明而举出的例子,不用于限定本发明的范围。在具体实现时,本领域技术人员可以根据实际情况对装置的部件进行变更、增加、减少,在不影响方法所实现的功能的基础上可以根据实际情况对方法的步骤进行变更、增加、减少或改变顺序。
尽管已经示出和描述了本发明的实施例,本领域技术人员应当理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同替换所限定,在未经创造性劳动所作的改进等,均应包含在本发明的保护范围之内。