CN110198381B - 一种识别ai来电的方法、装置、语音助手、终端、计算机设备及计算机可读存储介质 - Google Patents

一种识别ai来电的方法、装置、语音助手、终端、计算机设备及计算机可读存储介质 Download PDF

Info

Publication number
CN110198381B
CN110198381B CN201910349993.6A CN201910349993A CN110198381B CN 110198381 B CN110198381 B CN 110198381B CN 201910349993 A CN201910349993 A CN 201910349993A CN 110198381 B CN110198381 B CN 110198381B
Authority
CN
China
Prior art keywords
voice
incoming call
database
segment
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910349993.6A
Other languages
English (en)
Other versions
CN110198381A (zh
Inventor
张伟萌
龚思颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Lingdu Technology Co ltd
Original Assignee
Beijing Moran Cognitive Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Moran Cognitive Technology Co Ltd filed Critical Beijing Moran Cognitive Technology Co Ltd
Priority to CN201910349993.6A priority Critical patent/CN110198381B/zh
Publication of CN110198381A publication Critical patent/CN110198381A/zh
Application granted granted Critical
Publication of CN110198381B publication Critical patent/CN110198381B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2281Call monitoring, e.g. for law enforcement purposes; Call tracing; Detection or prevention of malicious calls
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42212Call pickup
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Security & Cryptography (AREA)
  • Technology Law (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供了一种识别AI来电的方法,该方法包括以下步骤:步骤101、终端接收到来电呼叫时,语音助手自动接通来电;步骤102、获取来电的语音信号,对语音信号进行预处理;步骤103、利用数据库对预处理后的语音信号进行分析判断,识别该来电是否属于AI来电。该方法可以实现语音助手识别AI来电的功能,降低用户个人信息泄露的概率,帮助用户解决骚扰电话,提升智能来电的人性化,提高用户体验。

Description

一种识别AI来电的方法、装置、语音助手、终端、计算机设备及 计算机可读存储介质
技术领域
本发明涉及通讯技术领域,特别涉及一种识别人工智能AI来电的方法。
背景技术
目前,由于语音合成技术的不断发展,各类广告、推销电话不再采用人工方式拨打电话,采用AI来电方式的越来越多。由于AI来电方式可以节约大量的人力成本,被商家等大规模的应用,使得用户经常接收到该类电话,影响用户的体验。尤其当用户不便于接听来电时,若未对该类电话进行识别,直接采用预设的自动应答方式进行答复或者采用语音助手自动接听来电时容易造成个人信息泄露,存在一定的安全风险。
发明内容
针对现有技术中存在的上述问题,本发明提出一种AI来电识别方法及装置,用以克服上述问题。
本发明实施例提供了一种识别AI来电的方法,包括:
步骤101、终端接收到来电呼叫时,语音助手自动接通来电;
步骤102、获取来电的语音信号,对语音信号进行预处理;
步骤103、利用数据库对预处理后的语音信号进行分析判断,识别该来电是否属于AI来电。
优选地,
步骤102具体包括:语音助手获取来电的语音信号,滤除语音信号中的噪声值。
优选地,在步骤103之前,预先建立数据库,其中包括以下步骤:
步骤1、获取多个真人语音样本以及多个AI语音样本,形成语料库;
步骤2、对真人语音样本、AI语音样本按照完整语意、词组两个维度进行切分,形成真人语音段、AI语音段,分别提取两种语音段的长期频谱特征The Long Term AverageSpectrum(LTAS),获取LTAS的基频特征,根据LTAS中的基频特征确定两种语音段的音调;其中完整语意切分粒度大于或等于词组切分粒度;
步骤3、分别识别真人语音段、AI语音段的音素序列,根据各音素的变化位置确定每个音素的发音时间长度,得出两种语音段的发音节奏;
步骤4、建立数据库,将语音段转换为文本,以该文本为索引,存储对应的真人语音段、AI语音段的LTAS的基频特征、音调、音素的发音时间长度以及对应的节奏这四个特征参数。其中一个文本可对应于一个或多个真人语音段、一个或多个AI语音段。
优选地,由云服务器或者终端预先建立数据库,数据库存储于云服务器或者终端。
优选地,利用数据库对预处理后的语音信号进行分析判断,识别该来电是否属于AI来电,具体包括以下步骤:
步骤1031、将预处理后的语音信号按照完整语意进行切分,将切分后的语音段转换为文本,以该文本为索引,查找数据库中是否存在该文本索引,执行步骤1032;
步骤1032、若数据库中存在对应的文本,获取切分后的语音段对应的LTAS 的基频特征及与其对应的音调、音素的发音时间长度以及对应的节奏这四个特征参数;将切分后的语音段对应的LTAS的基频特征及与其对应的音调、音素的发音时间长度以及对应的节奏分别与数据库中该文本索引对应的真人语音段、 AI语音段的LTAS的基频特征、音调、音素的发音时间长度、节奏进行比较,计算切分后的语音段的四个特征参数分别与真人语音、AI语音的四个特征参数的相似度;当数据库中该文本对应于多个真人语音段、和/或多个AI语音段时,将切分后的语音段的四个特征参数分别与数据库中的每个真人语音段、AI语音段的四个特征参数进行相似度计算,并执行步骤1033;若数据库中不存在对应的文本,将预处理后的语音信号按照词组进行切分,获取按照词组切分后的语音段对应的LTAS的基频特征及与其对应的音调、音素的发音时间长度以及对应的节奏这四个特征参数,并执行步骤1034;
步骤1033、当按照语意和/或按照词组切分后的语音段的四个特征参数与真人语音段/AI语音段的四个特征参数比较后的每个特征参数的相似度均高于预设值时,为该语音段的真人属性/AI属性赋值1+a(N-1),否则赋值0;其中N 为按照语意和/或按照词组切分后的语音段与多个真人语音段/多个AI语音段的比较中每个特征参数的相似度均高于预设值时真人语音段/AI语音段的个数,a 为权重因子,a为正数;执行步骤1035;
步骤1034、将按照词组切分后的语音段转换为文本,以该文本为索引,查找数据库中对应于该文本的真人语音段、AI语音段的LTAS的基频特征、音调、音素的发音时间长度、节奏这四个特征参数;将按照词组切分后的语音段的四个特征参数分别与数据库中该文本索引对应的真人语音段、AI语音段的LTAS 的基频特征、音调、音素的发音时间长度、节奏进行比较,计算切分后的语音段的四个特征参数分别与真人语音、AI语音的四个特征参数的相似度;当数据库中该文本对应于多个真人语音段、和/或AI语音段时,将切分后的语音段的四个特征参数分别与数据库中的每个真人语音、AI语音的四个特征参数进行相似度计算,并执行步骤1033;
步骤1035、对来电的语音信号对应的语音段中真人属性、AI属性分别求和,当真人属性的和值大于AI属性的和值,则判断该来电属于真人来电,否则为 AI来电,结束;若真人属性的和值与AI属性的和值相同,则执行步骤1036;
步骤1036、语音助手播放预设语音,与来电进行对话,如向来电提问等;判断来电的回复是否与预设语音内容相关,若相关,则对回复的语音信号进行预处理,执行步骤1031;否则判断其为AI来电,结束。
优选地,在步骤103之后,进一步包括步骤104,当来电被识别为AI语音来电时,语音助手直接结束通话。
优选地,在步骤101中,语音助手判断是否满足自动接通来电的条件,当满足条件时,接通来电。
优选地,所述语音助手为云语音助手。
本发明实施例还提供了一种识别AI来电的装置,该装置包括接听模块、预处理模块、识别模块;其中,
接听模块,用于当终端接收到来电呼叫时,自动接通来电;
预处理模块,用于获取来电的语音信号,对语音信号进行预处理;
识别模块,用于利用数据库对预处理后的语音信号进行分析判断,识别该来电是否属于AI来电。
该方法可以实现语音助手识别AI来电的功能,降低用户个人信息泄露的概率,帮助用户解决骚扰电话,提升智能来电的人性化,提高用户体验。
附图说明
图1是本发明一种实施例中的识别AI来电的方法。
图2是本发明一种实施例中的识别AI来电的装置。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。本发明的实施例以及实施例的具体特征是对本发明实施例技术方案的详细说明,而非对本发明说明书技术方案的限定,在不冲突的情况下,本发明的实施例以及实施例的技术特征可以相互结合。
图1是本发明一实施例提出的一种识别AI来电的方法,包括以下步骤:
步骤101、终端接收到来电呼叫时,语音助手自动接通来电;
步骤102、获取来电的语音信号,对语音信号进行预处理;
步骤103、利用数据库对预处理后的语音信号进行分析判断,识别该来电是否属于AI来电。
在上述步骤101中,可以设置语音助手自动接通来电的条件,当满足自动接通来电的条件时,语音助手自动接通该来电,该自动接通的条件包括但不限于:用户会议中、用户休息中、用户处于通话状态、用户在10秒内未接听来电,或者来电号码为陌生电话等。
在另一实施方式中,在步骤101中,终端接收到来电呼叫时,判断是否启用了语音助手自动接听来电功能,当启用该功能时,由语音助手接听来电。进一步的,语音助手判断是否满足其接听的条件,当满足条件时接听来电。
步骤102中,语音助手获取来电的语音信号,滤除语音信号中的噪声,如环境噪声或其他人的声音等,实现对语音信号的预处理。通过该步骤可以提高后续语音信号分析的准确性。
在步骤103之前,预先建立数据库,其中包括以下步骤:
步骤1、获取多个真人语音样本以及多个AI语音样本,形成语料库;
步骤2、对真人语音样本、AI语音样本按照完整语意、词组两个维度进行切分,形成真人语音段、AI语音段,分别提取两种语音段的长期频谱特征The Long Term AverageSpectrum(LTAS),获取LTAS的基频特征,根据LTAS中的基频特征确定两种语音段的音调;其中完整语意切分粒度大于或等于词组切分粒度;
以下面的实施例具体进行说明。
假设真人语音样本与AI语音样本均为“您好,请问您有出国留学的需求吗”,按照语意进行切分时,将上述样本均切分为“您好”、“请问您有出国留学的需求吗”两个语音段,按照词组进行切分时,将其切分为“您好”、“请问”、“您”、“有”、“出国留学”、“的”、“需求”、“吗”多个语音段。对上述经两个维度切分后的语音段进行分析,得到各语音段的LTAS的基频特征、音调。
步骤3、分别识别真人语音段、AI语音段的音素序列,根据各音素的变化位置确定每个音素的发音时间长度,得出两种语音段的发音节奏;
对于上述示例,同样的对上述经两个维度切分后的语音段进行分析,得到各语音段的每个音素的发音时间长度、发音节奏。
步骤4、建立数据库,将语音段转换为文本,以该文本为索引,存储对应的真人语音段、AI语音段的LTAS的基频特征、音调、音素的发音时间长度以及对应的节奏这四个特征参数。其中一个文本可对应于一个或多个真人语音段、一个或多个AI语音段。下表为示例性的存储方式。
表1AI语音识别表
Figure BDA0002043613160000051
Figure BDA0002043613160000061
如表1所示,其中文本列为索引列,其对应于真人语音段、AI语音段的语音内容,真人语音段列、AI语音段列分别用于存储真人语音段、AI语音段的LTAS 的基频特征、音调、音素的发音时间长度、节奏这四个特征参数,如表所示,文本2对应于2个真人语音段、4个AI语音段,将各个语音段得到的特征参数分别进行存储,以序号区分对应于同一文本索引的不同真人语音段、AI语音段。
上述建立数据库的过程和/或数据库的存储可以在终端本地或者云服务器,其中由云服务器执行上述过程可以降低对终端本地资源的消耗。
在步骤103中,利用数据库对预处理后的语音信号进行分析判断,识别该来电是否属于AI来电,具体包括以下步骤:
步骤1031、将预处理后的语音信号按照完整语意进行切分,将切分后的语音段转换为文本,以该文本为索引,查找数据库中是否存在该文本索引,执行步骤1032;
步骤1032、若数据库中存在对应的文本,获取切分后的语音段对应的LTAS 的基频特征及与其对应的音调、音素的发音时间长度以及对应的节奏这四个特征参数;将切分后的语音段对应的LTAS的基频特征及与其对应的音调、音素的发音时间长度以及对应的节奏分别与数据库中该文本索引对应的真人语音段、 AI语音段的LTAS的基频特征、音调、音素的发音时间长度、节奏进行比较,计算切分后的语音段的四个特征参数分别与真人语音、AI语音的四个特征参数的相似度;当数据库中该文本对应于多个真人语音段、和/或多个AI语音段时,将切分后的语音段的四个特征参数分别与数据库中的每个真人语音段、AI语音段的四个特征参数进行相似度计算,并执行步骤1033;若数据库中不存在对应的文本,将预处理后的语音信号按照词组进行切分,获取按照词组切分后的语音段对应的LTAS的基频特征及与其对应的音调、音素的发音时间长度以及对应的节奏这四个特征参数,并执行步骤1034;
步骤1033、当按照语意和/或按照词组切分后的语音段的四个特征参数与真人语音段/AI语音段的四个特征参数比较后的每个特征参数的相似度均高于预设值时,为该语音段的真人属性/AI属性赋值1+a(N-1),否则赋值0;其中N 为按照语意和/或按照词组切分后的语音段与多个真人语音段/多个AI语音段的比较中每个特征参数的相似度均高于预设值时真人语音段/AI语音段的个数,a 为权重因子,a为正数;执行步骤1035;
以表1为例,假设来电的语音信号切分后为语音段1、2,分别对应于文本 1、文本2,a=0.3,语音段1与对应于文本1的真人语音段、AI语音段的比较结果为真人属性赋值0,AI属性赋值1;
对于语音段2,分别与真人语音段1、2,AI语音段1-4的四个特征参数进行相似度计算后,与真人语音段1的比较结果中每个特征参数的相似度均高于预设值,与真人语音段2的比较结果中每个特征参数的相似度未均高于预设值,则语音段2的真人属性为1+0.3*(1-1)=1,与AI语音段1-3的比较结果中每个特征参数的相似度均高于预设值,与AI语音段4的比较结果中每个特征参数的相似度未均高于预设值,则语音段2的AI属性为1+0.3*(3-1)=1.6。
步骤1034、将按照词组切分后的语音段转换为文本,以该文本为索引,查找数据库中对应于该文本的真人语音段、AI语音段的LTAS的基频特征、音调、音素的发音时间长度、节奏这四个特征参数;将按照词组切分后的语音段的四个特征参数分别与数据库中该文本索引对应的真人语音段、AI语音段的LTAS 的基频特征、音调、音素的发音时间长度、节奏进行比较,计算切分后的语音段的四个特征参数分别与真人语音、AI语音的四个特征参数的相似度;当数据库中该文本对应于多个真人语音段、和/或AI语音段时,将切分后的语音段的四个特征参数分别与数据库中的每个真人语音、AI语音的四个特征参数进行相似度计算,并执行步骤1033;
步骤1035、对来电的语音信号对应的语音段中真人属性、AI属性分别求和,当真人属性的和值大于AI属性的和值,则判断该来电属于真人来电,否则为 AI来电,结束;若真人属性的和值与AI属性的和值相同,则执行步骤1036;
同样的,对于该示例,对来电的语音信号的语音段1、2的真人属性求和为 1,AI属性求和为1+1.6=2.6,比较上述两个和值,判断该来电为AI来电。
步骤1036、语音助手播放预设语音,与来电进行对话,如向来电提问等;判断来电的回复是否与预设语音内容相关,若相关,则对回复的语音信号进行预处理,执行步骤1031;否则判断其为AI来电,结束。
例如语音助手提问“请问你是谁”,来电答复“我们可以约个时间谈一谈”,判断上述答复内容与语音助手的语音内容不相关,由此判断其为AI来电,若来电答复“我是客服XXX”,则判断该答复与语音助手提问相关,对该答复的语音信号进行预处理,进一步执行步骤1031;
优选的,上述过程可以在云服务器完成,语音助手将预处理后的语音信号发送至云服务器,由云服务器执行上述识别过程,并将识别结果发送给语音助手。
在步骤103之后,进一步包括步骤104,当来电被识别为AI语音来电时,语音助手直接结束通话。
通过上述识别方法,可以降低用户个人信息泄露的概率,帮助用户解决骚扰电话,提升智能来电的人性化,提高用户体验。
优选的,为了防止语音助手误挂来电,遗漏重要电话,对于识别为AI的来电,语音助手将来电号码记录,并通知用户。
本发明还提出一种识别AI来电的装置,如图2所示,用于执行上述方法,以识别AI来电,该装置包括接听模块、预处理模块、识别模块。
接听模块,用于当终端接收到来电呼叫时,自动接通来电;
预处理模块,用于获取来电的语音信号,对语音信号进行预处理;
识别模块,用于利用数据库对预处理后的语音信号进行分析判断,识别该来电是否属于AI来电。
优选地,该装置还包括设置模块,用于设置接听模块自动接通来电的条件,当满足自动接通来电的条件时,接听模块则自动接通该来电。
优选地,该装置还包括统计分析模块,用于执行以下步骤:
步骤1、获取多个真人语音样本以及多个AI语音样本,形成语料库;
步骤2、对真人语音样本、AI语音样本按照完整语意、词组两个维度进行切分,形成真人语音段、AI语音段,分别提取两种语音段的长期频谱特征The Long Term AverageSpectrum(LTAS),获取LTAS的基频特征,根据LTAS中的基频特征确定两种语音段的音调;其中完整语意切分粒度大于或等于词组切分粒度;
步骤3、分别识别真人语音段、AI语音段的音素序列,根据各音素的变化位置确定每个音素的发音时间长度,得出两种语音段的发音节奏;
步骤4、建立数据库,将语音段转换为文本,以该文本为索引,存储对应的真人语音段、AI语音段的LTAS的基频特征、音调、音素的发音时间长度以及对应的节奏这四个特征参数。其中一个文本可对应于一个或多个真人语音段、一个或多个AI语音段。
优选地,该预处理模块和/或统计分析模块位于云服务器,或者位于终端。
优选地,识别模块具体用于:
步骤1031、将预处理后的语音信号按照完整语意进行切分,将切分后的语音段转换为文本,以该文本为索引,查找数据库中是否存在该文本索引,执行步骤1032;
步骤1032、若数据库中存在对应的文本,获取切分后的语音段对应的LTAS 的基频特征及与其对应的音调、音素的发音时间长度以及对应的节奏这四个特征参数;将切分后的语音段对应的LTAS的基频特征及与其对应的音调、音素的发音时间长度以及对应的节奏分别与数据库中该文本索引对应的真人语音段、 AI语音段的LTAS的基频特征、音调、音素的发音时间长度、节奏进行比较,计算切分后的语音段的四个特征参数分别与真人语音、AI语音的四个特征参数的相似度;当数据库中该文本对应于多个真人语音段、和/或多个AI语音段时,将切分后的语音段的四个特征参数分别与数据库中的每个真人语音段、AI语音段的四个特征参数进行相似度计算,并执行步骤1033;若数据库中不存在对应的文本,将预处理后的语音信号按照词组进行切分,获取按照词组切分后的语音段对应的LTAS的基频特征及与其对应的音调、音素的发音时间长度以及对应的节奏这四个特征参数,并执行步骤1034;
步骤1033、当按照语意和/或按照词组切分后的语音段的四个特征参数与真人语音段/AI语音段的四个特征参数比较后的每个特征参数的相似度均高于预设值时,为该语音段的真人属性/AI属性赋值1+a(N-1),否则赋值0;其中N 为按照语意和/或按照词组切分后的语音段与多个真人语音段/多个AI语音段的比较中每个特征参数的相似度均高于预设值时真人语音段/AI语音段的个数,a 为权重因子,a为正数;执行步骤1035;
步骤1034、将按照词组切分后的语音段转换为文本,以该文本为索引,查找数据库中对应于该文本的真人语音段、AI语音段的LTAS的基频特征、音调、音素的发音时间长度、节奏这四个特征参数;将按照词组切分后的语音段的四个特征参数分别与数据库中该文本索引对应的真人语音段、AI语音段的LTAS 的基频特征、音调、音素的发音时间长度、节奏进行比较,计算切分后的语音段的四个特征参数分别与真人语音、AI语音的四个特征参数的相似度;当数据库中该文本对应于多个真人语音段、和/或AI语音段时,将切分后的语音段的四个特征参数分别与数据库中的每个真人语音、AI语音的四个特征参数进行相似度计算,并执行步骤1033;
步骤1035、对来电的语音信号对应的语音段中真人属性、AI属性分别求和,当真人属性的和值大于AI属性的和值,则判断该来电属于真人来电,否则为 AI来电,结束;若真人属性的和值与AI属性的和值相同,则执行步骤1036;
步骤1036、语音助手播放预设语音,与来电进行对话,如向来电提问等;判断来电的回复是否与预设语音内容相关,若相关,则对回复的语音信号进行预处理,执行步骤1031;否则判断其为AI来电,结束。
优选地,当来电被识别为AI语音来电时,接听模块直接结束通话。
进一步的,该装置还包括记录及提醒模块,用于将记录来电,并通知用户。
本发明还提出一种语音助手,包括上述识别AI来电的装置。
进一步的,该语音助手为云语音助手。
在另一实施方式中,该语音助手还包括开关模块,用于开启/关闭语音助手。
本发明还提供一种终端,该终端包括上述语音助手。
本发明还提供一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器存储可被处理器执行的计算机指令,当处理器执行上述计算机指令时,实现如上所述的方法。
本发明还提供一种计算机可读存储介质,存储计算机指令,所述计算机指令用于实现如上所述的方法。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质可以包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、闪存、可擦式可编程只读存储器(EPROM)、光纤、便携式紧凑磁盘只读存储器 (CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码。
以上说明只是为了方便理解本发明而举出的例子,不用于限定本发明的范围。在具体实现时,本领域技术人员可以根据实际情况对装置的部件进行变更、增加、减少,在不影响方法所实现的功能的基础上可以根据实际情况对方法的步骤进行变更、增加、减少或改变顺序。
尽管已经示出和描述了本发明的实施例,本领域技术人员应当理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同替换所限定,在未经创造性劳动所作的改进等,均应包含在本发明的保护范围之内。

Claims (18)

1.一种识别AI来电的方法,其特征在于,该方法包括以下步骤:
步骤101、终端接收到来电呼叫时,语音助手自动接通来电;
步骤102、获取来电的语音信号,对语音信号进行预处理;
步骤103、利用数据库对预处理后的语音信号进行分析判断,识别该来电是否属于AI来电;
在步骤103之前,预先建立数据库,其中包括以下步骤:
步骤1、获取多个真人语音样本以及多个AI语音样本,形成语料库;
步骤2、对真人语音样本、AI语音样本按照完整语意、词组两个维度进行切分,形成真人语音段、AI语音段,分别提取两种语音段的长期频谱特征LTAS(The Long Term AverageSpectrum),获取LTAS的基频特征,根据LTAS中的基频特征确定两种语音段的音调;其中完整语意切分粒度大于或等于词组切分粒度;
步骤3、分别识别真人语音段、AI语音段的音素序列,根据各音素的变化位置确定每个音素的发音时间长度,得出两种语音段的发音节奏;
步骤4、建立数据库,将语音段转换为文本,以该文本为索引,存储对应的真人语音段、AI语音段的LTAS的基频特征、音调、音素的发音时间长度以及对应的节奏这四个特征参数;其中一个文本可对应于一个或多个真人语音段、一个或多个AI语音段。
2.根据权利要求1所述的方法,其特征在于,
步骤102具体包括:语音助手获取来电的语音信号,滤除语音信号中的噪声值。
3.根据权利要求1所述的方法,其特征在于,由云服务器或者终端预先建立数据库,数据库存储于云服务器或者终端。
4.根据权利要求1所述的方法,其特征在于,利用数据库对预处理后的语音信号进行分析判断,识别该来电是否属于AI来电,具体包括以下步骤:
步骤1031、将预处理后的语音信号按照完整语意进行切分,将切分后的语音段转换为文本,以该文本为索引,查找数据库中是否存在该文本索引,执行步骤1032;
步骤1032、若数据库中存在对应的文本,获取切分后的语音段对应的LTAS的基频特征及与其对应的音调、音素的发音时间长度以及对应的节奏这四个特征参数;将切分后的语音段对应的LTAS的基频特征及与其对应的音调、音素的发音时间长度以及对应的节奏分别与数据库中该文本索引对应的真人语音段、AI语音段的LTAS的基频特征、音调、音素的发音时间长度、节奏这四个特征参数进行比较,计算切分后的语音段的四个特征参数分别与真人语音、AI语音的四个特征参数的相似度;当数据库中该文本对应于多个真人语音段、和/或多个AI语音段时,将切分后的语音段的四个特征参数分别与数据库中的每个真人语音段、AI语音段的四个特征参数进行相似度计算,并执行步骤1033;若数据库中不存在对应的文本,将预处理后的语音信号按照词组进行切分,获取按照词组切分后的语音段对应的LTAS的基频特征及与其对应的音调、音素的发音时间长度以及对应的节奏这四个特征参数,并执行步骤1034;
步骤1033、当按照语意和/或按照词组切分后的语音段的四个特征参数与真人语音段/AI语音段的四个特征参数比较后的每个特征参数的相似度均高于预设值时,为该语音段的真人属性/AI属性赋值1+a(N-1),否则赋值0;其中N为按照语意和/或按照词组切分后的语音段与多个真人语音段/多个AI语音段的比较中每个特征参数的相似度均高于预设值时真人语音段/AI语音段的个数,a为权重因子,a为正数;执行步骤1035;
步骤1034、将按照词组切分后的语音段转换为文本,以该文本为索引,查找数据库中对应于该文本的真人语音段、AI语音段的LTAS的基频特征、音调、音素的发音时间长度、节奏这四个特征参数;将按照词组切分后的语音段的四个特征参数分别与数据库中该文本索引对应的真人语音段、AI语音段的LTAS的基频特征、音调、音素的发音时间长度、节奏进行比较,计算切分后的语音段的四个特征参数分别与真人语音、AI语音的四个特征参数的相似度;当数据库中该文本对应于多个真人语音段、和/或AI语音段时,将切分后的语音段的四个特征参数分别与数据库中的每个真人语音、AI语音的四个特征参数进行相似度计算,并执行步骤1033;
步骤1035、对来电的语音信号对应的语音段中真人属性、AI属性分别求和,当真人属性的和值大于AI属性的和值,则判断该来电属于真人来电,否则为AI来电,结束;若真人属性的和值与AI属性的和值相同,则执行步骤1036;
步骤1036、语音助手播放预设语音,与来电进行对话,如向来电提问等;判断来电的回复是否与预设语音内容相关,若相关,则对回复的语音信号进行预处理,执行步骤1031;否则判断其为AI来电,结束。
5.根据权利要求1所述的方法,其特征在于,在步骤103之后,进一步包括步骤104,当来电被识别为AI语音来电时,语音助手直接结束通话。
6.根据权利要求1-5任一项所述的方法,其特征在于,
在步骤101中,语音助手判断是否满足自动接通来电的条件,当满足条件时,接通来电。
7.根据权利要求1-5任一项所述的方法,其特征在于,
所述语音助手为云语音助手。
8.根据权利要求6所述的方法,其特征在于,
所述语音助手为云语音助手。
9.一种识别AI来电的装置,其特征在于,该装置包括接听模块、预处理模块、识别模块;其中,
接听模块,用于当终端接收到来电呼叫时,自动接通来电;
预处理模块,用于获取来电的语音信号,对语音信号进行预处理;
识别模块,用于利用数据库对预处理后的语音信号进行分析判断,识别该来电是否属于AI来电;
该装置还包括统计分析模块,用于执行以下步骤:
步骤1、获取多个真人语音样本以及多个AI语音样本,形成语料库;
步骤2、对真人语音样本、AI语音样本按照完整语意、词组两个维度进行切分,形成真人语音段、AI语音段,分别提取两种语音段的长期频谱特征LTAS(The Long Term AverageSpectrum),获取LTAS的基频特征,根据LTAS中的基频特征确定两种语音段的音调;其中完整语意切分粒度大于或等于词组切分粒度;
步骤3、分别识别真人语音段、AI语音段的音素序列,根据各音素的变化位置确定每个音素的发音时间长度,得出两种语音段的发音节奏;
步骤4、建立数据库,将语音段转换为文本,以该文本为索引,存储对应的真人语音段、AI语音段的LTAS的基频特征、音调、音素的发音时间长度以及对应的节奏这四个特征参数;其中一个文本可对应于一个或多个真人语音段、一个或多个AI语音段。
10.根据权利要求9所述的装置,其特征在于,
该装置还包括设置模块,用于设置接听模块自动接通来电的条件,当满足自动接通来电的条件时,接听模块则自动接通该来电。
11.根据权利要求9所述的装置,其特征在于,该预处理模块和/或统计分析模块位于云服务器,或者位于终端。
12.根据权利要求9所述的装置,其特征在于,
识别模块具体用于:
步骤1031、将预处理后的语音信号按照完整语意进行切分,将切分后的语音段转换为文本,以该文本为索引,查找数据库中是否存在该文本索引,执行步骤1032;
步骤1032、若数据库中存在对应的文本,获取切分后的语音段对应的LTAS的基频特征及与其对应的音调、音素的发音时间长度以及对应的节奏这四个特征参数;将切分后的语音段对应的LTAS的基频特征及与其对应的音调、音素的发音时间长度以及对应的节奏分别与数据库中该文本索引对应的真人语音段、AI语音段的LTAS的基频特征、音调、音素的发音时间长度、节奏这四个特征参数进行比较,计算切分后的语音段的四个特征参数分别与真人语音、AI语音的四个特征参数的相似度;当数据库中该文本对应于多个真人语音段、和/或多个AI语音段时,将切分后的语音段的四个特征参数分别与数据库中的每个真人语音段、AI语音段的四个特征参数进行相似度计算,并执行步骤1033;若数据库中不存在对应的文本,将预处理后的语音信号按照词组进行切分,获取按照词组切分后的语音段对应的LTAS的基频特征及与其对应的音调、音素的发音时间长度以及对应的节奏这四个特征参数,并执行步骤1034;
步骤1033、当按照语意和/或按照词组切分后的语音段的四个特征参数与真人语音段/AI语音段的四个特征参数比较后的每个特征参数的相似度均高于预设值时,为该语音段的真人属性/AI属性赋值1+a(N-1),否则赋值0;其中N为按照语意和/或按照词组切分后的语音段与多个真人语音段/多个AI语音段的比较中每个特征参数的相似度均高于预设值时真人语音段/AI语音段的个数,a为权重因子,a为正数;执行步骤1035;
步骤1034、将按照词组切分后的语音段转换为文本,以该文本为索引,查找数据库中对应于该文本的真人语音段、AI语音段的LTAS的基频特征、音调、音素的发音时间长度、节奏这四个特征参数;将按照词组切分后的语音段的四个特征参数分别与数据库中该文本索引对应的真人语音段、AI语音段的LTAS的基频特征、音调、音素的发音时间长度、节奏进行比较,计算切分后的语音段的四个特征参数分别与真人语音、AI语音的四个特征参数的相似度;当数据库中该文本对应于多个真人语音段、和/或AI语音段时,将切分后的语音段的四个特征参数分别与数据库中的每个真人语音、AI语音的四个特征参数进行相似度计算,并执行步骤1033;
步骤1035、对来电的语音信号对应的语音段中真人属性、AI属性分别求和,当真人属性的和值大于AI属性的和值,则判断该来电属于真人来电,否则为AI来电,结束;若真人属性的和值与AI属性的和值相同,则执行步骤1036;
步骤1036、语音助手播放预设语音,与来电进行对话,如向来电提问等;判断来电的回复是否与预设语音内容相关,若相关,则对回复的语音信号进行预处理,执行步骤1031;否则判断其为AI来电,结束。
13.根据权利要求9所述的装置,其特征在于,当来电被识别为AI语音来电时,接听模块直接结束通话。
14.一种语音助手,其特征在于,包括如权利要求9-13之一所述的识别AI来电的装置。
15.根据权利要求14所述的语音助手,其特征在于,该语音助手为云语音助手。
16.一种终端,其特征在于该终端包括如权利要求14-15之一所述的语音助手。
17.一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器存储可被处理器执行的计算机指令,当处理器执行上述计算机指令时,实现如权利要求1-8所述的方法。
18.一种计算机可读存储介质,存储计算机指令,当处理器执行上述计算机指令时,实现如权利要求1-8所述的方法。
CN201910349993.6A 2019-04-28 2019-04-28 一种识别ai来电的方法、装置、语音助手、终端、计算机设备及计算机可读存储介质 Active CN110198381B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910349993.6A CN110198381B (zh) 2019-04-28 2019-04-28 一种识别ai来电的方法、装置、语音助手、终端、计算机设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910349993.6A CN110198381B (zh) 2019-04-28 2019-04-28 一种识别ai来电的方法、装置、语音助手、终端、计算机设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110198381A CN110198381A (zh) 2019-09-03
CN110198381B true CN110198381B (zh) 2020-11-27

Family

ID=67752332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910349993.6A Active CN110198381B (zh) 2019-04-28 2019-04-28 一种识别ai来电的方法、装置、语音助手、终端、计算机设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110198381B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110677539A (zh) * 2019-10-09 2020-01-10 中国联合网络通信集团有限公司 一种识别机器人电话的方法、终端和边缘服务器
CN110708431A (zh) * 2019-10-18 2020-01-17 北京珠穆朗玛移动通信有限公司 一种通话管理方法、通信终端及存储介质
CN110708430A (zh) * 2019-10-18 2020-01-17 北京珠穆朗玛移动通信有限公司 一种通话管理方法、通信终端及存储介质
CN111741405B (zh) * 2020-06-05 2021-12-21 北京搜狗智能科技有限公司 一种提醒方法、装置、耳机和服务器
CN113284494B (zh) * 2021-05-25 2023-12-01 北京基智科技有限公司 语音助手识别方法、装置、设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010048806A1 (zh) * 2008-10-27 2010-05-06 成都市华为赛门铁克科技有限公司 一种过滤垃圾电话的方法、装置、代理服务器及终端
US8494854B2 (en) * 2008-06-23 2013-07-23 John Nicholas and Kristin Gross CAPTCHA using challenges optimized for distinguishing between humans and machines
CN104376250A (zh) * 2014-12-03 2015-02-25 优化科技(苏州)有限公司 基于音型像特征的真人活体身份验证方法
CN108965615A (zh) * 2012-12-31 2018-12-07 S·科恩 用于呼叫筛选的系统、方法和设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8494854B2 (en) * 2008-06-23 2013-07-23 John Nicholas and Kristin Gross CAPTCHA using challenges optimized for distinguishing between humans and machines
WO2010048806A1 (zh) * 2008-10-27 2010-05-06 成都市华为赛门铁克科技有限公司 一种过滤垃圾电话的方法、装置、代理服务器及终端
CN108965615A (zh) * 2012-12-31 2018-12-07 S·科恩 用于呼叫筛选的系统、方法和设备
CN104376250A (zh) * 2014-12-03 2015-02-25 优化科技(苏州)有限公司 基于音型像特征的真人活体身份验证方法

Also Published As

Publication number Publication date
CN110198381A (zh) 2019-09-03

Similar Documents

Publication Publication Date Title
CN110198381B (zh) 一种识别ai来电的方法、装置、语音助手、终端、计算机设备及计算机可读存储介质
CN112804400B (zh) 客服呼叫语音质检方法、装置、电子设备及存储介质
US11380327B2 (en) Speech communication system and method with human-machine coordination
CN111128223B (zh) 一种基于文本信息的辅助说话人分离方法及相关装置
CN109065052B (zh) 一种语音机器人
CN110472224B (zh) 服务质量的检测方法、装置、计算机设备和存储介质
CN110839112A (zh) 一种问题语音的检测方法和装置
CN114818649A (zh) 基于智能语音交互技术的业务咨询处理方法及装置
CN115643341A (zh) 人工智能客服应答系统
CN112669842A (zh) 人机对话控制方法、装置、计算机设备及存储介质
CN116631412A (zh) 一种通过声纹匹配判断语音机器人的方法
CN110750626B (zh) 一种基于场景的任务驱动的多轮对话方法及系统
CN111581338B (zh) 一种农业技术服务机器人人机融合咨询问答方法及系统
CN113297365A (zh) 一种用户意向判定方法、装置、设备及存储介质
CN112102807A (zh) 语音合成方法、装置、计算机设备和存储介质
CN110853674A (zh) 文本核对方法、设备以及计算机可读存储介质
CN115691500A (zh) 一种基于时延神经网络的电力客服语音识别方法及装置
CN110765242A (zh) 一种客服信息的提供方法,装置及系统
CN111613226B (zh) 语音交互方法、装置及测试机器人
CN114707515A (zh) 话术判别方法、装置、电子设备及存储介质
CN113409774A (zh) 语音识别方法、装置及电子设备
CN114067842A (zh) 客户满意度鉴别方法及装置、存储介质及电子设备
CN114254088A (zh) 自动应答模型的构建方法和自动应答方法
CN113822029A (zh) 客服辅助方法、装置和系统
CN111970311A (zh) 会话切分方法、电子设备及计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240425

Address after: Unit 222708, 23rd Floor, Building 6, Courtyard 1, Futong East Street, Chaoyang District, Beijing, 100000

Patentee after: Beijing Lingdu Technology Co.,Ltd.

Country or region after: China

Address before: Room 401, gate 2, block a, Zhongguancun 768 Creative Industry Park, 5 Xueyuan Road, Haidian District, Beijing 100083

Patentee before: BEIJING MORAN COGNITIVE TECHNOLOGY Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right