CN111554269A - 一种语音取号方法、系统及存储介质 - Google Patents

一种语音取号方法、系统及存储介质 Download PDF

Info

Publication number
CN111554269A
CN111554269A CN201910965760.9A CN201910965760A CN111554269A CN 111554269 A CN111554269 A CN 111554269A CN 201910965760 A CN201910965760 A CN 201910965760A CN 111554269 A CN111554269 A CN 111554269A
Authority
CN
China
Prior art keywords
user
taking
voice
corpus
target area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910965760.9A
Other languages
English (en)
Inventor
陈宗盛
张景涛
邓小飞
孙信中
矫人全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Otto Software Technology Co ltd
Original Assignee
Nanjing Otto Software Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Otto Software Technology Co ltd filed Critical Nanjing Otto Software Technology Co ltd
Priority to CN201910965760.9A priority Critical patent/CN111554269A/zh
Publication of CN111554269A publication Critical patent/CN111554269A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明涉及一种语音取号方法、系统及存储介质,其中,语音取号方法包括:获取语义识别模型和取号语料库的特征表示集,取号语料库的特征表示集为根据语义识别模型,处理得到的取号语料的特征表示的集合;获取位于目标区域内的用户语音信号;对用户语音信号进行语音识别,得到用户语音识别文本;根据用户语音识别文本和语义识别模型,得到用户语义特征表示;在取号语料库的特征表示集中,匹配用户语义特征表示,得到对应的取号语料;根据对应的取号语料,执行对应的取号操作。取号过程中,只需要用户说出其想办理的业务,由系统自动识别并取号,提高了用户自助取号的效率,增强了用户体验。

Description

一种语音取号方法、系统及存储介质
技术领域
本发明涉及自然语言处理领域,特别是涉及一种语音取号方法、系统及存储介质。
背景技术
在银行、通信运营商营业厅、行政服务大厅、医院等人流量较大的网点/场所内,一般均配置有排队机进行排队叫号,以分流排队客户,优化资源配置,提升网点的工作效率,减小客户的等候时间,从而提升客户的满意度。
传统的排队机,一般设置在固定位置,在其自身的固定位置,提供触摸显示屏或者实体按键,以供客户点击操作,完成取号。但是,出于多种原因,比如客户不熟悉业务类型,不识字,语言不通,或者身体原因导致不便站立、身高不够等,仍然需要工作人员帮助取号。
并且,随着网点逐渐向智能化方向转型,自助设备越来越多,取号机上的服务类型将会越复杂、繁多,客户经常不能有效判断应该选择的服务类型,时常需要咨询工作人员后才能确定排号的服务类型。在工作人员相对有限的情况下,尤其是当客户较多时,工作人员就不一定能够及时地帮助客户完成取号,导致取号效率下降。
因此,亟需一种高效、准确的客户自助式的取号设备。
发明内容
基于此,有必要针对现有排队机存在的取号效率不高的问题,提供一种语音取号方法、系统及存储介质。
本申请一实施例提供了一种语音取号方法,包括:
获取语义识别模型和取号语料库的特征表示集,所述取号语料库的特征表示集为根据语义识别模型,处理得到的取号语料的特征表示的集合;
获取位于目标区域内的用户语音信号;
对所述用户语音信号进行语音识别,得到用户语音识别文本;
根据所述用户语音识别文本和语义识别模型,得到用户语义特征表示;
在所述取号语料库的特征表示集中,匹配所述用户语义特征表示,得到对应的取号语料;
根据对应的取号语料,执行对应的取号操作。
在一些实施例中,所述获取位于目标区域内的用户语音信号步骤之后,还包括:
对所述用户语音识别文本进行预处理,所述预处理至少包括分词操作。
在一些实施例中,所述获取位于目标区域内的用户语音信号的步骤,具体包括:
获取目标区域的语音信号和现场图像;
对所述现场图像进行人脸识别;
若判断所述现场图像中存在人脸,则将获取的语音信号确定为位于目标区域内的用户语音信号。
在一些实施例中,所述若判断所述现场图像中存在人脸,则将获取的语音信号确定为位于目标区域内的用户语音信号的步骤,具体包括:
判断目标区域内是否有人脸;
若判断为是,则判断获取的语音信号是否为符合要求的人声;
若判断为符合要求的人声,则则将获取的语音信号确定为位于目标区域内的用户语音信号;反之,则判断无位于目标区域内的用户语音信号。
在一些实施例中,在所述获取语义识别模型和取号语料库的特征表示集步骤之前,所述语音取号方法还包括:
获取取号语料库,执行训练,获取语义识别模型;
利用所述语义识别模型,对所述取号语料库进行处理,得到所述取号语料库的特征表示集。
在一些实施例中,所述语音取号方法还包括:构建所述取号语料库的特征表示集的索引。
本申请另一实施例还提供了一种语音取号系统,包括语音取号装置,所述语音取号装置包括:
模型获取单元,用于获取语义识别模型和取号语料库的特征表示集,所述取号语料库的特征表示集为根据语义识别模型,处理得到的取号语料的特征表示的集合;
语音获取单元,用于获取位于目标区域内的用户语音信号;
语音识别单元,用于对所述用户语音信号进行语音识别,得到用户语音识别文本;
语义识别单元,用于根据所述用户语音识别文本和语义识别模型,得到用户语义特征表示;
匹配单元,用于在所述取号语料库的特征表示集中,匹配所述用户语义特征表示,得到对应的取号语料;
取号操作单元,用于根据对应的取号语料,执行对应的取号操作。
在一些实施例中,所述语音取号装置还包括:
预处理单元,用于对用户语音识别文本进行预处理,所述预处理至少包括分词操作。
在一些实施例中,还包括训练装置,所述训练装置包括:
训练模块,用于获取取号语料库,执行训练,获取语义识别模型;
取号语料特征模块,用于利用语义识别模型,对取号语料库进行处理,得到取号语料库的特征表示集。
本申请一实施例还提供了一种机器可读存储介质,其上存储有计算机程序,其中所述计算机程序在由处理器执行时实现前述任一项所述的语音取号方法。
使用本申请实施例提供的语音取号方案,整个取号过程中,只需要用户按照自然语言的形式,说出其想办理的业务即可,系统自动识别出对应的业务类型并取号,无需用户自己对取号的业务类型进行判断,无需工作人员的协助,用户可以自助的、快捷的、准确的完成取号操作,提高了用户自助取号的效率,增强了用户体验。同时,获取的用户取号语音,是位于目标区域内的用户语音信号,可以降低环境声音或者其他区域声音的干扰,提升了语音取号时识别的准确性。
附图说明
图1为本申请实施例的语音取号系统的应用场景示意图;
图2为本申请一实施例的语音取号方法的流程示意图;
图3为本申请另一实施例的语音取号方法的流程示意图;
图4为本申请又一实施例的语音取号方法的流程示意图;
图5为本申请一实施例中步骤S300的细化流程示意图;
图6为本申请一实施例中步骤S330的细化流程示意图;
图7为本申请一实施例的语音取号系统的结构示意图;
图8为本申请一实施例中语音获取单元的细化结构示意图。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施方式对本申请进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施方式及实施方式中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施方式的目的,不是旨在于限制本申请。
图1示出了本申请实施例的语音取号方法及系统的应用场景示意图。本申请实施例的语音取号方法,可以适用于语音取号系统10。语音取号系统10,可以包括语音取号装置100和训练装置200,语音取号装置100和训练装置200通信连接。训练装置200向语音取号装置100提供训练好的文本识别模型和取号语料库的特征表示集,语音取号装置100获取用户语音信号,然后进行语音识别,并利用文本识别模型,得到用户语义特征表示,再从取号语料库的特征表示集中匹配对应的取号语料,据此执行取号操作。
语音取号装置100和训练装置200,可以分开设置,也可以合并在一起设置,还可以共享存储设备、计算处理模块;可以配置在服务器上,也可以使用个人电脑、移动终端及其他具有一定数据处理能力的智能终端。
使用本申请实施例的语音取号方法,只需要用户按照自然语言的形式,说出其想办理的业务即可,系统自动识别出对应的业务类型并取号,无需用户自己对取号的业务类型进行判断,无需工作人员的协助,用户可以自助的、快捷的、准确的完成取号操作,提高了用户自助取号的效率,增强了用户体验。同时,获取的用户取号语音,是位于目标区域内的用户语音信号,可以降低环境声音或者其他区域声音的干扰,提升了语音取号时识别的准确性。
下面对本申请实施例的方案做具体描述。
如图2所示,本申请一实施例公开了一种语音取号方法,包括:
步骤S100:获取语义识别模型和取号语料库的特征表示集,所述取号语料库的特征表示集为根据语义识别模型,处理得到的取号语料的特征表示的集合。
本实施例的语音取号方法,可以在语音取号装置100上执行,也可以由语音取号系统10来执行。以下的描述,以在语音取号装置100上执行语音取号方法为示例,对本方法进行了示例性的说明。
语音取号装置100,可以存储有语义识别模型和取号语料库的特征表示集;也可以从训练装置200获取,还可以从语音取号系统10设置的存储设备(根据需要,可能单独设置)获取。
语义识别模型,可以是基于及其学习,通过取号语料库中的大量取号语料,预先训练好的用于识别自然语言的语义的模型。取号语料库的特征表示集,为根据语义识别模型,对取号语料库中的取号语料进行处理,得到的取号语料的特征表示的集合。每一个取号语料,即是一个涉及取号业务的文本。基于语义识别模型,一个用户语音信号,即可转换为对应的特征表示;然后在取号语料库的特征表示集中进行匹配,即可确定用户语音的语义。
取号语料的特征表示,可以使用词袋模型(bag of words)、词嵌入模型(wordembedding)。词袋模型可以使用one-hot(独热编码)、TF-IDF、n-gram等常见的词袋模型。词嵌入模型,可以使用word2vec,形成句子向量。示例的,取号语料的特征表示为取号语料的句子向量,取号语料库的特征表示集就是取号语料的句子向量的集合。
为了提升语义识别模型对取号业务的针对性和准确性,取号语料库中的取号语料,包括标准取号语料和扩展语料。标准取号语料,可以通过梳理取号业务的常见语句而得到。在标准取号语料的基础上,通过对用词和/或句式的变化,扩展得到扩展语料。示例的,在得到扩展语料时,可以采用以下的扩展方式:1、用词的变化。比如“办理”扩展为“开通”,“要”扩展为“想”等。2、句式的变化。比如“我要开通银行卡”扩展为“银行卡的办理”。通过对标准取号语料的扩展,得到扩展语料,可以实现对用户多样性说话方式的模拟。
步骤S300:获取位于目标区域内的用户语音信号。
目标区域,是预设的一个区域,用来模拟用户进行语音取号时常用的站立位置。当有用户需要取号时,即会位于目标区域内,发出取号声音。语音取号装置100,通过麦克风,即可获取到位于目标区域内的用户语音信号。
位于目标区域内的用户语音信号的获取,可以一直进行,也可以通过触发执行。在一些实现方式中,用户语音信号的获取,可以通过触发来执行,比如,可以在目标区域内设置压感设备,当有用户站立在目标区域内时,即发出触发信号;也可以设置红外感应,当感应到有用户位于目标区域时,即发出触发信号。
步骤S500:对用户语音信号进行语音识别,得到用户语音识别文本;
步骤S700:根据用户语音识别文本和语义识别模型,得到用户语义特征表示。
获取到用户语音信号之后,即可对其进行语音识别,得到对应的文本——即用户语音识别文本。然后,利用语义识别模型,对用户语音识别文本进行处理,得到用户语义特征表示。
示例的,取号语料的特征表示为取号语料的句子向量。相应的,用户语义特征表示,即是用户语音识别文本的句子向量。
步骤S800:在取号语料库的特征表示集中,匹配用户语义特征表示,得到对应的取号语料。
得到用户语义特征表示之后,即可在取号语料库的特征表示集中进行匹配——也就是在在取号语料库的特征表示集中查找,与用户语音识别文本相似的取号语料。匹配过程,就是通过计算用户语义特征表示与取号语料的特征表示之间的相似度,从中找到相似度最高的取号语料,作为对应的取号语料。
示例的,当取号语料的特征表示为取号语料的句子向量,用户语义特征表示也是用户语音识别文本的句子向量时,可以通过计算向量之间的余弦
Figure RE-GDA0002576579690000011
来表征两个句子向量之间的相似度。
两个句子向量之间的相似度
Figure 1
表示如下:
Figure RE-GDA0002576579690000013
其中,
Figure RE-GDA0002576579690000014
分别表示一个句子向量。
为了保证匹配的精准性,在匹配时,还可以设置相似度阈值,只有满足相似度阈值的取号语料,才能作为匹配结果。当没有满足相似度阈值的语料时,可以提示用户换一种词语或语句。如此,可以避免输出相似度较低的取号语料,保障了匹配的精准性。
步骤S900:根据对应的取号语料,执行对应的取号操作。
找到对应的取号语料之后,即可确定用户所想要的取号业务类型,执行对应的取号操作。取号语料,可以标注有取号业务类型,也可以通过预设的映射关系,得到对应的取号业务类型。
在一些场景下,步骤S700中,对应的取号语料,可以不仅仅包括相似度最高的取号语料,还可以涵盖相似度前几位的取号语料。此时,可以将匹配到的对应的取号语料,输出到显示屏上,供用户进行选择。然后,根据用户的选择操作,执行对应的取号操作。
本申请实施例提供的语音取号方法,获取目标区域内的用户取号语音,进行语音识别之后,利用语义识别模型进行处理,并在预先得到的取号语料库的特征表示集中进行匹配,得到对应的取号语料,然后执行对应的取号操作。整个取号过程,只需要用户按照自然语言的形式,说出其想办理的业务即可,系统自动识别出对应的业务类型并取号,无需用户自己对取号的业务类型进行判断,无需工作人员的协助,用户可以自助的、快捷的、准确的完成取号操作,提高了用户自助取号的效率,增强了用户体验。同时,获取的用户取号语音,是位于目标区域内的用户语音信号,可以降低环境声音或者其他区域声音的干扰,提升了语音取号时识别的准确性。
在步骤S100之前,如图3所示,本方法还可以包括:
步骤S010:获取取号语料库,执行训练,获取语义识别模型;
步骤S020:利用语义识别模型,对取号语料库进行处理,得到取号语料库的特征表示集。
如前所示,取号语料库中的取号语料,可以包括标准取号语料和扩展语料。训练时,可以使用常规的深度学习模型,比如卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)、长短期记忆网络(Long Short-Term Memory,LSTM)等。
取号语料的特征表示,可以使用词袋模型(bag of words)、词嵌入模型(wordembedding)。示例的,取号语料的特征表示为,基于词嵌入模型的句子向量。整个训练过程,可以使用CBOW(continuous bag-of-words)或者skip-gram算法。
为了避免语音取号装置100上计算力和成本的浪费,步骤S010、S020可以在训练装置200上执行。
进一步的,为了降低后续在取号语料库的特征表示集中进行匹配时的耗时和计算量,如图3所示,本方法在步骤S020之后,还包括:
步骤S030:构建取号语料库的特征表示集的索引。
针对海量数据的匹配,构建索引的方法有很多种,比如kd-tree算法、ball-tree算法、faiss算法、annoy算法等。
示例的,可以使用annoy(Approximate Nearest Neighbors Oh Yeah)算法构建取号语料库的特征表示集的索引。此时,特征表示可以采用句子向量,即取号语料库的特征表示集可以具体为取号语料的句子向量的集合。在步骤S030中,可以根据annoy算法构建取号语料的句子向量的索引;后续匹配时,使用annoy算法,在取号语料的句子向量的索引中,匹配用户语义特征表示(即用户语义的句子向量),得到对应的取号语料。然后,根据对应的取号语料,执行对应的取号操作。
假设取号语料库中有M个取号语料,在未使用annoy算法时,进行一次匹配时的计算量为
Figure 100759DEST_PATH_IMAGE009
;而使用annoy算法之后,进行一次匹配时的计算量为
Figure 554743DEST_PATH_IMAGE011
,远小于未使用时的计算量
Figure 753644DEST_PATH_IMAGE009
,可以极大的降低匹配计算量,降低匹配耗时,提升匹配效率。
在步骤S500获得用户语音识别文本之后,在步骤S700得到用于语义特征表示之前,如图4所示,本实施例的语音取号方法,还可以包括:
步骤S600:对用户语音识别文本进行预处理。
对用户语音识别文本进行预处理,以方便后续用户语义特征表示的获取以及在取号语料库的特征表示集中的匹配。预处理,可以包括分词操作、关键词提取操作和去停词操作。
分词操作,即是为了将一个句子进行规范,组成词序列,以便于后续的处理。本实施例中,在进行分词操作时,可以使用常见的分词算法;也可以同时结合取号场景词典,以提高分词的准确率。常见的分词算法可以包括基于词典的分词方法、基于统计的分词方法、基于规则的分词方法、基于字标注的分词方法等。取号场景词典,是指包括有取号场景下常用词汇和/或专用词汇的词典,可以通过人工标注的方式获取。
在一些示例中,分词操作,可以采用基于词典的分词方法,比如使用jieba,结合合取号场景词典,对问题语句进行分词。
关键词,是能够文本主体或意思的词语。关键词提取操作,就是从文本中提出与语义最相关的一些词语。通过提取关键词,使得后续的处理集中于与语义最相关的词语,可以降低计算量。关键词提取操作,可以使用现有的工具、算法,比如jieba、Synonyms等中文词语处理工具包。在关键词提取操作时,也可以结合取号场景词典进行。示例的,可以将拟提取的关键词,在取号场景词典中进行查找,仅当能够查找到时,才将该词语作为最终的关键词。
去停词操作,就是去除语料中的停用词。停用词是指对语句的真实语义作用不大的词语,一般是叹词、语气助词等。去停词操作,可以利用事先构建的停用词字典进行。对于分词操作后的语料,将问题语句中的每一个词,在停用词字典中进行查找,如果能够查找到,则去除该问题语句中的该词。通过去停词操作,可以减少不相关词语的干扰,提高后续处理的针对性。
为了进一步提升整体系统的健壮性,预处理还可以包括同义词扩展操作。在自然语言表达中,同义词的存在,使得特定语义,常常存在多种表达方式。为了平衡处理的计算量以及系统健壮性,预处理的同义词扩展操作,主要对用户语音识别文本中的关键词进行,可以采用现有的中文近义词工具包,比如Synonyms等。
可以理解的是,在步骤S010中,执行训练前,也可以对取号语料库中的取号语料进行预处理。
在步骤S300中,可以使用定向麦克风模块,比如双麦克风模块,来拾取目标区域内的用户语音信号。可以将双麦克风模块的拾音范围与目标区域相对应设置。双麦克风模块,可以对拾音范围之外的声音进行抑制,尤其是对拾音范围左右两侧声音和环境背景声音等具有较强的抑制。
由于声音的传播特点,可能会存在远处的声音通过目标区域,定向传播到定向麦克风模块处,而目标区域内并没有用户的情形。为了有效应对此类误判,在拾取用户语音信号的同时,还可以同时判断目标区域内是否有用户。此时,步骤S300,如图5所示,可以具体包括以下子步骤:
S310:获取目标区域的语音信号和现场图像;
S320:对现场图像进行人脸识别;
S330:若判断现场图像中存在人脸,则将获取的语音信号确定为位于目标区域内的用户语音信号;反之,则判断无位于目标区域内的用户语音信号。
在获取目标区域的语音信号的同时,可以获取现场图像。现场图像可以通过摄像头获取。摄像头,可以仅拍摄目标区域的图像,也可以获取涵盖目标区域的大范围区域的图像。现场图像,是涵盖目标区域范围的图像。当摄像头获取的图像涵盖的区域较大时,还可以识别出目标区域,然后对图像进行一定的裁剪处理,以得到区域大小合适且涵盖目标区域的现场图像。为了方便目标区域的识别,可以对目标区域设置识别特征,比如在目标区域的地面设置不同颜色的区域,或者不同颜色的边界线。
通过对现场图像进行人脸识别,可以判断目标区域内是否存在用户,只有目标区域内存在用户时,获取的语音信号,才能作为位于目标区域内的用户语音信号。如此,可以降低误判。
可以理解的是,为了降低误判,对现场图像的处理,除了人脸识别以外,也可以采用人体检测技术,来判断目标区域内是否存在用户。
为了更加准确地识别出位于目标区域内的用户语音信号,降低多人场景下其他人的声音和/或人脸的干扰,步骤S330,如图6所示,可以具体包括:
S331:当现场图像存在至少一个人脸时,识别位于目标区域内的首位用户的人脸;
S332:对若干帧首位用户的人脸提取嘴唇轮廓,判断首位用户是否开口说话;
S333:若判断首位用户开口说话,则将获取的语音信号确定为位于目标区域内的用户语音信号;反之,则判断无位于目标区域内的用户语音信号。
在一些场景下,在目标区域内,可能会存在有多个用户。如图1所示,现场可以有4个用户(A、B、C、D),但目标区域内可能有2个用户(A、D),而现场图像可能也拍摄到2个用户(A、D),然后从中识别出了2个人脸——A、D,但是只有处于第一位的用户——即首位用户A发出的取号语音,才是真正有效的、有待系统处理的位于目标区域内的用户语音信号。在这种情况下,就需要识别出位于目标区域内的首位用户A,然后判断其是否开口说话。
示例的,当现场图像存在2个或以上的人脸时,可以通过判断识别出来的人脸的尺寸大小、人脸的相对位置关系或者人脸相对摄像头的距离等方式,识别出首位用户的人脸。在另一些实施例中,在识别首位用户的人脸时,也可以借助人体检测手段,比如利用人体的尺寸大小、相对位置关系,或者基于人体在地面的投影位置,来判断出位于目标区域内的首位用户,进而得到首位用户的人脸。
当识别出首位用户的人脸之后,即可从多帧现场图像中,获得多帧首位用户的人脸。从多帧首位用户的人脸中,提取嘴唇轮廓。利用多帧嘴唇轮廓,进行唇动识别,判断首位用户是否开口说话。嘴唇轮廓的提取,可以使用常规的嘴唇轮廓提取方法,比如基于像素的方法、基于嘴唇轮廓模型的方法或者混合特征提取的方法等。本申请对于嘴唇轮廓的提取方法,并没具体限制,只要能够企图出嘴唇轮廓即可。
若判断首位用户开口说话,则将获取的语音信号确定为位于目标区域内的用户语音信号。反之,则说明首位用户并没有发出取号的语音信号,获取到的语音信号,是其他人发出的声音,如果对此进行识别并执行取号操作,显然不符合首位用户的意图。此时,就应当判断无位于目标区域内的用户语音信号,而无需进行后续的识别与取号操作。
通过进一步识别首位用户及其嘴唇轮廓,进行唇动识别,分析首位用户是否开口说话;只有获取语音信息的同时,首位用户有开口说话,才会将获取的语音信息确认为后续可以进行处理的语音信息——即位于目标区域内的用户语音信号。如此,当现场图像中有多个用户时,可以避免误将其他用户的声音识别为首位用户的声音而导致的误判。
可以理解的是,为了避免误将其他用户的声音识别为首位用户的声音而导致的误判,也可以采用人眼注视方向识别技术,识别首位用户的注视方向。当判断首位用户的注视方向为语音取号系统时,将获取的语音信号确定为位于目标区域内的用户语音信号。
在一些实施例中,可能会存在这样的场景——在目标区域内有用户,但是声音可能是环境声音等非人声或者目标区域以外用户发出的声音,为了避免触发后续处理过程导致的误判,步骤S330,还可以包括:
判断目标区域内是否有人脸;
若判断为是,则判断获取的语音信号是否为符合要求的人声;
若判断为符合要求的人声,则则将获取的语音信号确定为位于目标区域内的用户语音信号;反之,则判断无位于目标区域内的用户语音信号。
如果判断目标区域内没有人脸,即没有用户站立在语音取号装置100之前,系统就无需对获取的语音信号进行分析,因为此时没有用户需要进行语音取号操作。当判断出目标区域内存在人脸时,即可认为有用户站立在语音取号装置100之前,可能会进行语音取号操作,系统可以进行后续识别处理。只有判断为符合要求的人声时,获取的语音信号才会被确定为位于目标区域内的用户语音信号。
对获取的语音信号进行分析,比如频率、音量分析,判断获取的语音信号是否是人声,声音的音量是否符合要求的大小。在获取语音信号时,可以使用定向麦克风模块,对拾音范围(对应目标区域)以外的声音进行了抑制。因此,通过对获取的语音信号进行频率、音量分析,以判断是否属于符合要求的人声,可以过滤掉环境声音、目标区域以外的用户发出的声音,排除干扰。
可以理解的是,对于符合要求的人声的判断,也可以采用其他方案。本申请对此没有具体限制,只要能够判断出符合要求的人声即可。
本申请实施例提供的语音取号方法,获取目标区域内的用户取号语音,进行语音识别之后,利用语义识别模型进行处理,并在预先得到的取号语料库的特征表示集中进行匹配,得到对应的取号语料,然后执行对应的取号操作。整个取号过程,只需要用户按照自然语言的形式,说出其想办理的业务即可,系统自动识别出对应的业务类型并取号,无需用户自己对取号的业务类型进行判断,无需工作人员的协助,用户可以自助的、快捷的、准确的完成取号操作,提高了用户自助取号的效率,增强了用户体验。同时,获取的用户取号语音,是位于目标区域内的用户语音信号,可以降低环境声音或者其他区域声音的干扰,提升了语音取号时识别的准确性。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
本申请另一实施例提供了一种语音取号系统10,如图7所示,包括语音取号装置100,语音取号装置100具体包括:
模型获取单元110,用于获取语义识别模型和取号语料库的特征表示集,所述取号语料库的特征表示集为根据语义识别模型,处理得到的取号语料的特征表示的集合;
语音获取单元130,用于获取位于目标区域内的用户语音信号;
语音识别单元150,用于对用户语音信号进行语音识别,得到用户语音识别文本;
语义识别单元170,用于根据用户语音识别文本和语义识别模型,得到用户语义特征表示;
匹配单元180,用于在取号语料库的特征表示集中,匹配用户语义特征表示,得到对应的取号语料;
取号操作单元190,用于根据对应的取号语料,执行对应的取号操作。
语音获取单元130,可以包括有定向麦克风模块,比如双麦克风模块,来拾取目标区域内的用户语音信号。
模型获取单元110、语音获取单元130、语音识别单元150、语义识别单元170、匹配单元180及取号操作单元190的具体工作方式,可以参见前面实施例语音取号方法中的描述,在此不再赘述。
本申请实施例提供的语音取号系统,整个取号过程中,只需要用户按照自然语言的形式,说出其想办理的业务即可,系统自动识别出对应的业务类型并取号,无需用户自己对取号的业务类型进行判断,无需工作人员的协助,用户可以自助的、快捷的、准确的完成取号操作,提高了用户自助取号的效率,增强了用户体验。同时,获取的用户取号语音,是位于目标区域内的用户语音信号,可以降低环境声音或者其他区域声音的干扰,提升了语音取号时识别的准确性。
在一些实施例中,语音取号装置100,还可以包括预处理单元160,用于对用户语音识别文本进行预处理。对用户语音识别文本进行预处理,以方便后续用户语义特征表示的获取以及在取号语料库的特征表示集中的匹配。预处理,可以包括分词操作、关键词提取操作、去停词操作、同义词扩展操作。
在一些实施例中,为了应对远处的声音通过目标区域,定向传播到定向麦克风模块处,而目标区域内并没有用户的情形,语音获取单元130,如图8所示,可以具体包括:
语音图像获取模块131,用于获取目标区域的语音信号和现场图像;
人脸识别模块132,用于对现场图像进行人脸识别;
信号判断模块133,用于若判断现场图像中存在人脸,则将获取的语音信号确定为位于目标区域内的用户语音信号;反之,则判断无位于目标区域内的用户语音信号。
语音图像获取模块131,可以具体包括定向麦克风模块,比如双麦克风模块,以及摄像头。
通过对现场图像进行人脸识别,可以判断目标区域内是否存在用户,只有目标区域内存在用户时,获取的语音信号,才能作为位于目标区域内的用户语音信号。如此,可以降低误判。
可以理解的是,为了降低误判,对现场图像的处理,除了人脸识别以外,也可以采用人体检测技术,来判断目标区域内是否存在用户。
为了更加准确地识别出位于目标区域内的用户语音信号,降低多人场景下其他人的声音和/或人脸的干扰,信号判断模块133,可以具体包括:
首位用户识别组件,用于当现场图像存在至少一个人脸时,识别位于目标区域内的首位用户的人脸;
唇动判断组件,用于对若干帧首位用户的人脸提取嘴唇轮廓,判断首位用户是否开口说话;
信号确定组件,用于若判断首位用户开口说话,则将获取的语音信号确定为位于目标区域内的用户语音信号;反之,则判断无位于目标区域内的用户语音信号。
通过进一步识别首位用户及其嘴唇轮廓,进行唇动识别,分析首位用户是否开口说话,可以避免误将其他用户的声音识别为首位用户的声音而导致的误判。
可以理解的是,为了避免误将其他用户的声音识别为首位用户的声音而导致的误判,也可以采用人眼注视方向识别技术,识别首位用户的注视方向。当判断首位用户的注视方向为语音取号系统时,将获取的语音信号确定为位于目标区域内的用户语音信号。
在一些实施例中,为了降低环境声音、目标区域以外用户的声音的干扰,信号判断模块133,可以具体包括:
特定用户判断组件,用于判断目标区域内是否有人脸;
人声判定组件,用于若特定用户判断组件判断为是,则判断获取的语音信号是否为符合要求的人声;
信号确定组件,用于若人声判定组件判断为符合要求的人声,则则将获取的语音信号确定为位于目标区域内的用户语音信号;反之,则判断无位于目标区域内的用户语音信号。
当判断出目标区域内存在人脸时,即可认为有用户站立在语音取号装置100之前,可能会进行语音取号操作,系统可以进行后续识别处理。只有判断为符合要求的人声时,获取的语音信号才会被确定为位于目标区域内的用户语音信号。通过对获取的语音信号进行频率、音量分析,以判断是否属于符合要求的人声,可以过滤掉环境声音、目标区域以外的用户发出的声音,排除干扰。
在一些实施例中,语音取号系统10,还可以包括训练装置200,训练装置200具体可以包括:
训练模块210,用于获取取号语料库,执行训练,获取语义识别模型;
取号语料特征模块220,用于利用语义识别模型,对取号语料库进行处理,得到取号语料库的特征表示集。
训练模块210及取号语料特征模块220的具体工作方式,可以参见前面实施例中步骤S010、S020的描述,在此不再赘述。
本申请实施例提供的语音取号系统,整个取号过程中,只需要用户按照自然语言的形式,说出其想办理的业务即可,系统自动识别出对应的业务类型并取号,无需用户自己对取号的业务类型进行判断,无需工作人员的协助,用户可以自助的、快捷的、准确的完成取号操作,提高了用户自助取号的效率,增强了用户体验。同时,获取的用户取号语音,是位于目标区域内的用户语音信号,可以降低环境声音或者其他区域声音的干扰,提升了语音取号时识别的准确性。
本申请一实施例还提供一种机器可读存储介质,其上存储有计算机程序,其中所述计算机程序在由处理器执行时实现上述任一实施例所述的语音取号方法。
所述系统/计算机装置集成的部件/模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施方式方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,所述计算机程序在被处理器执行时,可实现上述各个方法实施方式的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器 (ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
在本申请各个实施例中的各功能模块/部件,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。它们可以集成在相同处理模块/部件中,也可以是各个模块/部件单独物理存在,也可以两个或两个以上模块/部件集成在相同模块/部件中。上述集成的模块/部件既可以采用硬件的形式实现,也可以采用硬件加软件功能模块/部件的形式实现。
对于本领域技术人员而言,显然本申请实施例不限于上述示范性实施例的细节,而且在不背离本申请实施例的精神或基本特征的情况下,能够以其他的具体形式实现本申请实施例。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请实施例的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明实施例内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统、装置或终端权利要求中陈述的多个单元、模块或装置也可以由同一个单元、模块或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (10)

1.一种语音取号方法,其特征在于,包括:
获取语义识别模型和取号语料库的特征表示集,所述取号语料库的特征表示集为根据语义识别模型,处理得到的取号语料的特征表示的集合;
获取位于目标区域内的用户语音信号;
对所述用户语音信号进行语音识别,得到用户语音识别文本;
根据所述用户语音识别文本和语义识别模型,得到用户语义特征表示;
在所述取号语料库的特征表示集中,匹配所述用户语义特征表示,得到对应的取号语料;
根据对应的取号语料,执行对应的取号操作。
2.根据权利要求1所述的语音取号方法,其特征在于,所述获取位于目标区域内的用户语音信号步骤之后,还包括:
对所述用户语音识别文本进行预处理,所述预处理至少包括分词操作。
3.根据权利要求1所述的语音取号方法,其特征在于,所述获取位于目标区域内的用户语音信号的步骤,具体包括:
获取目标区域的语音信号和现场图像;
对所述现场图像进行人脸识别;
若判断所述现场图像中存在人脸,则将获取的语音信号确定为位于目标区域内的用户语音信号。
4.根据权利要求3所述的语音取号方法,其特征在于,所述若判断所述现场图像中存在人脸,则将获取的语音信号确定为位于目标区域内的用户语音信号的步骤,具体包括:
判断目标区域内是否有人脸;
若判断为是,则判断获取的语音信号是否为符合要求的人声;
若判断为符合要求的人声,则则将获取的语音信号确定为位于目标区域内的用户语音信号;反之,则判断无位于目标区域内的用户语音信号。
5.根据权利要求1至4任一项所述的语音取号方法,其特征在于,在所述获取语义识别模型和取号语料库的特征表示集步骤之前,所述语音取号方法还包括:
获取取号语料库,执行训练,获取语义识别模型;
利用所述语义识别模型,对所述取号语料库进行处理,得到所述取号语料库的特征表示集。
6.根据权利要求5所述的语音取号方法,其特征在于,所述语音取号方法还包括:构建所述取号语料库的特征表示集的索引。
7.一种语音取号系统,其特征在于,包括语音取号装置,所述语音取号装置包括:
模型获取单元,用于获取语义识别模型和取号语料库的特征表示集,所述取号语料库的特征表示集为根据语义识别模型,处理得到的取号语料的特征表示的集合;
语音获取单元,用于获取位于目标区域内的用户语音信号;
语音识别单元,用于对所述用户语音信号进行语音识别,得到用户语音识别文本;
语义识别单元,用于根据所述用户语音识别文本和语义识别模型,得到用户语义特征表示;
匹配单元,用于在所述取号语料库的特征表示集中,匹配所述用户语义特征表示,得到对应的取号语料;
取号操作单元,用于根据对应的取号语料,执行对应的取号操作。
8.根据权利要求7所述的语音取号系统,其特征在于,所述语音取号装置还包括:
预处理单元,用于对用户语音识别文本进行预处理,所述预处理至少包括分词操作。
9.根据权利要求7所述的语音取号系统,其特征在于,还包括训练装置,所述训练装置包括:
训练模块,用于获取取号语料库,执行训练,获取语义识别模型;
取号语料特征模块,用于利用语义识别模型,对取号语料库进行处理,得到取号语料库的特征表示集。
10.一种机器可读存储介质,其上存储有计算机程序,其特征在于,其中所述计算机程序在由处理器执行时实现权利要求1-6任一项所述的语音取号方法。
CN201910965760.9A 2019-10-12 2019-10-12 一种语音取号方法、系统及存储介质 Withdrawn CN111554269A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910965760.9A CN111554269A (zh) 2019-10-12 2019-10-12 一种语音取号方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910965760.9A CN111554269A (zh) 2019-10-12 2019-10-12 一种语音取号方法、系统及存储介质

Publications (1)

Publication Number Publication Date
CN111554269A true CN111554269A (zh) 2020-08-18

Family

ID=72004008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910965760.9A Withdrawn CN111554269A (zh) 2019-10-12 2019-10-12 一种语音取号方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN111554269A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113870478A (zh) * 2021-09-29 2021-12-31 平安银行股份有限公司 快速取号方法、装置、电子设备及存储介质
CN113910217B (zh) * 2020-09-21 2023-12-01 复旦大学 一种听视觉协同的人形机器人头部定向方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH042252A (ja) * 1990-04-19 1992-01-07 Sanyo Electric Co Ltd 電話機端末装置
CN102779509A (zh) * 2011-05-11 2012-11-14 联想(北京)有限公司 语音处理设备和语音处理方法
CN106601237A (zh) * 2016-12-29 2017-04-26 上海智臻智能网络科技股份有限公司 交互式语音应答系统及其语音识别方法
TWM545995U (zh) * 2017-05-17 2017-07-21 Bank Of Taiwan 語音取號系統
TWI632543B (zh) * 2017-05-17 2018-08-11 臺灣銀行股份有限公司 Voice taking method and system
CN108831462A (zh) * 2018-06-26 2018-11-16 北京奇虎科技有限公司 车载语音识别方法及装置
CN109147146A (zh) * 2018-08-21 2019-01-04 平安科技(深圳)有限公司 语音取号的方法及终端设备
CN109192214A (zh) * 2018-08-21 2019-01-11 平安科技(深圳)有限公司 一种语音取号方法、存储介质和机器人
CN109816343A (zh) * 2019-01-04 2019-05-28 平安科技(深圳)有限公司 一种业务分流方法及装置
CN109922213A (zh) * 2019-01-17 2019-06-21 深圳壹账通智能科技有限公司 语音咨询时的数据处理方法、装置、存储介质及终端设备
CN110223690A (zh) * 2019-06-10 2019-09-10 深圳永顺智信息科技有限公司 基于图像与语音融合的人机交互方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH042252A (ja) * 1990-04-19 1992-01-07 Sanyo Electric Co Ltd 電話機端末装置
CN102779509A (zh) * 2011-05-11 2012-11-14 联想(北京)有限公司 语音处理设备和语音处理方法
CN106601237A (zh) * 2016-12-29 2017-04-26 上海智臻智能网络科技股份有限公司 交互式语音应答系统及其语音识别方法
TWM545995U (zh) * 2017-05-17 2017-07-21 Bank Of Taiwan 語音取號系統
TWI632543B (zh) * 2017-05-17 2018-08-11 臺灣銀行股份有限公司 Voice taking method and system
CN108831462A (zh) * 2018-06-26 2018-11-16 北京奇虎科技有限公司 车载语音识别方法及装置
CN109147146A (zh) * 2018-08-21 2019-01-04 平安科技(深圳)有限公司 语音取号的方法及终端设备
CN109192214A (zh) * 2018-08-21 2019-01-11 平安科技(深圳)有限公司 一种语音取号方法、存储介质和机器人
CN109816343A (zh) * 2019-01-04 2019-05-28 平安科技(深圳)有限公司 一种业务分流方法及装置
CN109922213A (zh) * 2019-01-17 2019-06-21 深圳壹账通智能科技有限公司 语音咨询时的数据处理方法、装置、存储介质及终端设备
CN110223690A (zh) * 2019-06-10 2019-09-10 深圳永顺智信息科技有限公司 基于图像与语音融合的人机交互方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113910217B (zh) * 2020-09-21 2023-12-01 复旦大学 一种听视觉协同的人形机器人头部定向方法
CN113870478A (zh) * 2021-09-29 2021-12-31 平安银行股份有限公司 快速取号方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110147726B (zh) 业务质检方法和装置、存储介质及电子装置
CN111046133B (zh) 基于图谱化知识库的问答方法、设备、存储介质及装置
CN107799126B (zh) 基于有监督机器学习的语音端点检测方法及装置
CN110444198B (zh) 检索方法、装置、计算机设备和存储介质
CN106875941B (zh) 一种服务机器人的语音语义识别方法
CN108346427A (zh) 一种语音识别方法、装置、设备及存储介质
CN104598644B (zh) 喜好标签挖掘方法和装置
TWI395201B (zh) 情緒語音辨識方法及系統
CN112784696A (zh) 基于图像识别的唇语识别方法、装置、设备及存储介质
CN113094478B (zh) 表情回复方法、装置、设备及存储介质
CN112017633B (zh) 语音识别方法、装置、存储介质及电子设备
CN108345612A (zh) 一种问题处理方法和装置、一种用于问题处理的装置
CN109947971A (zh) 图像检索方法、装置、电子设备及存储介质
CN110955818A (zh) 搜索方法、装置、终端设备及存储介质
CN113421547A (zh) 一种语音处理方法及相关设备
CN111341350A (zh) 人机交互控制方法、系统、智能机器人及存储介质
CN112632248A (zh) 问答方法、装置、计算机设备和存储介质
CN115512259A (zh) 一种基于多模态的短视频审核方法
CN113590798B (zh) 对话意图识别、用于识别对话意图的模型的训练方法
CN111326160A (zh) 一种纠正噪音文本的语音识别方法、系统及存储介质
CN111554269A (zh) 一种语音取号方法、系统及存储介质
JP5844375B2 (ja) 物体検索システムおよび物体検索方法
CN116883888A (zh) 基于多模态特征融合的银行柜面服务问题溯源系统及方法
CN108989551B (zh) 位置提示方法、装置、存储介质及电子设备
CN111680514A (zh) 信息处理和模型训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200818

WW01 Invention patent application withdrawn after publication