CN112598840A - 基于人脸识别和语音交互的通行设备控制方法、装置、机器可读介质及设备 - Google Patents
基于人脸识别和语音交互的通行设备控制方法、装置、机器可读介质及设备 Download PDFInfo
- Publication number
- CN112598840A CN112598840A CN202011486979.XA CN202011486979A CN112598840A CN 112598840 A CN112598840 A CN 112598840A CN 202011486979 A CN202011486979 A CN 202011486979A CN 112598840 A CN112598840 A CN 112598840A
- Authority
- CN
- China
- Prior art keywords
- face recognition
- voice
- voice interaction
- target object
- passing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 94
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000008569 process Effects 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims description 32
- 230000010365 information processing Effects 0.000 claims description 24
- 230000006399 behavior Effects 0.000 description 36
- 238000012549 training Methods 0.000 description 22
- 230000006870 function Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 210000004205 output neuron Anatomy 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C9/00—Individual registration on entry or exit
- G07C9/30—Individual registration on entry or exit not involving the use of a pass
- G07C9/32—Individual registration on entry or exit not involving the use of a pass in combination with an identity check
- G07C9/37—Individual registration on entry or exit not involving the use of a pass in combination with an identity check using biometric data, e.g. fingerprints, iris scans or voice recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种基于人脸识别和语音交互的通行设备控制方法,包括:对通行设备采集的目标对象的人脸图片进行人脸识别,并根据人脸识别结果生成相应的行为类别;在所述行为类别为不通过时,控制通行设备与所述目标对象进行多轮语音交互;根据语音交互结果控制通行设备开启或保持关闭。本发明能够对人脸识别结果的不同情况进行处理和分类,如在强光照背景下导致的识别结果模糊等情况,根据判定结果,系统进一步采用语音问答的方式与用户进行交互,以确认用户身份,从而作出进一步的判断和决定。
Description
技术领域
本发明涉及人工智能领域,具体涉及一种基于人脸识别和语音交互的通行设备控制方法、装置、机器可读介质及设备。
背景技术
在办公大楼入口场景下的门禁系统中,需要通过采集用户的人脸信息或者通过语音交互的方式来进行身份认证,从而决定是否让其通行。同时,为了能够给不同的用户角色提供相应的语音指引服务,需要通过与员工信息系统和访客预约系统相结合。
目前,智能门禁系统的大致流程是用户先经过抓拍进行人脸识别,如果人脸识别结果超过设定阈值,则打开门禁,并给出相应的欢迎语;如果识别不通过,则通过语音对话的方式进行信息的确认后再决定是否放行。然而,由于人脸识别的结果受到不同光照背景或拍摄角度的影响较大以及无预约来访的情况,因此,会出现较多流程为先经过人脸识别模块判断不通过,再通过语音模块进行交互的情况,两个模块各自为独立的系统,使得智能门禁作为整体的系统而言运行效率不高,从而影响了用户的体验。
另一方面,在语音交互模块,基于规则的方式建立的对话问答使得该模块只能根据自然语言理解子模块提取到的意图和实体回复设定好的问题,对于设定之外的问题,系统无法做出有效的回复,对用户进行相应的指引,而此类问题又是不同角色的用户在使用门禁系统时经常会出现的,如外卖人员等系统中无预约的访客。因此,基于规则的语音交互模块通常只适用于用户和场景比较确定的交流场景,无法满足多角色用户的需求。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于人脸识别和语音交互的通行设备控制方法、装置、机器可读介质及设备,用于解决现有技术存在的问题。
为实现上述目的及其他相关目的,本发明提供一种基于人脸识别和语音交互的通行设备控制方法,包括:
对通行设备采集的目标对象的人脸图片进行人脸识别,并根据人脸识别结果生成相应的行为类别;
在所述行为类别为不通过时,控制通行设备与所述目标对象进行多轮语音交互;
根据语音交互结果控制通行设备开启或保持关闭。
可选地,在通行设备与所述目标对象进行多轮语音交互时,根据不同的人脸识别结果进行不同内容的语音交互。
可选地,所述人脸识别结果包括目标对象与人脸底库中人脸图片的人脸相似度。
可选地,所述通行设备具有一预先训练好的信息处理模型,所述信息处理模型用于对通行设备采集的目标对象的人脸图片进行人脸识别,并根据人脸识别结果生成相应的行为类别,以及用于在通行设备与所述目标对象进行多轮语音交互的过程中对语音信息进行处理并输出语音结果。
可选地,在通行设备与所述目标对象进行多轮语音交互的过程中对语音信息进行处理的方法包括:
识别目标对象的语音信号,并将所述语音信号转换成文本;
对所述文本进行自然语言理解;
根据自然语言理解结果生成回复文本;
将所述回复文本转换成语音结果并输出。
可选地,通过循环嵌入式对话策略REDP根据自然语言理解结果生成回复文本。
可选地,通过RNN、Attention-based算法完成对目标对象的语音信号的识别。
可选地,通过Bert、RNN算法对所述文本进行自然语言理解。
为实现上述目的及其他相关目的,本发明提供一种基于人脸识别和语音交互的通行设备控制装置,包括:
人脸识别模块,用于对通行设备采集的目标对象的人脸图片进行人脸识别,并根据人脸识别结果生成相应的行为类别;
第一控制模块,用于在所述行为类别为不通过时,控制通行设备与所述目标对象进行多轮语音交互;
第二控制模块,用于根据语音交互结果控制通行设备开启或保持关闭。
可选地,在通行设备与所述目标对象进行多轮语音交互时,根据不同的人脸识别结果进行不同内容的语音交互。
可选地,所述人脸识别结果包括目标对象与人脸底库中人脸图片的人脸相似度。
可选地,所述通行设备具有一预先训练好的信息处理模型,所述信息处理模型用于对通行设备采集的目标对象的人脸图片进行人脸识别,并根据人脸识别结果生成相应的行为类别,以及用于在通行设备与所述目标对象进行多轮语音交互的过程中对语音信息进行处理并输出语音结果。
可选地,在通行设备与所述目标对象进行多轮语音交互的过程中对语音信息进行处理的方法包括:
识别目标对象的语音信号,并将所述语音信号转换成文本;
对所述文本进行自然语言理解;
根据自然语言理解结果生成回复文本;
将所述回复文本转换成语音结果并输出。
可选地,通过循环嵌入式对话策略REDP根据自然语言理解结果生成回复文本。
为实现上述目的及其他相关目的,本发明还提供一种控制设备,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行时,使得所述设备执行前述的一个或多个所述的方法。
为实现上述目的及其他相关目的,本发明还提供一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得设备执行前述的一个或多个所述的方法。
如上所述,本发明提供的一种基于人脸识别和语音交互的通行设备控制方法、装置、机器可读介质及设备,具有以下有益效果:
本发明的一种基于人脸识别和语音交互的通行设备控制方法,包括:对通行设备采集的目标对象的人脸图片进行人脸识别,并根据人脸识别结果生成相应的行为类别;在所述行为类别为不通过时,控制通行设备与所述目标对象进行多轮语音交互;根据语音交互结果控制通行设备开启或保持关闭。本发明能够对人脸识别结果的不同情况进行处理和分类,如在强光照背景下导致的识别结果模糊等情况,根据判定结果,系统进一步采用语音问答的方式与用户进行交互,以确认用户身份,从而作出进一步的判断和决定。
附图说明
图1为本发明一实施例一种基于人脸识别和语音交互的通行设备控制方法的流程图;
图2为本发明一实施例对语音信息进行处理的方法流程图;
图3为本发明一实施例一种基于人脸识别和语音交互的通行设备控制装置的硬件结构示意图;
图4为本发明一实施例中终端设备的硬件结构示意图;
图5为本发明一实施例中终端设备的硬件结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
如图1所示,本实施例提供一种基于人脸识别和语音交互的通行设备控制方法,包括:
S11对通行设备采集的目标对象的人脸图片进行人脸识别,并根据人脸识别结果生成相应的行为类别;
S12在所述行为类别为不通过时,控制通行设备与所述目标对象进行多轮语音交互;
S13根据语音交互结果控制通行设备开启或保持关闭。
本发明能够对人脸识别结果的不同情况进行处理和分类,如在强光照背景下导致的识别结果模糊等情况,根据判定结果,系统进一步采用语音问答的方式与用户进行交互,以确认用户身份,从而作出进一步的判断和决定。
以在办公楼区域出入口设置的通行设备是闸机为例,当目标对象要由闸机进入办公楼区域时,该目标对象的人脸图片可以由闸机上设置的图像采集设备或人脸识别机采集得到。其中,该图像采集设备可以是摄像头,该图像采集设备单独设置在入口闸机处方便采集目标对象的人脸图片的位置,或者该图像采集设备也可以是集成在人脸识别一体机上,而为了采集图像方便,该人脸识别一体机可以固定设定在闸机上,并面向闸机通道的进入方向。
在通行设备采集到目标对象的人脸图片后,对该人脸图片进行人脸识别。所述人脸识别即计算目标对象的人脸图片与人脸底库中的人脸图片间的人脸相似度,将人脸相似度作为人脸识结果,根据人脸识别结果生成相应的行为类别。
其中,若目标对象的人脸图片与人脸底库中每一张人脸图片的人脸相似度的最大值大于或等于设定的相似度阈值,则相应的行为类别为通过,则此时,闸机开启,供目标对象通过。若目标对象的人脸图片与人脸底库中每一张一人脸图片的人脸相似度的最大值小于设定的相似度阈值,则相应的行为类为不通过,则此时,闸机保持关闭,目标对象不能通过。在目标对象不能通过人脸识别进入闸机时,需要通过通行设备与目标对象进行多轮语音交互来识别目标对象的身份,以确定是否开启闸机供目标对象通行。
在所述行为类别为不通过时,会存在两张人脸图片间的相似度接近设定的相似度阈值的情况。例如,相似度阈值为0.9,识别出来的人脸相似度为0.89;以及两张人脸图片间的人脸相似度与设定的相似度阈值差距较大的情况,例如,相似度阈值为0.9,识别出来的人脸相似度为0.3。此时,针对这两种不同的情况,本实施例采用的是在通行设备与所述目标对象进行多轮语音交互时,根据不同的人脸识别结果进行不同内容的语音交互。即根据识别出来的相似度大小,进行不同内容的语音交互。
例如,若识别出来的人脸相似度为0.89,则生成的语音问句可以是“你是×××公司的×××么?”;若识别出来的人脸相似度为0.3,则生成的语音问句可以是“你是谁?你找谁?”“你是干什么的?”等等。
在一实施例中,对目标对象的人脸图片进行人脸识别,并根据人脸识别结果生成相应的行为类别,以及在通行设备与所述目标对象进行多轮语音交互的过程中对语音信息进行处理并输出语音结果这些功能都可以通过通行设备中内嵌的预先训练好的信息处理模型完成,该信息处理模型不但能够处理float类型的人脸识别结果数据,而且能够处理string类型的文本数据。当然,前述的功能实现也可以通过训练出单独的模型来完成。例如,通过基于神经网络的人脸识别模型来完成人脸识别以及根据相应的人脸识别结果生成相应的行为类别;通过语音处理模型来处理通行设备中的语音交互模块与所述目标对象进行多轮语音交互的过程中对语音信息。本实施例以训练生成信息处理模型为例进行说明。
信息处理模型的生成方法包括:
步骤S101,数据收集;
收集在各类情况下人脸识别的结果作为训练数据。同时,针对相似度小于相似度阈值的不同的人脸相似度设计不同的文本对话数据。
步骤S102,数据格式处理;
将已有的人脸识别结果数据(float类型)和文本对话数据(string类型)按照模型需要的输入形式进行转换。
步骤S103,信息处理模型的结构设计;
信息处理模型实现人脸识、行为类别输出、语音数据处理,其中,人脸识别以及行为类别输出可以采用DeepFace、DeepID、FaceNet等作为训练网络。其中,语音数据的处理,即在通行设备中的语音交互模块与所述目标对象进行多轮语音交互的过程中对语音信息进行处理。其中,如图2所示,在通行设备与所述目标对象进行多轮语音交互的过程中对语音信息进行处理的方法包括:
S21识别目标对象的语音信号,并将所述语音信号转换成文本;
S22对所述文本进行自然语言理解;
S23根据自然语言理解结果生成回复文本;
S24将所述回复文本转换成语音结果并输出。
其中,语音信号的识别可以通过RNN循环神经网络、Attention-based算法等实现;自然语言理解可以通过Bert(Bidirectional Encoder Representation fromTransformers),RNN循环神经网络算法等算法实现;而根据自然语言理解结果生成回复文本可以通过Recurrent Embedding Dialogue Policy(循环嵌入式对话策略,REDP)算法实现。
步骤S104,信息处理模型训练;
将处理好的全部数据集分为训练集train,验证集validate和测试集test三份,使用训练集train部分的数据集训练网络中的超参数。其中,超参数主要包括:学习率,正则化参数,神经网络层数,每一个隐层中神经元的个数,学习的回合数,小批量数据的大小,输出神经元的编码方式,代价函数的选择,权重初始化的方式,神经元激活函数的种类,参加训练模型数据的规模。
步骤S105,网络的调整和优化;
使用F1 score(又称为平衡F分数(balanced F Score),他被定义为精准率和召回率的调和平均数)和对话完成度百分比作为评价指标,调整网络的超参数以及影响网络训练的其他变量不断训练和优化网络,选取评价指标结果最佳的作为最终模型的参数。
至此,完成了对信息处理模型的训练。
在利用前述方法对通行设备进行控制时,先对目标对象进行人脸识别,当识别的人脸相似度超过设定的相似度阈值,行为类别为通过,当人脸相似度小于设定的相似度阈值时,行为类别为不通过。若行为类别为通过,则打开闸机,供目标对象通行,若行为类别为不通过,则控制通行设备中的语音交互模块与目标对象进行多轮语音交互,在进行多轮语音交互时,识别结果不同,语音交互的内容不同。通过多轮语音交互,完成目标对象的身份认证,若身份认证通过,则打开闸机,供目标对象通行,若身份认证不通过,则闸机保持关闭。
在一实施例中,根据不同的身份设定不同的欢迎语,在通过闸机时,根据不同的身份从回复侯选集中选择相应的语音进行输出。
应该理解,上述各个实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
如图3所示,如图3所示,本实施例提供一种基于人脸识别和语音交互的通行设备控制方法,包括:
人脸识别模块31,用于对通行设备采集的目标对象的人脸图片进行人脸识别,并根据人脸识别结果生成相应的行为类别;
控制模块32,用于在所述行为类为不通过时,控制所述通行设备与所述目标对象进行多轮语音交互;
第二控制模块33,用于根据语音交互结果控制通行设备开启或保持关闭。
本发明能够对人脸识别结果的不同情况进行处理和分类,如在强光照背景下导致的识别结果模糊等情况,根据判定结果,系统进一步采用语音问答的方式与用户进行交互,以确认用户身份,从而作出进一步的判断和决定。
以在办公楼区域出入口设置的通行设备是闸机为例,当目标对象要由闸机进入办公楼区域时,该目标对象的人脸图片可以由闸机上设置的图像采集设备或人脸识别机采集得到。其中,该图像采集设备可以是摄像头,该图像采集设备单独设置在入口闸机处方便采集目标对象的人脸图片的位置,或者该图像采集设备也可以是集成在人脸识别一体机上,而为了采集图像方便,该人脸识别一体机可以固定设定在闸机上,并面向闸机通道的进入方向。
在通行设备采集到目标对象的人脸图片后,对该人脸图片进行人脸识别。所述人脸识别即计算目标对象的人脸图片与人脸底库中的人脸图片间的人脸相似度,将人脸相似度作为人脸识结果,根据人脸识别结果生成相应的行为类别。
其中,若目标对象的人脸图片与人脸底库中每一张人脸图片的人脸相似度的最大值大于或等于设定的相似度阈值,则相应的行为类别为通过,则此时,闸机开启,供目标对象通过。若目标对象的人脸图片与人脸底库中每一张一人脸图片的人脸相似度的最大值小于设定的相似度阈值,则相应的行为类为不通过,则此时,闸机保持关闭,目标对象不能通过。在目标对象不能通过人脸识别进入闸机时,需要通过通行设备与目标对象进行多轮语音交互来识别目标对象的身份,以确定是否开启闸机供目标对象通行。
在所述行为类别为不通过时,会存在两张人脸图片间的相似度接近设定的相似度阈值的情况。例如,相似度阈值为0.9,识别出来的人脸相似度为0.89;以及两张人脸图片间的人脸相似度与设定的相似度阈值差距较大的情况,例如,相似度阈值为0.9,识别出来的人脸相似度为0.3。此时,针对这两种不同的情况,本实施例采用的是在通行设备与所述目标对象进行多轮语音交互时,根据不同的人脸识别结果进行不同内容的语音交互。即根据识别出来的相似度大小,进行不同内容的语音交互。
例如,若识别出来的人脸相似度为0.89,则生成的语音问句可以是“你是×××公司的×××么?”;若识别出来的人脸相似度为0.3,则生成的语音问句可以是“你是谁?你找谁?”“你是干什么的?”等等。
在一实施例中,对目标对象的人脸图片进行人脸识别,并根据人脸识别结果生成相应的行为类别,以及在通行设备中的语音交互模块与所述目标对象进行多轮语音交互的过程中对语音信息进行处理并输出语音结果这些功能都可以通过通行设备中内嵌的预先训练好的信息处理模型完成,该信息处理模型不但能够处理float类型的人脸识别结果数据,而且能够处理string类型的文本数据。当然,前述的功能实现也可以通过训练出单独的模型来完成。例如,通过基于神经网络的人脸识别模型来完成人脸识别以及根据相应的人脸识别结果生成相应的行为类别;通过语音处理模型来处理通行设备中的语音交互模块与所述目标对象进行多轮语音交互的过程中对语音信息。本实施例以训练生成信息处理模型为例进行说明。
信息处理模型的生成方法包括:
步骤S101,数据收集;
收集在各类情况下人脸识别的结果作为训练数据。同时,针对相似度小于相似度阈值的不同的人脸相似度设计不同的文本对话数据。
步骤S102,数据格式处理;
将已有的人脸识别结果数据(float类型)和文本对话数据(string类型)按照模型需要的输入形式进行转换。
步骤S103,信息处理模型的结构设计;
信息处理模型实现人脸识、行为类别输出、语音数据处理,其中,人脸识别以及行为类别输出可以采用DeepFace、DeepID、FaceNet等作为训练网络。其中,语音数据的处理,即在通行设备中的语音交互模块与所述目标对象进行多轮语音交互的过程中对语音信息进行处理。其中,如图2所示,在通行设备与所述目标对象进行多轮语音交互的过程中对语音信息进行处理的方法包括:
识别目标对象的语音信号,并将所述语音信号转换成文本;
对所述文本进行自然语言理解;
根据自然语言理解结果生成回复文本;
将所述回复文本转换成语音结果并输出。
其中,语音信号的识别可以通过RNN循环神经网络、Attention-based算法等实现;自然语言理解可以通过Bert(Bidirectional Encoder Representation fromTransformers),RNN循环神经网络算法等算法实现;而根据自然语言理解结果生成回复文本可以通过Recurrent Embedding Dialogue Policy(循环嵌入式对话策略,REDP)算法实现。
步骤S104,信息处理模型训练;
将处理好的全部数据集分为训练集train,验证集validate和测试集test三份,使用训练集train部分的数据集训练网络中的超参数。其中,超参数主要包括:学习率,正则化参数,神经网络层数,每一个隐层中神经元的个数,学习的回合数,小批量数据的大小,输出神经元的编码方式,代价函数的选择,权重初始化的方式,神经元激活函数的种类,参加训练模型数据的规模。
步骤S105,网络的调整和优化;
使用F1 score(又称为平衡F分数(balanced F Score),他被定义为精准率和召回率的调和平均数)和对话完成度百分比作为评价指标,调整网络的超参数以及影响网络训练的其他变量不断训练和优化网络,选取评价指标结果最佳的作为最终模型的参数。
至此,完成了对信息处理模型的训练。
在利用前述方法对通行设备进行控制时,先对目标对象进行人脸识别,当识别的人脸相似度超过设定的相似度阈值,行为类别为通过,当人脸相似度小于设定的相似度阈值时,行为类别为不通过。若行为类别为通过,则打开闸机,供目标对象通行,若行为类别为不通过,则控制通行设备中的语音交互模块与目标对象进行多轮语音交互,在进行多轮语音交互时,识别结果不同,语音交互的内容不同。通过多轮语音交互,完成目标对象的身份认证,若身份认证通过,则打开闸机,供目标对象通行,若身份认证不通过,则闸机保持关闭。
在一实施例中,根据不同的身份设定不同的欢迎语,在通过闸机时,根据不同的身份从回复侯选集中选择相应的语音进行输出。
本申请实施例还提供了一种设备,该设备可以包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述设备执行图1所述的方法。在实际应用中,该设备可以作为终端设备,也可以作为服务器,终端设备的例子可以包括:智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准语音层面3,Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准语音层面4,Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等,本申请实施例对于具体的设备不加以限制。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例的图1中方法所包含步骤的指令(instructions)。
图4为本申请一实施例提供的终端设备的硬件结构示意图。如图所示,该终端设备可以包括:输入设备1100、第一处理器1101、输出设备1102、第一存储器1103和至少一个通信总线1104。通信总线1104用于实现元件之间的通信连接。第一存储器1103可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,第一存储器1103中可以存储各种程序,用于完成各种处理功能以及实现本实施例的方法步骤。
可选的,上述第一处理器1101例如可以为中央处理器(Central ProcessingUnit,简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,该第一处理器1101通过有线或无线连接耦合到上述输入设备1100和输出设备1102。
可选的,上述输入设备1100可以包括多种输入设备,例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的,该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件插入接口(例如USB接口、串口等);可选的,该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等);可选的,上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口,例如芯片的输入引脚接口或者输入接口等;输出设备1102可以包括显示器、音响等输出设备。
在本实施例中,该终端设备的处理器包括用于执行各设备中各模块的功能,具体功能和技术效果参照上述实施例即可,此处不再赘述。
图5为本申请的一个实施例提供的终端设备的硬件结构示意图。图4是对图5在实现过程中的一个具体的实施例。如图所示,本实施例的终端设备可以包括第二处理器1201以及第二存储器1202。
第二处理器1201执行第二存储器1202所存放的计算机程序代码,实现上述实施例中图1所述方法。
第二存储器1202被配置为存储各种类型的数据以支持在终端设备的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令,例如消息,图片,视频等。第二存储器1202可能包含随机存取存储器(random access memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
可选地,第二处理器1201设置在处理组件1200中。该终端设备还可以包括:通信组件1203,电源组件1204,多媒体组件1205,语音组件1206,输入/输出接口1207和/或传感器组件1208。终端设备具体所包含的组件等依据实际需求设定,本实施例对此不作限定。
处理组件1200通常控制终端设备的整体操作。处理组件1200可以包括一个或多个第二处理器1201来执行指令,以完成上述数据处理方法中的全部或部分步骤。此外,处理组件1200可以包括一个或多个模块,便于处理组件1200和其他组件之间的交互。例如,处理组件1200可以包括多媒体模块,以方便多媒体组件1205和处理组件1200之间的交互。
电源组件1204为终端设备的各种组件提供电力。电源组件1204可以包括电源管理系统,一个或多个电源,及其他与为终端设备生成、管理和分配电力相关联的组件。
多媒体组件1205包括在终端设备和用户之间的提供一个输出接口的显示屏。在一些实施例中,显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板,显示屏可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
语音组件1206被配置为输出和/或输入语音信号。例如,语音组件1206包括一个麦克风(MIC),当终端设备处于操作模式,如语音识别模式时,麦克风被配置为接收外部语音信号。所接收的语音信号可以被进一步存储在第二存储器1202或经由通信组件1203发送。在一些实施例中,语音组件1206还包括一个扬声器,用于输出语音信号。
输入/输出接口1207为处理组件1200和外围接口模块之间提供接口,上述外围接口模块可以是点击轮,按钮等。这些按钮可包括但不限于:音量按钮、启动按钮和锁定按钮。
传感器组件1208包括一个或多个传感器,用于为终端设备提供各个方面的状态评估。例如,传感器组件1208可以检测到终端设备的打开/关闭状态,组件的相对定位,用户与终端设备接触的存在或不存在。传感器组件1208可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在,包括检测用户与终端设备间的距离。在一些实施例中,该传感器组件1208还可以包括摄像头等。
通信组件1203被配置为便于终端设备和其他设备之间有线或无线方式的通信。终端设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个实施例中,该终端设备中可以包括SIM卡插槽,该SIM卡插槽用于插入SIM卡,使得终端设备可以登录GPRS网络,通过互联网与服务器建立通信。
由上可知,在图5实施例中所涉及的通信组件1203、语音组件1206以及输入/输出接口1207、传感器组件1208均可以作为图4实施例中的输入设备的实现方式。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (16)
1.一种基于人脸识别和语音交互的通行设备控制方法,其特征在于,包括:
对通行设备采集的目标对象的人脸图片进行人脸识别,并根据人脸识别结果生成相应的行为类别;
在所述行为类别为不通过时,控制通行设备与所述目标对象进行多轮语音交互;
根据语音交互结果控制通行设备开启或保持关闭。
2.根据权利要求1所述的基于人脸识别和语音交互的通行设备控制方法,其特征在于,在通行设备与所述目标对象进行多轮语音交互时,根据不同的人脸识别结果进行不同内容的语音交互。
3.根据权利要求2所述的基于人脸识别和语音交互的通行设备控制方法,其特征在于,所述人脸识别结果包括目标对象与人脸底库中人脸图片的人脸相似度。
4.根据权利要求1所述的基于人脸识别和语音交互的通行设备控制方法,其特征在于,所述通行设备具有一预先训练好的信息处理模型,所述信息处理模型用于对通行设备采集的目标对象的人脸图片进行人脸识别,并根据人脸识别结果生成相应的行为类别,以及用于在通行设备与所述目标对象进行多轮语音交互的过程中对语音信息进行处理并输出语音结果。
5.根据权利要求1或4所述的基于人脸识别和语音交互的通行设备控制方法,其特征在于,在通行设备与所述目标对象进行多轮语音交互的过程中对语音信息进行处理的方法包括:识别目标对象的语音信号,并将所述语音信号转换成文本;
对所述文本进行自然语言理解;
根据自然语言理解结果生成回复文本;
将所述回复文本转换成语音结果并输出。
6.根据权利要求5所述的基于人脸识别和语音交互的通行设备控制方法,其特征在于,通过循环嵌入式对话策略REDP根据自然语言理解结果生成回复文本。
7.根据权利要求5所述的基于人脸识别和语音交互的通行设备控制方法,其特征在于,通过RNN、Attention-based算法完成对目标对象的语音信号的识别。
8.根据权利要求5所述的基于人脸识别和语音交互的通行设备控制方法,其特征在于,通过Bert、RNN算法对所述文本进行自然语言理解。
9.一种基于人脸识别和语音交互的通行设备控制装置,其特征在于,包括:
人脸识别模块,用于对通行设备采集的目标对象的人脸图片进行人脸识别,并根据人脸识别结果生成相应的行为类别;
第一控制模块,用于在所述行为类别为不通过时,控制通行设备与所述目标对象进行多轮语音交互;
第二控制模块,用于根据语音交互结果控制通行设备开启或保持关闭。
10.根据权利要求9所述的基于人脸识别和语音交互的通行设备控制装置,其特征在于,在通行设备与所述目标对象进行多轮语音交互时,根据不同的人脸识别结果进行不同内容的语音交互。
11.根据权利要求10所述的基于人脸识别和语音交互的通行设备控制装置,其特征在于,所述人脸识别结果包括目标对象与人脸底库中人脸图片的人脸相似度。
12.根据权利要求9所述的基于人脸识别和语音交互的通行设备控制装置,其特征在于,所述通行设备具有一预先训练好的信息处理模型,所述信息处理模型用于对通行设备采集的目标对象的人脸图片进行人脸识别,并根据人脸识别结果生成相应的行为类别,以及用于在通行设备与所述目标对象进行多轮语音交互的过程中对语音信息进行处理并输出语音结果。
13.根据权利要求9或12所述的基于人脸识别和语音交互的通行设备控制方法,其特征在于,在通行设备与所述目标对象进行多轮语音交互的过程中对语音信息进行处理的方法包括:识别目标对象的语音信号,并将所述语音信号转换成文本;
对所述文本进行自然语言理解;
根据自然语言理解结果生成回复文本;
将所述回复文本转换成语音结果并输出。
14.根据权利要求5所述的基于人脸识别和语音交互的通行设备控制方法,其特征在于,通过循环嵌入式对话策略REDP根据自然语言理解结果生成回复文本。
15.一种控制设备,其特征在于,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行时,使得所述设备执行如权利要求1-8中一个或多个所述的方法。
16.一个或多个机器可读介质,其特征在于,其上存储有指令,当由一个或多个处理器执行时,使得设备执行如权利要求1-8中一个或多个所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011486979.XA CN112598840A (zh) | 2020-12-16 | 2020-12-16 | 基于人脸识别和语音交互的通行设备控制方法、装置、机器可读介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011486979.XA CN112598840A (zh) | 2020-12-16 | 2020-12-16 | 基于人脸识别和语音交互的通行设备控制方法、装置、机器可读介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112598840A true CN112598840A (zh) | 2021-04-02 |
Family
ID=75196533
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011486979.XA Pending CN112598840A (zh) | 2020-12-16 | 2020-12-16 | 基于人脸识别和语音交互的通行设备控制方法、装置、机器可读介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112598840A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116071862A (zh) * | 2022-12-16 | 2023-05-05 | 北京声智科技有限公司 | 通行校验方法、装置、电子设备、系统以及可读存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609511A (zh) * | 2017-09-11 | 2018-01-19 | 广东欧珀移动通信有限公司 | 信息交互方法和装置 |
CN108920639A (zh) * | 2018-07-02 | 2018-11-30 | 北京百度网讯科技有限公司 | 基于语音交互的上下文获取方法及设备 |
CN110298667A (zh) * | 2019-06-25 | 2019-10-01 | 北京百度网讯科技有限公司 | 基于人脸识别的支付处理方法、装置及存储介质 |
CN110673723A (zh) * | 2019-09-16 | 2020-01-10 | 广州云从信息科技有限公司 | 基于生物识别特征的语音交互方法、系统、介质和设备 |
CN110843726A (zh) * | 2019-12-19 | 2020-02-28 | 北京明朝万达科技股份有限公司 | 汽车门锁控制系统、方法及车辆 |
CN111292734A (zh) * | 2018-12-06 | 2020-06-16 | 阿里巴巴集团控股有限公司 | 一种语音交互方法和装置 |
CN111862413A (zh) * | 2020-07-28 | 2020-10-30 | 公安部第三研究所 | 实现抗疫情非接触多维身份快速识别的方法及其系统 |
CN112085594A (zh) * | 2020-09-14 | 2020-12-15 | 深圳前海微众银行股份有限公司 | 身份核实方法、设备及可读存储介质 |
-
2020
- 2020-12-16 CN CN202011486979.XA patent/CN112598840A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609511A (zh) * | 2017-09-11 | 2018-01-19 | 广东欧珀移动通信有限公司 | 信息交互方法和装置 |
CN108920639A (zh) * | 2018-07-02 | 2018-11-30 | 北京百度网讯科技有限公司 | 基于语音交互的上下文获取方法及设备 |
CN111292734A (zh) * | 2018-12-06 | 2020-06-16 | 阿里巴巴集团控股有限公司 | 一种语音交互方法和装置 |
CN110298667A (zh) * | 2019-06-25 | 2019-10-01 | 北京百度网讯科技有限公司 | 基于人脸识别的支付处理方法、装置及存储介质 |
CN110673723A (zh) * | 2019-09-16 | 2020-01-10 | 广州云从信息科技有限公司 | 基于生物识别特征的语音交互方法、系统、介质和设备 |
CN110843726A (zh) * | 2019-12-19 | 2020-02-28 | 北京明朝万达科技股份有限公司 | 汽车门锁控制系统、方法及车辆 |
CN111862413A (zh) * | 2020-07-28 | 2020-10-30 | 公安部第三研究所 | 实现抗疫情非接触多维身份快速识别的方法及其系统 |
CN112085594A (zh) * | 2020-09-14 | 2020-12-15 | 深圳前海微众银行股份有限公司 | 身份核实方法、设备及可读存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116071862A (zh) * | 2022-12-16 | 2023-05-05 | 北京声智科技有限公司 | 通行校验方法、装置、电子设备、系统以及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021135577A9 (zh) | 音频信号处理方法、装置、电子设备及存储介质 | |
CN108009521B (zh) | 人脸图像匹配方法、装置、终端及存储介质 | |
WO2021135685A1 (zh) | 身份认证的方法以及装置 | |
US20210350346A1 (en) | System and method for using passive multifactor authentication to provide access to secure services | |
KR20190094314A (ko) | 콘텐츠 기반의 스타일을 갖는 텍스트 또는 음성을 생성하는 인공 지능 장치 및 그 방법 | |
KR20190094315A (ko) | 스타일을 고려하여 텍스트와 음성을 상호 변환하는 인공 지능 장치 및 그 방법 | |
CN110827831A (zh) | 基于人机交互的语音信息处理方法、装置、设备及介质 | |
CN110909543A (zh) | 意图识别方法、装置、设备及介质 | |
CN106502382B (zh) | 用于智能机器人的主动交互方法和系统 | |
CN112069309A (zh) | 信息获取方法、装置、计算机设备及存储介质 | |
CN109871807A (zh) | 人脸图像处理方法和装置 | |
US20210327418A1 (en) | Artificial intelligence apparatus for performing voice control using voice extraction filter and method for the same | |
CN117197878A (zh) | 基于机器学习的人物面部表情捕捉方法及系统 | |
CN106653020A (zh) | 一种基于深度学习的智慧视听设备多业务控制方法及系统 | |
CN112632244A (zh) | 一种人机通话的优化方法、装置、计算机设备及存储介质 | |
CN114282013A (zh) | 一种数据处理方法、装置及存储介质 | |
CN113362852A (zh) | 一种用户属性识别方法和装置 | |
CN117877125B (zh) | 动作识别及其模型训练方法、装置、电子设备、存储介质 | |
CN114333774B (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN116994188A (zh) | 一种动作识别方法、装置、电子设备及存储介质 | |
CN114373443A (zh) | 语音合成方法和装置、计算设备、存储介质及程序产品 | |
CN112598840A (zh) | 基于人脸识别和语音交互的通行设备控制方法、装置、机器可读介质及设备 | |
CN116935277A (zh) | 多模态情感识别方法及装置 | |
CN117273019A (zh) | 对话模型的训练方法、对话生成方法、装置和设备 | |
CN116721449A (zh) | 视频识别模型的训练方法、视频识别方法、装置以及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210402 |
|
RJ01 | Rejection of invention patent application after publication |