CN112613468A - 基于人工智能的疫情排查方法及相关设备 - Google Patents
基于人工智能的疫情排查方法及相关设备 Download PDFInfo
- Publication number
- CN112613468A CN112613468A CN202011624003.4A CN202011624003A CN112613468A CN 112613468 A CN112613468 A CN 112613468A CN 202011624003 A CN202011624003 A CN 202011624003A CN 112613468 A CN112613468 A CN 112613468A
- Authority
- CN
- China
- Prior art keywords
- image
- voice
- target person
- recognition model
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 36
- 238000011835 investigation Methods 0.000 title claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 67
- 238000001454 recorded image Methods 0.000 claims abstract description 33
- 230000001815 facial effect Effects 0.000 claims description 45
- 238000000605 extraction Methods 0.000 claims description 24
- 238000013527 convolutional neural network Methods 0.000 claims description 23
- 208000015181 infectious disease Diseases 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 8
- 238000013024 troubleshooting Methods 0.000 claims description 8
- 230000008030 elimination Effects 0.000 claims description 7
- 238000003379 elimination reaction Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 5
- 230000000977 initiatory effect Effects 0.000 claims description 4
- 230000002265 prevention Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000001914 filtration Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 206010017472 Fumbling Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
- G06V40/173—Classification, e.g. identification face re-identification, e.g. recognising unknown faces across different face tracks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Signal Processing (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Image Analysis (AREA)
- Collating Specific Patterns (AREA)
Abstract
本发明涉及人工智能技术领域,提供一种基于人工智能的疫情排查方法、装置、电子设备及存储介质。所述方法包括:获取人员名单,得到其中人员的备案语音和备案图像;获取目标人员名单,并获取目标人员的通话语音文件;使用备案语音训练说话人识别模型,将通话语音文件与备案语音输入说话人识别模型,判断接听人是否为目标人员;当说话人识别模型判断接听人不是目标人员时,采集接听人的图像文件;使用备案图像训练图像识别模型,将图像文件与备案图像输入图像识别模型,判断接听人是否为目标人员;当图像文件中的接听人不是目标人员时,生成并输出警告信息。本发明可以验证被摸排人员身份以确保反馈信息的真实可靠,提高了疫情防控的效率。
Description
技术领域
本发明涉及人工智能中的语音图像处理技术领域,具体涉及一种基于人工智能的疫情排查方法、装置、电子设备及存储介质。
背景技术
现有技术中,基于疫情排查主要依靠网格员、社区人员通过电话热线进行摸排记录,以及通过简单的电话语音机器人回访摸排,这些传统的排查方式效率不高,不能验证被摸排人员的身份,且容易出现漏填误填情况。
发明内容
鉴于以上内容,有必要提出一种基于人工智能的疫情排查方法、装置、电子设备及存储介质以实现对高效率和可验证身份的疫情排查。
本申请的第一方面提供一种基于人工智能的疫情排查方法,所述基于人工智能的疫情排查方法包括:
获取人员名单,并获取所述人员名单中的人员的语音数据与人脸图像数据,得到备案语音和备案图像;
获取目标人员名单,并获取所述目标人员名单中每个目标人员的通话语音文件;
使用所述备案语音训练基于梅尔频率倒谱系数和第一孪生网络的说话人识别模型,并将所述每个目标人员的通话语音文件与所述备案语音输入至训练好的说话人识别模型,通过所述说话人识别模型判断所述每个目标人员的通话语音文件中的接听人是否为所述目标人员;
当判断所述通话语音文件中的所述接听人不是所述目标人员时,采集所述接听人的视频图像得到图像文件;
使用所述备案图像训练基于卷积神经网络和第二孪生网络的图像识别模型,并将所述图像文件与所述备案图像输入至训练好的图像识别模型,通过所述图像识别模型判断所述图像文件中的所述接听人是否为所述目标人员;
当判断所述图像文件中的所述接听人不是所述目标人员时,生成并输出警告信息。
优选地,所述获取所述人员名单中的人员的语音数据与人脸图像数据,得到备案语音和备案图像包括:
通过语音录入单元获取所述人员名单中的人员录入的语音数据及通过图像录入单元获取所述人员名单中的人员录入的人脸图像数据,将所述语音数据存储为备案语音,将所述人脸图像数据存储为备案图像。
优选地,所述获取所述目标人员名单中的每个目标人员的通话语音文件包括:
使用智能语音机器人发起通话,基于预设的话术进行摸排,并采集所述通话中所述接听人的语音,得到所述每个目标人员的通话语音文件。
优选地,所述基于预设的话术进行摸排包括:
所述智能语音机器人从预设的问题池中按照预设的顺序获取问题并根据问题进行提问操作,直至所述预设的问题池中的问题被提问完,其中,所述提问操作包括:
所述智能语音机器人根据所述预设的顺序从所述预设的问题池中获取每一问题并根据每一问题进行提问;所述智能语音机器人等待接听人员回复;当所述接听人员回复时,所述智能语音机器人采集所述通话中的语音,得到通话语音数据,并确认所述接听人员回复结束。
优选地,所述使用所述备案语音训练基于梅尔频率倒谱系数和第一孪生网络的说话人识别模型,并将所述每个目标人员的通话语音文件与备案语音输入至训练好的说话人识别模型,通过所述说话人识别模型判断所述每个目标人员的通话语音文件中的所述接听人是否为所述目标人员包括:
将所述备案语音按预设周期进行切分,得到预设数量个备案语音段;
对所述预设数量个备案语音段进行梅尔频率倒谱系数预处理,得到预设数量个备案语音特征;
使用所述预设数量个备案语音特征训练第一孪生网络,优化所述第一孪生网络,得到所述训练好的说话人识别模型和第一阈值,所述第一阈值根据所述预设数量个备案语音特征的相似度设定,用于通过与两个语音文件的语音特征相似度比较以确认两个语音文件是否来自同一说话人;
对所述通话语音文件和所述备案语音进行梅尔频率倒谱系数预处理,得到通话语音特征与备案语音比较特征;
将所述通话语音特征与所述备案语音比较特征输入所述训练好的说话人识别模型,通过所述训练好的说话人识别模型计算所述通话语音特征与所述备案语音比较特征的第一相似度,当所述第一相似度大于或等于所述第一阈值时,判断所述每个目标人员的通话语音文件中的所述接听人是所述目标人员;当所述第一相似度小于所述第一阈值时,判断所述每个目标人员的通话语音文件中的所述接听人不是所述目标人员。
优选地,所述方法还包括:
使用语音识别模型将所述通话语音文件转为文本信息;
判断所述文本信息中是否存在预设的关键字,当所述文本信息中存在预设的关键字时,判断所述目标人员存在感染风险;当所述文本信息中不存在预设的关键字时,判断所述目标人员不存在感染风险。
优选地,所述使用所述备案图像训练基于卷积神经网络和第二孪生网络的图像识别模型,并将所述图像文件与所述备案图像输入至训练好的图像识别模型,通过所述图像识别模型判断所述图像文件中的所述接听人是否为所述目标人员包括:
对所述备案图像按画面帧进行切分,得到人脸图像训练数据;
使用所述人脸图像训练数据训练所述卷积神经网络,得到所述图像识别模型的特征提取模型,所述特征提取模型可以提取人脸图像的特征;
将所述人脸图像训练数据输入所述特征提取模型,得到人脸图像训练特征;
使用所述人脸图像训练特征训练第二孪生网络,优化所述第二孪生网络,得到所述图像识别模型的人脸识别模型和第二阈值,所述第二阈值根据所述人脸图像训练特征的相似度设定,用于通过与两个人脸图像的相似度比较以确认人脸图像是否来自同一人;
将对所述目标人员的图像文件和所述目标人员的备案图像按画面帧进行切分,得到目标人员测试图像和目标人员备案图像;
将所述目标人员测试图像和所述目标人员备案图像输入所述图像识别模型的特征提取模型,经所述特征提取模型得到通话图像特征与备案图像特征;
将所述通话图像特征与所述备案图像特征输入所述图像识别模型的人脸识别模型,通过所述识别模型计算所述通话图像特征与所述备案图像特征的第二相似度,当所述第二相似度大于或等于所述第二阈值时,判断所述图像文件中的所述接听人是所述目标人员;当所述第二相似度小于所述第二阈值时,判断所述图像文件中的所述接听人不是所述目标人员本人。
本申请的第二方面提供一种基于人工智能的疫情排查装置,所述基于人工智能的疫情排查装置包括:
语音图像获取模块,用于获取人员名单,并获取所述人员名单中的人员的语音数据与人脸图像数据,得到备案语音和备案图像;
通话语音文件获取模块,用于获取目标人员名单,并获取所述目标人员名单中每个目标人员的通话语音文件;
说话人识别模块,用于使用所述备案语音训练基于梅尔频率倒谱系数和第一孪生网络的说话人识别模型,并将所述每个目标人员的通话语音文件与所述备案语音输入至训练好的说话人识别模型,通过所述说话人识别模型判断所述每个目标人员的通话语音文件中的所述接听人是否为所述目标人员;
图像文件获取模块,用于当判断所述通话语音文件中的接听人不是所述目标人员时,采集所述接听人的视频图像得到图像文件;
图像识别模块,用于使用所述备案图像训练基于卷积神经网络和第二孪生网络的图像识别模型,并将所述图像文件与所述备案图像输入至训练好的图像识别模型,通过所述图像识别模型判断所述图像文件中的所述接听人是否为所述目标人员;
警告信息生成模块,用于当判断所述图像文件中的所述接听人不是所述目标人员时,生成并输出警告信息。
本申请的第三方面提供一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现所述基于人工智能的疫情排查方法。
本申请的第四发明提供一种计算机存储介质,其上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现所述基于人工智能的疫情排查方法。
本发明中,通过获取人员名单,并获取所述人员名单中的人员的语音数据与人脸图像数据,得到备案语音和备案图像;获取目标人员名单,并获取所述目标人员名单中每个目标人员的通话语音文件;使用所述备案语音训练基于梅尔频率倒谱系数和第一孪生网络的说话人识别模型,并将所述每个目标人员的通话语音文件与所述备案语音输入至训练好的说话人识别模型,通过所述说话人识别模型判断所述每个目标人员的通话语音文件中的所述接听人是否为所述目标人员;当判断所述通话语音文件中的接听人不是所述目标人员时,采集所述接听人的视频图像得到图像文件;使用所述备案图像训练基于卷积神经网络和第二孪生网络的图像识别模型,并将所述图像文件与所述备案图像输入至训练好的图像识别模型,通过所述图像识别模型判断所述图像文件中的所述接听人是否为所述目标人员;当判断所述图像文件中的所述接听人不是所述目标人员时,生成并输出警告信息,可以对疫情全面及时摸排并验证被摸排人员身份以确保反馈信息的真实可靠,提高了疫情防控的效率。
附图说明
图1为本发明一实施方式中基于人工智能的疫情排查方法的流程图。
图2为本发明一实施方式中基于人工智能的疫情排查装置的结构图。
图3为本发明一实施方式中电子设备的示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
优选地,本发明基于人工智能的疫情排查方法应用在一个或者多个电子设备中。所述电子设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述电子设备可以是桌上型计算机、笔记本电脑、平板电脑及云端服务器等计算设备。所述设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
实施例1
图1是本发明一实施方式中基于人工智能的疫情排查方法的流程图。根据不同的需求,所述流程图中步骤的顺序可以改变,某些步骤可以省略。
参阅图1所示,所述基于人工智能的疫情排查方法具体包括以下步骤:
步骤S11,获取人员名单,并获取所述人员名单中的人员的语音数据与人脸图像数据,得到备案语音和备案图像。
在本发明的至少一个实施例中,所述获取所述人员名单中的人员的语音数据与人脸图像数据,得到备案语音和备案图像包括:
通过语音录入单元获取所述人员名单中的人员录入的语音数据及通过图像录入单元获取所述人员名单中的人员录入的人脸图像数据,将所述语音数据存储为备案语音,将所述人脸图像数据存储为备案图像。
例如,当所述人员名单中记录有各个人员的联系方式时,可以根据所述人员名单中的联系方式向所述人员名单中的人员发送短信,从而向所述人员名单中的人员发送录入提示信息。
在本发明的至少一个实施例中,所述人员名单中的人员使用所述语音录入设备录入所述语音数据。
例如,所述人员名单中的所述人员使用移动电话上的语音录入设备录入所述语音数据,语音录入设备可以是麦克风。
在本发明的至少一个实施例中,所述人员名单中的人员使用所述图像录入设备录入所述人脸图像数据。
例如,所述人员名单中的所述人员使用移动电话上的图像录入设备录入所述人脸图像数据,图像录入设备可以是摄像头。
步骤S12,获取目标人员名单,并获取所述目标人员名单中每个目标人员的通话语音文件。
在本发明的至少一个实施例中,所述获取目标人员名单包括:
通过数据接口从外部数据库导入所述目标人员名单,其中,所述目标人员名单包括目标人员的姓名、目标人员的现居住地、目标人员的联系方式、目标人员的紧急联系人的联系方式。
在本发明的至少一个实施例中,所述获取所述目标人员名单中的每个目标人员的通话语音文件包括:
使用智能语音机器人发起通话,基于预设的话术进行摸排,并采集所述通话中所述接听人的语音,得到所述每个目标人员的通话语音文件。
在本发明的至少一个实施例中,所述基于预设的话术进行摸排包括:
所述智能语音机器人从预设的问题池中按照预设的顺序获取问题并根据问题进行提问操作,直至所述预设的问题池中的问题被提问完,其中,所述提问操作包括:
所述智能语音机器人根据所述预设的顺序从所述预设的问题池中获取每一问题并根据每一问题进行提问;所述智能语音机器人等待接听人员回复;当所述接听人员回复时,所述智能语音机器人采集所述通话中的语音,得到通话语音数据,并确认所述接听人员回复结束。
在本发明的至少一个实施例中,所述采集所述通话中所述接听人的语音,得到所述每个目标人员的通话语音文件包括:
录制所述通话中所述接听人的语音,得到与所述每个目标人员对应的语音多媒体文件,并存储所述语音多媒体文件。
步骤S13,使用所述备案语音训练基于梅尔频率倒谱系数和第一孪生网络的说话人识别模型,并将所述每个目标人员的通话语音文件与所述备案语音输入至训练好的说话人识别模型,通过所述说话人识别模型判断所述每个目标人员的通话语音文件中的所述接听人是否为所述目标人员。
在本发明的至少一个实施例中,所述使用所述备案语音训练基于梅尔频率倒谱系数和第一孪生网络的说话人识别模型,并将所述每个目标人员的通话语音文件与备案语音输入至训练好的说话人识别模型,通过所述说话人识别模型判断所述每个目标人员的通话语音文件中的所述接听人是否为所述目标人员包括:
将所述备案语音按预设周期进行切分,得到预设数量个备案语音段;
对所述预设数量个备案语音段进行梅尔频率倒谱系数预处理,得到预设数量个备案语音特征;
使用所述预设数量个备案语音特征训练第一孪生网络,优化所述第一孪生网络,得到所述训练好的说话人识别模型和第一阈值,所述第一阈值根据所述预设数量个备案语音特征的相似度设定,用于通过与两个语音文件的语音特征相似度比较以确认两个语音文件是否来自同一说话人;
对所述通话语音文件和所述备案语音进行梅尔频率倒谱系数预处理,得到通话语音特征与备案语音比较特征;
将所述通话语音特征与所述备案语音比较特征输入所述训练好的说话人识别模型,通过所述训练好的说话人识别模型计算所述通话语音特征与所述备案语音比较特征的第一相似度,当所述第一相似度大于或等于所述第一阈值时,判断所述每个目标人员的通话语音文件中的所述接听人是所述目标人员;当所述第一相似度小于所述第一阈值时,判断所述每个目标人员的通话语音文件中的所述接听人不是所述目标人员。
具体地,对所述预设数量个备案语音段进行梅尔频率倒谱系数预处理,得到预设数量个备案语音特征包括:
对预设数量个语音段进行预加重、分帧和加窗处理,得到预设数量个语音信号;
使用快速离散傅里叶变换算法对所述预设数量个语音信号进行变换,得到预设数量个频域信号;分别将所述预设数量个频域信号取模,并求模的平方,得到预设数量个离散功率谱;
使用滤波器对所述预设数量个离散功率谱进行滤波,对滤波后的所述预设数量个离散功率谱取对数并进行离散余弦变换,得到预设数量个备案语音信号。
在本发明的至少一个实施例中,所述方法还包括:
使用语音识别模型将所述通话语音文件转为文本信息;
判断所述文本信息中是否存在预设的关键字,当所述文本信息中存在预设的关键字时,判断所述目标人员存在感染风险;当所述文本信息中不存在预设的关键字时,判断所述目标人员不存在感染风险。
例如,当判断所述目标人员存在感染风险时,生成感染风险提示信息,并将所述感染风险提示信息发送给所述目标人员、所述目标人员的接触者,所述目标人员所属辖区的社区工作人员、所述目标人员所属辖区的负责人。
步骤S14,当判断所述通话语音文件中的接听人不是所述目标人员时,采集所述接听人的视频图像得到图像文件。
在本发明的至少一个实施例中,当所述说话人识别模型判断所述接听人不是目标人员时,采集所述接听人的视频图像得到图像文件包括:
当判断所述通话语音文件中的接听人不是所述目标人员时,所述目标人员根据所述录入提示信息中的录入方式录入所述目标人员的视频图像,得到所述图像文件,并存储所述图像文件。
步骤S15,使用所述备案图像训练基于卷积神经网络和第二孪生网络的图像识别模型,并将所述图像文件与所述备案图像输入至训练好的图像识别模型,通过所述图像识别模型判断所述图像文件中的所述接听人是否为所述目标人员。
在本发明的至少一个实施例中,所述使用所述备案图像训练基于卷积神经网络和第二孪生网络的图像识别模型,并将所述图像文件与所述备案图像输入至训练好的图像识别模型,通过所述图像识别模型判断所述图像文件中的所述接听人是否为所述目标人员包括:
对所述备案图像按画面帧进行切分,得到人脸图像训练数据;
使用所述人脸图像训练数据训练所述卷积神经网络,得到所述图像识别模型的特征提取模型,所述特征提取模型可以提取人脸图像的特征;
将所述人脸图像训练数据输入所述特征提取模型,得到人脸图像训练特征;
使用所述人脸图像训练特征训练第二孪生网络,优化所述第二孪生网络,得到所述图像识别模型的人脸识别模型和第二阈值,所述第二阈值根据所述人脸图像训练特征的相似度设定,用于通过与两个人脸图像的相似度比较以确认人脸图像是否来自同一人;
将对所述目标人员的图像文件和所述目标人员的备案图像按画面帧进行切分,得到目标人员测试图像和目标人员备案图像;
将所述目标人员测试图像和所述目标人员备案图像输入所述图像识别模型的特征提取模型,经所述特征提取模型得到通话图像特征与备案图像特征;
将所述通话图像特征与所述备案图像特征输入所述图像识别模型的人脸识别模型,通过所述识别模型计算所述通话图像特征与所述备案图像特征的第二相似度,当所述第二相似度大于或等于所述第二阈值时,判断所述图像文件中的所述接听人是所述目标人员;当所述第二相似度小于所述第二阈值时,判断所述图像文件中的所述接听人不是所述目标人员本人。
在本发明的一个实施例中,所述使用所述人脸图像训练数据训练所述卷积神经网络,得到所述图像识别模型的特征提取模型包括:
将所述人脸图像训练数据输入所述卷积神经网络模型的卷积层进行卷积计算,得到第一计算结果;
将所述第一计算结果输入所述卷积神经网络的池化层进行池化计算,得到所述人脸图像训练数据的特征;
优化所述卷积神经网络模型,得到所述图像识别模型的特征提取模型。
步骤S16,当判断所述图像文件中的所述接听人不是所述目标人员时,生成并输出警告信息。
具体地,当判断所述图像文件中的所述接听人不是所述目标人员时,生成感染风险提示信息,并将所述感染风险提示信息发送给所述目标人员、所述目标人员的接触者,所述目标人员所属辖区的社区工作人员、所述目标人员所属辖区的负责人。
需要说明的是,为保证上述处理过程中的数据和输出结果的私密性和安全性,所述处理过程中的数据和输出结果可存储于区块链中,比如所述备案语音、所述备案图像,所述人员名单、所述目标人员名单、所述图像文件、所述通话语音文件等。
本发明中,通过获取人员名单,并获取所述人员名单中的人员的语音数据与人脸图像数据,得到备案语音和备案图像;获取目标人员名单,并获取所述目标人员名单中每个目标人员的通话语音文件;使用所述备案语音训练基于梅尔频率倒谱系数和第一孪生网络的说话人识别模型,并将所述每个目标人员的通话语音文件与所述备案语音输入至训练好的说话人识别模型,通过所述说话人识别模型判断所述每个目标人员的通话语音文件中的所述接听人是否为所述目标人员;当判断所述通话语音文件中的接听人不是所述目标人员时,采集所述接听人的视频图像得到图像文件;使用所述备案图像训练基于卷积神经网络和第二孪生网络的图像识别模型,并将所述图像文件与所述备案图像输入至训练好的图像识别模型,通过所述图像识别模型判断所述图像文件中的所述接听人是否为所述目标人员;当判断所述图像文件中的所述接听人不是所述目标人员时,生成并输出警告信息,可以对疫情全面及时摸排并验证被摸排人员身份以确保反馈信息的真实可靠,提高了疫情防控的效率。
实施例2
图2为本发明一实施方式中基于人工智能的疫情排查装置30的结构图。
在一些实施例中,所述基于人工智能的疫情排查装置30运行于电子设备中。所述基于人工智能的疫情排查装置30可以包括多个由程序代码段所组成的功能模块。所述基于人工智能的疫情排查装置30中的各个程序段的程序代码可以存储于存储器中,并由至少一个处理器所执行,以实现疫情排查功能。
本实施例中,所述基于人工智能的疫情排查装置30根据其所执行的功能,可以被划分为多个功能模块。参阅图2所示,所述基于人工智能的疫情排查装置30可以包括语音图像获取模块301、通话语音文件获取模块302、说话人识别模块303、图像文件获取模块304、图像识别模块305及警告信息生成模块306。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机可读指令段,其存储在存储器中。所述在一些实施例中,关于各模块的功能将在后续的实施例中详述。
所述语音图像获取模块301获取人员名单,并获取所述人员名单中的人员的语音数据与人脸图像数据,得到备案语音和备案图像。
在本发明的至少一个实施例中,所述语音图像获取模块301获取所述人员名单中的人员的语音数据与人脸图像数据,得到备案语音和备案图像包括:
通过语音录入单元获取所述人员名单中的人员录入的语音数据及通过图像录入单元获取所述人员名单中的人员录入的人脸图像数据,将所述语音数据存储为备案语音,将所述人脸图像数据存储为备案图像。
在本发明的至少一个实施例中,所述人员名单中的人员使用所述语音录入设备录入所述语音数据。
在本发明的至少一个实施例中,所述人员名单中的人员使用所述图像录入设备录入所述人脸图像数据。
所述通话语音文件获取模块302获取目标人员名单,并获取所述目标人员名单中每个目标人员的通话语音文件。
在本发明的至少一个实施例中,所述通话语音文件获取模块302获取目标人员名单包括:
通过数据接口从外部数据库导入所述目标人员名单,其中,所述目标人员名单包括目标人员的姓名、目标人员的现居住地、目标人员的联系方式、目标人员的紧急联系人的联系方式。
在本发明的至少一个实施例中,所述通话语音文件获取模块302获取所述目标人员名单中的每个目标人员的通话语音文件包括:
使用智能语音机器人发起通话,基于预设的话术进行摸排,并采集所述通话中所述接听人的语音,得到所述每个目标人员的通话语音文件。
在本发明的至少一个实施例中,所述基于预设的话术进行摸排包括:
所述智能语音机器人从预设的问题池中按照预设的顺序获取问题并根据问题进行提问操作,直至所述预设的问题池中的问题被提问完,其中,所述提问操作包括:
所述智能语音机器人根据所述预设的顺序从所述预设的问题池中获取每一问题并根据每一问题进行提问;所述智能语音机器人等待接听人员回复;当所述接听人员回复时,所述智能语音机器人采集所述通话中的语音,得到通话语音数据,并确认所述接听人员回复结束。
在本发明的至少一个实施例中,采集所述通话中所述接听人的语音,得到所述每个目标人员的通话语音文件包括:
录制所述通话中所述接听人的语音,得到与所述每个目标人员对应的语音多媒体文件,并存储所述语音多媒体文件。
所述说话人识别模块303使用所述备案语音训练基于梅尔频率倒谱系数和第一孪生网络的说话人识别模型,并将所述每个目标人员的通话语音文件与所述备案语音输入至训练好的说话人识别模型,通过所述说话人识别模型判断所述每个目标人员的通话语音文件中的所述接听人是否为所述目标人员。
在本发明的至少一个实施例中,所述说话人识别模块303使用所述备案语音训练基于梅尔频率倒谱系数和第一孪生网络的说话人识别模型,并将所述每个目标人员的通话语音文件与备案语音输入至训练好的说话人识别模型,通过所述说话人识别模型判断所述每个目标人员的通话语音文件中的所述接听人是否为所述目标人员包括:
将所述备案语音按预设周期进行切分,得到预设数量个备案语音段;
对所述预设数量个备案语音段进行梅尔频率倒谱系数预处理,得到预设数量个备案语音特征;
使用所述预设数量个备案语音特征训练第一孪生网络,优化所述第一孪生网络,得到所述训练好的说话人识别模型和第一阈值,所述第一阈值根据所述预设数量个备案语音特征的相似度设定,用于通过与两个语音文件的语音特征相似度比较以确认两个语音文件是否来自同一说话人;
对所述通话语音文件和所述备案语音进行梅尔频率倒谱系数预处理,得到通话语音特征与备案语音比较特征;
将所述通话语音特征与所述备案语音比较特征输入所述训练好的说话人识别模型,通过所述训练好的说话人识别模型计算所述通话语音特征与所述备案语音比较特征的第一相似度,当所述第一相似度大于或等于所述第一阈值时,判断所述每个目标人员的通话语音文件中的所述接听人是所述目标人员;当所述第一相似度小于所述第一阈值时,判断所述每个目标人员的通话语音文件中的所述接听人不是所述目标人员。
具体地,对所述预设数量个备案语音段进行梅尔频率倒谱系数预处理,得到预设数量个备案语音特征包括:
对预设数量个语音段进行预加重、分帧和加窗处理,得到预设数量个语音信号;
使用快速离散傅里叶变换算法对所述预设数量个语音信号进行变换,得到预设数量个频域信号;分别将所述预设数量个频域信号取模,并求模的平方,得到预设数量个离散功率谱;
使用滤波器对所述预设数量个离散功率谱进行滤波,对滤波后的所述预设数量个离散功率谱取对数并进行离散余弦变换,得到预设数量个备案语音信号。
在本发明的至少一个实施例中,所述方法还包括:
使用语音识别模型将所述通话语音文件转为文本信息;
判断所述文本信息中是否存在预设的关键字,当所述文本信息中存在预设的关键字时,判断所述目标人员存在感染风险;当所述文本信息中不存在预设的关键字时,判断所述目标人员不存在感染风险。
所述图像文件获取模块304当判断所述通话语音文件中的接听人不是所述目标人员时,采集所述接听人的视频图像得到图像文件。
在本发明的至少一个实施例中,所述图像文件获取模块304当所述说话人识别模型判断所述接听人不是目标人员时,采集所述接听人的视频图像得到图像文件包括:
当判断所述通话语音文件中的接听人不是所述目标人员时,所述目标人员根据所述录入提示信息中的录入方式录入所述目标人员的视频图像,得到所述图像文件,并存储所述图像文件。
所述图像识别模块305使用所述备案图像训练基于卷积神经网络和第二孪生网络的图像识别模型,并将所述图像文件与所述备案图像输入至训练好的图像识别模型,通过所述图像识别模型判断所述图像文件中的所述接听人是否为所述目标人员。
在本发明的至少一个实施例中,所述图像识别模块305使用所述备案图像训练基于卷积神经网络和第二孪生网络的图像识别模型,并将所述图像文件与所述备案图像输入至训练好的图像识别模型,通过所述图像识别模型判断所述图像文件中的所述接听人是否为所述目标人员包括:
对所述备案图像按画面帧进行切分,得到人脸图像训练数据;
使用所述人脸图像训练数据训练所述卷积神经网络,得到所述图像识别模型的特征提取模型,所述特征提取模型可以提取人脸图像的特征;
将所述人脸图像训练数据输入所述特征提取模型,得到人脸图像训练特征;
使用所述人脸图像训练特征训练第二孪生网络,优化所述第二孪生网络,得到所述图像识别模型的人脸识别模型和第二阈值,所述第二阈值根据所述人脸图像训练特征的相似度设定,用于通过与两个人脸图像的相似度比较以确认人脸图像是否来自同一人;
将对所述目标人员的图像文件和所述目标人员的备案图像按画面帧进行切分,得到目标人员测试图像和目标人员备案图像;
将所述目标人员测试图像和所述目标人员备案图像输入所述图像识别模型的特征提取模型,经所述特征提取模型得到通话图像特征与备案图像特征;
将所述通话图像特征与所述备案图像特征输入所述图像识别模型的人脸识别模型,通过所述识别模型计算所述通话图像特征与所述备案图像特征的第二相似度,当所述第二相似度大于或等于所述第二阈值时,判断所述图像文件中的所述接听人是所述目标人员;当所述第二相似度小于所述第二阈值时,判断所述图像文件中的所述接听人不是所述目标人员本人。
在本发明的一个实施例中,使用所述人脸图像训练数据训练所述卷积神经网络,得到所述图像识别模型的特征提取模型包括:
将所述人脸图像训练数据输入所述卷积神经网络模型的卷积层进行卷积计算,得到第一计算结果;
将所述第一计算结果输入所述卷积神经网络的池化层进行池化计算,得到所述人脸图像训练数据的特征;
优化所述卷积神经网络模型,得到所述图像识别模型的特征提取模型。
所述警告信息生成模块306当判断所述图像文件中的所述接听人不是所述目标人员时,生成并输出警告信息。
具体地,所述警告信息生成模块306当判断所述图像文件中的所述接听人不是所述目标人员时,生成感染风险提示信息,并将所述感染风险提示信息发送给所述目标人员、所述目标人员的接触者,所述目标人员所属辖区的社区工作人员、所述目标人员所属辖区的负责人。
需要说明的是,为保证上述处理过程中的数据和输出结果的私密性和安全性,所述处理过程中的数据和输出结果可存储于区块链中,比如所述备案语音、所述备案图像,所述人员名单、所述目标人员名单、所述图像文件、所述通话语音文件等。
本发明中,通过获取人员名单,并获取所述人员名单中的人员的语音数据与人脸图像数据,得到备案语音和备案图像;获取目标人员名单,并获取所述目标人员名单中每个目标人员的通话语音文件;使用所述备案语音训练基于梅尔频率倒谱系数和第一孪生网络的说话人识别模型,并将所述每个目标人员的通话语音文件与所述备案语音输入至训练好的说话人识别模型,通过所述说话人识别模型判断所述每个目标人员的通话语音文件中的所述接听人是否为所述目标人员;当判断所述通话语音文件中的接听人不是所述目标人员时,采集所述接听人的视频图像得到图像文件;使用所述备案图像训练基于卷积神经网络和第二孪生网络的图像识别模型,并将所述图像文件与所述备案图像输入至训练好的图像识别模型,通过所述图像识别模型判断所述图像文件中的所述接听人是否为所述目标人员;当判断所述图像文件中的所述接听人不是所述目标人员时,生成并输出警告信息,可以对疫情全面及时摸排并验证被摸排人员身份以确保反馈信息的真实可靠,提高了疫情防控的效率。
实施例3
图3为本发明一实施方式中电子设备6的示意图。
所述电子设备6包括存储器61、处理器62以及存储在所述存储器61中并可在所述处理器62上运行的计算机可读指令。所述处理器62执行所述计算机可读指令时实现上述基于人工智能的疫情排查方法实施例中的步骤,例如图1所示的步骤S11~S16。或者,所述处理器62执行所述计算机可读指令时实现上述基于人工智能的疫情排查装置实施例中各模块/单元的功能,例如图2中的模块301~306。
示例性的,所述计算机可读指令可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器61中,并由所述处理器62执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,所述指令段用于描述所述计算机可读指令在所述电子设备6中的执行过程。例如,所述计算机可读指令可以被分割成图2中的语音图像获取模块301、通话语音文件获取模块302、说话人识别模块303、图像文件获取模块304、图像识别模块305及警告信息生成模块306,各模块具体功能参见实施例2。
本实施方式中,所述电子设备6可以是桌上型计算机、笔记本、掌上电脑、服务器及云端终端装置等计算设备。本领域技术人员可以理解,所述示意图仅仅是电子设备6的示例,并不构成对电子设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备6还可以包括输入输出设备、网络接入设备、总线等。
所称处理器62可以是中央处理模块(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者所述处理器62也可以是任何常规的处理器等,所述处理器62是所述电子设备6的控制中心,利用各种接口和线路连接整个电子设备6的各个部分。
所述存储器61可用于存储所述计算机可读指令和/或模块/单元,所述处理器62通过运行或执行存储在所述存储器61内的计算机可读指令和/或模块/单元,以及调用存储在存储器61内的数据,实现所述电子设备6的各种功能。所述存储器61可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备6的使用所创建的数据等。此外,存储器61可以包括易失性存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他存储器件。
所述电子设备6集成的模块/单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一计算机可读存储介质中,所述计算机可读指令在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机可读指令包括计算机可读指令代码,所述计算机可读指令代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机可读指令代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每个个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
另外,在本发明各个实施例中的各功能模块可以集成在相同处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在相同模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他模块或步骤,单数不排除复数。本发明中陈述的多个模块或电子设备也可以由同一个模块或电子设备通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种基于人工智能的疫情排查方法,其特征在于,所述基于人工智能的疫情排查方法包括:
获取人员名单,并获取所述人员名单中的人员的语音数据与人脸图像数据,得到备案语音和备案图像;
获取目标人员名单,并获取所述目标人员名单中的每个目标人员的通话语音文件;
使用所述备案语音训练基于梅尔频率倒谱系数和第一孪生网络的说话人识别模型,并将所述每个目标人员的通话语音文件与所述备案语音输入至训练好的说话人识别模型,通过所述说话人识别模型判断所述每个目标人员的通话语音文件中的接听人是否为所述目标人员;
当判断所述通话语音文件中的所述接听人不是所述目标人员时,采集所述接听人的视频图像得到图像文件;
使用所述备案图像训练基于卷积神经网络和第二孪生网络的图像识别模型,并将所述图像文件与所述备案图像输入至训练好的图像识别模型,通过所述图像识别模型判断所述图像文件中的所述接听人是否为所述目标人员;
当判断所述图像文件中的所述接听人不是所述目标人员时,生成并输出警告信息。
2.如权利要求1所述的基于人工智能的疫情排查方法,其特征在于,所述获取所述人员名单中的人员的语音数据与人脸图像数据,得到备案语音和备案图像包括:
通过语音录入单元获取所述人员名单中的人员录入的语音数据及通过图像录入单元获取所述人员名单中的人员录入的人脸图像数据,将所述语音数据存储为备案语音,将所述人脸图像数据存储为备案图像。
3.如权利要求1所述的基于人工智能的疫情排查方法,其特征在于,所述获取所述目标人员名单中的每个目标人员的通话语音文件包括:
使用智能语音机器人发起通话,基于预设的话术进行摸排,并采集所述通话中所述接听人的语音,得到所述每个目标人员的通话语音文件。
4.如权利要求3所述的基于人工智能的疫情排查方法,其特征在于,所述基于预设的话术进行摸排包括:
所述智能语音机器人从预设的问题池中按照预设的顺序获取问题并根据问题进行提问操作,直至所述预设的问题池中的问题被提问完,其中,所述提问操作包括:
所述智能语音机器人根据所述预设的顺序从所述预设的问题池中获取每一问题并根据每一问题进行提问;所述智能语音机器人等待接听人员回复;当所述接听人员回复时,所述智能语音机器人采集所述通话中的语音,得到通话语音数据,并确认所述接听人员回复结束。
5.如权利要求1所述的基于人工智能的疫情排查方法,其特征在于,所述使用所述备案语音训练基于梅尔频率倒谱系数和第一孪生网络的说话人识别模型,并将所述每个目标人员的通话语音文件与备案语音输入至训练好的说话人识别模型,通过所述说话人识别模型判断所述每个目标人员的通话语音文件中的所述接听人是否为所述目标人员包括:
将所述备案语音按预设周期进行切分,得到预设数量个备案语音段;
对所述预设数量个备案语音段进行梅尔频率倒谱系数预处理,得到预设数量个备案语音特征;
使用所述预设数量个备案语音特征训练第一孪生网络,优化所述第一孪生网络,得到所述训练好的说话人识别模型和第一阈值,所述第一阈值根据所述预设数量个备案语音特征的相似度设定,用于通过与两个语音文件的语音特征相似度比较以确认两个语音文件是否来自同一说话人;
对所述通话语音文件和所述备案语音进行梅尔频率倒谱系数预处理,得到通话语音特征与备案语音比较特征;
将所述通话语音特征与所述备案语音比较特征输入所述训练好的说话人识别模型,通过所述训练好的说话人识别模型计算所述通话语音特征与所述备案语音比较特征的第一相似度,当所述第一相似度大于或等于所述第一阈值时,判断所述每个目标人员的通话语音文件中的所述接听人是所述目标人员;当所述第一相似度小于所述第一阈值时,判断所述每个目标人员的通话语音文件中的所述接听人不是所述目标人员。
6.如权利要求1所述的基于人工智能的疫情排查方法,其特征在于,所述方法还包括:
使用语音识别模型将所述通话语音文件转为文本信息;
判断所述文本信息中是否存在预设的关键字,当所述文本信息中存在预设的关键字时,判断所述目标人员存在感染风险;当所述文本信息中不存在预设的关键字时,判断所述目标人员不存在感染风险。
7.如权利要求1所述的基于人工智能的疫情排查方法,其特征在于,所述使用所述备案图像训练基于卷积神经网络和第二孪生网络的图像识别模型,并将所述图像文件与所述备案图像输入至训练好的图像识别模型,通过所述图像识别模型判断所述图像文件中的所述接听人是否为所述目标人员包括:
对所述备案图像按画面帧进行切分,得到人脸图像训练数据;
使用所述人脸图像训练数据训练所述卷积神经网络,得到所述图像识别模型的特征提取模型,所述特征提取模型可以提取人脸图像的特征;
将所述人脸图像训练数据输入所述特征提取模型,得到人脸图像训练特征;
使用所述人脸图像训练特征训练第二孪生网络,优化所述第二孪生网络,得到所述图像识别模型的人脸识别模型和第二阈值,所述第二阈值根据所述人脸图像训练特征的相似度设定,用于通过与两个人脸图像的相似度比较以确认人脸图像是否来自同一人;
将对所述目标人员的图像文件和所述目标人员的备案图像按画面帧进行切分,得到目标人员测试图像和目标人员备案图像;
将所述目标人员测试图像和所述目标人员备案图像输入所述图像识别模型的特征提取模型,经所述特征提取模型得到通话图像特征与备案图像特征;
将所述通话图像特征与所述备案图像特征输入所述图像识别模型的人脸识别模型,通过所述识别模型计算所述通话图像特征与所述备案图像特征的第二相似度,当所述第二相似度大于或等于所述第二阈值时,判断所述图像文件中的所述接听人是所述目标人员;当所述第二相似度小于所述第二阈值时,判断所述图像文件中的所述接听人不是所述目标人员本人。
8.一种基于人工智能的疫情排查装置,其特征在于,所述基于人工智能的疫情排查装置包括:
语音图像获取模块,用于获取人员名单,并获取所述人员名单中的人员的语音数据与人脸图像数据,得到备案语音和备案图像;
通话语音文件获取模块,用于获取目标人员名单,并获取所述目标人员名单中的每个目标人员的通话语音文件;
说话人识别模块,用于使用所述备案语音训练基于梅尔频率倒谱系数和第一孪生网络的说话人识别模型,并将所述每个目标人员的通话语音文件与所述备案语音输入至训练好的说话人识别模型,通过所述说话人识别模型判断所述每个目标人员的通话语音文件中的接听人是否为所述目标人员;
图像文件获取模块,用于当判断所述通话语音文件中的所述接听人不是所述目标人员时,采集所述接听人的视频图像得到图像文件;
图像识别模块,用于使用所述备案图像训练基于卷积神经网络和第二孪生网络的图像识别模型,并将所述图像文件与所述备案图像输入至训练好的图像识别模型,通过所述图像识别模型判断所述图像文件中的所述接听人是否为所述目标人员;
警告信息生成模块,用于当判断所述图像文件中的所述接听人不是所述目标人员时,生成并输出警告信息。
9.一种电子设备,其特征在于,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现如权利要求1至7中任一项所述的基于人工智能的疫情排查方法。
10.一种计算机存储介质,其上存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的基于人工智能的疫情排查方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011624003.4A CN112613468B (zh) | 2020-12-31 | 2020-12-31 | 基于人工智能的疫情排查方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011624003.4A CN112613468B (zh) | 2020-12-31 | 2020-12-31 | 基于人工智能的疫情排查方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112613468A true CN112613468A (zh) | 2021-04-06 |
CN112613468B CN112613468B (zh) | 2024-04-05 |
Family
ID=75252912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011624003.4A Active CN112613468B (zh) | 2020-12-31 | 2020-12-31 | 基于人工智能的疫情排查方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112613468B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106127156A (zh) * | 2016-06-27 | 2016-11-16 | 上海元趣信息技术有限公司 | 基于声纹和人脸识别的机器人交互方法 |
CN107666583A (zh) * | 2017-09-07 | 2018-02-06 | 宇龙计算机通信科技(深圳)有限公司 | 通话处理方法及终端 |
CN108446674A (zh) * | 2018-04-28 | 2018-08-24 | 平安科技(深圳)有限公司 | 电子装置、基于人脸图像与声纹信息的身份识别方法及存储介质 |
CN109446778A (zh) * | 2018-10-30 | 2019-03-08 | 珠海市时杰信息科技有限公司 | 基于人脸识别的不动产登记信息获取方法、计算机装置及计算机可读存储介质 |
WO2020224114A1 (zh) * | 2019-05-09 | 2020-11-12 | 平安科技(深圳)有限公司 | 基于残差时延网络的说话人确认方法、装置、设备及介质 |
WO2020252922A1 (zh) * | 2019-06-21 | 2020-12-24 | 平安科技(深圳)有限公司 | 基于深度学习的唇语识别方法、装置、电子设备及介质 |
-
2020
- 2020-12-31 CN CN202011624003.4A patent/CN112613468B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106127156A (zh) * | 2016-06-27 | 2016-11-16 | 上海元趣信息技术有限公司 | 基于声纹和人脸识别的机器人交互方法 |
CN107666583A (zh) * | 2017-09-07 | 2018-02-06 | 宇龙计算机通信科技(深圳)有限公司 | 通话处理方法及终端 |
CN108446674A (zh) * | 2018-04-28 | 2018-08-24 | 平安科技(深圳)有限公司 | 电子装置、基于人脸图像与声纹信息的身份识别方法及存储介质 |
CN109446778A (zh) * | 2018-10-30 | 2019-03-08 | 珠海市时杰信息科技有限公司 | 基于人脸识别的不动产登记信息获取方法、计算机装置及计算机可读存储介质 |
WO2020224114A1 (zh) * | 2019-05-09 | 2020-11-12 | 平安科技(深圳)有限公司 | 基于残差时延网络的说话人确认方法、装置、设备及介质 |
WO2020252922A1 (zh) * | 2019-06-21 | 2020-12-24 | 平安科技(深圳)有限公司 | 基于深度学习的唇语识别方法、装置、电子设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112613468B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022095380A1 (zh) | 基于ai的虚拟交互模型生成方法、装置、计算机设备及存储介质 | |
CN110457432B (zh) | 面试评分方法、装置、设备及存储介质 | |
Liu et al. | An MFCC‐based text‐independent speaker identification system for access control | |
US20180090148A1 (en) | Method and system for using conversational biometrics and speaker identification/verification to filter voice streams | |
CN111355781B (zh) | 一种语音信息交流的管理方法、装置和存储介质 | |
US11625467B2 (en) | Authentication via a dynamic passphrase | |
CN112233698B (zh) | 人物情绪识别方法、装置、终端设备及存储介质 | |
CN108429619A (zh) | 身份认证方法和系统 | |
CN112148922A (zh) | 会议记录方法、装置、数据处理设备及可读存储介质 | |
CN109462482B (zh) | 声纹识别方法、装置、电子设备及计算机可读存储介质 | |
WO2021159902A1 (zh) | 年龄识别方法、装置、设备及计算机可读存储介质 | |
CN113177850A (zh) | 一种保险的多方身份认证的方法及装置 | |
CN114677634B (zh) | 面签识别方法、装置、电子设备及存储介质 | |
CN113873088B (zh) | 语音通话的交互方法、装置、计算机设备和存储介质 | |
JP2019526070A (ja) | 音声認識のための方法及び装置 | |
CN112151027A (zh) | 基于数字人的特定人询问方法、装置和存储介质 | |
CN112613468B (zh) | 基于人工智能的疫情排查方法及相关设备 | |
CN116312559A (zh) | 跨信道声纹识别模型的训练方法、声纹识别方法及装置 | |
CN115116458B (zh) | 语音数据转换方法、装置、计算机设备及存储介质 | |
CN112786041B (zh) | 语音处理方法及相关设备 | |
CN115294987A (zh) | 一种会议记录生成方法、装置、设备及存储介质 | |
CN112905748A (zh) | 一种演讲效果评估系统 | |
CN113836273A (zh) | 基于复杂语境的法律咨询方法及相关设备 | |
CN112820292B (zh) | 生成会议纪要的方法、装置、电子装置及存储介质 | |
CN116468214B (zh) | 一种基于故障事件处理过程的证据电子化方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220921 Address after: Room 2601 (Unit 07), Qianhai Free Trade Building, No. 3048, Xinghai Avenue, Nanshan Street, Qianhai Shenzhen-Hong Kong Cooperation Zone, Shenzhen, Guangdong 518000 Applicant after: Shenzhen Ping An Smart Healthcare Technology Co.,Ltd. Address before: 1-34 / F, Qianhai free trade building, 3048 Xinghai Avenue, Mawan, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong 518000 Applicant before: Ping An International Smart City Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |