CN112562681A - 语音识别方法和装置、存储介质 - Google Patents
语音识别方法和装置、存储介质 Download PDFInfo
- Publication number
- CN112562681A CN112562681A CN202011391048.1A CN202011391048A CN112562681A CN 112562681 A CN112562681 A CN 112562681A CN 202011391048 A CN202011391048 A CN 202011391048A CN 112562681 A CN112562681 A CN 112562681A
- Authority
- CN
- China
- Prior art keywords
- target
- audio signal
- semantic
- semantic information
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000005236 sound signal Effects 0.000 claims abstract description 344
- 238000000605 extraction Methods 0.000 claims description 5
- 230000015654 memory Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 15
- 238000004590 computer program Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 230000003993 interaction Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 210000000056 organ Anatomy 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 238000005034 decoration Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012913 prioritisation Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000005406 washing Methods 0.000 description 2
- 210000003484 anatomy Anatomy 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 210000000867 larynx Anatomy 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 210000002105 tongue Anatomy 0.000 description 1
- 210000000515 tooth Anatomy 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种语音识别方法和装置、存储介质。其中,该方法包括:获取待识别的多路音频信号,多路音频信号包括多个方向采集到的音频信号;获取多路音频信号中的每路音频信号的声纹特征;在多路音频信号中查找声纹特征与预设目标对象的目标声纹特征匹配的目标路音频信号;在多路音频信号中查找到目标路音频信号的情况下,从多路音频信号中提取出目标路音频信号。本发明解决了复杂的声音环境中语音识别准确率较低的技术问题。
Description
技术领域
本发明涉及计算机领域,具体而言,涉及一种语音识别方法和装置、存储介质。
背景技术
在复杂的声音环境中降低干扰音频的干扰是音频处理中重的要研究方向。现有技术中常用于降低音频干扰的方法有音频降噪、回声消除和多音区抑制。但是现有技术只能消除本设备发出的电子音,和麦克风的环境回声,无法排除其他设备电子音的干扰和除使用者外其他个体的话语干扰,在真实用户语音交互中,极易被其他个体的声音干扰甚至执行非使用者的意图。无法区分该方向内的音源信息,会把除使用者外其他声音也送到语音助手进行语音识别和意图执行,这样依旧准确度有限,用户体验在嘈杂环境下依旧难以提升。
针对相关技术中,复杂的声音环境中语音识别准确率较低的问题,目前尚未存在有效的解决方案。
发明内容
本发明实施例提供了一种语音识别方法和装置、存储介质,以至少解决复杂的声音环境中语音识别准确率较低的技术问题。
根据本发明实施例的一个方面,提供了一种语音识别方法,包括:获取待识别的多路音频信号,其中,所述多路音频信号包括多个方向采集到的音频信号;获取所述多路音频信号中的每路音频信号的声纹特征;在所述多路音频信号中查找所述声纹特征与预设目标对象的目标声纹特征匹配的目标路音频信号;在所述多路音频信号中查找到所述目标路音频信号的情况下,从所述多路音频信号中提取出所述目标路音频信号。
根据本发明实施例的另一方面,还提供了一种语音识别装置,包括:第一获取模块,用于获取待识别的多路音频信号,其中,所述多路音频信号包括多个方向采集到的音频信号;第二获取模块,用于获取所述多路音频信号中的每路音频信号的声纹特征;查找模块,用于在所述多路音频信号中查找所述声纹特征与预设目标对象的目标声纹特征匹配的目标路音频信号;提取模块,用于在所述多路音频信号中查找到所述目标路音频信号的情况下,从所述多路音频信号中提取出所述目标路音频信号。
根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述语音识别方法。
根据本发明实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过所述计算机程序执行上述的语音识别方法。
在本发明实施例中,通过获取待识别的多路音频信号,多路音频信号包括多个方向采集到的音频信号;获取多路音频信号中的每路音频信号的声纹特征;在多路音频信号中查找声纹特征与预设目标对象的目标声纹特征匹配的目标路音频信号;在多路音频信号中查找到目标路音频信号的情况下,从多路音频信号中提取出所述目标路音频信号,达到了在多路音频信号中准确识别出目标路音频信号的目的,从而实现了提高语音识别准确率的技术效果,进而解决了复杂的声音环境中语音识别准确率较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的语音识别方法的应用环境的示意图;
图2是根据本发明实施例的语音识别方法的流程图;
图3是根据本发明实施例的一种可选的声纹识别的优化策略示意图;
图4是根据本发明实施例的一种可选的离线流程示意图;
图5是根据本发明实施例的一种可选的在线流程示意图;
图6是根据本发明实施例的一种可选的整体技术架构图;
图7是根据本发明实施例的一种可选的整体交互时序示意图;
图8是根据本发明实施例的一种可选的语音识别装置的结构示意图;
图9是根据本发明实施例的一种可选的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一个方面,提供了一种语音识别方法,可选地,作为一种可选的实施方式,上述语音识别方法可以但不限于应用于如图1所示的系统环境中,该系统环境可以包括:用户设备102、网络110和服务器112。
可选地,在本实施例中,上述用户设备可以是终端设备,可以包括但不限于以下至少之一:手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(MobileInternet Devices,移动互联网设备)、PAD、台式电脑、智能家居设备(如智能电视、智能洗衣机、智能空调等)、车载设备(如安置在车辆上的终端设备)等。用户设备可以是配置有目标客户端,目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端、购物客户端、导航客户端等。在本实施例中,用户设备可以但不限于:存储器104、处理器106和显示器108。存储器104可以用于存储数据,例如可以用于存储上述多路音频信号和目标对象的目标声纹特征。处理器可以用于对音频信号进行处理,例如获取多路音频信号中的每路音频信号的声纹特征。显示器108可以用于显示处理结果,例如显示每路音频信号的声纹特征。
可选地,上述网络110可以包括但不限于:有线网络,无线网络,其中,该有线网络包括:局域网、城域网和广域网,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络。
可选地,上述服务器112可以是单一服务器,也可以是由多个服务器组成的服务器集群,或者是云服务器。服务器112可以但不限于:数据库114和处理引擎116。上述数据库114可用于存储数据,例如可以用于存储上述多路音频信号和目标对象的目标声纹特征。处理引擎用于对音频数据进行处理,例如,在多路音频信号中查找声纹特征与目标声纹特征匹配的目标路音频信号。上述仅是一种示例,本实施例中对此不作任何限定。
可选地,作为一种可选的实施方式,如图2所示,上述语音识别方法包括:
步骤S202,获取待识别的多路音频信号,其中,所述多路音频信号包括多个方向采集到的音频信号;
步骤S204,获取所述多路音频信号中的每路音频信号的声纹特征;
步骤S206,在所述多路音频信号中查找所述声纹特征与预设目标对象的目标声纹特征匹配的目标路音频信号;
步骤S208,在所述多路音频信号中查找到所述目标路音频信号的情况下,从所述多路音频信号中提取出所述目标路音频信号。
通过上述步骤,通过获取待识别的多路音频信号,多路音频信号包括多个方向采集到的音频信号;获取多路音频信号中的每路音频信号的声纹特征;在多路音频信号中查找声纹特征与预设目标对象的目标声纹特征匹配的目标路音频信号;在多路音频信号中查找到目标路音频信号的情况下,从多路音频信号中提取出所述目标路音频信号,达到了在多路音频信号中准确识别出目标路音频信号的目的,从而实现了提高语音识别准确率的技术效果,进而解决了复杂的声音环境中语音识别准确率较低的技术问题。
作为一个可选的实施方式,可以使用用户设备上设置的麦克风收集上述多路音频信号,用户设备可以是车载设备,也可以是用户的手持终端,如手机、平板电脑等,也可以是智能家居设备,例如智能音响、智能洗衣机、智能空调等。上述多路音频信号可以是在同一环境中多个不同声音源所发出的音频信号,包括但不限于多个不同用户发出的声音、麦克风的回音,环境中的噪音等。上述目标对象可以是使用该用户设备的对象,例如,可以是上述用户设备的主人,目标声纹特征可以是用户设备的主人目标对象所发出的待识别音频的声纹特征。在本实施例中,通过将将获取到的多路音频信号的声纹特征与目标对象的目标声纹特征进行匹配,可以在多路音频信号中找到与目标声纹特征相匹配的一路音频信号,将该路音频信号作为待识别的音频,进一步通过用户设备可以对该待识别的音频进行识别,可以提高语音识别的准确率。
声纹(Voiceprint)是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官(例如,舌、牙齿、喉头、肺、鼻腔)在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。每个人的语音声学特征既有相对稳定性,又有变异性,不是绝对的、一成不变的。这种变异可来自生理、病理、心理、模拟、伪装,也与环境干扰有关。尽管如此,由于每个人的发音器官都不尽相同,因此在一般情况下,人们仍能区别不同的人的声音或判断是否是同一人的声音。
声纹识别可以称为说话人识别(Speaker Recognition),包括:说话人辨认(Speaker Identification)和说话人确认(Speaker Verification)。前者用以判断某段语音是若干人中的哪一个所说的,是“多选一”问题;而后者用以确认某段语音是否是指定的某个人所说的,是“一对一判别”问题。不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要辨认技术,而交易时则需要确认技术。不管是辨认还是确认,都需要先对说话人的声纹进行建模,这就是所谓的“训练”或“学习”过程。
特征提取的任务是提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学或语言特征。与语音识别不同,声纹识别的特征必须是“个性化”特征,而说话人识别的特征对说话人来讲必须是“共性特征”。虽然大部分声纹识别系统用的都是声学层面的特征,但是表征一个人特点的特征应该是多层面的,可以包括:与人类的发音机制的解剖学结构有关的声学特征(如频谱、倒频谱、共振峰、基音、反射系数等等)、鼻音、带深呼吸音、沙哑音、笑声等;受社会经济状况、受教育水平、出生地等影响的语义、修辞、发音、言语习惯等;个人特点或受父母影响的韵律、节奏、速度、语调、音量等特征。从利用数学方法可以建模的角度出发,声纹自动识别模型可以使用的特征包括:声学特征(倒频谱);词法特征;韵律特征;语种、方言和口音信息;通道信息(使用何种通道)等等。
语音识别技术,也被称为自动语音识别(Automatic Speech Recognition,简称ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。
语义理解又称自然语言处理(Natural Language Processing,简称NLP)是使用自然语言同计算机进行通讯的技术,因为处理自然语言的关键是要让计算机“理解”自然语言,所以自然语言处理又叫做自然语言理解(Natural Language Understanding,简称NLU),也称为计算语言学。一方面它是语言信息处理的一个分支,另一方面它是人工智能(Artificial Intelligence,简称AI)的核心课题之一。
可选地,所述在所述多路音频信号中查找所述声纹特征与预设目标对象的目标声纹特征匹配的目标路音频信号,包括:在所述多路音频信号为N路音频信号的情况下,将所述每路音频信号的声纹特征分别与所述目标声纹特征进行匹配,得到N个匹配结果,其中,N为大于1的自然数,每个所述匹配结果用于表示一路音频信号为所述目标路音频信号的置信度;在所述N个匹配结果中的第i个匹配结果表示的置信度大于目标预设阈值的情况下,将所述N路音频信号中与所述第i个匹配结果对应的第i路音频信号确定为所述目标路音频信号,其中,1≤i≤N。
作为一个可选的实施方式,用户设备可以安装有全指向麦克风或多个麦克风,通过全指向麦克风或多个麦克风可以收集到各个方向的声音信号,每个方向的声音信号包含声音角度,N个不同方向收集到的声音信号可以是N路音频信号。可以将不同方向的音频信号进行解析,分析出对应音源的频率、音色、音调等信息作为声纹匹配的参数。将目标对象的目标声纹特征与各个方向的声音抽离的声纹特征进行对比,可以包括但不限于频率比对、音色比对、音调比对等。将置信度高于某个阈值(例如,可以是80%或90%)就认为该路信号为目标路音频信号。在本实施例中,确定出目标路音频信号后可以对该目标路音频信号进行增强,其余方向的音频进行消减处理,可以将增强后的音频信号进行语音识别等处理。在本实施例中,通过根据置信度,在多路音频信号中匹配出置信度大于目标预设阈值的目标路音频信号,可以起到滤除复杂环境中其他的干扰音频,提高语音识别的准确性。
可选地,所述将所述每路音频信号的声纹特征分别与所述目标声纹特征进行匹配,得到N个匹配结果,包括:对于所述每路音频信号,执行以下操作,得到一个匹配结果,其中,所述每路音频信号在执行以下操作时被视为当前路音频信号:获取所述当前路音频信号的音频特征与目标音频特征的第一相似度;获取所述当前路音频信号的音色特征与目标音色特征的第二相似度;获取所述当前路音频信号的音调特征与目标音调特征的第三相似度;根据所述第一相似度、所述第二相似度以及所述第三相似度,确定与所述当前路音频信号对应的匹配结果;其中,所述当前路音频信号的声纹特征包括所述当前路音频信号的音频特征、音色特征和音调特征,所述目标声纹特征包括所述目标音频特征、所述目标音色特征和所述目标音调特征。
作为一个可选的实施方式,可以将目标对象的目标声纹特征与各个方向的声音抽离的声纹特征进行对比,可以包括但不限于音频比对、音色比对、音调比对等。在本实施例中,将目标对象所发出的目标音频的音频特征与各个方向音频的音频特征进行比对得到第一相似度。音频特征可以包括但不限于音频的频率,例如,可以将目标对象发出的目标音频的频率与各个方向音频的频率进行比对。由于不同对象发出的音频的音色和音调是不同的,可以将目标对象发出的目标音频的音色与各个方向音频的音色进行比对,得到第二相似度。还可以将目标对象发出的目标音频的音调与各个方向音频的音调进行比对,得到第三相似度。在本实施例中,通过音频特征、音色特征和音调特征的比对,可以在多个不同方向的多路音频中准确识别出目标对象发出的目标音频,可以提高语音识别的准确性。
可选地,所述根据所述第一相似度、所述第二相似度以及所述第三相似度,确定与所述当前路音频信号对应的匹配结果,包括:在所述第一相似度大于第一预设阈值、所述第二相似度大于第二预设阈值、且所述第三相似度大于第三预设阈值的情况下,将与所述当前路音频信号对应的匹配结果确定为用于表示所述当前路音频信号为所述目标路音频信号的置信度大于所述目标预设阈值。
作为一个可选的实施方式,可以将音频特征、音调特征和音色特征的匹配度均大于预设阈值的一路音频信号确认为目标对象发出的目标音频。本实施例中的预设阈值可以根据实际情况而定,例如可以是80%或90%等。例如,N路音频信号是三路,分别将三路音频信号中每路音频信号的音频特征、音调特征和音色特征与目标对象的音频特征、音调特征和音色特征进行比较,假设预设阈值是80%,第一路音频信号与目标对象音频特征相似度为60%,则第一路音频信号与目标对象音频特征不匹配。第二路音频信号与目标对象音频特征相似度为90%,音调特征相似度为70%,则第二路音频信号与目标对象音频特征不匹配。第三路音频信号与目标对象音频特征相似度为90%,音调特征相似度为80%,音色特征相似度为85%,则确定第三路音频信号的声纹特征与目标对象的目标声纹特征相匹配,进而可以认为第三路音频信号是目标对象发出的语音。进而可以对第三路音频信号进行语音识别。在本实施例中,通过根据不同声纹特征的相似度,在多路音频中匹配出与目标对象的声纹特征相匹配的音频,可以过滤出目标对象发出的音频信号,滤除复杂环境中的其他音频,避免了其他音频对语音识别的影响,提高语音识别的准确性。
可选地,所述方法还包括:在所述多路音频信号中离线查找所述声纹特征与所述目标声纹特征匹配的第一路音频信号;在离线查找到所述第一路音频信号的情况下,对所述第一路音频信号进行离线语音识别,得到第一文字信息,并对所述第一文字信息进行离线语义识别,得到第一语义信息;根据所述多路音频信号,在线查找所述声纹特征与所述目标声纹特征匹配的第二路音频信号;在在线查找到所述第二路音频信号的情况下,对所述第二路音频信号进行在线语音识别,得到第二文字信息,并对所述第二文字信息进行在线语义识别,得到第二语义信息。
作为一个可选的实施方式,本申请的发明点还包括可以通过在线或者离线的方式在多路音频信号中查找到与目标对象的目标声纹特征相匹配的音频信号进行语义识别。如图3所示是根据本发明可选实施例的声纹识别的优化策略示意图。图3所示的多路音频信号中可以包括目标对象发出的音频,还可以包括其他用户发出的音频,还可以包括环境中的干扰音频。多路音频信号的音频格式可以是wav格式的文件,将多路音频信号分别传输至离线语义识别流程中和在线语义识别流程中。通过离线的语义识别查找声纹特征与目标对象的目标声纹特征匹配的音频信号,通过离线语义识别对与目标对象的目标声纹特征匹配的音频信号进行语义识别,得到音频信号的语义识别结果。通过在线的声纹识别查找声纹特征与目标对象的目标声纹特征匹配的音频信号,通过在线语义识别对与目标对象的目标声纹特征匹配的音频信号进行语义识别,得到在线语义识别结果。可以通过离线语义识别或在线语义识别的方式,在多路音频信号中确定出与目标对象的目标声纹特征相匹配的音频信号进行语义识别。通过离线语义识别可以提高音频语义识别的效率,通过在线音频识别可以提高音频语义识别的准确率。
可选地,根据所述第一语义信息和所述第二语义信息,确定目标语义信息。
作为一个可选的实施方式,可以通过设置离线和在线优先级确定目标路音频信号的语义识别结果。若在线语义识别优先级高于离线语义识别,将离线语义识别结果作为目标路音频信号的语义识别结果,若离线语义识别优先级高于在线语义识别,将离线语义识别结果作为目标路音频信号的语义识别结果。在本实施例中,通过设置优先级选择在线语义识别或离线语义识别可以满足不同的场景,提升音频语义识别结果的准确性。可选地,所述根据所述第一语义信息和所述第二语义信息,确定目标语义信息,包括:在所述离线语义识别被设置为优先于所述在线离线语义识别、且所述第一语义信息早于所述第二语义信息被获取到的情况下,将所述第一语义信息确定为所述目标语义信息。
作为一个可选的实施方式,可以通过产品的动态策略决定语义识别是通过离线进行音频分析还是通过在线进行音频分析。离线优先的意图,如果离线语义识别结果先返回,那么置信离线结果。若离线语义识别结果早于在线语义识别结果,将离线语义识别结果作为多路音频信号的识别结果。在本实施例中,通过设置在线和离线的优先级,可以选择与当前场景最匹配的方式,例如,当前所在的环境中没有网络,那么就可以通过设置离线查找优先于在线查找,此种情况下可以通过离线的方式在多路音频信号中与目标对象的声纹特征相匹配的音频信号,可以避免无网络的情况下,无法进行音频识别的问题,达到提高音频识别效率的技术效果。
可选地,所述根据所述第一语义信息和所述第二语义信息,确定目标语义信息,包括:在所述离线语义识别被设置为优先于所述在线语义识别、所述第二语义信息早于所述第一语义信息被获取到、且在所述第二语义信息被获取到之后的第一时长内未获取到所述第一语义信息的情况下,将所述第二语义信息确定为所述目标语义信息。
作为一个可选的实施方式,离线优先的意图,如果离线结果先返回,那么置信离线结果,如果在线结果先返回且在等待时间内离线结果还未返回就走在线结果。如图4所示是根据本发明可选实施例的离线流程示意图,其中可以包括如下步骤:
步骤S41,解析出多路音频信号对应的文字信息。
步骤S42,通过本地语义理解模型将文字转换为字符串。具体地,可以将文字转换为JSON字符串,可以转换为Domain,Intent,slots(槽位)等信息来标识这段文字的领域。
步骤S43,解析出意图和具体的动作或实体信息。具体地,意图和具体的动作或实体信息通过应用程序进行解析和执行具体操作。
步骤S44,执行离线优先级等待策略。通过离线模型解析成对应的JSON后,当前的在离线优先及等待策略通过Lua脚本形式执行。具体地,Lua脚本文件可以通过联网后更新来实现动态策略调整,可以设置等待时间,离线优先语义范围等,等待时间可以根据实际情况进行设置,例如可以是离线优先时在线语义先返回就等待300ms,离线优先可以应用于为导航,车辆及系统控制等场景,具体可以通过domain和intent中的字符串来匹配,由此实现了根据具体场景而动态调整识别策略,可以满足不同场景下的语音处理需求,提升用户体验。
作为一个可选的实施方式,上述Lua是一种轻量小巧的脚本语言,用标准C语言编写并以源代码形式开放,其设计目的是为了嵌入应用程序中,从而为应用程序提供灵活的扩展和定制功能。domain表示领域,可以是用户要完成的任务的领域。比如查天气状况,那么此时domain就是天气。Intent表示意图,也就是domain之下更加详细的分类。比如查天气指数,那么此时domain是天气,intent是查指数。domain和intent都是人为定义的,只有定义好domain和intent才可以进行之后的对话设计。slots是指语义信息中,具体的实体信息,比如想要听刘德华的歌,那么“刘德华”就会是槽位中的人物实体信息。可选地,所述根据所述第一语义信息和所述第二语义信息,确定目标语义信息,包括:在所述在线语义识别被设置为优先于所述离线语义识别、且所述第二语义信息早于所述第一语义信息被获取到的情况下,将所述第二语义信息确定为所述目标语义信息。
作为一个可选的实施方式,在线优先的意图,如果在线结果先返回,那么置信在线结果。若在线语义识别结果早于离线语义识别结果,将在线语义识别结果作为与目标对象的目标声纹特征相匹配的一路音频的语义识别记过。在本实施例中,通过设置在线和离线的优先级,可以选择与当前场景最匹配的方式,例如,在当前网络环境好的场景中,可以通过在线查找的方式,由于在线支持全领域和全意图的解析,得到的结果更为准确。在线优先可以应用于大量数据处理的场景下,例如邮件回复、文本输入等,可以根据领域识别,具体可以通过domain和intent中的字符串来匹配。由此实现了根据具体场景而动态调整识别策略,可以满足不同场景下的语音处理需求,提升用户体验。
可选的,可以根据用户对识别结果的反映,调整离线、在线识别,例如:在导航场景下,默认采用离线识别优先,如果识别结果未被用户采纳,或者连续未被用户采纳的次数超过预设阈值,则可以切换到在线识别,以提升识别准确率,满足用户使用需求。
可选地,所述根据所述第一语义信息和所述第二语义信息,确定目标语义信息,包括:在所述在线语义识别被设置为优先于所述离线语义识别、所述第一语义信息早于所述第二语义信息被获取到、且在所述第一语义信息被获取到之后的第二时长内未获取到所述第二语义信息的情况下,将所述第一语义信息确定为所述目标语义信息。
作为一个可选的实施方式,在线优先的意图,如果在线结果先返回,那么置信在线结果,如果离线结果先返回且在等待时间内在线结果还未返回就走离线结果。如图5所示是根据本发明可选实施例的在线流程示意图,其中可以包括如下步骤:
步骤S51,解析出多路音频信号对应的文字信息;
步骤S52,通过本地语义理解模型将文字转换为字符串。具体地,可以将文字转换为JSON字符串,解析过程与离线类似,但是在线的模型更为全面,支持全领域全意图的解析,得到的结果更为准确,解析完在线结果后,会将结果JSON字符串传递到客户端,
步骤S53,执行在线优先级等待策略。通过Lua脚本定义的在离线融合策略来进行在离线融合。例如可以是在线优先时离线语义先返回就等待500ms,除去离线优先设置的领域外,其余都是在线优先。
可选地,所述方法包括:在确定当前网络丢包率大于或等于第一预设阈值的情况下,所述离线语义识别被设置为优先于所述在线语义识别;否则,所述在线语义识别被设置为优先于所述离线语义识别;或,在确定所述目标路音频信号中的数据量大于或等于第二预设阈值的情况下,所述在线语义识别被设置为优先于所述离线语义识别;否则所述离线语义识别被设置为优先于所述在线语义识别。
作为一个可选的实施方式,可以根据当前的网络状态设置离线语义识别和在线语义识别的优先级。丢包率可以用来衡量当前的网络状态,丢包率大于预设阈值,例如80%或90%,则认为当前网络状况较差,此种情况可以设置离线语义识别优先于在线语义识别。若当前网络丢包率较小,如20%,则确定当前网络状态较好,此种情况可以设置在线语义识别优先于离线语义识别。
作为一个可选的实施方式,也可以根据匹配出的目标路音频信号中包括的数据量的大小设置在线语义识别和离线语义识别的优先级。由于在线语义识别可以提供较大的语义识别模型,因此,在线语义识别可以对数据量较大的音频进行识别,而离线对应的语义模型较小,对于数据量较小的音频可以进行识别。在本实施例中,可以设置阈值,当音频数据量大于或等于该阈值的情况下,设置在线语义识别优先于离线语义识别。当音频数据量小于该阈值的情况下,设置离线语义识别优先于在线语义识别。
在本实施例中,通过不同的场景设置离线语义识别和在线语义识别的优先级,可以满足不同场景的需求。可以达到提高语义识别准确率和速率的技术效果。
可选地,所述根据所述多路音频信号,在线查找所述声纹特征与所述目标声纹特征匹配的第二路音频信号,包括:获取压缩音频信号,其中,所述压缩音频信号是对所述多路音频信号进行压缩得到的音频信号;对所述压缩音频信号进行解压,得到多路解压音频信号;在所述多路解压音频信号中查找所述声纹特征与所述目标声纹特征匹配的第二路音频信号。
作为一个可选的实施方式,在离线声纹识别中可以不对音频进行压缩,直接在多路音频信号中查找到与目标对象的声纹特征相匹配的第一路音频信号,滤除其他音频信号,将查找到第一路音频信号可以通过离线进行语音和语义识别。
作为一个可选的实施方式,在线查找可以通过开源的A-Law算法,压缩音频文件可以加快线上传输效率,通过云端服务在线过滤音频中非用户的声音,将剩下的声音送给离线识别和语义给出离线的结果。具体地,用户设备可以将采集到的多路音频信号进行压缩处理,得到压缩音频信号,将压缩音频信号发送至服务器,服务器获取到压缩音频信号后,对压缩音频信号进行解压处理,得到多路音音频信号,通过声纹特征比对,在多路音频信号中匹配出与目标对象的声纹特征相匹配的一路音频信号作为在线查找的音频识别结果。在本实施例中,通过将多路音频信号压缩进行处理的方式,可以提高在线查找的速率。
可选地,所述方法还包括:对所述目标路音频信号进行语音识别,得到目标文字信息;对所述目标文字信息进行语义识别,得到目标语义信息;执行与所述目标语义信息对应的目标操作。
作为一个可选的实施方式,可以解析出目标路音频信号对应的文字信息,将文字转换为字符串进行语义识别,解析出目标路音频信号中所表示意图信息,控制用户设备执行与该意图信息想匹配的动作。例如,解析出目标路音频信号对应的文字信息“打开天窗”,那么车辆可以执行“打开天窗”的操作。在本实施例中,通过在多路音频信号中确定出与目标对象相匹配的目标路音频信号,进而可以在复杂环境中确定出目标对象下发的指令,通过语义识别可以控制用户设置执行目标路音频信号中所表示的操作。通过本实施例可以达到在复杂的环境中,提高语音识别的准确性的技术效果。
作为一个可选的实施方式,图6所示是根据本发明可选实施例的整体技术架构图,其中,包括意图执行层、语义理解层、语音识别层、声纹识别层和声学前端层。其中,声学前端可以通过音频降噪,回声消除等将境噪音、设备播放音等非人声去除,将剩余的多路音频信号流转到声纹识别层。声纹识别层可以将目标对象的目标声纹特征和流入的多路音频信号进行对比验证,将符合该目标对象声纹特征的目标路音频信号提取出来。语音识别层可以根据输入的目标路音频信号进行语音识别转换成文字信息。语义理解层文字信息进行文本预处理、情感分析和意图识别后转化成程序可以识别的数据结构。意图执行层将数据结构以JSON指令的模式分发到各个软件应用,来执行对应的意图。
作为一个可选的实施方式,图7所示是根据本发明可选实施例的整体交互时序示意图,其中,可以包括如下步骤:
步骤S71,用户设备获取环境中的音频信号。具体地,用户在用户设备中输入音频信号,由于环境中还包括其他音频信号,例如,其他用户发出的声音,环境中的噪音设备播放音等,因此,用户设备收集到的声音是混合的复杂音频信号,通过麦克风等设备输入到声学前端中。
步骤S72,声学前端通过音频降噪,回声消除等去除掉环境噪音,设备播放音等非人声去除,将剩余的多路音频信号流转到声纹识别模块。
步骤S73,声纹识别将预置的目标对象的目标声纹特征和流入的多路音频信号进行对比验证,将符合该目标对象声纹特征的目标路音频信号提取出来。
步骤S74,语音识别根据最终输入的目标路音频信号进行语音识别转换成文字信息。
步骤S75,语义理解将文字信息进行文本预处理,情感分析,意图识别后转化成程序可以识别的数据结构。
步骤S76,意图执行将处理后的数据结构以JSON指令的模式分发到各个软件应用,来执行对应的意图。
通过上述实施例,可以真正的让实际使用语音助手的用户不受到其他干扰音源的影响,高效,精确的和语音助手进行语音交互,让语音助手应用可以得到纯净的用户音频信息,正确的理解用户的意图,不被干扰打断或者执行非该用户的指令,真正做到提升用户交互体验,保障用户的交互稳定性和安全性。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一个方面,还提供了一种用于实施上述语音识别方法的语音识别装置。如图8所示,该装置包括:第一获取模块802,用于获取待识别的多路音频信号,其中,所述多路音频信号包括多个方向采集到的音频信号;第二获取模块804,用于获取所述多路音频信号中的每路音频信号的声纹特征;查找模块806,用于在所述多路音频信号中查找所述声纹特征与预设目标对象的目标声纹特征匹配的目标路音频信号;提取模块808,用于在所述多路音频信号中查找到所述目标路音频信号的情况下,从所述多路音频信号中提取出所述目标路音频信号。
可选地,上述装置还用于在所述多路音频信号为N路音频信号的情况下,将所述每路音频信号的声纹特征分别与所述目标声纹特征进行匹配,得到N个匹配结果,其中,N为大于1的自然数,每个所述匹配结果用于表示一路音频信号为所述目标路音频信号的置信度;在所述N个匹配结果中的第i个匹配结果表示的置信度大于目标预设阈值的情况下,将所述N路音频信号中与所述第i个匹配结果对应的第i路音频信号确定为所述目标路音频信号,其中,1≤i≤N。
可选地,上述装置还用于对于所述每路音频信号,执行以下操作,得到一个匹配结果,其中,所述每路音频信号在执行以下操作时被视为当前路音频信号:获取所述当前路音频信号的音频特征与目标音频特征的第一相似度;获取所述当前路音频信号的音色特征与目标音色特征的第二相似度;获取所述当前路音频信号的音调特征与目标音调特征的第三相似度;根据所述第一相似度、所述第二相似度以及所述第三相似度,确定与所述当前路音频信号对应的匹配结果;其中,所述当前路音频信号的声纹特征包括所述当前路音频信号的音频特征、音色特征和音调特征,所述目标声纹特征包括所述目标音频特征、所述目标音色特征和所述目标音调特征。
可选地,上述装置还用于在所述第一相似度大于第一预设阈值、所述第二相似度大于第二预设阈值、且所述第三相似度大于第三预设阈值的情况下,将与所述当前路音频信号对应的匹配结果确定为用于表示所述当前路音频信号为所述目标路音频信号的置信度大于所述目标预设阈值。
可选地,上述装置还用于在所述多路音频信号中离线查找所述声纹特征与所述目标声纹特征匹配的第一路音频信号;在离线查找到所述第一路音频信号的情况下,对所述第一路音频信号进行离线语音识别,得到第一文字信息,并对所述第一文字信息进行离线语义识别,得到第一语义信息;根据所述多路音频信号,在线查找所述声纹特征与所述目标声纹特征匹配的第二路音频信号;在在线查找到所述第二路音频信号的情况下,对所述第二路音频信号进行在线语音识别,得到第二文字信息,并对所述第二文字信息进行在线语义识别,得到第二语义信息。
可选地,上述装置还用于根据所述第一语义信息和所述第二语义信息,确定目标语义信息。
可选地,上述装置还用于在所述离线语义识别被设置为优先于所述在线离线语义识别、且所述第一语义信息早于所述第二语义信息被获取到的情况下,将所述第一语义信息确定为所述目标语义信息。
可选地,上述装置还用于在所述离线语义识别被设置为优先于所述在线语义识别、所述第二语义信息早于所述第一语义信息被获取到、且在所述第二语义信息被获取到之后的第一时长内未获取到所述第一语义信息的情况下,将所述第二语义信息确定为所述目标语义信息。
可选地,上述装置还用于在所述在线语义识别被设置为优先于所述离线语义识别、且所述第二语义信息早于所述第一语义信息被获取到的情况下,将所述第二语义信息确定为所述目标语义信息。
可选地,上述装置还用于在所述在线语义识别被设置为优先于所述离线语义识别、所述第一语义信息早于所述第二语义信息被获取到、且在所述第一语义信息被获取到之后的第二时长内未获取到所述第二语义信息的情况下,将所述第一语义信息确定为所述目标语义信息。
可选地,上述装置还用于在确定当前网络丢包率大于或等于第一预设阈值的情况下,所述离线语义识别被设置为优先于所述在线语义识别;否则,所述在线语义识别被设置为优先于所述离线语义识别;或,在确定所述目标路音频信号中的数据量大于或等于第二预设阈值的情况下,所述在线语义识别被设置为优先于所述离线语义识别;否则所述离线语义识别被设置为优先于所述在线语义识别。
可选地,上述装置还用于获取压缩音频信号,其中,所述压缩音频信号是对所述多路音频信号进行压缩得到的音频信号;对所述压缩音频信号进行解压,得到多路解压音频信号;在所述多路解压音频信号中查找所述声纹特征与所述目标声纹特征匹配的第二路音频信号。
可选地,上述装置还用于对所述目标路音频信号进行语音识别,得到目标文字信息;对所述目标文字信息进行语义识别,得到目标语义信息;执行与所述目标语义信息对应的目标操作。
根据本发明实施例的又一个方面,还提供了一种用于实施上述语音识别方法的电子设备,该电子设备可以是图1所示的用户设备或服务器。本实施例以该电子设备为用户设备为例来说明。如图9所示,该用户设备包括存储器902和处理器904,该存储器902中存储有计算机程序,该处理器904被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述用户设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取待识别的多路音频信号,其中,所述多路音频信号包括多个方向采集到的音频信号;
S2,获取所述多路音频信号中的每路音频信号的声纹特征;
S3,在所述多路音频信号中查找所述声纹特征与预设目标对象的目标声纹特征匹配的目标路音频信号;
S4,在所述多路音频信号中查找到所述目标路音频信号的情况下,从所述多路音频信号中提取出所述目标路音频信号。
可选地,本领域普通技术人员可以理解,图9所示的结构仅为示意,电子装置电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图9其并不对上述电子装置电子设备的结构造成限定。例如,电子装置电子设备还可包括比图9中所示更多或者更少的组件(如网络接口等),或者具有与图9所示不同的配置。
其中,存储器902可用于存储软件程序以及模块,如本发明实施例中的语音识别方法和装置对应的程序指令/模块,处理器904通过运行存储在存储器902内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的语音识别方法。存储器902可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器902可进一步包括相对于处理器904远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器902具体可以但不限于用于存储物品的样本特征与目标虚拟资源账号等信息。作为一种示例,如图9所示,上述存储器902中可以但不限于包括上述语音识别装置中的第一获取模块802、第二获取模块804、查找模块806及提取模块808。此外,还可以包括但不限于上述语音识别装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置906用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置906包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置906为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述用户设备还包括:显示器908,用于显示上述音频信号的声纹特征;和连接总线910,用于连接上述用户设备中的各个模块部件。
在其他实施例中,上述终端设备或者服务器可以是一个分布式系统中的一个节点,其中,该分布式系统可以为区块链系统,该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中,节点之间可以组成点对点(P2P,Peer To Peer)网络,任意形式的计算设备,比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取待识别的多路音频信号,其中,所述多路音频信号包括多个方向采集到的音频信号;
S2,获取所述多路音频信号中的每路音频信号的声纹特征;
S3,在所述多路音频信号中查找所述声纹特征与预设目标对象的目标声纹特征匹配的目标路音频信号;
S4,在所述多路音频信号中查找到所述目标路音频信号的情况下,从所述多路音频信号中提取出所述目标路音频信号。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (15)
1.一种语音识别方法,其特征在于,包括:
获取待识别的多路音频信号,其中,所述多路音频信号包括多个方向采集到的音频信号;
获取所述多路音频信号中的每路音频信号的声纹特征;
在所述多路音频信号中查找所述声纹特征与预设目标对象的目标声纹特征匹配的目标路音频信号;
在所述多路音频信号中查找到所述目标路音频信号的情况下,从所述多路音频信号中提取出所述目标路音频信号。
2.根据权利要求1所述的方法,其特征在于,所述在所述多路音频信号中查找所述声纹特征与预设目标对象的目标声纹特征匹配的目标路音频信号,包括:
在所述多路音频信号为N路音频信号的情况下,将所述每路音频信号的声纹特征分别与所述目标声纹特征进行匹配,得到N个匹配结果,其中,N为大于1的自然数,每个所述匹配结果用于表示一路音频信号为所述目标路音频信号的置信度;
在所述N个匹配结果中的第i个匹配结果表示的置信度大于目标预设阈值的情况下,将所述N路音频信号中与所述第i个匹配结果对应的第i路音频信号确定为所述目标路音频信号,其中,1≤i≤N。
3.根据权利要求2所述的方法,其特征在于,所述将所述每路音频信号的声纹特征分别与所述目标声纹特征进行匹配,得到N个匹配结果,包括:
对于所述每路音频信号,执行以下操作,得到一个匹配结果,其中,所述每路音频信号在执行以下操作时被视为当前路音频信号:
获取所述当前路音频信号的音频特征与目标音频特征的第一相似度;
获取所述当前路音频信号的音色特征与目标音色特征的第二相似度;
获取所述当前路音频信号的音调特征与目标音调特征的第三相似度;
根据所述第一相似度、所述第二相似度以及所述第三相似度,确定与所述当前路音频信号对应的匹配结果;
其中,所述当前路音频信号的声纹特征包括所述当前路音频信号的音频特征、音色特征和音调特征,所述目标声纹特征包括所述目标音频特征、所述目标音色特征和所述目标音调特征。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一相似度、所述第二相似度以及所述第三相似度,确定与所述当前路音频信号对应的匹配结果,包括:
在所述第一相似度大于第一预设阈值、所述第二相似度大于第二预设阈值、且所述第三相似度大于第三预设阈值的情况下,将与所述当前路音频信号对应的匹配结果确定为用于表示所述当前路音频信号为所述目标路音频信号的置信度大于所述目标预设阈值。
5.根据权利要求1所述的方法,其特征在于,所述方法包括:
在所述多路音频信号中离线查找所述声纹特征与所述目标声纹特征匹配的第一路音频信号;在离线查找到所述第一路音频信号的情况下,对所述第一路音频信号进行离线语音识别,得到第一文字信息,并对所述第一文字信息进行离线语义识别,得到第一语义信息;
根据所述多路音频信号,在线查找所述声纹特征与所述目标声纹特征匹配的第二路音频信号;在在线查找到所述第二路音频信号的情况下,对所述第二路音频信号进行在线语音识别,得到第二文字信息,并对所述第二文字信息进行在线语义识别,得到第二语义信息。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
根据所述第一语义信息和所述第二语义信息,确定目标语义信息。
7.根据权利要求6所述的方法,其特征在于,所述根据所述第一语义信息和所述第二语义信息,确定目标语义信息,包括:
在所述离线语义识别被设置为优先于所述在线语义识别、且所述第一语义信息早于所述第二语义信息被获取到的情况下,将所述第一语义信息确定为所述目标语义信息。
8.根据权利要求6所述的方法,其特征在于,所述根据所述第一语义信息和所述第二语义信息,确定目标语义信息,包括:
在所述离线语义识别被设置为优先于所述在线语义识别、所述第二语义信息早于所述第一语义信息被获取到、且在所述第二语义信息被获取到之后的第一时长内未获取到所述第一语义信息的情况下,将所述第二语义信息确定为所述目标语义信息。
9.根据权利要求6所述的方法,其特征在于,所述根据所述第一语义信息和所述第二语义信息,确定目标语义信息,包括:
在所述在线语义识别被设置为优先于所述离线语义识别、且所述第二语义信息早于所述第一语义信息被获取到的情况下,将所述第二语义信息确定为所述目标语义信息。
10.根据权利要求6所述的方法,其特征在于,所述根据所述第一语义信息和所述第二语义信息,确定目标语义信息,包括:
在所述在线语义识别被设置为优先于所述离线语义识别、所述第一语义信息早于所述第二语义信息被获取到、且在所述第一语义信息被获取到之后的第二时长内未获取到所述第二语义信息的情况下,将所述第一语义信息确定为所述目标语义信息。
11.根据权利要求7至10中任一项所述的方法,其特征在于,所述方法包括:
在确定当前网络丢包率大于或等于第一预设阈值的情况下,所述离线语义识别被设置为优先于所述在线语义识别;否则,所述在线语义识别被设置为优先于所述离线语义识别;或,
在确定所述目标路音频信号中的数据量大于或等于第二预设阈值的情况下,所述在线语义识别被设置为优先于所述离线语义识别;否则所述离线语义识别被设置为优先于所述在线语义识别。
12.根据权利要求5所述的方法,其特征在于,所述根据所述多路音频信号,在线查找所述声纹特征与所述目标声纹特征匹配的第二路音频信号,包括:
获取压缩音频信号,其中,所述压缩音频信号是对所述多路音频信号进行压缩得到的音频信号;
对所述压缩音频信号进行解压,得到多路解压音频信号;
在所述多路解压音频信号中查找所述声纹特征与所述目标声纹特征匹配的第二路音频信号。
13.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述目标路音频信号进行语音识别,得到目标文字信息;
对所述目标文字信息进行语义识别,得到目标语义信息;
执行与所述目标语义信息对应的目标操作。
14.一种语音识别装置,其特征在于,包括:
第一获取模块,用于获取待识别的多路音频信号,其中,所述多路音频信号包括多个方向采集到的音频信号;
第二获取模块,用于获取所述多路音频信号中的每路音频信号的声纹特征;
查找模块,用于在所述多路音频信号中查找所述声纹特征与预设目标对象的目标声纹特征匹配的目标路音频信号;
提取模块,用于在所述多路音频信号中查找到所述目标路音频信号的情况下,从所述多路音频信号中提取出所述目标路音频信号。
15.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行所述权利要求1至13任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011391048.1A CN112562681B (zh) | 2020-12-02 | 2020-12-02 | 语音识别方法和装置、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011391048.1A CN112562681B (zh) | 2020-12-02 | 2020-12-02 | 语音识别方法和装置、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112562681A true CN112562681A (zh) | 2021-03-26 |
CN112562681B CN112562681B (zh) | 2021-11-19 |
Family
ID=75047043
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011391048.1A Active CN112562681B (zh) | 2020-12-02 | 2020-12-02 | 语音识别方法和装置、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112562681B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220830A (zh) * | 2021-04-30 | 2021-08-06 | 上海适享文化传播有限公司 | 无网络条件下离线语音检索产品的方法 |
CN113413613A (zh) * | 2021-06-17 | 2021-09-21 | 网易(杭州)网络有限公司 | 一种游戏内语音聊天的优化方法、装置、电子设备及介质 |
CN113555022A (zh) * | 2021-07-23 | 2021-10-26 | 平安科技(深圳)有限公司 | 基于语音的同人识别方法、装置、设备及存储介质 |
CN115410579A (zh) * | 2022-10-28 | 2022-11-29 | 广州小鹏汽车科技有限公司 | 语音交互方法、语音交互装置、车辆和可读存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110131044A1 (en) * | 2009-11-30 | 2011-06-02 | International Business Machines Corporation | Target voice extraction method, apparatus and program product |
CN104936091A (zh) * | 2015-05-14 | 2015-09-23 | 科大讯飞股份有限公司 | 基于圆形麦克风阵列的智能交互方法及系统 |
CN105261365A (zh) * | 2015-09-15 | 2016-01-20 | 北京云知声信息技术有限公司 | 一种音频输出方法及装置 |
US20160035350A1 (en) * | 2014-07-29 | 2016-02-04 | Samsung Electronics Co., Ltd. | Electronic apparatus and control method thereof |
CN107045778A (zh) * | 2017-04-26 | 2017-08-15 | 兰州交通大学 | 一种多功能噪音抵消系统 |
CN107889001A (zh) * | 2017-09-29 | 2018-04-06 | 恒玄科技(上海)有限公司 | 可扩展麦克风阵列及其建立方法 |
CN109599124A (zh) * | 2018-11-23 | 2019-04-09 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、装置及存储介质 |
CN109920405A (zh) * | 2019-03-05 | 2019-06-21 | 百度在线网络技术(北京)有限公司 | 多路语音识别方法、装置、设备及可读存储介质 |
US10388272B1 (en) * | 2018-12-04 | 2019-08-20 | Sorenson Ip Holdings, Llc | Training speech recognition systems using word sequences |
CN110364166A (zh) * | 2018-06-28 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 实现语音信号识别的电子设备 |
US20200250287A1 (en) * | 2019-02-03 | 2020-08-06 | Fmr Llc | Systems and Methods for Optimizing Voice Verification From Multiple Sources Against a Common Voiceprint |
EP3703053A1 (en) * | 2017-10-23 | 2020-09-02 | Iflytek Co., Ltd. | Microphone array-based target voice acquisition method and device |
CN111883135A (zh) * | 2020-07-28 | 2020-11-03 | 北京声智科技有限公司 | 语音转写方法、装置和电子设备 |
-
2020
- 2020-12-02 CN CN202011391048.1A patent/CN112562681B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110131044A1 (en) * | 2009-11-30 | 2011-06-02 | International Business Machines Corporation | Target voice extraction method, apparatus and program product |
US20160035350A1 (en) * | 2014-07-29 | 2016-02-04 | Samsung Electronics Co., Ltd. | Electronic apparatus and control method thereof |
CN104936091A (zh) * | 2015-05-14 | 2015-09-23 | 科大讯飞股份有限公司 | 基于圆形麦克风阵列的智能交互方法及系统 |
CN105261365A (zh) * | 2015-09-15 | 2016-01-20 | 北京云知声信息技术有限公司 | 一种音频输出方法及装置 |
CN107045778A (zh) * | 2017-04-26 | 2017-08-15 | 兰州交通大学 | 一种多功能噪音抵消系统 |
CN107889001A (zh) * | 2017-09-29 | 2018-04-06 | 恒玄科技(上海)有限公司 | 可扩展麦克风阵列及其建立方法 |
EP3703053A1 (en) * | 2017-10-23 | 2020-09-02 | Iflytek Co., Ltd. | Microphone array-based target voice acquisition method and device |
CN110364166A (zh) * | 2018-06-28 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 实现语音信号识别的电子设备 |
CN109599124A (zh) * | 2018-11-23 | 2019-04-09 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、装置及存储介质 |
US10388272B1 (en) * | 2018-12-04 | 2019-08-20 | Sorenson Ip Holdings, Llc | Training speech recognition systems using word sequences |
US20200250287A1 (en) * | 2019-02-03 | 2020-08-06 | Fmr Llc | Systems and Methods for Optimizing Voice Verification From Multiple Sources Against a Common Voiceprint |
CN109920405A (zh) * | 2019-03-05 | 2019-06-21 | 百度在线网络技术(北京)有限公司 | 多路语音识别方法、装置、设备及可读存储介质 |
CN111883135A (zh) * | 2020-07-28 | 2020-11-03 | 北京声智科技有限公司 | 语音转写方法、装置和电子设备 |
Non-Patent Citations (4)
Title |
---|
HAIPENG DAI ET AL.: "Speech Based Human Authentication on Smartphones", 《2019 16TH ANNUAL IEEE INTERNATIONAL CONFERENCE ON SENSING, COMMUNICATION, AND NETWORKING (SECON)》 * |
ZHUO CHEN,ET AL.: "Multi-Channel Overlapped Speech Recognition with Location Guided Speech Extraction Network", 《2018 IEEE SPOKEN LANGUAGE TECHNOLOGY WORKSHOP (SLT)》 * |
孟凡文: "基于语音识别的远程多路智能控制系统设计", 《现代信息科技》 * |
罗晓亭: "多路并行实时说话人识别算法研究与实现", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220830A (zh) * | 2021-04-30 | 2021-08-06 | 上海适享文化传播有限公司 | 无网络条件下离线语音检索产品的方法 |
CN113413613A (zh) * | 2021-06-17 | 2021-09-21 | 网易(杭州)网络有限公司 | 一种游戏内语音聊天的优化方法、装置、电子设备及介质 |
CN113555022A (zh) * | 2021-07-23 | 2021-10-26 | 平安科技(深圳)有限公司 | 基于语音的同人识别方法、装置、设备及存储介质 |
CN115410579A (zh) * | 2022-10-28 | 2022-11-29 | 广州小鹏汽车科技有限公司 | 语音交互方法、语音交互装置、车辆和可读存储介质 |
CN115410579B (zh) * | 2022-10-28 | 2023-03-31 | 广州小鹏汽车科技有限公司 | 语音交互方法、语音交互装置、车辆和可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112562681B (zh) | 2021-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112562681B (zh) | 语音识别方法和装置、存储介质 | |
CN109817213B (zh) | 用于自适应语种进行语音识别的方法、装置及设备 | |
US11475897B2 (en) | Method and apparatus for response using voice matching user category | |
Aloufi et al. | Emotionless: Privacy-preserving speech analysis for voice assistants | |
KR100826875B1 (ko) | 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치 | |
CN109155132A (zh) | 说话者验证方法和系统 | |
CN109801634A (zh) | 一种声纹特征的融合方法及装置 | |
CN108922525B (zh) | 语音处理方法、装置、存储介质及电子设备 | |
CN102404278A (zh) | 一种基于声纹识别的点歌系统及其应用方法 | |
CN110570853A (zh) | 基于语音数据的意图识别方法和装置 | |
CN112017645A (zh) | 一种语音识别方法及装置 | |
CN112581963B (zh) | 一种语音意图识别方法及系统 | |
CN110428853A (zh) | 语音活性检测方法、语音活性检测装置以及电子设备 | |
WO2023030235A1 (zh) | 目标音频的输出方法及系统、可读存储介质、电子装置 | |
CN111883135A (zh) | 语音转写方法、装置和电子设备 | |
CN114121006A (zh) | 虚拟角色的形象输出方法、装置、设备以及存储介质 | |
CN116417003A (zh) | 语音交互系统、方法、电子设备和存储介质 | |
CN115171731A (zh) | 一种情绪类别确定方法、装置、设备及可读存储介质 | |
CN109074809B (zh) | 信息处理设备、信息处理方法和计算机可读存储介质 | |
CN114283820A (zh) | 多角色语音的交互方法、电子设备和存储介质 | |
CN114399995A (zh) | 语音模型的训练方法、装置、设备及计算机可读存储介质 | |
CN113327631B (zh) | 一种情感识别模型的训练方法、情感识别方法及装置 | |
CN113724690B (zh) | Ppg特征的输出方法、目标音频的输出方法及装置 | |
CN115132170A (zh) | 语种分类方法、装置及计算机可读存储介质 | |
Gao | Audio deepfake detection based on differences in human and machine generated speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40040451 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |