CN108447471B - 语音识别方法及语音识别装置 - Google Patents
语音识别方法及语音识别装置 Download PDFInfo
- Publication number
- CN108447471B CN108447471B CN201710082111.5A CN201710082111A CN108447471B CN 108447471 B CN108447471 B CN 108447471B CN 201710082111 A CN201710082111 A CN 201710082111A CN 108447471 B CN108447471 B CN 108447471B
- Authority
- CN
- China
- Prior art keywords
- information
- voiceprint
- voice
- matched
- local
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 239000012634 fragment Substances 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 7
- 230000003993 interaction Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003137 locomotive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
Abstract
一种语音识别方法及装置,一个实施例的方法包括:确定待识别语音信息的语意信息,在语意信息不满足预设规则时,对待识别语音信息进行分段,获得各语音片段,并提取各语音片段的声纹信息,在本地声纹数据库中存在尚未匹配过的声纹信息时,从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息,对各语音片段的声纹信息与待匹配声纹信息进行匹配,从各语音片段的声纹信息中确定出与待匹配声纹信息匹配成功的筛选后声纹信息,将各筛选后声纹信息对应的语音片段进行组合,获得组合语音信息,并确定组合语音信息的组合语意信息,在组合语意信息满足预设规则时,将组合语意信息作为语音识别结果。基于本实施例方案进行语音识别准确性高。
Description
技术领域
本发明涉及计算机信息处理技术领域,特别涉及一种语音识别方法及语音识别装置。
背景技术
随着智能技术的发展,进行语音识别并根据识别的语音进行控制,已成为智能技术应用中的一项重要内容,各种智能产品中应用语音识别技术以实现智能化控制,随着智能产品的增加以及对语音识别的准确度的要求越来越高,各种语音识别技术层出不穷。
目前常用的语音识别方式是通过提取用户发出的待识别语音信息的特征,再根据识别算法对该用户发出的待识别语音信息进行识别。然而,在多人讲话的场合(如车内)使用语音识别功能,捕获到的待识别语音信息可能包含多人的说话内容,其中只有一个人的待识别语音信息是有效的,存在他人发出的噪音,无法识别出正确的语意,导致语音识别准确性不足。
发明内容
基于此,有必要针对语音识别准确性不足的问题,提出一种能提高语音识别准确性的语音识别方法及装置。
据此,本实施例采用以下技术方案:
一种语音识别方法,包括以下步骤:
获取采集的待识别语音信息,并确定所述待识别语音信息的语意信息;
在所述语意信息不满足预设规则时,对所述待识别语音信息进行分段处理,获得各语音片段,并提取各所述语音片段的声纹信息;
在本地声纹数据库中存在尚未匹配过的声纹信息时,从所述本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息;
对各所述语音片段的声纹信息与所述待匹配声纹信息进行匹配,从各所述语音片段的声纹信息中确定出与所述待匹配声纹信息匹配成功的筛选后声纹信息;
将各所述筛选后声纹信息对应的语音片段进行组合,获得组合语音信息,并确定所述组合语音信息的组合语意信息;
在所述组合语意信息满足所述预设规则时,将所述组合语意信息作为语音识别结果。
一种语音识别装置,包括:
语意信息确定模块,用于获取采集的待识别语音信息,并确定所述待识别语音信息的语意信息;
分段声纹获取模块,用于在所述语意信息不满足预设规则时,对所述待识别语音信息进行分段处理,获得各语音片段,并提取各所述语音片段的声纹信息;
待匹配声纹信息获取模块,用于在本地声纹数据库中存在尚未匹配过的声纹信息时,从所述本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息;
匹配筛选模块,用于对各所述语音片段的声纹信息与所述待匹配声纹信息进行匹配,从各所述语音片段的声纹信息中确定出与所述待匹配声纹信息匹配成功的筛选后声纹信息;
组合模块,用于将各所述筛选后声纹信息对应的语音片段进行组合,获得组合语音信息,并确定所述组合语音信息的组合语意信息;
识别结果确定模块,用于在所述组合语意信息满足所述预设规则时,将所述组合语意信息作为语音识别结果。
上述语音识别方法及装置,首先确定待识别语音信息的语意信息,在语意信息不满足预设规则时,表示此时识别的语意信息可能不准确,此时,将待识别语音信息进行分段,获得各语音片段,并提取各语音片段的声纹信息,在本地声纹数据库中存在尚未匹配过的声纹信息时,从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息,为后续声纹匹配提供依据,即提供进行声纹匹配的单个用户的待匹配声纹信息,然后,对各语音片段的声纹信息与待匹配声纹信息进行匹配,从各语音片段的声纹信息中确定出与待匹配声纹信息匹配成功的筛选后声纹信息,即筛选出与上述待匹配声纹信息匹配的单个用户的声纹信息,并将各筛选后声纹信息对应的语音片段进行组合,获得组合语音信息,并对组合语音信息进行识别,获得组合语意信息,从而获得单个用户表达的语意,为了提高识别准确性,还需对组合语意信息是否满足预设规则进行判断,满足时表示已获得了准确识别的语意,即准确获得了用户想表达的语意,此时将组合语意信息作为语音识别结果,提高语音识别准确度。
附图说明
图1为一个实施例的工作环境示意图;
图2为一个实施例中的终端的组成结构示意图;
图3为一个实施例的语音识别方法的流程示意图;
图4为另一个实施例的语音识别方法的流程示意图;
图5为一具体实施例的语音识别方法的流程示意图;
图6为一个实施例的语音识别装置的模块示意图;
图7为一个具体示例中的数据获取模块的模块示意图;
图8为另一个实施例的语音识别装置的模块示意图;
图9为另一个具体示例中的数据获取模块的模块示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
图1示出了本发明一个实施例中的工作环境示意图,如图1所示,其工作环境涉及终端110、服务器120以及网络130,终端110及服务器120可以通过网络130进行通信。终端110可对语音信息进行识别获得语意信息,再对语意信息进行进一步处理确定语音识别结果,也可将获取的语音信息通过网络130上传至对应的服务器120,服务器120可对终端110上传的语音信息进行识别,并可将识别结果通过网络130发送至终端110,终端110将接收的识别结果作为语音信息,并根据接收的语音信息确定语音识别结果。终端110根据语音识别结果可生成相应的指令以执行后续的相关操作,实现语音智能化控制。该终端110可以是任何一种能够实现智能输入输出以及识别语音的设备,例如,台式电脑或移动终端,移动终端可以是智能手机、平板电脑、车载电脑、穿戴式智能设备等。该服务器120可以是接收语音信息并进行语音识别的平台所在的服务器;服务器120可以为一个或多个。本实施例涉及的是终端110对语音信息进行识别获得语音识别结果的方案,终端110可根据语音识别结果实现语音智能操作。
终端110在一个实施例中的内部结构图如图2所示。该终端110包括通过系统总线连接的处理器、存储介质、网络接口和内存。其中,终端110的存储介质存储有操作系统、本地声纹数据库和一种语音识别装置,该装置用于实现一种语音识别方法。终端110的处理器用于提供计算和控制能力,支撑整个终端110的运行。终端110的内存为非易失性存储介质中的语音识别装置的运行提供环境,该内存中可储存有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种语音识别方法。终端110的网络接口用于与网络130连接和通信。
请参阅图3,一个实施例中的语音识别方法,包括步骤S310至步骤S360:
S310:获取采集的待识别语音信息,并确定待识别语音信息的语意信息。
在本实施例中,语音信息可为用户通过终端的语音输入装置输入的音频信息,即通过语音输入装置可采集到用户的语音信息,在对待识别语音信息采集完成后,可获取采集的待识别语音信息,其中,语音输入装置可包括但不限于麦克风。待识别语音信息是指需要对其进行识别获得语意信息的语音信息,语意信息可为文字信息,对待识别语音信息进行语音识别获得对应的语意信息,即可确定待识别语音信息的语意信息,也就是可确定输入待识别语音信息的用户表达出的语意。
S320:在语意信息不满足预设规则时,对待识别语音信息进行分段处理,获得各语音片段,并提取各语音片段的声纹信息。
在确定待识别语音信息的语意信息之后,需要判断其是否满足预设规则,在本实施例中,预设规则可为预先设置的对语意信息的要求,也就是说,语意信息不满足预设规则时,表示该语音信息不满足对其的要求,则认为其是不准确。比如,由于是对音频进行识别,一般情况下,用户在通过音频准确表达其想表达的内容时,对应的语音信息应满足人说话时的语法要求,从而,预先规则可为语意信息符合预设语法规则。
另一方面,实现本实施例的语音识别方法的终端可以包括多种工作模式,这些工作模式可以包括但不限于导航模式、音乐模式、广播模式和节目模式等,在不同的工作模式下工作,终端可满足不同的用户需求,且每种工作模式有其对应的词库,词库中包括了工作模式对应可能用到的词汇,在确定语意信息后,还可判断语意信息分词后得到的关键词是否在词库中,若在,则表示用户的待识别语音信息的语意信息是在终端的工作模式下可能用到的词汇。
据此,在本实施例中,预设规则可以为语意信息符合预设语法规则且语意信息在单个词库中,语意信息不满足预设规则时,认为对待识别语音信息识别获得的语意信息不能被终端准确识别,从而无法转变成对应的指令以执行相应的操作。另一方面,预设规则也可以为语意信息符合预设语法规则、语意信息在单个词库中且语音信息有对应的指令,当语意信息符合预设语法规则且语音信息在单个词库中,但是语意信息不能转化为有效指令,即该语意信息没有对应的指令时,认为其还是不符合预设规则。
在一具体应用示例中,比如,确定的语意信息为“我要你好播放音乐”,用户A对应说的是“我要播放音乐”,然而在其说话过程中,用户B在用户A的“我要”后面插入了“你好”,虽然“播放音乐”是在音乐模式对应词库中,但是整个句子的语法不符合人类正常语法,从而可认为其不满足预设规则的。又比如,语意信息为“你好”,既符合预设语法规则,又在词库中,但是其实质上是一种问候语,而非一种控制语,终端没有与“你好”对应的指令,即无法生成执行相应操作的指令,也可以认为其不满足预设规则。
在判定语意信息不满足预设规则时,认为其不准确,为了提高识别准确性,需要对待识别语音信息进行分段处理,以获得各语音片段,并提取各语音片段的声纹信息。由于每个人的声纹信息是不同的,同一个人的不同语音信息对应相同的声纹信息,例如,用户A说出不同的语音信息,但是为同一用户A说出的,其声纹信息是相同的。为了提高准确度,可通过声纹信息的判断提出单人的语音信息。
S330:在本地声纹数据库中存在尚未匹配过的声纹信息时,从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息。
本地声纹数据库可存储声纹信息,在本地声纹数据库中存储的声纹信息可为与终端进行过语音交互的用户的声纹信息,且其对应的语意信息至少有一次满足预设规则。将各语音片段对应的语意信息与本地声纹数据库中存储的尚未匹配过的声纹信息进行匹配时,首先需要从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息,即进行各语音片段的声纹信息与本地声纹数据库中声纹信息匹配时,每次将本地声纹数据库中单个的待匹配声纹信息与各语音片段的声纹信息进行匹配,这样即可筛选出单个用户的语音信息。
S340:对各语音片段的声纹信息与待匹配声纹信息进行匹配,从各语音片段的声纹信息中确定出与待匹配声纹信息匹配成功的筛选后声纹信息。
语音信息中可能包括多个用户的语音,从本地声纹数据库中选择出一个尚未匹配过的待匹配声纹信息后,即选择一个用户的声纹信息后,将各语音片段的声纹信息与该待匹配声纹信息进行匹配,相同用户的声纹信息相同,各语音片段的声纹信息中与待匹配声纹信息匹配成功的声纹信息是同一用户的声纹信息,即筛选后声纹信息即为待匹配声纹信息对应的用户的声纹信息。
S350:将各筛选后声纹信息对应的语音片段进行组合,获得组合语音信息,并确定组合语音信息的组合语意信息。
由于各筛选后声纹信息是来自同一用户,从而,可将各筛选后声纹信息对应的语音片段进行组合,即将同一用户的语音片段进行组合,得到的组合语音信息即是同一用户的语音,是同一用户的语音数据,然后,确定组合语音信息的组合语意信息,组合语意信息即为该用户的待识别语音信息对应的准确表达的语意。
S360:在组合语意信息满足预设规则时,将组合语意信息作为语音识别结果。
获得组合语意信息后,虽然组合语意信息为上述用户的待识别语音信息对应的准确表达的语意,但是语音信息可能为多个用户的语音,有可能通过上述步骤获得的组合语音信息的组合语音信息是不满足预设规则的,为了进一步提高准确性,需要对组合语音信息是否满足预设规则进行判断,当满足时,进一步说明该语意信息是准确的,此时,可将组合语意信息作为语音识别结果,实现语音识别目的。后续可根据语音识别结果生成相应的指令,根据指令可执行相应的操作。比如,语意信息为“我要你好播放音乐”,如果选出的待匹配声纹信息为用户A的声纹信息,语音片段“我要”和“播放音乐”的声纹信息与用户A的声纹信息匹配成功,即筛选后声纹信息为语音片段“我要”和“播放音乐”的声纹信息,则可将语音片段“我要”和“播放音乐”组合作为最终的组合语音信息,确定组合语音信息为“我要播放音乐”,既符合预设语法要求又在词库中,且是一个需要执行播放音乐操作的语意信息,有对应的指令,即根据该指令可执行播放音乐的操作,认为该组合语意信息是满足预设规则的,将“我要播放音乐”作为语音识别结果。后续可生成与之对应的播放音乐的指令以执行音乐。
上述语音识别方法,首先确定待识别语音信息的语意信息,在语意信息不满足预设规则时,表示此时识别的语意信息可能不准确,此时,将待识别语音信息进行分段,获得各语音片段,并提取各语音片段的声纹信息,在本地声纹数据库中存在尚未匹配过的声纹信息时,从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息,为后续声纹匹配提供依据,即提供进行声纹匹配的单个用户的待匹配声纹信息,然后,对各语音片段的声纹信息与待匹配声纹信息进行匹配,从各语音片段的声纹信息中确定出与待匹配声纹信息匹配成功的筛选后声纹信息,即筛选出与上述待匹配声纹信息匹配的单个用户的声纹信息,并将各筛选后声纹信息对应的语音片段进行组合,获得组合语音信息,并对组合语音信息进行识别,获得组合语意信息,从而获得单个用户表达的语意,为了提高识别准确性,还需对组合语意信息是否满足预设规则进行判断,满足时表示已获得了准确识别的语意,即准确获得了用户想表达的语意,此时将组合语意信息作为语音识别结果,提高语音识别准确度。
在其中一个实施例中,上述语音识别方法,还包括步骤:
在组合语意信息不满足预设规则时,返回在本地声纹数据库中存在尚未匹配过的声纹信息时,从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息的步骤。
在组合语意信息不满足预设规则时,表示该组合语音信息不满足对其的要求,则认为其不准确。需对下一个用户的声纹信息进行匹配。比如,语意信息为“我要你好播放音乐”,如果选出的待匹配声纹信息为用户B的声纹信息,语音片段“你好”的声纹信息与用户B的声纹信息匹配成功,即筛选后声纹信息为语音片段“你好”的声纹信息,则可将语音片段“你好”作为最终的组合语音信息,确定组合语音信息为“你好”,虽然是符合预设语法要求且在词库中,但是其没有对应的指令,即不能生成执行操作的指令,因此也可以认为其不满足预设规则,此时需要返回在本地声纹数据库中存在尚未匹配过的声纹信息时,从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息的步骤,获取下一个未匹配过的声纹信息作为待匹配声纹信息,继续进行声纹匹配过程。
S370:在语意信息满足预设规则时,将语意信息作为语音识别结果。
在语意信息满足预设规则时,表示该语音信息满足对其的要求,则认为其是准确,将其作为语音识别结果,从而,可获得较为准确的语音识别结果,提高语音识别准确性。
请继续参阅图4,在其中一个实施例中,在语意信息满足预设规则时,将语意信息作为语音识别结果之后,还可以包括步骤:
S381:提取待识别语音信息的声纹信息。
S382:将提取的声纹信息与本地声纹数据库中存储的各声纹信息进行比对;
S383:在提取的声纹信息与本地声纹数据库中存储的各声纹信息均匹配失败时,将提取的声纹信息存储于本地声纹数据库。
语意信息满足预设规则时,认为其较为准确,将其作为语音识别结果之后,还可提取待识别语音信息的声纹信息,将该声纹信息存储到本地声纹数据库中。具体地,在存储之前,还需要对该声纹信息与本地声纹数据库中存储的各声纹信息进行比对,也就是比对本地声纹数据库中存储的各声纹信息是否存在与提取的声纹信息匹配的,若不存在,即提取的声纹信息与本地声纹数据库中存储的各声纹信息均匹配失败,说明该提取的声纹信息对应的用户是首次与终端进行语音交互,且对应的语音信息满足预设规则,因此将提取的声纹信息存储于本地声纹数据库。
在其中一个实施例中,将声纹信息存储于本地声纹数据库的方式包括:建立提取的声纹信息的用户标识;将提取的声纹信息与对应的用户标识关联存储于本地声纹数据库,并将用户标识的优先等级初始化为初始等级。
其中,用户标识为能唯一指定用户身份的标识,可以包括数字、字母和标点符号中的至少一种的字符的字符串,用户标识与声纹信息对应,也就是实现声纹信息与说话人对应起来。在提取的声纹信息与本地声纹数据库中存储的各声纹信息均匹配失败时,表示提取的声纹信息对应的用户是首次语音交互且语意信息满足预设要求,建立提取的声纹信息的用户标识,将提取的声纹信息与对应的用户标识关联存储于本地声纹数据库,并将用户标识的优先等级初始化为初始等级,比如,初始等级为1,表示其等级是最低的等级,优先等级越高,表示该用户进行语音交互的次数越多,其对应的声纹信息越重要。
在其中一个实施例中,上述语音识别方法,还可以包括步骤:
在提取的声纹信息与本地声纹数据库中存储的声纹信息匹配成功时,将提取的声纹信息对应的用户标识的优先等级增加预设等级。
在提取的声纹信息与本地声纹数据库中存储的声纹信息匹配成功时,说明该提取的声纹信息之前已存储过了,表示提取的声纹信息对应的用户之前有与终端进行过语音交互,且对应的语意信息满足预设规则,并非首次进行语音交互,此时,将提取的声纹信息对应的用户标识的优先等级增加预设等级,以提高该用户的声纹信息的重要程度。具体地,预设等级可为1,比如,提取的声纹信息对应的用户标识的优先等级原来为1,增加预设等级1,即则优先等级变为2。
在其中一个实施例中,本地声纹数据库中还可以建立有用户标识,本地声纹数据库中存储的声纹信息与用户标识对应。
据此,从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息的方式可以包括:
根据用户标识的优先等级的预设等级顺序,从本地声纹数据库中获取一个尚未匹配过的用户标识对应的声纹信息作为待匹配声纹信息。
如此可从本地声纹数据库中有序地获取一个尚未匹配过的用户标识对应的声纹信息作为待匹配声纹信息,而不是杂乱无章进行选择,有效防止出错。
在其中一个实施例中,预设等级顺序可以包括优先等级从高到低的顺序或优先等级从低到高的顺序。
由于用户标识的优先等级越高,对应的声纹信息越重要,也就是越常用语音进行控制的用户,比如,在机车内,终端为车载电脑,一般车主进行语音控制最为频繁,优先等级越高,其重要程度越高,待识别语音信息对应的用户越有可能是车主,从而,根据优先等级从高到低的顺序进行选择待匹配声纹信息,不但可有顺序地进行声纹匹配,防止出错,而且可提高整体的识别效率。另外,预设等级顺序采用优先等级从低到高的顺序时,可有顺序地选择待匹配声纹信息,有效地进行声纹匹配,防止出错。
在其中一个实施例中,上述语音识别方法,还可以包括步骤:
在组合语意信息不满足预设规则,且本地声纹数据库中不存在尚未匹配过的声纹信息时,给出识别错误提示信息。
在组合语意信息不满足预设规则时,表示组合语意信息不准确,为了准确识别,需要进行下一个尚未匹配过的声纹信息选择,但本地声纹数据库中不存在尚未匹配过的声纹信息,说明本地声纹数据库中声纹信息均已匹配过,声纹信息匹配终止,此时,给出识别错误提示信息,以提醒用户此次语音识别失效,以便用户快速进入先一个语音控制过程。
在其中一个实施例中,在确定待识别语音信息的语意信息之后,对待识别语音信息进行分段处理之前,还包括步骤:提取语意信息的关键词。
当语意信息不符合预设语法规则、语意信息的关键词不同时存在一个词库或在本地指令库中不存在与语意信息的关键词对应的指令时,判定语意信息不满足预设规则。
每种工作模式对应有词库,即工作模式与词库对应,在判断语意信息是否符合预设规则时,首先对其是否符合预设语法规则进行判断,若符合预设语法规则,则查看语意信息的关键词是否同时在一个词库,这是由于有多种工作模式下有多种词库,关键词可能分布在各种词库中,由于一次语音只能对一种工作模式下进行与工作模式对应的相关操作,若关键词是分布在各词库中,说明该语意信息的关键词不满足预设规则。另外,本地指令库用于存储控制执行相关操作的指令,具体地,语意信息的关键词与指令关联存储,通过语意信息的关键词可找到对应的指令,后续根据指令执行相应的操作。若语意信息符合预设语法规则、且对应的关键词都在一个词库中,但是在本地指令库中不存在与之对应的指令,说明该语音信息还是无效的,无法得到对应的指令,即无法实现语音控制。比如,语意信息为“你好”,其满足预设语法规则,且存在一个词库中,但是其是一个简单的问候语,并不是一个控制语句,在本地指令库中不存在与“你好”对应的据此可执行相应操作的指令。
在本实施例中,在确定组合语音信息的组合语意信息之后,将组合语意信息作为语音识别结果之前,还包括步骤:提取组合语意信息的关键词。
当组合语意信息符合预设语法规则,组合语意信息的关键词同时存在于一个词库且在本地指令库中存在与组合语意的关键词对应的指令时,判定组合语意信息满足预设规则。
组合语意信息符合预设语法规则,组合语意信息的关键词同时存在于一个词库且在本地指令库中存在与组合语意的关键词对应的指令时,认为组合语意信息是满足预设规则的,此时将其作为语音识别结果,由于可在本地指令库可找到与组合语意的关键词对应的指令,后续即可根据该指令进行相关操作。比如,组合语音信息为“我要播放音乐”,是符合预设语法规则的,若其关键词为“播放”和“音乐”,这些关键词同时存在于与音乐模式对应的词库中,且在本地指令库中存在与“播放”对应的指令,认为“我要播放音乐”满足预设规则,可在本地指令库中找到对应的播放指令进行音乐播放。
在其中一个实施例中,确定待识别语音信息的语意信息的方式可以包括:
对待识别语音信息进行语音识别,获得语意信息。在对待识别语音信息进行识别时,可通过在终端本地进行识别,即对待识别语音信息进行语音识别,可获得语意信息,这样可提高确定语意信息的效率,从而提高整个语音识别效率。
在其中一个实施例中,确定待识别语音信息的语意信息的方式可以包括:
将待识别语音信息发送至云端服务器。
接收云端服务器对待识别语音信息进行语音识别的识别结果,将识别结果作为语意信息。
从而也可通过在云端服务器进行识别,即将待识别语音信息发送至云端服务器,云端服务器对待识别语音信息进行语音识别的识别结果,将识别结果作为语意信息,由于在云端服务器可存储大量的据以进行识别的数据,可提高识别准确性。
下面以一具体实施例对上述的语音识别方法加以具体说明,请参阅图5,为一具体实施例的语音识别方法的流程图。
首先,获取采集的识别语音信息,对其进行识别获得语意信息,或将其发送给云端服务器,接收云端服务器进行语音识别的识别结果,识别结果作为语意信息。然后,判断语意信息是否满足预设规则,在若不满足,对待识别语音信息进行分段处理,获得各语音片段,并提取各语音片段的声纹信息;在本地声纹数据库中查找是否存在尚未匹配过的声纹信息,若存在,从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息;对各语音片段的声纹信息与待匹配声纹信息进行匹配,从各语音片段的声纹信息中确定出与待匹配声纹信息匹配成功的筛选后声纹信息;将各筛选后声纹信息对应的语音片段进行组合,获得组合语音信息,并确定组合语音信息的组合语意信息;再判断组合语意信息是否满足预设规则,若满足,则将组合语意信息作为语音识别结果;后续可提取待识别语音信息的声纹信息;将提取的声纹信息与本地声纹数据库中存储的各声纹信息进行比对;在提取的声纹信息与本地声纹数据库中存储的各声纹信息均匹配失败时,将提取的声纹信息存储于本地声纹数据库。另外,在提取的声纹信息与本地声纹数据库中存储的声纹信息匹配成功时,将提取的声纹信息对应的用户标识的优先等级增加预设等级。
另外,在组合语意信息不满足预设规则时,返回在本地声纹数据库中查找是否存在尚未匹配过的声纹信息的步骤,在本地声纹数据库中存在尚未匹配过的声纹信息时,再从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息。在本地声纹数据库中不存在尚未匹配过的声纹信息时,给出识别错误提示信息。在语意信息满足预设规则时,将语意信息作为语音识别结果。
基于与上述方法相同的思想,图6示出了一个实施例中的语音识别装置,包括:
语意信息确定模块601,用于获取采集的待识别语音信息,并确定待识别语音信息的语意信息。
分段声纹获取模块602,用于在语意信息不满足预设规则时,对待识别语音信息进行分段处理,获得各语音片段,并提取各语音片段的声纹信息。
待匹配声纹信息获取模块603,用于在本地声纹数据库中存在尚未匹配过的声纹信息时,从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息。
匹配筛选模块604,用于对各语音片段的声纹信息与待匹配声纹信息进行匹配,从各语音片段的声纹信息中确定出与待匹配声纹信息匹配成功的筛选后声纹信息。
组合模块605,用于将各筛选后声纹信息对应的语音片段进行组合,获得组合语音信息,并确定组合语音信息的组合语意信息。
识别结果确定模块606,用于在组合语意信息满足预设规则时,将组合语意信息作为语音识别结果。
上述语音识别装置,首先确定待识别语音信息的语意信息,在语意信息不满足预设规则要求时,表示此时识别的语意信息可能不准确,此时,将待识别语音信息进行分段,获得各语音片段,并提取各语音片段的声纹信息,在本地声纹数据库中存在尚未匹配过的声纹信息时,从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息,为后续声纹匹配提供依据,即提供进行声纹匹配的单个用户的待匹配声纹信息,然后,对各语音片段的声纹信息与待匹配声纹信息进行匹配,从各语音片段的声纹信息中确定出与待匹配声纹信息匹配成功的筛选后声纹信息,也就是从各语音片段的声纹信息中筛选出与上述待匹配声纹信息匹配的单个用户的声纹信息,并将各筛选后声纹信息对应的语音片段进行组合,获得组合语音信息,即获得单个用户的组合语音信息,并对组合语音信息进行识别,获得组合语意信息,从而获单个用户表达的语意,为了提高识别准确性,还需对组合语意信息判断是否满足预设规则要求,满足时表示已获得了准确识别的语意,即准确获得了用户想表达的语意,此时将组合语意信息作为语音识别结果,提高语音识别准确度。
请参阅图7,在其中一个实施例中,上述语音识别装置,还包括:
返回模块607,用于在组合语意信息不满足预设规则时,返回待匹配声纹信息获取模块执行在本地声纹数据库中存在尚未匹配过的声纹信息时,从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息。
在其中一个实施例中,上述识别结果确定模块,用于在语意信息满足预设规则时,将语意信息作为语音识别结果。
在其中一个实施例中,上述识别结果确定模块,用于在语意信息满足预设规则时,将语意信息作为语音识别结果。
请参阅图8,在其中一个实施例中,上述语音识别装置,还包括:
语音声纹提取模块608,用于识别结果确定模块在语意信息满足预设规则时,将语意信息作为语音识别结果后,提取待识别语音信息的声纹信息。
声纹比对模块609,用于将提取的声纹信息与本地声纹数据库中存储的各声纹信息进行比对。
存储模块610,用于在提取的声纹信息与本地声纹数据库中存储的各声纹信息均匹配失败时,将提取的声纹信息存储于本地声纹数据库。
请参阅图9,在其中一个实施例中,存储模块包括:
标识建立模块6101,用于建立提取的声纹信息的用户标识。
初始化模块6102,用于将提取的声纹信息与对应的用户标识关联存储于本地声纹数据库,并将用户标识的优先等级初始化为初始等级。
在其中一个实施例中,上述语音识别装置,还包括等级增加模块。
等级增加模块,用于在提取的声纹信息与本地声纹数据库中存储的声纹信息匹配成功时,将提取的声纹信息对应的用户标识的优先等级增加预设等级。
在其中一个实施例中,本地声纹数据库中存储的声纹信息与用户标识对应。
上述待匹配声纹信息获取模块,用于根据用户标识的优先等级的预设等级顺序,从本地声纹数据库中获取一个尚未匹配过的用户标识对应的声纹信息作为待匹配声纹信息。
在其中一个实施例中,预设等级顺序包括优先等级从高到低的顺序或优先等级从低到高的顺序。
在其中一个实施例中,上述语音识别装置,还包括:提示模块。
提示模块,用于在组合语意信息不满足预设规则,且本地声纹数据库中不存在尚未匹配过的声纹信息时,给出识别错误提示信息。
在其中一个实施例中,上述语音识别装置,还包括:信息关键词提取模块。
信息关键词提取模,用于提取语意信息的关键词,以及提取组合语意信息的关键词。
上述分段声纹获取模块,在语意信息不符合预设语法规则、语意信息的关键词不同时存在一个词库或在本地指令库中不存在与语意信息的关键词对应的指令时,判定语意信息不满足预设规则。
上述识别结果确定模块,在组合语意信息符合预设语法规则,组合语意信息的关键词同时存在于一个词库且在本地指令库中存在与组合语意的关键词对应的指令时,判定组合语意信息满足预设规则。
在其中一个实施例中,语意信息确定模块包括:
识别模块,用于对待识别语音信息进行语音识别,获得语意信息。
或者
信息发送模块,用于将待识别语音信息发送至云端服务器。
语意信息获取模块,用于接收云端服务器对待识别语音信息进行语音识别的识别结果,将识别结果作为语意信息。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的程序可存储于一非易失性的计算机可读取存储介质中,如本发明实施例中,该程序可存储于计算机系统的存储介质中,并被该计算机系统中的至少一个处理器执行,以实现包括如上述各方法的实施例的流程。其中,的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (16)
1.一种语音识别方法,其特征在于,包括以下步骤:
获取采集的待识别语音信息,并确定所述待识别语音信息的语意信息;
在所述语意信息不满足预设规则时,对所述待识别语音信息进行分段处理,获得各语音片段,并提取各所述语音片段的声纹信息;
在本地声纹数据库中存在尚未匹配过的声纹信息时,从所述本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息;
对各所述语音片段的声纹信息与所述待匹配声纹信息进行匹配,从各所述语音片段的声纹信息中确定出与所述待匹配声纹信息匹配成功的筛选后声纹信息;
将各所述筛选后声纹信息对应的语音片段进行组合,获得组合语音信息,并确定所述组合语音信息的组合语意信息;
在所述组合语意信息满足所述预设规则时,将所述组合语意信息作为语音识别结果。
2.根据权利要求1所述的语音识别方法,其特征在于,还包括步骤:
在所述组合语意信息不满足所述预设规则时,返回在本地声纹数据库中存在尚未匹配过的声纹信息时,从所述本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息的步骤。
3.根据权利要求1所述的语音识别方法,其特征在于,还包括步骤:
在所述语意信息满足所述预设规则时,将所述语意信息作为语音识别结果;
4.根据权利要求3所述的语音识别方法,其特征在于,在所述语意信息满足所述预设规则时,将所述语意信息作为语音识别结果之后,还包括步骤:
提取所述待识别语音信息的声纹信息;
将提取的所述声纹信息与所述本地声纹数据库中存储的各声纹信息进行比对;
在提取的所述声纹信息与所述本地声纹数据库中存储的各声纹信息均匹配失败时,将提取的所述声纹信息存储于所述本地声纹数据库。
5.根据权利要求4所述的语音识别方法,其特征在于,将所述声纹信息存储于所述本地声纹数据库的方式包括:
建立提取的所述声纹信息的用户标识;
将提取的所述声纹信息与对应的所述用户标识关联存储于所述本地声纹数据库,并将所述用户标识的优先等级初始化为初始等级。
6.根据权利要求5所述的语音识别方法,其特征在于,还包括步骤:
在提取的所述声纹信息与所述本地声纹数据库中存储的声纹信息匹配成功时,将提取的所述声纹信息对应的用户标识的优先等级增加预设等级。
7.根据权利要求1所述的语音识别方法,其特征在于,所述本地声纹数据库中存储的声纹信息与用户标识对应;
从所述本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息的方式包括:
根据所述用户标识的优先等级的预设等级顺序,从所述本地声纹数据库中获取一个尚未匹配过的用户标识对应的声纹信息作为待匹配声纹信息。
8.根据权利要求1所述的语音识别方法,其特征在于,
在确定所述待 识别语音信息的语意信息之后,对所述待识别语音信息进行分段处理之前,还包括步骤:提取所述语意信息的关键词;
当所述语意信息不符合预设语法规则、所述语意信息的关键词不同时存在一个词库或在本地指令库中不存在与所述语意信息的关键词对应的指令时,判定所述语意信息不满足所述预设规则;
在确定所述组合语音信息的组合语意信息之后,将所述组合语意信息作为语音识别结果之前,还包括步骤:提取所述组合语意信息的关键词;
当所述组合语意信息符合所述预设语法规则,所述组合语意信息的关键词同时存在于一个词库且在所述本地指令库中存在与所述组合语意的关键词对应的指令时,判定所述组合语意信息满足所述预设规则。
9.一种语音识别装置,其特征在于,包括:
语意信息确定模块,用于获取采集的待识别语音信息,并确定所述待识别语音信息的语意信息;
分段声纹获取模块,用于在所述语意信息不满足预设规则时,对所述待识别语音信息进行分段处理,获得各语音片段,并提取各所述语音片段的声纹信息;
待匹配声纹信息获取模块,用于在本地声纹数据库中存在尚未匹配过的声纹信息时,从所述本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息;
匹配筛选模块,用于对各所述语音片段的声纹信息与所述待匹配声纹信息进行匹配,从各所述语音片段的声纹信息中确定出与所述待匹配声纹信息匹配成功的筛选后声纹信息;
组合模块,用于将各所述筛选后声纹信息对应的语音片段进行组合,获得组合语音信息,并确定所述组合语音信息的组合语意信息;
识别结果确定模块,用于在所述组合语意信息满足所述预设规则时,将所述组合语意信息作为语音识别结果。
10.根据权利要求9所述的语音识别装置,其特征在于,还包括:
返回模块,用于在所述组合语意信息不满足所述预设规则时,返回在本地声纹数据库中存在尚未匹配过的声纹信息时,从所述本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息的步骤。
11.根据权利要求9所述的语音识别装置,其特征在于,所述识别结果确定模块,用于在所述语意信息满足所述预设规则时,将所述语意信息作为语音识别结果。
12.根据权利要求11所述的语音识别装置,其特征在于,还包括:
语音声纹提取模块,用于提取所述待识别语音信息的声纹信息;
声纹比对模块,用于将提取的所述声纹信息与所述本地声纹数据库中存储的各声纹信息进行比对;
存储模块,用于在提取的所述声纹信息与所述本地声纹数据库中存储的各声纹信息均匹配失败时,将提取的所述声纹信息存储于所述本地声纹数据库。
13.根据权利要求12所述的语音识别装置,其特征在于,所述存储模块包括:
标识建立模块,用于建立提取的所述声纹信息的用户标识;
初始化模块,用于将提取的所述声纹信息与对应的所述用户标识关联存储于所述本地声纹数据库,并将所述用户标识的优先等级初始化为初始等级。
14.根据权利要求13所述的语音识别装置,其特征在于,还包括:
等级增加模块,用于在提取的所述声纹信息与所述本地声纹数据库中存储的声纹信息匹配成功时,将提取的所述声纹信息对应的用户标识的优先等级增加预设等级。
15.根据权利要求9所述的语音识别装置,其特征在于,所述本地声纹数据库中存储的声纹信息与用户标识对应;
所述待匹配声纹信息获取模块,用于根据所述用户标识的优先等级的预设等级顺序,从所述本地声纹数据库中获取一个尚未匹配过的用户标识对应的声纹信息作为待匹配声纹信息。
16.根据权利要求9所述的语音识别装置,其特征在于,还包括:信息关键词提取模块;
所述信息关键词提取模块,用于提取所述语意信息的关键词,以及提取所述组合语意信息的关键词;
所述分段声纹获取模块,在所述语意信息不符合预设语法规则、所述语意信息的关键词不同时存在一个词库或在本地指令库中不存在与所述语意信息的关键词对应的指令时,判定所述语意信息不满足所述预设规则;
所述识别结果确定模块,在所述组合语意信息符合所述预设语法规则,所述组合语意信息的关键词同时存在于一个词库且在所述本地指令库中存在与所述组合语意的关键词对应的指令时,判定所述组合语意信息满足所述预设规则。
Priority Applications (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710082111.5A CN108447471B (zh) | 2017-02-15 | 2017-02-15 | 语音识别方法及语音识别装置 |
JP2019539928A JP6771805B2 (ja) | 2017-02-15 | 2017-11-27 | 音声認識方法、電子機器、及びコンピュータ記憶媒体 |
KR1020197016994A KR102222317B1 (ko) | 2017-02-15 | 2017-11-27 | 음성 인식 방법, 전자 디바이스, 및 컴퓨터 저장 매체 |
PCT/CN2017/113154 WO2018149209A1 (zh) | 2017-02-15 | 2017-11-27 | 语音识别方法、电子设备以及计算机存储介质 |
EP17897119.8A EP3584786B1 (en) | 2017-02-15 | 2017-11-27 | Voice recognition method, electronic device, and computer storage medium |
US16/442,193 US11043211B2 (en) | 2017-02-15 | 2019-06-14 | Speech recognition method, electronic device, and computer storage medium |
US17/244,737 US11562736B2 (en) | 2017-02-15 | 2021-04-29 | Speech recognition method, electronic device, and computer storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710082111.5A CN108447471B (zh) | 2017-02-15 | 2017-02-15 | 语音识别方法及语音识别装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108447471A CN108447471A (zh) | 2018-08-24 |
CN108447471B true CN108447471B (zh) | 2021-09-10 |
Family
ID=63169147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710082111.5A Active CN108447471B (zh) | 2017-02-15 | 2017-02-15 | 语音识别方法及语音识别装置 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11043211B2 (zh) |
EP (1) | EP3584786B1 (zh) |
JP (1) | JP6771805B2 (zh) |
KR (1) | KR102222317B1 (zh) |
CN (1) | CN108447471B (zh) |
WO (1) | WO2018149209A1 (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108447471B (zh) | 2017-02-15 | 2021-09-10 | 腾讯科技(深圳)有限公司 | 语音识别方法及语音识别装置 |
CN107919130B (zh) * | 2017-11-06 | 2021-12-17 | 百度在线网络技术(北京)有限公司 | 基于云端的语音处理方法和装置 |
CN110770820A (zh) * | 2018-08-30 | 2020-02-07 | 深圳市大疆创新科技有限公司 | 语音识别方法、装置、拍摄系统和计算机可读存储介质 |
CN110970020A (zh) * | 2018-09-29 | 2020-04-07 | 成都启英泰伦科技有限公司 | 一种利用声纹提取有效语音信号的方法 |
CN109841216B (zh) * | 2018-12-26 | 2020-12-15 | 珠海格力电器股份有限公司 | 语音数据的处理方法、装置和智能终端 |
CN111756603B (zh) * | 2019-03-26 | 2023-05-26 | 北京京东尚科信息技术有限公司 | 智能家居系统的控制方法、装置、电子设备和可读介质 |
CN110163630B (zh) * | 2019-04-15 | 2024-04-05 | 中国平安人寿保险股份有限公司 | 产品监管方法、装置、计算机设备及存储介质 |
CN112218412A (zh) * | 2019-07-10 | 2021-01-12 | 上汽通用汽车有限公司 | 基于语音识别的车内氛围灯控制系统和控制方法 |
CN110335612A (zh) * | 2019-07-11 | 2019-10-15 | 招商局金融科技有限公司 | 基于语音识别的会议记录生成方法、装置及存储介质 |
CN110853666B (zh) * | 2019-12-17 | 2022-10-04 | 科大讯飞股份有限公司 | 一种说话人分离方法、装置、设备及存储介质 |
CN110970027B (zh) * | 2019-12-25 | 2023-07-25 | 博泰车联网科技(上海)股份有限公司 | 一种语音识别方法、装置、计算机存储介质及系统 |
CN112102840B (zh) * | 2020-09-09 | 2024-05-03 | 中移(杭州)信息技术有限公司 | 语义识别方法、装置、终端及存储介质 |
CN112164402B (zh) * | 2020-09-18 | 2022-07-12 | 广州小鹏汽车科技有限公司 | 车辆语音交互方法、装置、服务器和计算机可读存储介质 |
CN112599136A (zh) * | 2020-12-15 | 2021-04-02 | 江苏惠通集团有限责任公司 | 基于声纹识别的语音识别方法及装置、存储介质、终端 |
CN112908299B (zh) * | 2020-12-29 | 2023-08-29 | 平安银行股份有限公司 | 客户需求信息识别方法、装置、电子设备及存储介质 |
CN112784734A (zh) * | 2021-01-21 | 2021-05-11 | 北京百度网讯科技有限公司 | 一种视频识别方法、装置、电子设备和存储介质 |
CN113643700B (zh) * | 2021-07-27 | 2024-02-27 | 广州市威士丹利智能科技有限公司 | 一种智能语音开关的控制方法及系统 |
CN114611523A (zh) * | 2022-01-25 | 2022-06-10 | 北京探境科技有限公司 | 一种命令采集方法、装置和智能设备 |
CN116978359A (zh) * | 2022-11-30 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 音素识别方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201105415D0 (en) * | 2011-03-30 | 2011-05-11 | Toshiba Res Europ Ltd | A speech processing system and method |
US9098467B1 (en) * | 2012-12-19 | 2015-08-04 | Rawles Llc | Accepting voice commands based on user identity |
CN106098068A (zh) * | 2016-06-12 | 2016-11-09 | 腾讯科技(深圳)有限公司 | 一种声纹识别方法和装置 |
Family Cites Families (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5384892A (en) * | 1992-12-31 | 1995-01-24 | Apple Computer, Inc. | Dynamic language model for speech recognition |
US6424946B1 (en) * | 1999-04-09 | 2002-07-23 | International Business Machines Corporation | Methods and apparatus for unknown speaker labeling using concurrent speech recognition, segmentation, classification and clustering |
US6434520B1 (en) * | 1999-04-16 | 2002-08-13 | International Business Machines Corporation | System and method for indexing and querying audio archives |
JP3662780B2 (ja) * | 1999-07-16 | 2005-06-22 | 日本電気株式会社 | 自然言語を用いた対話システム |
US6748356B1 (en) * | 2000-06-07 | 2004-06-08 | International Business Machines Corporation | Methods and apparatus for identifying unknown speakers using a hierarchical tree structure |
JP2004094158A (ja) * | 2002-09-04 | 2004-03-25 | Ntt Comware Corp | 母音検索を利用した声紋認証装置 |
GB2407657B (en) * | 2003-10-30 | 2006-08-23 | Vox Generation Ltd | Automated grammar generator (AGG) |
JP4346571B2 (ja) * | 2005-03-16 | 2009-10-21 | 富士通株式会社 | 音声認識システム、音声認識方法、及びコンピュータプログラム |
US20150381801A1 (en) * | 2005-04-21 | 2015-12-31 | Verint Americas Inc. | Systems, methods, and media for disambiguating call data to determine fraud |
JP2009086132A (ja) * | 2007-09-28 | 2009-04-23 | Pioneer Electronic Corp | 音声認識装置、音声認識装置を備えたナビゲーション装置、音声認識装置を備えた電子機器、音声認識方法、音声認識プログラム、および記録媒体 |
CA2717992C (en) * | 2008-03-12 | 2018-01-16 | E-Lane Systems Inc. | Speech understanding method and system |
US8537978B2 (en) * | 2008-10-06 | 2013-09-17 | International Business Machines Corporation | Method and system for using conversational biometrics and speaker identification/verification to filter voice streams |
US8315866B2 (en) * | 2009-05-28 | 2012-11-20 | International Business Machines Corporation | Generating representations of group interactions |
KR20110036385A (ko) * | 2009-10-01 | 2011-04-07 | 삼성전자주식회사 | 사용자 의도 분석 장치 및 방법 |
DE102009051508B4 (de) * | 2009-10-30 | 2020-12-03 | Continental Automotive Gmbh | Vorrichtung, System und Verfahren zur Sprachdialogaktivierung und -führung |
JP2013005195A (ja) * | 2011-06-16 | 2013-01-07 | Konica Minolta Holdings Inc | 情報処理システム |
JP5677901B2 (ja) * | 2011-06-29 | 2015-02-25 | みずほ情報総研株式会社 | 議事録作成システム及び議事録作成方法 |
JP6023434B2 (ja) * | 2012-02-09 | 2016-11-09 | 岑生 藤岡 | 通信装置及び認証方法 |
CN102760434A (zh) * | 2012-07-09 | 2012-10-31 | 华为终端有限公司 | 一种声纹特征模型更新方法及终端 |
US9460722B2 (en) * | 2013-07-17 | 2016-10-04 | Verint Systems Ltd. | Blind diarization of recorded calls with arbitrary number of speakers |
KR20150093482A (ko) * | 2014-02-07 | 2015-08-18 | 한국전자통신연구원 | 화자 분할 기반 다자간 자동 통번역 운용 시스템 및 방법과 이를 지원하는 장치 |
CN103888606A (zh) * | 2014-03-11 | 2014-06-25 | 上海乐今通信技术有限公司 | 移动终端及其解锁方法 |
CN104217152A (zh) * | 2014-09-23 | 2014-12-17 | 陈包容 | 一种移动终端在待机状态下进入应用程序的实现方法和装置 |
KR102097710B1 (ko) * | 2014-11-20 | 2020-05-27 | 에스케이텔레콤 주식회사 | 대화 분리 장치 및 이에서의 대화 분리 방법 |
JP6669162B2 (ja) * | 2015-03-31 | 2020-03-18 | ソニー株式会社 | 情報処理装置、制御方法、およびプログラム |
CN106297775B (zh) * | 2015-06-02 | 2019-11-19 | 富泰华工业(深圳)有限公司 | 语音识别装置及方法 |
JP6739907B2 (ja) * | 2015-06-18 | 2020-08-12 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 機器特定方法、機器特定装置及びプログラム |
CN106487514A (zh) * | 2015-09-01 | 2017-03-08 | 北京三星通信技术研究有限公司 | 语音通信加密方法、解密方法及其装置 |
US10269372B1 (en) * | 2015-09-24 | 2019-04-23 | United Services Automobile Association (Usaa) | System for sound analysis and recognition |
US10049666B2 (en) * | 2016-01-06 | 2018-08-14 | Google Llc | Voice recognition system |
CN105931644B (zh) * | 2016-04-15 | 2019-10-25 | Oppo广东移动通信有限公司 | 一种语音识别方法及移动终端 |
CN108447471B (zh) | 2017-02-15 | 2021-09-10 | 腾讯科技(深圳)有限公司 | 语音识别方法及语音识别装置 |
US10147438B2 (en) * | 2017-03-02 | 2018-12-04 | International Business Machines Corporation | Role modeling in call centers and work centers |
US10347244B2 (en) * | 2017-04-21 | 2019-07-09 | Go-Vivace Inc. | Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response |
US10403288B2 (en) * | 2017-10-17 | 2019-09-03 | Google Llc | Speaker diarization |
US10636427B2 (en) * | 2018-06-22 | 2020-04-28 | Microsoft Technology Licensing, Llc | Use of voice recognition to generate a transcript of conversation(s) |
-
2017
- 2017-02-15 CN CN201710082111.5A patent/CN108447471B/zh active Active
- 2017-11-27 JP JP2019539928A patent/JP6771805B2/ja active Active
- 2017-11-27 EP EP17897119.8A patent/EP3584786B1/en active Active
- 2017-11-27 WO PCT/CN2017/113154 patent/WO2018149209A1/zh unknown
- 2017-11-27 KR KR1020197016994A patent/KR102222317B1/ko active IP Right Grant
-
2019
- 2019-06-14 US US16/442,193 patent/US11043211B2/en active Active
-
2021
- 2021-04-29 US US17/244,737 patent/US11562736B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201105415D0 (en) * | 2011-03-30 | 2011-05-11 | Toshiba Res Europ Ltd | A speech processing system and method |
US9098467B1 (en) * | 2012-12-19 | 2015-08-04 | Rawles Llc | Accepting voice commands based on user identity |
CN106098068A (zh) * | 2016-06-12 | 2016-11-09 | 腾讯科技(深圳)有限公司 | 一种声纹识别方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
US20190295534A1 (en) | 2019-09-26 |
EP3584786B1 (en) | 2021-02-24 |
EP3584786A1 (en) | 2019-12-25 |
US20210249000A1 (en) | 2021-08-12 |
JP6771805B2 (ja) | 2020-10-21 |
US11562736B2 (en) | 2023-01-24 |
CN108447471A (zh) | 2018-08-24 |
KR20190082900A (ko) | 2019-07-10 |
JP2020505643A (ja) | 2020-02-20 |
WO2018149209A1 (zh) | 2018-08-23 |
US11043211B2 (en) | 2021-06-22 |
KR102222317B1 (ko) | 2021-03-03 |
EP3584786A4 (en) | 2019-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108447471B (zh) | 语音识别方法及语音识别装置 | |
CN106683680B (zh) | 说话人识别方法及装置、计算机设备及计算机可读介质 | |
CN105931644B (zh) | 一种语音识别方法及移动终端 | |
US9390711B2 (en) | Information recognition method and apparatus | |
CN111797632B (zh) | 信息处理方法、装置及电子设备 | |
KR100655491B1 (ko) | 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치 | |
WO2017162053A1 (zh) | 一种身份认证的方法和装置 | |
CN111445898B (zh) | 语种识别方法、装置、电子设备和存储介质 | |
CN109036471B (zh) | 语音端点检测方法及设备 | |
JP2020004382A (ja) | 音声対話方法及び装置 | |
CN113220839A (zh) | 一种意图识别方法、电子设备及计算机可读存储介质 | |
CN113112992B (zh) | 一种语音识别方法、装置、存储介质和服务器 | |
CN113436614A (zh) | 语音识别方法、装置、设备、系统及存储介质 | |
CN111898363B (zh) | 文本长难句的压缩方法、装置、计算机设备及存储介质 | |
CN113051384A (zh) | 基于对话的用户画像抽取方法及相关装置 | |
CN111680514A (zh) | 信息处理和模型训练方法、装置、设备及存储介质 | |
CN110895938B (zh) | 语音校正系统及语音校正方法 | |
CN112037772A (zh) | 基于多模态的响应义务检测方法、系统及装置 | |
CN111785259A (zh) | 信息处理方法、装置及电子设备 | |
CN112820323B (zh) | 基于客户语音进行响应队列优先级调整方法及系统 | |
CN111933153B (zh) | 一种语音分割点的确定方法和装置 | |
CN117334201A (zh) | 一种声音识别方法、装置、设备以及介质 | |
CN116468046A (zh) | 基于人工智能的语义提取方法、装置、计算机设备及介质 | |
CN116259335A (zh) | 生物验证的语音识别方法、装置、计算机设备和存储介质 | |
CN115206300A (zh) | 热词权重动态配置方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |