CN113362818A - 一种基于人工智能的语音交互指导系统及方法 - Google Patents
一种基于人工智能的语音交互指导系统及方法 Download PDFInfo
- Publication number
- CN113362818A CN113362818A CN202110501516.4A CN202110501516A CN113362818A CN 113362818 A CN113362818 A CN 113362818A CN 202110501516 A CN202110501516 A CN 202110501516A CN 113362818 A CN113362818 A CN 113362818A
- Authority
- CN
- China
- Prior art keywords
- module
- voice
- text
- database
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 32
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 20
- 238000000034 method Methods 0.000 title claims abstract description 14
- 238000013519 translation Methods 0.000 claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 35
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 238000007781 pre-processing Methods 0.000 claims abstract description 20
- 238000004891 communication Methods 0.000 claims description 20
- 230000005236 sound signal Effects 0.000 claims description 18
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 230000006870 function Effects 0.000 abstract description 9
- 230000002452 interceptive effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及语音识别技术领域,更具体而言,涉及一种基于人工智能的语音交互指导系统及方法,包括MIC语音输入模块、预处理模块、特征提取模块、对比匹配模块、声学数据库、文本数据库、处理模块和翻译模块,MIC语音输入模块用于接收语音信号,预处理模块用于对接收的语音信号进行处理,特征提取模块用于提取语音信号特征,对比匹配模块用于将提取的语音信号特征与声学数据库、文本数据库进行对比、匹配;本发明大大的增加了请求数据处理速度,而且具备搜索功能,可通过广域网进行搜索,提高了请求数据的处理范围,具备翻译功能,能够在语言不通的时候,对音频以及需要输出的文本进行翻译,大大的提高了整个人工智能交互指导系统的功能性。
Description
技术领域
本发明涉及语音识别技术领域,更具体而言,涉及一种基于人工智能的语音交互指导系统及方法。
背景技术
基于人工智能的语音交互指导系统是一种可通过人工语音进行控制产品工作或者指导人员学习的系统,属于常用的语音交互系统,相比传统的功能按键交互的方式语音交互系统更加具备了便捷性;
现有的基于人工智能的语音交互指导系统存在着一定的不足之处有待改善,首先,现有的基于人工智能的语音交互指导系统在接收音频信号的时候,音频请求和文本请求全部通过一个数据库进行处理,导致严重影响请求数据处理速度,而且不具备搜索功能,无法通过广域网进行搜索,请求数据处理范围小;其次,现有的基于人工智能的语音交互指导系统不具备翻译功能,当语言不通的时候,无法对音频信号和数字信号进行翻译,功能性差。
因此,有必要对现有技术进行改进。
发明内容
为了克服现有技术中存在的不足,提供一种具备搜索功能和翻译功能的基于人工智能的语音交互指导系统及方法。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于人工智能的语音交互指导系统,包括MIC语音输入模块、预处理模块、特征提取模块、对比匹配模块、声学数据库、文本数据库和处理模块,MIC语音输入模块、预处理模块、特征提取模块、对比匹配模块、处理模块依次连接,声学数据库和文本数据库均与对比匹配模块连接;
所述MIC语音输入模块用于接收语音信号;
所述预处理模块用于对MIC语音输入模块接收的语音信号进行预处理;
所述特征提取模块用于对预处理后的语音信号进行特征提取;
所述对比匹配模块用于将提取的语音信号特征与声学数据库、文本数据库进行对比、匹配;
所述声学数据库用于储存音频数据;
所述文本数据库用于储存文本数据;
所述处理模块用于处理输出的音频数据和文本数据。
进一步的,还包括翻译模块,翻译模块与处理模块连接,所述翻译模块包括文本接收模块、音频接收模块、IOT通讯模块和翻译服务器,文本接收模块和音频接收模块均与IOT通讯模块连接,IOT通讯模块与翻译服务器连接。
进一步的,所述翻译模块连接有语音输出模块和文本输出模块。
进一步的,所述声学数据库和文本数据库均包括搜索引擎,所述特征提取模块与声学数据库、文本数据库之间均通过人工神经网络通信连接。
一种基于人工智能的语音交互指导方法,包括:
S1:MIC语音输入模块接收到音频信号,通过预处理模块预处理后传输至特征提取模块;
S2:特征提取模块提取音频数据中的特征,传输至对比匹配模块,同时通过人工神经网络传输至声学数据库和文本数据库;
S3:对比匹配模块根据接收的数据,通过声学数据库和文本数据库进行对比匹配信号,同时配合搜索引擎搜索音频信号需求信息;
S4:处理后的数据通过处理模块转换为电信号,传输至翻译模块;
S5:翻译模块将数据翻译后的文本信号以及音频信号分别通过语音输出模块和文本输出模块输出。
进一步的,所述S5中,数据翻译模块具体处理步骤包括:
S51:文本接收模块接收处理模块处理后的文本数据;
S52:音频接收模块接收处理模块处理后的音频信息;
S53:文本数据和音频数据通过IOT通讯模块传输至翻译服务器;
S54:翻译服务器将文本数据和音频数据翻译后通过IOT通讯模块转回到语音交互指导系统,文本信息通过文本输出模块输出,音频数据通过语音输出模块输出。
进一步的,所述S1中,预处理包括:
S11、端点检测,通过区分不同段的信号来达到区划语音的开头与结尾,在语音识别之前设置双门的门限λ,然后分别计算每个时刻的语音能量,若该能量大于门限阈值,则新生成门限序列为1,反之则为0,从而得到门限序列后,将其点乘原始语音序列,得到有效语音序列,语音能量的计算公式为:
λ=10log(∑χi2),
其中χi为第i点的语音广义分贝值;
S12、预加重,在语音信息的处理阶段预先添加与原始语音高频信号,通过叠加之后,原始语音信息在高频和低频段的能量相当,使得识别效率明显提升;
S13、去加重,采用相反的负能量信号将添加的高频成分去掉,从而还原原来的信号分布,有效提高声音信号的信噪比;
S14、声道转换。
本发明与现有技术相比所具有的有益效果为:
1、本发明将声学数据库与文本数据库分开设置,在接收音频信号的时候,音频请求和文本请求能够分开通过声学数据库和文本数据库进行处理,大大的增加了请求数据处理速度,而且具备搜索功能,可通过广域网进行搜索,提高了请求数据的处理范围;
2、本发明通过设置翻译模块,文本接收模块接收处理模块处理后的文本数据,音频接收模块接收处理模块处理后的音频信息,文本数据和音频数据通过IOT通讯模块传输至翻译服务器,翻译服务器将文本数据和音频数据翻译后通过IOT通讯模块转回到语音交互指导系统,文本信息通过LCD输出,音频数据通过语音输出推动扬声器输,具备翻译功能,能够在语言不通的时候,对音频以及需要输出的文本进行翻译,大大的提高了整个人工智能交互指导系统的功能性。
附图说明
下面将通过附图对本发明的具体实施方式做进一步的详细说明。
图1为本发明语音交互系统的系统框图;
图2是本发明翻译模块的系统框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
如图1至图2所示,一种基于人工智能的语音交互指导系统,包括MIC语音输入模块、预处理模块、特征提取模块、对比匹配模块、声学数据库、文本数据库、处理模块和翻译模块,MIC语音输入模块、预处理模块、特征提取模块、对比匹配模块、处理模块和翻译模块依次连接,声学数据库和文本数据库均与对比匹配模块连接;
所述MIC语音输入模块用于接收语音信号;
所述预处理模块用于对MIC语音输入模块接收的语音信号进行预处理;
所述特征提取模块用于对预处理后的语音信号进行特征提取;
所述对比匹配模块用于将提取的语音信号特征与声学数据库、文本数据库进行对比、匹配;
所述声学数据库用于储存音频数据;
所述文本数据库用于储存文本数据;
所述处理模块用于处理输出的音频数据和文本数据。
所述翻译模块包括文本接收模块、音频接收模块、IOT通讯模块和翻译服务器,文本接收模块和音频接收模块均与IOT通讯模块连接,IOT通讯模块与翻译服务器连接。
所述翻译模块连接有语音输出模块和文本输出模块,语音输出模块包括功放和扬声器,所述文本输出模块包括LCD屏幕。
所述声学数据库和文本数据库均包括搜索引擎,所述特征提取模块与声学数据库、文本数据库之间均通过人工神经网络通信连接。
一种基于人工智能的语音交互指导方法,其特征在于:包括:
S1:MIC语音输入模块接收到音频信号,通过预处理模块预处理后传输至特征提取模块,预处理包括:
S11、端点检测,通过区分不同段的信号来达到区划语音的开头与结尾,在语音识别之前设置双门的门限λ,然后分别计算每个时刻的语音能量,若该能量大于门限阈值,则新生成门限序列为1,反之则为0,从而得到门限序列后,将其点乘原始语音序列,得到有效语音序列,语音能量的计算公式为:
λ=10log(∑χi2),
其中χi为第i点的语音广义分贝值;
S12、预加重,在语音信息的处理阶段预先添加与原始语音高频信号,通过叠加之后,原始语音信息在高频和低频段的能量相当,使得识别效率明显提升;
S13、去加重,采用相反的负能量信号将添加的高频成分去掉,从而还原原来的信号分布,有效提高声音信号的信噪比;
S14、声道转换。
S2:特征提取模块提取音频数据中的特征,传输至对比匹配模块,同时通过人工神经网络传输至声学数据库和文本数据库;
S3:对比匹配模块根据接收的数据,通过声学数据库和文本数据库进行对比匹配信号,同时配合搜索引擎搜索音频信号需求信息;
S4:处理后的数据通过处理模块转换为电信号,传输至翻译模块;
S5:翻译模块将数据翻译后的文本信号以及音频信号分别通过语音输出模块和文本输出模块输出;
具体处理步骤包括:
S51:文本接收模块接收处理模块处理后的文本数据;
S52:音频接收模块接收处理模块处理后的音频信息;
S53:文本数据和音频数据通过IOT通讯模块传输至翻译服务器;
S54:翻译服务器将文本数据和音频数据翻译后通过IOT通讯模块转回到语音交互指导系统,文本信息通过文本输出模块输出,音频数据通过语音输出模块输出。
上面仅对本发明的较佳实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化,各种变化均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于人工智能的语音交互指导系统,其特征在于:包括MIC语音输入模块、预处理模块、特征提取模块、对比匹配模块、声学数据库、文本数据库和处理模块,MIC语音输入模块、预处理模块、特征提取模块、对比匹配模块、处理模块依次连接,声学数据库和文本数据库均与对比匹配模块连接;
所述MIC语音输入模块用于接收语音信号;
所述预处理模块用于对MIC语音输入模块接收的语音信号进行预处理;
所述特征提取模块用于对预处理后的语音信号进行特征提取;
所述对比匹配模块用于将提取的语音信号特征与声学数据库、文本数据库进行对比、匹配;
所述声学数据库用于储存音频数据;
所述文本数据库用于储存文本数据;
所述处理模块用于处理输出的音频数据和文本数据。
2.根据权利要求1所述的一种基于人工智能的语音交互指导系统,其特征在于:还包括翻译模块,翻译模块与处理模块连接,所述翻译模块包括文本接收模块、音频接收模块、IOT通讯模块和翻译服务器,文本接收模块和音频接收模块均与IOT通讯模块连接,IOT通讯模块与翻译服务器连接。
3.根据权利要求1所述的一种基于人工智能的语音交互指导系统,其特征在于:所述翻译模块连接有语音输出模块和文本输出模块。
4.根据权利要求1所述的一种基于人工智能的语音交互指导系统,其特征在于:所述声学数据库和文本数据库均包括搜索引擎,所述特征提取模块与声学数据库、文本数据库之间均通过人工神经网络通信连接。
5.一种基于人工智能的语音交互指导方法,其特征在于:包括:
S1:MIC语音输入模块接收到音频信号,通过预处理模块预处理后传输至特征提取模块;
S2:特征提取模块提取音频数据中的特征,传输至对比匹配模块,同时通过人工神经网络传输至声学数据库和文本数据库;
S3:对比匹配模块根据接收的数据,通过声学数据库和文本数据库进行对比匹配信号,同时配合搜索引擎搜索音频信号需求信息;
S4:处理后的数据通过处理模块转换为电信号,传输至翻译模块;
S5:翻译模块将数据翻译后的文本信号以及音频信号分别通过语音输出模块和文本输出模块输出。
6.根据权利要求5所述的一种基于人工智能的语音交互指导方法,其特征在于:所述S5中,数据翻译模块具体处理步骤包括:
S51:文本接收模块接收处理模块处理后的文本数据;
S52:音频接收模块接收处理模块处理后的音频信息;
S53:文本数据和音频数据通过IOT通讯模块传输至翻译服务器;
S54:翻译服务器将文本数据和音频数据翻译后通过IOT通讯模块转回到语音交互指导系统,文本信息通过文本输出模块输出,音频数据通过语音输出模块输出。
7.根据权利要求5所述的一种基于人工智能的语音交互指导方法,其特征在于:所述S1中,预处理包括:
S11、端点检测,通过区分不同段的信号来达到区划语音的开头与结尾,在语音识别之前设置双门的门限λ,然后分别计算每个时刻的语音能量,若该能量大于门限阈值,则新生成门限序列为1,反之则为0,从而得到门限序列后,将其点乘原始语音序列,得到有效语音序列,语音能量的计算公式为:
λ=10log(∑χi2),
其中χi为第i点的语音广义分贝值;
S12、预加重,在语音信息的处理阶段预先添加与原始语音高频信号,通过叠加之后,原始语音信息在高频和低频段的能量相当,使得识别效率明显提升;
S13、去加重,采用相反的负能量信号将添加的高频成分去掉,从而还原原来的信号分布,有效提高声音信号的信噪比;
S14、声道转换。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110501516.4A CN113362818A (zh) | 2021-05-08 | 2021-05-08 | 一种基于人工智能的语音交互指导系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110501516.4A CN113362818A (zh) | 2021-05-08 | 2021-05-08 | 一种基于人工智能的语音交互指导系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113362818A true CN113362818A (zh) | 2021-09-07 |
Family
ID=77525904
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110501516.4A Pending CN113362818A (zh) | 2021-05-08 | 2021-05-08 | 一种基于人工智能的语音交互指导系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113362818A (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1770747A (zh) * | 2005-10-17 | 2006-05-10 | 陈汉奕 | 基于网络的多语种语音、文字信息即时互译通信系统及方法 |
CN101957814A (zh) * | 2009-07-16 | 2011-01-26 | 刘越 | 一种即时语音翻译系统和翻译方法 |
CN105260416A (zh) * | 2015-09-25 | 2016-01-20 | 百度在线网络技术(北京)有限公司 | 一种基于语音识别的搜索方法及装置 |
CN106653015A (zh) * | 2016-10-28 | 2017-05-10 | 海南双猴科技有限公司 | 一种机器人语音识别方法及装置 |
CN108090052A (zh) * | 2018-01-05 | 2018-05-29 | 深圳市沃特沃德股份有限公司 | 语音翻译方法和装置 |
CN108447486A (zh) * | 2018-02-28 | 2018-08-24 | 科大讯飞股份有限公司 | 一种语音翻译方法及装置 |
CN108710616A (zh) * | 2018-05-23 | 2018-10-26 | 科大讯飞股份有限公司 | 一种语音翻译方法及装置 |
CN110728976A (zh) * | 2018-06-30 | 2020-01-24 | 华为技术有限公司 | 语音识别的方法、装置及系统 |
CN111597825A (zh) * | 2020-05-13 | 2020-08-28 | 北京字节跳动网络技术有限公司 | 语音翻译方法、装置、可读介质及电子设备 |
CN111783481A (zh) * | 2020-06-30 | 2020-10-16 | 歌尔科技有限公司 | 耳机控制方法、翻译方法、耳机和云端服务器 |
CN111862940A (zh) * | 2020-07-15 | 2020-10-30 | 百度在线网络技术(北京)有限公司 | 基于耳机实现的翻译方法、装置、系统、设备和存储介质 |
-
2021
- 2021-05-08 CN CN202110501516.4A patent/CN113362818A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1770747A (zh) * | 2005-10-17 | 2006-05-10 | 陈汉奕 | 基于网络的多语种语音、文字信息即时互译通信系统及方法 |
CN101957814A (zh) * | 2009-07-16 | 2011-01-26 | 刘越 | 一种即时语音翻译系统和翻译方法 |
CN105260416A (zh) * | 2015-09-25 | 2016-01-20 | 百度在线网络技术(北京)有限公司 | 一种基于语音识别的搜索方法及装置 |
CN106653015A (zh) * | 2016-10-28 | 2017-05-10 | 海南双猴科技有限公司 | 一种机器人语音识别方法及装置 |
CN108090052A (zh) * | 2018-01-05 | 2018-05-29 | 深圳市沃特沃德股份有限公司 | 语音翻译方法和装置 |
CN108447486A (zh) * | 2018-02-28 | 2018-08-24 | 科大讯飞股份有限公司 | 一种语音翻译方法及装置 |
CN108710616A (zh) * | 2018-05-23 | 2018-10-26 | 科大讯飞股份有限公司 | 一种语音翻译方法及装置 |
CN110728976A (zh) * | 2018-06-30 | 2020-01-24 | 华为技术有限公司 | 语音识别的方法、装置及系统 |
CN111597825A (zh) * | 2020-05-13 | 2020-08-28 | 北京字节跳动网络技术有限公司 | 语音翻译方法、装置、可读介质及电子设备 |
CN111783481A (zh) * | 2020-06-30 | 2020-10-16 | 歌尔科技有限公司 | 耳机控制方法、翻译方法、耳机和云端服务器 |
CN111862940A (zh) * | 2020-07-15 | 2020-10-30 | 百度在线网络技术(北京)有限公司 | 基于耳机实现的翻译方法、装置、系统、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11948552B2 (en) | Speech processing method, apparatus, electronic device, and computer-readable storage medium | |
CN105261356A (zh) | 一种语音识别系统及方法 | |
CN111461173B (zh) | 一种基于注意力机制的多说话人聚类系统及方法 | |
CN107845381A (zh) | 一种机器人语义处理的方法及系统 | |
CN115019776A (zh) | 语音识别模型及其训练方法、语音识别方法及装置 | |
CN110544482B (zh) | 一种单通道语音分离系统 | |
CN115602165B (zh) | 基于金融系统的数字员工智能系统 | |
CN111145746A (zh) | 一种基于人工智能语音的人机交互方法 | |
CN108399913A (zh) | 高鲁棒性音频指纹识别方法及系统 | |
WO2022134025A1 (zh) | 一种离线语音识别方法和装置、电子设备和可读存储介质 | |
CN113362818A (zh) | 一种基于人工智能的语音交互指导系统及方法 | |
CN116597856B (zh) | 基于蛙人对讲的语音质量增强方法 | |
CN112927723A (zh) | 基于深度神经网络的高性能抗噪语音情感识别方法 | |
Zhang et al. | An overview of speech recognition technology | |
CN112257484B (zh) | 一种基于深度学习的多声源测向方法及系统 | |
CN111627448A (zh) | 实现基于语音大数据的审讯与谈话控制系统及其方法 | |
CN107825433A (zh) | 一种儿童语音指令识别的卡片机器人 | |
CN115273828A (zh) | 语音意图识别模型的训练方法、装置及电子设备 | |
CN111816187A (zh) | 复杂环境下基于深层神经网络的语音特征映射方法 | |
CN116978384B (zh) | 一种公安一体化大数据管理系统 | |
CN116230012B (zh) | 一种基于元数据对比学习预训练的两阶段异音检测方法 | |
CN114155856A (zh) | 一种日语语音识别系统及识别方法 | |
CN112562706B (zh) | 一种基于时间潜在域特定说话人信息的目标语音提取方法 | |
Jiang et al. | Background speech synchronous recognition method of e-commerce platform based on Hidden Markov model | |
CN115171716B (zh) | 一种基于空间特征聚类的连续语音分离方法、系统及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210907 |
|
RJ01 | Rejection of invention patent application after publication |