CN109087646B - 一种导入人工智能超深度学习用于语音图像识别的方法 - Google Patents
一种导入人工智能超深度学习用于语音图像识别的方法 Download PDFInfo
- Publication number
- CN109087646B CN109087646B CN201811249231.0A CN201811249231A CN109087646B CN 109087646 B CN109087646 B CN 109087646B CN 201811249231 A CN201811249231 A CN 201811249231A CN 109087646 B CN109087646 B CN 109087646B
- Authority
- CN
- China
- Prior art keywords
- module
- image
- cortex
- instruction
- processor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 18
- 238000013135 deep learning Methods 0.000 title claims abstract description 16
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 230000005540 biological transmission Effects 0.000 claims abstract description 5
- 238000012790 confirmation Methods 0.000 claims description 12
- DSGKWFGEUBCEIE-UHFFFAOYSA-N (2-carbonochloridoylphenyl) acetate Chemical compound CC(=O)OC1=CC=CC=C1C(Cl)=O DSGKWFGEUBCEIE-UHFFFAOYSA-N 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 230000010365 information processing Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000001454 recorded image Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
- H04L67/025—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP] for remote control or remote monitoring of applications
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种导入人工智能超深度学习用于语音图像识别的方法,包括触摸屏、图像识别模块、语音识别模块和CORTEX‑A75处理器,述触摸屏具有摄像头、麦克风、程序储存器、随机储存器数据、图像识别模块、语音识别模块和CORTEX‑A75处理器,所述图像识别模块包括摄像控制模块和图像对比模块,所述摄像控制模块包括图像处理模块和图片传输模块,所述语音识别模块包括预处理系统、特征提取系统和模式匹配系统,且模式匹配系统内具有语言模型库。人员通过本发明快速识别相应信息,且再识别过程中,可对录入的语音信号进行减噪滤波处理,提高识别的精确性,能实现数据不断更新和上传云端,在扩大检索的范围和多样化的同时,实现数据共享。
Description
技术领域
本发明属于语音图像识别技术领域,具体涉及一种导入人工智能超深度学习用于语音图像识别的方法。
背景技术
在图像语音识别过程中,录入的图像或语音的资源存在在准确性上或资源检索范围上都存在较大的局限性,在没有实现新数据创建下,且不存在大资源的共享学习更新,在语音识别上没有对语音信号实现优化降噪滤波的处理,且因数据的局限,不能识别可能已出现的数据资源或将不相关的信号数据因未优化处理识别出错误的位置信息。
发明内容
本发明的目的在于提供一种导入人工智能超深度学习用于语音图像识别的方法,以解决上述背景技术中提出的在图像语音识别过程中,录入的图像或语音的资源存在在准确性上或资源检索范围上都存在较大的局限性,在没有实现新数据创建下,且不存在大资源的共享学习更新,在语音识别上没有对语音信号实现优化降噪滤波的处理,且因数据的局限,不能识别可能已出现的数据资源或将不相关的信号数据因未优化处理识别出错误的位置信息。
为实现上述目的,本发明提供如下技术方案:一种导入人工智能超深度学习用于语音图像识别的模块,包括触摸屏、图像识别模块、语音识别模块和CORTEX-A75处理器,所述触摸屏具有摄像头、麦克风、程序储存器、随机储存器数据、图像识别模块、语音识别模块和CORTEX-A75处理器,所述图像识别模块包括摄像控制模块和图像对比模块,所述摄像控制模块包括图像处理模块和图片传输模块,所述语音识别模块包括预处理系统、特征提取系统和模式匹配系统,且模式匹配系统内具有语言模型库,所述预处理系统电连接特征提取系统,且特征提取系统与模式匹配系统数据连接,实现语音数据识别,所述图像识别模块电连接摄像头,所述语音识别模块电连接麦克风,所述图像识别模块和语音识别模块分别与CORTEX-A75处理器数据连接,且CORTEX-A75处理器与程序储存器和随机储存器数据连接,实现图像数据和语音数据的处理和存储,所述CORTEX-A75处理器通过网络控制器与云端服务器数据连接。
进一步地,所述麦克风具有多组,所述CORTEX-A75处理器通过网络控制器与云端服务器数据连接,可定期实现更新程序储存器、随机储存器的资源数据和语言模型库,进而扩大人员图像语音检索的范围,且利用CORTEX-A75处理器将处理后的图片语音通过网络控制器上传于云端服务器,实现数据共享。
进一步地,所述预处理系统内具有反混叠失真滤波器、预加重器、端点检测模块和噪声滤波器。
进一步地,所述特征提取系统具有LPC、LPCC、MFCC和ASCC。
与现有技术相比,本发明的有益效果是:可通过录入的图像或语音信号快速进入对应的信息数据的位置,便于人员通过本发明快速识别相应信息,且再识别过程中,可对录入的语音信号进行减噪滤波处理,提高识别的精确性,能实现数据不断更新和上传云端,在扩大检索的范围和多样化的同时,实现数据共享。
附图说明
图1为本发明一种导入人工智能超深度学习用于语音图像识别的方法的处理流程示意图。
图2为本发明一种导入人工智能超深度学习用于语音图像识别的方法的数据信号连接关系结构示意图。
图3为本发明一种导入人工智能超深度学习用于语音图像识别的方法的图像识别模块的系统架构结构示意图。
图4为本发明一种导入人工智能超深度学习用于语音图像识别的方法的语音识别模块的系统架构结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1-4所示,一种导入人工智能超深度学习用于语音图像识别的模块,包括触摸屏、图像识别模块、语音识别模块和CORTEX-A75处理器,所述触摸屏具有摄像头、麦克风、程序储存器、随机储存器数据、图像识别模块、语音识别模块和CORTEX-A75处理器,所述图像识别模块包括摄像控制模块和图像对比模块,所述摄像控制模块包括图像处理模块和图片传输模块,所述语音识别模块包括预处理系统、特征提取系统和模式匹配系统,且模式匹配系统内具有语言模型库,所述预处理系统电连接特征提取系统,且特征提取系统与模式匹配系统数据连接,实现语音数据识别,所述图像识别模块电连接摄像头,所述语音识别模块电连接麦克风,所述图像识别模块和语音识别模块分别与CORTEX-A75处理器数据连接,且CORTEX-A75处理器与程序储存器和随机储存器数据连接,实现图像数据和语音数据的处理和存储,所述CORTEX-A75处理器通过网络控制器与云端服务器数据连接。
一种导入人工智能超深度学习用于语音图像识别的方法,具体识别方法如下:
图像识别步骤:通过触摸屏内的图像识别模块将摄像头拍摄的图片通过图像处理模块进行处理,且处理后传输至图像对比模块,通过CORTEX-A75处理器数据连接对其进行信息处理和传输,且CORTEX-A75处理器通过程序储存器内的数据进行检索对比并产生第一对比指令或第二对比指令,所述第一对比指令为程序储存器中至少有一项信息与处理后传输至图像对比模块对比后的结果对应,且根据第一对比指令的结果进入结果相应的图片应用系统中至少有一项信息与处理后传输至图像对比模块的图片数据参数进行对比得到识别结果的位置,且继续对其进行操作,操作后选择退出该系统;所述第二对比指令为程序储存器中不具有任意一项信息与处理后传输至图像对比模块对比后的结果对应,根据第二对比指令的结果进入创建新图片信息对话框,且产生确认创建指令和取消指令,所述确认创建指令将通过CORTEX-A75处理器在储存器中创建处理后传输至图像对比模块对比后的结果对应的位置信息;所述取消指令为取消操作,且退出该系统。
语音识别步骤:通过触摸屏内的语音识别模块将麦克风输入的语音信号通过预处理系统进行矫正处理实现语音信号数字化,再由特征提取系统进行特征分析,抽取可反映语音本质的特征参数,形成矢量序列,且通过模式匹配系统由CORTEX-A75处理器对语言模型库内的声学模版参数进行对比得到识别结果,且CORTEX-A75处理器通过程序储存器内的数据进行检索对比并产生第一对比指令或第二对比指令,所述第一对比指令的为程序储存器中至少有一项信息与语言模型库内的声学模版参数进行对比得到识别结果对应,且根据第一对比指令的结果进入结果相应的应用系统中至少有一项信息处理与语言模型库内的声学模版参数进行对比得到识别结果的位置,且继续对其进行操作,操作后选择退出该系统;所述第二对比指令为程序储存器中不具有任意一项信息与语音本质的特征参数的结果对应,根据第二对比指令的结果进入创建新语音信息对话框,且产生确认创建指令和取消指令,所述确认创建指令将通过CORTEX-A75处理器在储存器中创建语音本质的特征参数的结果对应的语音信息;所述取消指令为取消操作,且退出该系统。
一种导入人工智能超深度学习用于语音图像识别的方法,具体识别方法如下:
图像识别步骤:通过触摸屏内的图像识别模块将摄像头拍摄的图片通过图像处理模块进行处理,且处理后传输至图像对比模块,通过CORTEX-A75处理器数据连接对其进行信息处理和传输,且CORTEX-A75处理器通过程序储存器内的数据进行检索对比并产生第一对比指令或第二对比指令,所述第一对比指令的为程序储存器中至少有一项信息与处理后传输至图像对比模块对比后的结果对应,且根据第一对比指令的结果进入图片应用系统中至少有一项信息与处理后传输至图像的位置,且继续对其进行操作,操作后选择退出该系统;所述第二对比指令为程序储存器中不具有任意一项信息与处理后传输至图像对比模块对比后的结果对应,根据第二对比指令的结果进入创建新图片信息对话框,且产生确认创建指令和取消指令,所述确认创建指令将通过CORTEX-A75处理器在储存器中创建处理后传输至图像对比模块对比后的结果对应的位置信息;所述取消指令为取消操作,且退出该系统。
语音识别步骤:通过触摸屏内的语音识别模块将麦克风输入的语音信号通过预处理系统进行矫正处理实现语音信号数字化,再由特征提取系统进行特征分析,抽取可反映语音本质的特征参数,形成矢量序列,且通过模式匹配系统由CORTEX-A75处理器对语言模型库内的声学模版参数进行对比得到识别结果,且CORTEX-A75处理器通过程序储存器内的数据进行检索对比并产生第一对比指令或第二对比指令,所述第一对比指令的为程序储存器中至少有一项信息与语言模型库内的声学模版参数进行对比得到识别结果对应,且根据第一对比指令的结果进入结果相应的应用系统中至少有一项信息处理与语言模型库内的声学模版参数进行对比得到识别结果的位置,且继续对其进行操作,操作后选择退出该系统;所述第二对比指令为程序储存器中不具有任意一项信息与语音本质的特征参数的结果对应,根据第二对比指令的结果进入创建新语音信息对话框,且产生确认创建指令和取消指令,所述确认创建指令将通过CORTEX-A75处理器在储存器中创建语音本质的特征参数的结果对应的语音信息;所述取消指令为取消操作,且退出该系统。
其中,所述麦克风具有多组,所述CORTEX-A75处理器通过网络控制器与云端服务器数据连接,可定期实现更新程序储存器、随机储存器的资源数据和语言模型库,进而扩大人员图像语音检索的范围,且利用CORTEX-A75处理器将处理后的图片语音通过网络控制器上传于云端服务器,实现数据共享。
其中,所述预处理系统内具有反混叠失真滤波器、预加重器、端点检测模块和噪声滤波器。
其中,所述特征提取系统具有LPC、LPCC、MFCC和ASCC。
本发明的工作原理及使用流程:可通过录入的图像或语音信号快速进入对应的信息数据的位置,便于人员通过本发明快速识别相应信息,且再识别过程中,可对录入的语音信号进行减噪滤波处理,提高识别的精确性,能实现数据不断更新和上传云端,在扩大检索的范围和多样化的同时,实现数据共享。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (4)
1.一种导入人工智能超深度学习用于语音图像识别的方法,导入人工智能超深度学习用于语音图像识别模块,包括触摸屏、图像识别模块、语音识别模块和CORTEX-A75处理器,其特征在于:所述触摸屏具有摄像头、麦克风、程序储存器、随机储存器数据、图像识别模块、语音识别模块和CORTEX-A75处理器,所述图像识别模块包括摄像控制模块和图像对比模块,所述摄像控制模块包括图像处理模块和图片传输模块,所述语音识别模块包括预处理系统、特征提取系统和模式匹配系统,且模式匹配系统内具有语言模型库,所述预处理系统电连接特征提取系统,且特征提取系统与模式匹配系统数据连接,实现语音数据识别,所述图像识别模块电连接摄像头,所述语音识别模块电连接麦克风,所述图像识别模块和语音识别模块分别与CORTEX-A75处理器数据连接,且CORTEX-A75处理器与程序储存器和随机储存器数据连接,实现图像数据和语音数据的处理和存储,所述CORTEX-A75处理器通过网络控制器与云端服务器数据连接;
具体识别方法如下:
图像识别步骤:通过触摸屏内的图像识别模块将摄像头拍摄的图片通过图像处理模块进行处理,且处理后传输至图像对比模块,通过CORTEX-A75处理器数据连接对其进行信息处理和传输,且CORTEX-A75处理器通过程序储存器内的数据进行检索对比并产生第一对比指令或第二对比指令,所述第一对比指令为程序储存器中至少有一项信息与处理后传输至图像对比模块对比后的结果对应,且根据第一对比指令的结果进入结果相应的图片应用系统中至少有一项信息与处理后传输至图像对比模块的图片数据参数进行对比得到识别结果的位置,且继续对其进行操作,操作后选择退出该系统;所述第二对比指令为程序储存器中不具有任意一项信息与处理后传输至图像对比模块对比后的结果对应,根据第二对比指令的结果进入创建新图片信息对话框,且产生确认创建指令和取消指令,所述确认创建指令将通过CORTEX-A75处理器在储存器中创建处理后传输至图像对比模块对比后的结果对应的位置信息;所述取消指令为取消操作,且退出该系统;
语音识别步骤:通过触摸屏内的语音识别模块将麦克风输入的语音信号通过预处理系统进行矫正处理实现语音信号数字化,再由特征提取系统进行特征分析,抽取可反映语音本质的特征参数,形成矢量序列,且通过模式匹配系统由CORTEX-A75处理器对语言模型库内的声学模版参数进行对比得到识别结果,且CORTEX-A75处理器通过程序储存器内的数据进行检索对比并产生第一对比指令或第二对比指令,所述第一对比指令的为程序储存器中至少有一项信息与语言模型库内的声学模版参数进行对比得到识别结果对应,且根据第一对比指令的结果进入结果相应的应用系统中至少有一项信息处理与语言模型库内的声学模版参数进行对比得到识别结果的位置,且继续对其进行操作,操作后选择退出该系统;所述第二对比指令为程序储存器中不具有任意一项信息与语音本质的特征参数的结果对应,根据第二对比指令的结果进入创建新语音信息对话框,且产生确认创建指令和取消指令,所述确认创建指令将通过CORTEX-A75处理器在储存器中创建语音本质的特征参数的结果对应的语音信息;所述取消指令为取消操作,且退出该系统。
2.根据权利要求1所述的一种导入人工智能超深度学习用于语音图像识别的方法,其特征在于:所述麦克风具有多组,所述CORTEX-A75处理器通过网络控制器与云端服务器数据连接,可定期实现更新程序储存器、随机储存器的资源数据和语言模型库,进而扩大人员图像语音检索的范围,且利用CORTEX-A75处理器将处理后的图片语音通过网络控制器上传于云端服务器,实现数据共享。
3.根据权利要求1所述的一种导入人工智能超深度学习用于语音图像识别的方法,其特征在于:所述预处理系统内具有反混叠失真滤波器、预加重器、端点检测模块和噪声滤波器。
4.根据权利要求1所述的一种导入人工智能超深度学习用于语音图像识别的方法,其特征在于:所述特征提取系统具有LPC、LPCC、MFCC和ASCC。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811249231.0A CN109087646B (zh) | 2018-10-25 | 2018-10-25 | 一种导入人工智能超深度学习用于语音图像识别的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811249231.0A CN109087646B (zh) | 2018-10-25 | 2018-10-25 | 一种导入人工智能超深度学习用于语音图像识别的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109087646A CN109087646A (zh) | 2018-12-25 |
CN109087646B true CN109087646B (zh) | 2021-04-06 |
Family
ID=64844131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811249231.0A Active CN109087646B (zh) | 2018-10-25 | 2018-10-25 | 一种导入人工智能超深度学习用于语音图像识别的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109087646B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111210812A (zh) * | 2019-12-26 | 2020-05-29 | 安徽仁昊智能科技有限公司 | 一种人工智能语音中转系统 |
CN113723735A (zh) * | 2021-02-24 | 2021-11-30 | 克拉玛依油城数据有限公司 | 一种用于智慧城市的业务分配方法 |
CN113241058A (zh) * | 2021-07-08 | 2021-08-10 | 克拉玛依油城数据有限公司 | 一种应用于城市大脑的语音交互方法及系统 |
CN114038459A (zh) * | 2021-11-09 | 2022-02-11 | 宁波向往智能科技有限公司 | 一种家居全屋控制用控制面板 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103422764A (zh) * | 2013-08-20 | 2013-12-04 | 华南理工大学 | 一种门控制系统及其控制方法 |
CN103456299A (zh) * | 2013-08-01 | 2013-12-18 | 百度在线网络技术(北京)有限公司 | 一种控制语音识别的方法和装置 |
CN106407993A (zh) * | 2016-09-13 | 2017-02-15 | 成都创慧科达科技有限公司 | 一种基于图像识别技术的智能语音机器人系统及方法 |
CN106448654A (zh) * | 2016-09-30 | 2017-02-22 | 安徽省云逸智能科技有限公司 | 一种机器人语音识别系统及其工作方法 |
CN108073985A (zh) * | 2016-11-14 | 2018-05-25 | 张素菁 | 一种导入人工智能超深度学习用于语音识别的方法 |
CN108073979A (zh) * | 2016-11-14 | 2018-05-25 | 顾泽苍 | 一种导入人工智能超深度学习用于图像识别的方法 |
-
2018
- 2018-10-25 CN CN201811249231.0A patent/CN109087646B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103456299A (zh) * | 2013-08-01 | 2013-12-18 | 百度在线网络技术(北京)有限公司 | 一种控制语音识别的方法和装置 |
CN103422764A (zh) * | 2013-08-20 | 2013-12-04 | 华南理工大学 | 一种门控制系统及其控制方法 |
CN106407993A (zh) * | 2016-09-13 | 2017-02-15 | 成都创慧科达科技有限公司 | 一种基于图像识别技术的智能语音机器人系统及方法 |
CN106448654A (zh) * | 2016-09-30 | 2017-02-22 | 安徽省云逸智能科技有限公司 | 一种机器人语音识别系统及其工作方法 |
CN108073985A (zh) * | 2016-11-14 | 2018-05-25 | 张素菁 | 一种导入人工智能超深度学习用于语音识别的方法 |
CN108073979A (zh) * | 2016-11-14 | 2018-05-25 | 顾泽苍 | 一种导入人工智能超深度学习用于图像识别的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109087646A (zh) | 2018-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109087646B (zh) | 一种导入人工智能超深度学习用于语音图像识别的方法 | |
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
JP7434137B2 (ja) | 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
US11776530B2 (en) | Speech model personalization via ambient context harvesting | |
CN108364662B (zh) | 基于成对鉴别任务的语音情感识别方法与系统 | |
CN106710599A (zh) | 一种基于深度神经网络的特定声源检测方法与系统 | |
CN101923857A (zh) | 一种人机交互的可扩展语音识别方法 | |
CN109473119B (zh) | 一种声学目标事件监控方法 | |
CN113205803B (zh) | 一种具有自适应降噪能力的语音识别方法及装置 | |
US20230206928A1 (en) | Audio processing method and apparatus | |
CN110837758B (zh) | 一种关键词输入方法、装置及电子设备 | |
CN104808794A (zh) | 一种唇语输入方法和系统 | |
CN114333865B (zh) | 一种模型训练以及音色转换方法、装置、设备及介质 | |
CN112820291A (zh) | 智能家居控制方法、系统和存储介质 | |
JP2015069063A (ja) | 音声認識システム、音声認識方法、及び音声認識プログラム | |
CN113823273B (zh) | 音频信号处理方法、装置、电子设备及存储介质 | |
CN111145746A (zh) | 一种基于人工智能语音的人机交互方法 | |
CN111326152A (zh) | 语音控制方法及装置 | |
CN116186258A (zh) | 基于多模态知识图谱的文本分类方法、设备及存储介质 | |
CN114065720A (zh) | 会议纪要生成方法、装置、存储介质及电子设备 | |
CN109343481A (zh) | 一种控制设备的方法与设备 | |
Li et al. | Overview and Analysis of Speech Recognition | |
CN112581941A (zh) | 音频识别方法、装置、电子设备及存储介质 | |
CN118675507B (zh) | 音源定位模型的训练方法、音源对象定位方法及相关装置 | |
KR102703054B1 (ko) | 인공지능 스피커 장치 및 인공지능 스피커 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20211101 Address after: 430000 e3186, Wuhan international student entrepreneurship Park, No. 11, Dongxin Road, Donghu New Technology Development Zone, Wuhan, Hubei Province Patentee after: Wuhan Qichuang Funeng Intelligent Technology Co.,Ltd. Address before: 430000 12336, science and technology building, 243 Luoyu Road, Donghu Development Zone, Wuhan City, Hubei Province Patentee before: WUHAN TUORUI CHUANQI TECHNOLOGY Co.,Ltd. |