CN111951802A - 基于ai语音识别的可视化表现系统和方法 - Google Patents
基于ai语音识别的可视化表现系统和方法 Download PDFInfo
- Publication number
- CN111951802A CN111951802A CN202010794360.9A CN202010794360A CN111951802A CN 111951802 A CN111951802 A CN 111951802A CN 202010794360 A CN202010794360 A CN 202010794360A CN 111951802 A CN111951802 A CN 111951802A
- Authority
- CN
- China
- Prior art keywords
- voice
- data
- module
- unit
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000000007 visual effect Effects 0.000 title claims abstract description 20
- 238000013500 data storage Methods 0.000 claims description 33
- 238000001914 filtration Methods 0.000 claims description 16
- 230000005236 sound signal Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 description 4
- 238000013461 design Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/34—Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
基于AI语音识别的可视化表现系统和方法,涉及语音控制技术领域,包括:采集模块、语音唤醒模块、语音识别模块、主机模块和显示模块,采集模块采集外界发出的声音并过滤,语音唤醒模块对声音数据进行分析,在出现唤醒词时唤醒语音识别模块,语音识别模块对采集模块输出的声音数据进行分析,得到对应的控制信号,主机模块对控制信号进行分析播放与控制信号对应的影音视频,将视频信号输出到显示模块进行显示,解决了现有语音控制技术中存在的语音识别出错率高,发生误操作的问题,同时解决了目前的影音视频装置只能通过机械的按键或通过感应器来进行触发播放,使用起来不方便,降低了观看体验的问题。
Description
技术领域
本发明涉及语音控制技术领域,具体涉及基于AI语音识别的可视化表现系统和方法。
背景技术
语音控制技术越来越多的进入到我们的生活,但是由于是在采集声音的时候会有很多其他背景噪声,导致语音识别出错率极高,甚至经常发生误操作的情况,目前语音识别控制技术不能准确地对用户发出的语音进行识别,同时目前的一些影音视频装置在进行视频播放的时候只能通过机械的按键或通过感应器来进行触发播放,使用起来不方便,降低了观看体验。
发明内容
本发明实施例提供了基于AI语音识别的可视化表现系统和方法,通过设置采集模块采集外界发出的声音,同时对声音进行过滤,将其中噪声部分去除,得到单独的人声部分的声音数据,去除噪音的影响,降低语音识别出错率,语音唤醒模块对声音数据进行分析,在出现唤醒词时唤醒语音识别模块,语音识别模块对采集模块输出的声音数据进行分析,得到对应的控制信号,主机模块对控制信号进行分析播放与控制信号对应的影音视频,将视频信号输出到显示模块进行显示,解决了现有语音控制技术中存在的采集声音的时候会有很多其他背景噪声,导致语音识别出错率极高,甚至经常发生误操作的问题,同时解决了目前的一些影音视频装置在进行视频播放的时候只能通过机械的按键或通过感应器来进行触发播放,使用起来不方便,降低了观看体验的问题。
基于AI语音识别的可视化表现系统,包括:采集模块、语音唤醒模块、语音识别模块、主机模块和显示模块;
采集模块,用于采集发出各种的声音,并进行处理得到声音数据,将采集得到的声音数据发送到所述语音唤醒模块;
其中,所述采集模块包括声音采集单元、过滤单元、过滤数据存储单元和输出端,所述声音采集单元用于采集发出的各种声音得到声音数据,并将采集的声音数据发送到所述过滤单元,所述过滤数据存储单元用于存储声音过滤数据,所述过滤单元用于接收所述声音采集单元发送的声音数据,并与所述过滤数据存储单元中存储的声音过滤数据进行比对,将相同的部分消除,将不相同的部分声音数据通过所述输出端发送到所述语音唤醒模块和所述语音识别模块;
语音唤醒模块,用于接所述采集模块发送的声音数据并进行分析,在分析到出现唤醒词时,将触发信号发送到所述主机模块;
其中,语音唤醒模块包括接收端、唤醒词存储单元、语音分析单元和信号触发单元,所述接收端用于接收所述采集模块发送的声音数据,将声音数据发送到所述语音分析单元,所述唤醒词存储单元用于存储预设的唤醒词,所述语音分析单元用于接收所述接收端发送的声音数据,还用于读取存储单元存储预设的唤醒词并与接收端发送的声音数据进行对比,在声音数据中出现与唤醒词相同的词后,所述信号触发单元发送唤醒信号到所述语音识别模块;
语音识别模块,用于接收所述采集模块发送的语音数据,接收所述语音唤醒模块发送的唤醒信号,还用于在唤醒信号后对语音数据进行分析得到控制信号,将控制信号发送到主机模块;
其中,所述语音识别模块包括语音数据库、语音识别单元和信号输出端口,所述语音数据库用于存储语音比对数据,所述语音识别单元用于根据语音数据库存储的语音比对数据对采集模块发送的语音数据进行识别,将语音转化成控制信号,所述信号输出端口用于将控制信号发送到所述主机模块;
主机模块,用于接收所述语音识别模块发送的控制信号,并对接收到的控制信号进行分析,读取对应的影音视频数据并播放,将影音视频信号传输到所述显示模块;
其中,主机模块包括信号接收端口、信号分析单元、影音数据存储单元、视频播放单元和视频信号输出端口,接收端口用于采集所述语音识别模块发送的控制信号,将控制信号发送到所述信号分析单元,所述信号分析单元用于对控制信号进行分析将分析结果数据发送到所述视频播放单元,所述影音数据存储单元用于存储影音视频数据,所述视频播放单元用于接收所述分析单元发送的分析结果数据,并根据分析结果数据播放所述影音数据存储单元中对应的影音视频数据产生影音视频信号,所述视频信号输出端口用于将影音视频信号传输到所述显示模块;
显示模块,用于接收所述主机模块发送的影音视频信号并进行播放。
进一步的,所述声音采集单元为麦克风或拾音器中任一种。
进一步的,所述过滤数据存储单元存储的声音过滤数据为各种噪声的波形数据,该各种噪声的波形数据用于与所述声音采集单元采集发的声音数据进行对比去除与人声混合在一起的噪声。
进一步的,所述唤醒词存储单元存储预设的唤醒词由用户进行预设,该唤醒词为预设的波形数据。
进一步的,所述语音数据库存储的语音比对数据包括语音波形数据和控制信号数据,用于与所述采集模块发送的语音数据的特征进行比对得到对应的指令数据。
第二方面,本发明实施例提供基于AI语音识别的可视化表现的方法,包括以下步骤:
S1,语音采集,声音采集单元采集发出的各种声音得到声音数据,并将采集的声音数据发送到过滤单元,过滤数据存储单元存储声音过滤数据,过滤单元接收声音采集单元发送的声音数据与过滤数据存储单元中存储的声音过滤数据进行比对,将相同的部分消除,将不相同的部分声音数据通过输出端发送到接收端和语音识别单元;
S2,语音唤醒,接收端接收输出端发送的声音数据,将声音数据发送到语音分析单元,唤醒词存储单元存储预设的唤醒词,语音分析单元接收端发送的声音数据,同时读取存储单元存储预设的唤醒词并与接收端发送的声音数据进行对比,在声音数据中出现与唤醒词相同的词后,信号触发单元发送唤醒信号到语音识别模块;
S3,语音分析,语音数据库存储语音比对数据,语音识别单元接收到信号触发单元发送唤醒信号被唤醒,根据语音数据库存储的语音比对数据对输出端发送的语音数据进行识别,将语音转化成控制信号,信号输出端口将控制信号发送到接收端口;
S4,视频播放,接收端口采集信号输出端发送的控制信号,将控制信号发送到信号分析单元,信号分析单元对控制信号进行分析将分析结果数据发送到视频播放单元,影音数据存储单元存储影音视频数据,视频播放单元接收分析单元发送的分析结果数据,并根据分析结果数据播放影音数据存储单元中对应的影音视频数据产生影音视频信号,视频信号输出端口将影音视频信号传输到显示模块进行播放。
本发明实施例提供的上述技术方案的有益效果至少包括:
1、通过设置采集模块采集外界发出的声音,同时对声音进行过滤,将其中噪声部分去除,得到单独的人声部分的声音数据,去除噪音的影响,降低语音识别出错率,通过语音唤醒模块对采集模块发送的声音数据进行分析,在出现唤醒词时唤醒语音识别模块,解决了现有语音控制技术中存在的采集声音的时候会有很多其他背景噪声,导致语音识别出错率极高,甚至经常发生误操作的问题。
2、通过语音唤醒模块对采集模块发送的声音数据进行分析,在出现唤醒词时唤醒语音识别模块,语音识别模块对采集模块输出的声音数据进行分析,得到对应的控制信号,主机模块对控制信号进行分析播放与控制信号对应的影音视频,将视频信号输出到显示模块进行显示,解决了同时目前的一些影音视频装置在进行视频播放的时候只能通过机械的按键或通过感应器来进行触发播放,使用起来不方便,降低了观看体验的问题。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例公开的基于AI语音识别的可视化表现系统结构示意图;
图2为本发明实施例公开的基于AI语音识别的可视化表现方法流程图。
附图标记:
100-采集模块;101-声音采集单元;102-过滤单元;103-过滤数据存储单元;104-输出端;200-语音唤醒模块;201-接收端;202-唤醒词存储单元;203-语音分析单元;204-信号触发单元;300-语音识别模块;301-语音数据库;302-语音识别单元;303-信号输出端口;400-主机模块;401-信号接收端口;402-信号分析单元;403-影音数据存储单元;404-视频播放单元;405-视频信号输出端口;500-显示模块。
具体实施例
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
如图1所示,本发明实施例提供基于AI语音识别的可视化表现系统,包括:采集模块100、语音唤醒模块200、语音识别模块300、主机模块400和显示模块500;
采集模块100,用于采集发出各种的声音,并进行处理得到声音数据,将采集得到的声音数据发送到所述语音唤醒模块200,所述采集模块100包括声音采集单元101、过滤单元102、过滤数据存储单元103和输出端104,所述声音采集单元101用于采集发出的各种声音得到声音数据,并将采集的声音数据发送到所述过滤单元102,所述声音采集单元101为麦克风或拾音器中任一种,所述过滤数据存储单元103用于存储声音过滤数据,所述过滤数据存储单元103存储的声音过滤数据为各种噪声的波形数据,该各种噪声的波形数据用于与所述声音采集单元101采集发的声音数据进行对比去除与人声混合在一起的噪声,所述过滤单元102用于接收所述声音采集单元101发送的声音数据,并与所述过滤数据存储单元103中存储的声音过滤数据进行比对,将相同的部分消除,将不相同的部分声音数据通过所述输出端104发送到所述语音唤醒模块200和所述语音识别模块300;
具体的,声音采集单元101实时采集外界发出的各种声音,得到声音数据,过滤单元102对声音数据进行分析,以过滤数据存储单元103存储的声音过滤数据为比对数据进行比对,将与声音过滤数据部分相同的声音数据消除,例如,采集到一段声音数据,通过对声音数据的波形进行提取同时与声音过滤数据中的波形进行比对,在波形的特征一致时判定为相同,并将这部分的声音数据剔除,得到不相同的部分声音数据,即为人声部分声音数据,输出端104将得到的声音数据输出到语音唤醒模块200。
在本实施例中,在声音采集单元101实时采集外界发出的各种声音,得到声音数据后,过滤单元102将得到声音数据全部消除,输出端104不输出任何数据,即当前环境中没有人声。
语音唤醒模块200,用于接所述采集模块100发送的声音数据并进行分析,在分析到出现唤醒词时,将触发信号发送到所述主机模块400,语音唤醒模块200包括接收端201、唤醒词存储单元202、语音分析单元203和信号触发单元204,所述接收端201用于接收所述采集模块100发送的声音数据,将声音数据发送到所述语音分析单元203,所述唤醒词存储单元202用于存储预设的唤醒词,所述唤醒词存储单元202存储预设的唤醒词由用户进行预设,该唤醒词为预设的波形数据,所述语音分析单元203用于接收所述接收端201发送的声音数据,还用于读取存储单元存储预设的唤醒词并与接收端201发送的声音数据进行对比,在声音数据中出现与唤醒词相同的词后,所述信号触发单元204发送唤醒信号到所述语音识别模块300;
具体的,接收端201接收采集模块100发送的声音数据后,语音分析单元203对声音数据进行分析,提取声音数据的波形数据,与存储单元中存储预设的唤醒词的波形数据进行比对,在出现相同波形的时候判定为相同,例如,预设的唤醒词为“你好”,语音分析单元203对接收的语音数据进行分析时,通过与存储单元中存储预设的唤醒词“你好”相比对,判定为相同,将判定结果发送到信号触发单元204,信号触发单元204发送唤醒信号到所述语音识别模块300。
语音识别模块300,用于接收所述采集模块100发送的语音数据,接收所述语音唤醒模块200发送的唤醒信号,还用于在唤醒信号后对语音数据进行分析得到控制信号,将控制信号发送到主机模块400,所述语音识别模块300包括语音数据库301、语音识别单元302和信号输出端口303,所述语音数据库301用于存储语音比对数据,所述语音数据库301存储的语音比对数据包括语音波形数据和控制信号数据,用于与所述采集模块100发送的语音数据的特征进行比对得到对应的指令数据,所述语音识别单元302用于根据语音数据库301存储的语音比对数据对采集模块100发送的语音数据进行识别,将语音转化成控制信号,所述信号输出端口303用于将控制信号发送到所述主机模块400;
具体的,语音识别单元302接收到信号触发单元204发送唤醒信号被唤醒,对输出端104发送的语音数据与语音数据库301存储的语音比对数据进行比对,例如,输出端104发送的语音数据为“播放第一个动画”,语音识别单元302对语音数据进行分析得到“播放第一个动画”数据的波形文件,同时与语音数据库301存储的语音比对数据的语音波形数据进行比对,在波形数据一致时判定为相同,信号输出端口303将对应的控制信号数据发送到主机模块400;
主机模块400,用于接收所述语音识别模块300发送的控制信号,并对接收到的控制信号进行分析,读取对应的影音视频数据并播放,将影音视频信号传输到所述显示模块500,主机模块400包括信号接收端口401、信号分析单元402、影音数据存储单元403、视频播放单元404和视频信号输出端口405,信号接收端口401用于采集所述语音识别模块300发送的控制信号,将控制信号发送到所述信号分析单元402,所述信号分析单元402用于对控制信号进行分析将分析结果数据发送到所述视频播放单元404,所述影音数据存储单元403用于存储影音视频数据,所述视频播放单元404用于接收所述信号分析单元402发送的分析结果数据,并根据分析结果数据播放所述影音数据存储单元403中对应的影音视频数据产生影音视频信号,所述视频信号输出端口405用于将影音视频信号传输到所述显示模块500;
具体的,信号接收端口401采集信号输出端口303发送的控制信号,信号分析单元402对控制信号数据进行分析,控制视频播放单元404读取影音数据存储单元403中存储的对应影音数据,并进行播放,将播放的视频信号通过视频信号输出端口405将影音视频信号传输到显示模块500;
显示模块500,用于接收所述主机模块400发送的影音视频信号并进行播放。
本发明通过设置采集模块100采集外界发出的声音,同时对声音进行过滤,将其中噪声部分去除,得到单独的人声部分的声音数据,去除噪音的影响,降低语音识别出错率,语音唤醒模块200对声音数据进行分析,在出现唤醒词时唤醒语音识别模块300,语音识别模块300对采集模块100输出的声音数据进行分析,得到对应的控制信号,主机模块400对控制信号进行分析播放与控制信号对应的影音视频,将视频信号输出到显示模块500进行显示,解决了现有语音控制技术中存在的采集声音的时候会有很多其他背景噪声,导致语音识别出错率极高,甚至经常发生误操作的问题,同时解决了目前的一些影音视频装置在进行视频播放的时候只能通过机械的按键或通过感应器来进行触发播放,使用起来不方便,降低了观看体验的问题。
实施例二
本发明实施例还公开了基于AI语音识别的可视化表现的方法,如图1,包括以下步骤:
S1,语音采集,声音采集单元101采集发出的各种声音得到声音数据,并将采集的声音数据发送到过滤单元102,过滤数据存储单元103存储声音过滤数据,过滤单元102接收声音采集单元101发送的声音数据与过滤数据存储单元103中存储的声音过滤数据进行比对,将相同的部分消除,将不相同的部分声音数据通过输出端104发送到接收端201和语音识别单元302;
具体的,声音采集单元101实时采集外界发出的各种声音,得到声音数据,过滤单元102对声音数据进行分析,以过滤数据存储单元103存储的声音过滤数据为比对数据进行比对,将与声音过滤数据部分相同的声音数据消除,得到不相同的部分声音数据,即为人声部分声音数据,输出端104将得到的声音数据输出到语音唤醒模块200。
S2,语音唤醒,接收端201接收输出端104发送的声音数据,将声音数据发送到语音分析单元203,唤醒词存储单元202存储预设的唤醒词,语音分析单元203接收端201发送的声音数据,同时读取存储单元存储预设的唤醒词并与接收端201发送的声音数据进行对比,在声音数据中出现与唤醒词相同的词后,信号触发单元204发送唤醒信号到语音识别模块300;
具体的,接收端201接收采集模块100发送的声音数据后,语音分析单元203对声音数据进行分析,提取声音数据的波形数据,与存储单元中存储预设的唤醒词的波形数据进行比对,在出现相同波形的时候判定为相同,将判定结果发送到信号触发单元204,信号触发单元204发送唤醒信号到所述语音识别模块300。
S3,语音分析,语音数据库301存储语音比对数据,语音识别单元302接收到信号触发单元204发送唤醒信号被唤醒,根据语音数据库301存储的语音比对数据对输出端104发送的语音数据进行识别,将语音转化成控制信号,信号输出端口303将控制信号发送到信号接收端口401;
具体的,语音识别单元302接收到信号触发单元204发送唤醒信号被唤醒,提取输出端104发送的语音数据的波形数据,同时与语音数据库301存储的语音比对数据的语音波形数据进行比对,在波形数据一致时判定为相同,信号输出端口303将对应的控制信号数据发送到主机模块400。
S4,视频播放,信号接收端口401采集信号输出端104发送的控制信号,将控制信号发送到信号分析单元402,信号分析单元402对控制信号进行分析将分析结果数据发送到视频播放单元404,影音数据存储单元403存储影音视频数据,视频播放单元404接收信号分析单元402发送的分析结果数据,并根据分析结果数据播放影音数据存储单元403中对应的影音视频数据产生影音视频信号,视频信号输出端口405将影音视频信号传输到显示模块500进行播放。
具体的,信号接收端口401采集信号输出端口303发送的控制信号,信号分析单元402对控制信号数据进行分析,控制视频播放单元404读取影音数据存储单元403中存储的对应影音数据,并进行播放,将播放的视频信号通过视频信号输出端口405将影音视频信号传输到显示模块500。
本实施例公开的基于AI语音识别的可视化表现的方法,通过设置采集模块100采集外界发出的声音,同时对声音进行过滤,将其中噪声部分去除,得到单独的人声部分的声音数据,去除噪音的影响,降低语音识别出错率,语音唤醒模块200对声音数据进行分析,在出现唤醒词时唤醒语音识别模块300,语音识别模块300对采集模块100输出的声音数据进行分析,得到对应的控制信号,主机模块400对控制信号进行分析播放与控制信号对应的影音视频,将视频信号输出到显示模块500进行显示,解决了现有语音控制技术中存在的采集声音的时候会有很多其他背景噪声,导致语音识别出错率极高,甚至经常发生误操作的问题,同时解决了目前的一些影音视频装置在进行视频播放的时候只能通过机械的按键或通过感应器来进行触发播放,使用起来不方便,降低了观看体验的问题。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
本领域技术人员还应当理解,结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性,上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件,取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用,以变通的方式实现所描述的功能,但是,这种实现决策不应解释为背离本公开的保护范围。
结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然,处理器和存储介质也可以作为分立组件存在于用户终端中。
对于软件实现,本申请中描述的技术可用执行本申请所述功能的模块(例如,过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内,也可以实现在处理器外,在后一种情况下,它经由各种手段以通信方式耦合到处理器,这些都是本领域中所公知的。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
Claims (6)
1.基于AI语音识别的可视化表现系统,其特征在于,包括:采集模块、语音唤醒模块、语音识别模块、主机模块和显示模块;
采集模块,用于采集发出各种的声音,并进行处理得到声音数据,将采集得到的声音数据发送到所述语音唤醒模块;
其中,所述采集模块包括声音采集单元、过滤单元、过滤数据存储单元和输出端,所述声音采集单元用于采集发出的各种声音得到声音数据,并将采集的声音数据发送到所述过滤单元,所述过滤数据存储单元用于存储声音过滤数据,所述过滤单元用于接收所述声音采集单元发送的声音数据,并与所述过滤数据存储单元中存储的声音过滤数据进行比对,将相同的部分消除,将不相同的部分声音数据通过所述输出端发送到所述语音唤醒模块和所述语音识别模块;
语音唤醒模块,用于接所述采集模块发送的声音数据并进行分析,在分析到出现唤醒词时,将触发信号发送到所述主机模块;
其中,语音唤醒模块包括接收端、唤醒词存储单元、语音分析单元和信号触发单元,所述接收端用于接收所述采集模块发送的声音数据,将声音数据发送到所述语音分析单元,所述唤醒词存储单元用于存储预设的唤醒词,所述语音分析单元用于接收所述接收端发送的声音数据,还用于读取存储单元存储预设的唤醒词并与接收端发送的声音数据进行对比,在声音数据中出现与唤醒词相同的词后,所述信号触发单元发送唤醒信号到所述语音识别模块;
语音识别模块,用于接收所述采集模块发送的语音数据,接收所述语音唤醒模块发送的唤醒信号,还用于在唤醒信号后对语音数据进行分析得到控制信号,将控制信号发送到主机模块;
其中,所述语音识别模块包括语音数据库、语音识别单元和信号输出端口,所述语音数据库用于存储语音比对数据,所述语音识别单元用于根据语音数据库存储的语音比对数据对采集模块发送的语音数据进行识别,将语音转化成控制信号,所述信号输出端口用于将控制信号发送到所述主机模块;
主机模块,用于接收所述语音识别模块发送的控制信号,并对接收到的控制信号进行分析,读取对应的影音视频数据并播放,将影音视频信号传输到所述显示模块;
其中,主机模块包括信号接收端口、信号分析单元、影音数据存储单元、视频播放单元和视频信号输出端口,信号接收端口用于采集所述语音识别模块发送的控制信号,将控制信号发送到所述信号分析单元,所述信号分析单元用于对控制信号进行分析将分析结果数据发送到所述视频播放单元,所述影音数据存储单元用于存储影音视频数据,所述视频播放单元用于接收所述信号分析单元发送的分析结果数据,并根据分析结果数据播放所述影音数据存储单元中对应的影音视频数据产生影音视频信号,所述视频信号输出端口用于将影音视频信号传输到所述显示模块;
显示模块,用于接收所述主机模块发送的影音视频信号并进行播放。
2.如权利要求1所述的基于AI语音识别的可视化表现系统,其特征在于,所述声音采集单元为麦克风或拾音器中任一种。
3.如权利要求1所述的基于AI语音识别的可视化表现系统,其特征在于,所述过滤数据存储单元存储的声音过滤数据为各种噪声的波形数据,该各种噪声的波形数据用于与所述声音采集单元采集发的声音数据进行对比去除与人声混合在一起的噪声。
4.如权利要求1所述的基于AI语音识别的可视化表现系统,其特征在于,所述唤醒词存储单元存储预设的唤醒词由用户进行预设,该唤醒词为预设的波形数据。
5.如权利要求1所述的基于AI语音识别的可视化表现系统,其特征在于,所述语音数据库存储的语音比对数据包括语音波形数据和控制信号数据,用于与所述采集模块发送的语音数据的特征进行比对得到对应的指令数据。
6.基于AI语音识别的可视化表现的方法,应用于如权利要求1-5任一项所述的基于AI语音识别的可视化表现系统,其特征在于,包括以下步骤:
S1,语音采集,声音采集单元采集发出的各种声音得到声音数据,并将采集的声音数据发送到过滤单元,过滤数据存储单元存储声音过滤数据,过滤单元接收声音采集单元发送的声音数据与过滤数据存储单元中存储的声音过滤数据进行比对,将相同的部分消除,将不相同的部分声音数据通过输出端发送到接收端和语音识别单元;
S2,语音唤醒,接收端接收输出端发送的声音数据,将声音数据发送到语音分析单元,唤醒词存储单元存储预设的唤醒词,语音分析单元接收端发送的声音数据,同时读取存储单元存储预设的唤醒词并与接收端发送的声音数据进行对比,在声音数据中出现与唤醒词相同的词后,信号触发单元发送唤醒信号到语音识别模块;
S3,语音分析,语音数据库存储语音比对数据,语音识别单元接收到信号触发单元发送唤醒信号被唤醒,根据语音数据库存储的语音比对数据对输出端发送的语音数据进行识别,将语音转化成控制信号,信号输出端口将控制信号发送到信号接收端口;
S4,视频播放,信号接收端口采集信号输出端发送的控制信号,将控制信号发送到信号分析单元,信号分析单元对控制信号进行分析将分析结果数据发送到视频播放单元,影音数据存储单元存储影音视频数据,视频播放单元接收信号分析单元发送的分析结果数据,并根据分析结果数据播放影音数据存储单元中对应的影音视频数据产生影音视频信号,视频信号输出端口将影音视频信号传输到显示模块进行播放。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010794360.9A CN111951802A (zh) | 2020-08-10 | 2020-08-10 | 基于ai语音识别的可视化表现系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010794360.9A CN111951802A (zh) | 2020-08-10 | 2020-08-10 | 基于ai语音识别的可视化表现系统和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111951802A true CN111951802A (zh) | 2020-11-17 |
Family
ID=73332582
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010794360.9A Pending CN111951802A (zh) | 2020-08-10 | 2020-08-10 | 基于ai语音识别的可视化表现系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111951802A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008103905A (ja) * | 2006-10-18 | 2008-05-01 | Funai Electric Co Ltd | ディジタルテレビジョン受信機 |
CN106098054A (zh) * | 2016-06-13 | 2016-11-09 | 惠州Tcl移动通信有限公司 | 一种语音识别中扬声器噪音的过滤装置及方法 |
KR20170016694A (ko) * | 2015-08-04 | 2017-02-14 | 한국전자통신연구원 | 표시 단말, 상기 표시 단말과 통신하는 사용자 단말 및 상기 단말들을 이용한 자동 통역 방법 |
WO2017031846A1 (zh) * | 2015-08-25 | 2017-03-02 | 百度在线网络技术(北京)有限公司 | 噪声消除、语音识别方法、装置、设备及非易失性计算机存储介质 |
CN106504761A (zh) * | 2016-09-26 | 2017-03-15 | 李志宁 | 一种可定向降噪的智能噪声消除系统 |
CN106952654A (zh) * | 2017-04-24 | 2017-07-14 | 北京奇虎科技有限公司 | 机器人降噪方法、装置及机器人 |
CN109326291A (zh) * | 2018-12-24 | 2019-02-12 | 深圳创维-Rgb电子有限公司 | 电视模式控制方法、电视及存储介质 |
CN109686372A (zh) * | 2019-01-02 | 2019-04-26 | 百度在线网络技术(北京)有限公司 | 资源播放控制方法和装置 |
US20190214002A1 (en) * | 2018-01-09 | 2019-07-11 | Lg Electronics Inc. | Electronic device and method of controlling the same |
CN111192588A (zh) * | 2019-12-31 | 2020-05-22 | 深圳市瑞讯云技术有限公司 | 一种系统唤醒方法及装置 |
-
2020
- 2020-08-10 CN CN202010794360.9A patent/CN111951802A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008103905A (ja) * | 2006-10-18 | 2008-05-01 | Funai Electric Co Ltd | ディジタルテレビジョン受信機 |
KR20170016694A (ko) * | 2015-08-04 | 2017-02-14 | 한국전자통신연구원 | 표시 단말, 상기 표시 단말과 통신하는 사용자 단말 및 상기 단말들을 이용한 자동 통역 방법 |
WO2017031846A1 (zh) * | 2015-08-25 | 2017-03-02 | 百度在线网络技术(北京)有限公司 | 噪声消除、语音识别方法、装置、设备及非易失性计算机存储介质 |
CN106098054A (zh) * | 2016-06-13 | 2016-11-09 | 惠州Tcl移动通信有限公司 | 一种语音识别中扬声器噪音的过滤装置及方法 |
CN106504761A (zh) * | 2016-09-26 | 2017-03-15 | 李志宁 | 一种可定向降噪的智能噪声消除系统 |
CN106952654A (zh) * | 2017-04-24 | 2017-07-14 | 北京奇虎科技有限公司 | 机器人降噪方法、装置及机器人 |
US20190214002A1 (en) * | 2018-01-09 | 2019-07-11 | Lg Electronics Inc. | Electronic device and method of controlling the same |
CN109326291A (zh) * | 2018-12-24 | 2019-02-12 | 深圳创维-Rgb电子有限公司 | 电视模式控制方法、电视及存储介质 |
CN109686372A (zh) * | 2019-01-02 | 2019-04-26 | 百度在线网络技术(北京)有限公司 | 资源播放控制方法和装置 |
CN111192588A (zh) * | 2019-12-31 | 2020-05-22 | 深圳市瑞讯云技术有限公司 | 一种系统唤醒方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6857699B2 (ja) | 音声対話設備のウェイクアップ方法、装置、設備、記憶媒体、及びプログラム | |
CN110060685B (zh) | 语音唤醒方法和装置 | |
US9721560B2 (en) | Cloud based adaptive learning for distributed sensors | |
US9785706B2 (en) | Acoustic sound signature detection based on sparse features | |
US9412373B2 (en) | Adaptive environmental context sample and update for comparing speech recognition | |
US9466288B2 (en) | Comparing differential ZC count to database to detect expected sound | |
US20160351197A1 (en) | User Programmable Voice Command Recognition Based on Sparse Features | |
CN103559907B (zh) | 录音方法、装置和终端 | |
CN108159702B (zh) | 基于多人语音游戏处理方法和装置 | |
US20090067807A1 (en) | Signal processing apparatus and method thereof | |
CN103959761A (zh) | 摄像装置以及信息处理装置 | |
CN107086039A (zh) | 一种音频信号处理方法及装置 | |
CN105427880A (zh) | 语音记录系统及语音记录方法 | |
CN114171029A (zh) | 音频识别方法、装置、电子设备和可读存储介质 | |
CN111951802A (zh) | 基于ai语音识别的可视化表现系统和方法 | |
CN113643704A (zh) | 车机语音系统的测试方法、上位机、系统和存储介质 | |
CN110197663B (zh) | 一种控制方法、装置及电子设备 | |
CN111048089A (zh) | 提高智能穿戴设备语音唤醒成功率的方法、电子设备、计算机可读存储介质 | |
CN113314113B (zh) | 一种智能插座控制方法、装置、设备及存储介质 | |
CN114783448A (zh) | 一种音频信号处理装置、方法及可存储介质 | |
KR20000074695A (ko) | 음향 또는 음성의 패턴 인식을 이용한 완구의 동작 제어 방법 | |
CN111145784A (zh) | 声音检测启动系统 | |
CN111767083A (zh) | 误唤醒音频数据的收集方法、播放设备、电子设备、介质 | |
CN210223556U (zh) | 语音采集设备 | |
CN115762525B (zh) | 一种基于全方位语音获取的语音过滤收录方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201117 |
|
RJ01 | Rejection of invention patent application after publication |