CN108417203A - 一种人体语音识别传输方法及系统 - Google Patents
一种人体语音识别传输方法及系统 Download PDFInfo
- Publication number
- CN108417203A CN108417203A CN201810099028.3A CN201810099028A CN108417203A CN 108417203 A CN108417203 A CN 108417203A CN 201810099028 A CN201810099028 A CN 201810099028A CN 108417203 A CN108417203 A CN 108417203A
- Authority
- CN
- China
- Prior art keywords
- voice data
- characteristic point
- human body
- articulation type
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种人体语音识别传输方法及系统,属于语音识别技术领域,所述方法包括:采集用户人体的语音数据;预处理所述语音数据;提取所述语音数据的特征点;选择对应于提取的所述特征点的发音方式模型;通过使用所选择的发音方式模型来调整参数,所述参数是用于识别语音指令的基准;基于调整的所述参数来识别所述用户人体的所述语音指令。利用本发明实施例,能够实现人体语音的识别跟传输,提高语音识别性能。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种人体语音识别传输方法及系统。
背景技术
人机接口 (HMI) 使用户通过视觉、听觉、或触觉与机器进行交流。为了最小化驾驶员的注意力转移并且提高便利性,已尝试使用语音识别作为车辆内的HMI。根据常规的人体语音识别传输系统,使用标准语言的各种用户人体的声音被存储为语音数据,并且使用该语音数据来执行语音识别。然而,在这种系统中,难以保证语音识别性能,这是因为使用语音识别功能的用户人体的发音方式例如发音语调、发音速度、以及方言等通常不同于对应于语音数据的发音方式。
发明内容
本发明提供了一种人体语音识别传输方法及系统,具有以下优点:基于针对每个区域的语音数据生成针对每个区域的发音方式模型;选择对应于提取的特征点的发音方式模型;以及调整参数,该参数是用于识别语音识别指令的基准。
为达到上述目的,本发明公开了一种人体语音识别传输方法,所述方法包括:
采集用户人体的语音数据;
预处理所述语音数据;
提取所述语音数据的特征点;
选择对应于提取的所述特征点的发音方式模型;
通过使用所选择的发音方式模型来调整参数,所述参数是用于识别语音指令的基准;
基于调整的所述参数来识别所述用户人体的所述语音指令。
可选的,所述预处理所述语音数据的步骤包括:
将模拟语音数据转换为数字语音数据;
校正所述语音数据的增益;
以及消除所述语音数据中的噪声。
可选的,所述发音方式模型由以下步骤生成:
提取在所述语音数据库中存储的针对每个区域的语音数据的特征点;
在特征点数据库中存储所提取的针对每个区域的语音数据的特征点;
通过学习在所述特征点数据库中存储的针对每个区域的语音数据的特征点的分布,来生成学习模型;
以及通过使用所述学习模型来生成针对每个区域的发音方式模型。
为达到上述目的,本发明还公开了一种人体语音识别传输系统,包括:
采集器,用于采集用户人体的语音数据;
发音方式分类器,用于提取所述用户人体的所述语音数据的特征点,并且选择对应于所述特征点的发音方式模型;
参数调整器,用于通过使用所选择的所述发音方式模型来调整参数,所述参数是用于识别语音指令的基准;
以及语音识别引擎,用于基于调整的所述参数来识别所述用户人体的所述语音指令。
可选的,还包括:预处理器,将从所述采集器传输的模拟语音数据转换为数字语音数据,校正所述语音数据的增益并且消除所述语音数据中的噪声。
可选的,所述发音方式分类器包括:
语音数据库,用于存储针对每个区域的语音数据;
第一特征点提取器,用于提取在所述语音数据库中存储的针对每个区域的语音数据的特征点;
特征点数据库,用于存储由所述第一特征点提取器提取的针对每个区域的语音数据的特征点;
特征点学习器,用于通过学习在所述特征点数据库中存储的针对每个区域的语音数据的特征点的分布,来生成学习模型,并且所述特征点学习器用于通过使用所述学习模型来生成针对每个区域的发音方式模型;
以及模型数据库,用于存储由所述特征点学习器生成的所述学习模型以及所述发音方式模型。
可选的,所述发音方式分类器还包括:
第二特征点提取器,用于提取从所述预处理器接收的所述用户人体的所述语音数据的特征点;
以及发音方式模型选择器,用于选择对应于由所述第二特征点提取器提取的特征点的所述发音方式模型。
可选的,所述特征点学习器通过使用所述学习模型来生成分布分类器,所述分布分类器用于分类语音数据的特征点的分布。
与现有技术相比,具有如下有益效果:
本发明的语音识别方法可包括:采集用户人体的语音数据;预处理该语音数据;提取该语音数据的特征点;选择对应于提取的特征点的发音方式模型;通过使用所选择的发音方式模型来调整参数,该参数是用于识别语音指令的基准;基于所调整的参数来识别用户人体的语音指令。语音指令的预处理可包括:将模拟语音数据转换为数字语音数据;以及校正该语音数据的增益;消除该语音数据的噪声。发音方式模型可通过提取在语音数据库中存储的针对每个区域的语音数据的特征点来生成;在特征点数据库中存储所提取的针对每个区域的语音数据的特征点;通过学习在特征点数据库中存储的针对每个区域的语音数据的特征点的分布来生成学习模型;并且通过使用学习模型来生成针对每个区域的发音方式模型。
附图说明
图1为本发明提供的人体语音识别传输方法的一种流程示意图。
图2为本发明提供的人体语音识别传输系统的一种结构示意图。
图3为本发明提供的人体语音识别传输系统的另一种结构示意图。
图4为本发明提供的人体语音识别传输系统的再一种结构示意图。
具体实施方式
为进一步了解本发明的内容,结合附图及实施例对本发明作详细描述。
参见图1,图1为本发明提供的人体语音识别传输方法的一种流程示意图,该方法可以包括如下步骤:
S101,采集用户人体的语音数据;
S102,预处理所述语音数据;
S103,提取所述语音数据的特征点;
S104,选择对应于提取的所述特征点的发音方式模型;
S105,通过使用所选择的发音方式模型来调整参数,其中,所述参数是用于识别语音指令的基准;
S106,基于调整的所述参数来识别所述用户人体的所述语音指令。
具体的,所述预处理所述语音数据的步骤包括:将模拟语音数据转换为数字语音数据;校正所述语音数据的增益;以及消除所述语音数据中的噪声。
具体的,所述发音方式模型由以下步骤生成:提取在所述语音数据库中存储的针对每个区域的语音数据的特征点;在特征点数据库中存储所提取的针对每个区域的语音数据的特征点;通过学习在所述特征点数据库中存储的针对每个区域的语音数据的特征点的分布,来生成学习模型;以及通过使用所述学习模型来生成针对每个区域的发音方式模型。
参见图2,图2为本发明提供的人体语音识别传输系统的一种结构示意图,与图1所示的流程相对应,该系统可以包括:采集器210,用于采集用户人体的语音数据;发音方式分类器220,用于提取所述用户人体的所述语音数据的特征点,并且选择对应于所述特征点的发音方式模型;参数调整器230,用于通过使用所选择的所述发音方式模型来调整参数,所述参数是用于识别语音指令的基准;以及语音识别引擎240,用于基于调整的所述参数来识别所述用户人体的所述语音指令。
具体的,人体语音识别传输系统的采集器210与发音方式分类器220之间还可以包括:预处理器250,将从所述采集器传输的模拟语音数据转换为数字语音数据,校正所述语音数据的增益并且消除所述语音数据中的噪声。
采集器采集用户人体(用户)的模拟语音数据,并且采集器可包括:麦克风,用以接收声波以根据声波的振动生成电信号。预处理器预处理语音数据,并且将预处理过的语音数据传输至发音方式分类器和语音识别引擎。预处理器可包括:模数转换器 (ADC)、增益校正器、以及噪声消除器。ADC将从采集器传输的模拟语音数据转换为数字语音数据 (也可称为“语音数据”)。增益校正器校正语音数据的增益 (等级)。噪声消除器消除语音数据中的噪声。
具体的,参见图3,图3为本发明提供的人体语音识别传输系统的另一种结构示意图,在图2所示实施例的基础上,所述发音方式分类器220包括:语音数据库221,用于存储针对每个区域的语音数据;第一特征点提取器222,用于提取在所述语音数据库中存储的针对每个区域的语音数据的特征点;特征点数据库223,用于存储由所述第一特征点提取器提取的针对每个区域的语音数据的特征点;特征点学习器224,用于通过学习在所述特征点数据库中存储的针对每个区域的语音数据的特征点的分布,来生成学习模型,并且所述特征点学习器用于通过使用所述学习模型来生成针对每个区域的发音方式模型;以及模型数据库225,用于存储由所述特征点学习器生成的所述学习模型以及所述发音方式模型。
具体的,参见图4,图4为本发明提供的人体语音识别传输系统的再一种结构示意图,在图3所示实施例的基础上,所述发音方式分类器220还包括:第二特征点提取器226,用于提取从所述预处理器接收的所述用户人体的所述语音数据的特征点;以及发音方式模型选择器227,用于选择对应于由所述第二特征点提取器提取的特征点的所述发音方式模型。
具体的,所述特征点学习器通过使用所述学习模型来生成分布分类器,所述分布分类器用于分类语音数据的特征点的分布。
语音数据库存储针对每个区域的语音数据。例如,语音数据库可包括:第一区域语音数据库、第二区域语音数据库、以及第n区域语音数据库。语音数据库可以是先前基于在无回音室中的各种用户人体的语音数据生成的。可基于从远程服务器(例如,远程信息处理服务器)传输的针对每个区域的语音数据来更新语音数据库。此外,可基于从语音识别系统的用户或用户人体接收的区域信息以及从预处理器传输的语音数据来更新语音数据库。
第一特征点提取器提取在语音数据库中存储的针对每个区域的语音数据的特征点,并且将特征点存储在特征点数据库中。第二特征点提取器提取从预处理器接收的用户人体的语音数据的特征点,并且将特征点传输至发音方式模型选择器。由第一特征点提取器提取的针对每个区域的特征点被存储在特征点数据库中。例如,特征点数据库可包括第一区域特征点数据库、第二区域特征点数据库以及第n区域特征点数据库。特征点学习器可通过学习在特征点数据库中存储的针对每个区域的语音数据的特征点来生成学习模型,并且可通过使用学习模型来生成针对每个区域的发音方式模型。
特征点学习器可通过使用学习模型来生成分布分类器,该分布分类器用于分类语音数据的特征点的分布。特征点学习器可使用分布分类器来生成发音方式模型。例如,特征点学习器可通过使用分布分类器来生成对应于第一区域的发音方式模型以及对应于第二区域的发音方式模型,该分布分类器将对应于第一区域的语音数据的特征点的分布以及对应于第 二区域的语音数据的特征点的分布分类。
模型数据库存储由特征点学习器生成的学习模型以及发音方式模型。发音方式模型选择器使用分布分类器来选择对应于由第二特征点提取器提取的特征点的发音方式模型,并且将所选择的发音方式模型传输至参数调整器。例如,当由第二特征点提取器提取到新的特征点时,发音方式模型选择器使用分布分类器来选择对应于特征点的发音方式模型。
参数调整器通过使用由发音方式模型选择器选择的发音方式模型来调整参数,该参数是用于识别语音指令的基准。
语音识别引擎基于由参数调整器调整的参数来识别用户人体的语音指令。 可基于语音指令 (即,语音识别结果)来控制基于语音的设备。例如,可执行对应于所识别的语音指令的功能 (例如,呼叫功能或路线指引功能)。可见,使用对应于包括在语音数据中的区域特性的发音方式模型来调整参数,由此提高语音识别性能。
以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。所以,如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。
Claims (8)
1.一种人体语音识别传输方法,其特征在于,所述方法包括:
采集用户人体的语音数据;
预处理所述语音数据;
提取所述语音数据的特征点;
选择对应于提取的所述特征点的发音方式模型;
通过使用所选择的发音方式模型来调整参数,所述参数是用于识别语音指令的基准;
基于调整的所述参数来识别所述用户人体的所述语音指令。
2.根据权利要求1所述的一种人体语音识别传输方法,其特征在于,所述预处理所述语音数据的步骤包括:
将模拟语音数据转换为数字语音数据;
校正所述语音数据的增益;
以及消除所述语音数据中的噪声。
3.根据权利要求1所述的一种人体语音识别传输方法,其特征在于,所述发音方式模型由以下步骤生成:
提取在所述语音数据库中存储的针对每个区域的语音数据的特征点;
在特征点数据库中存储所提取的针对每个区域的语音数据的特征点;
通过学习在所述特征点数据库中存储的针对每个区域的语音数据的特征点的分布,来生成学习模型;
以及通过使用所述学习模型来生成针对每个区域的发音方式模型。
4.一种人体语音识别传输系统,其特征在于,包括:
采集器,用于采集用户人体的语音数据;
发音方式分类器,用于提取所述用户人体的所述语音数据的特征点,并且选择对应于所述特征点的发音方式模型;
参数调整器,用于通过使用所选择的所述发音方式模型来调整参数,所述参数是用于识别语音指令的基准;
以及语音识别引擎,用于基于调整的所述参数来识别所述用户人体的所述语音指令。
5.根据权利要求 4 所述的一种人体语音识别传输系统,其特征在于,还包括:预处理器,将从所述采集器传输的模拟语音数据转换为数字语音数据,校正所述语音数据的增益并且消除所述语音数据中的噪声。
6.根据权利要求 4 所述的一种人体语音识别传输系统,其特征在于,所述发音方式分类器包括:
语音数据库,用于存储针对每个区域的语音数据;
第一特征点提取器,用于提取在所述语音数据库中存储的针对每个区域的语音数据的特征点;
特征点数据库,用于存储由所述第一特征点提取器提取的针对每个区域的语音数据的特征点;
特征点学习器,用于通过学习在所述特征点数据库中存储的针对每个区域的语音数据的特征点的分布,来生成学习模型,并且所述特征点学习器用于通过使用所述学习模型来生成针对每个区域的发音方式模型;
以及模型数据库,用于存储由所述特征点学习器生成的所述学习模型以及所述发音方式模型。
7.根据权利要求6所述的一种人体语音识别传输系统,其特征在于,所述发音方式分类器还包括:
第二特征点提取器,用于提取从所述预处理器接收的所述用户人体的所述语音数据的特征点;
以及发音方式模型选择器,用于选择对应于由所述第二特征点提取器提取的特征点的所述发音方式模型。
8.根据权利要求6所述的一种人体语音识别传输系统,其特征在于,所述特征点学习器通过使用所述学习模型来生成分布分类器,所述分布分类器用于分类语音数据的特征点的分布。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810099028.3A CN108417203A (zh) | 2018-01-31 | 2018-01-31 | 一种人体语音识别传输方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810099028.3A CN108417203A (zh) | 2018-01-31 | 2018-01-31 | 一种人体语音识别传输方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108417203A true CN108417203A (zh) | 2018-08-17 |
Family
ID=63127457
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810099028.3A Pending CN108417203A (zh) | 2018-01-31 | 2018-01-31 | 一种人体语音识别传输方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108417203A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130246072A1 (en) * | 2010-06-18 | 2013-09-19 | At&T Intellectual Property I, L.P. | System and Method for Customized Voice Response |
CN103578464A (zh) * | 2013-10-18 | 2014-02-12 | 威盛电子股份有限公司 | 语言模型的建立方法、语音辨识方法及电子装置 |
CN103985381A (zh) * | 2014-05-16 | 2014-08-13 | 清华大学 | 一种基于参数融合优化决策的音频索引方法 |
CN105096940A (zh) * | 2015-06-30 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 用于进行语音识别的方法和装置 |
US20160171984A1 (en) * | 2009-06-09 | 2016-06-16 | At&T Intellectual Property I, Lp | System and method for adapting automatic speech recognition pronunciation by acoustic model restructuring |
CN106251859A (zh) * | 2016-07-22 | 2016-12-21 | 百度在线网络技术(北京)有限公司 | 语音识别处理方法和装置 |
CN106782521A (zh) * | 2017-03-22 | 2017-05-31 | 海南职业技术学院 | 一种语音识别系统 |
CN107274885A (zh) * | 2017-05-31 | 2017-10-20 | 广东欧珀移动通信有限公司 | 语音识别方法及相关产品 |
CN107452379A (zh) * | 2017-08-17 | 2017-12-08 | 广州腾猴科技有限公司 | 一种方言语言的识别技术及虚拟现实教学方法和系统 |
-
2018
- 2018-01-31 CN CN201810099028.3A patent/CN108417203A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160171984A1 (en) * | 2009-06-09 | 2016-06-16 | At&T Intellectual Property I, Lp | System and method for adapting automatic speech recognition pronunciation by acoustic model restructuring |
US20130246072A1 (en) * | 2010-06-18 | 2013-09-19 | At&T Intellectual Property I, L.P. | System and Method for Customized Voice Response |
CN103578464A (zh) * | 2013-10-18 | 2014-02-12 | 威盛电子股份有限公司 | 语言模型的建立方法、语音辨识方法及电子装置 |
CN103985381A (zh) * | 2014-05-16 | 2014-08-13 | 清华大学 | 一种基于参数融合优化决策的音频索引方法 |
CN105096940A (zh) * | 2015-06-30 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 用于进行语音识别的方法和装置 |
CN106251859A (zh) * | 2016-07-22 | 2016-12-21 | 百度在线网络技术(北京)有限公司 | 语音识别处理方法和装置 |
CN106782521A (zh) * | 2017-03-22 | 2017-05-31 | 海南职业技术学院 | 一种语音识别系统 |
CN107274885A (zh) * | 2017-05-31 | 2017-10-20 | 广东欧珀移动通信有限公司 | 语音识别方法及相关产品 |
CN107452379A (zh) * | 2017-08-17 | 2017-12-08 | 广州腾猴科技有限公司 | 一种方言语言的识别技术及虚拟现实教学方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105609101B (zh) | 语音识别系统及语音识别方法 | |
CN105869626A (zh) | 一种语速自动调节的方法及终端 | |
US7127397B2 (en) | Method of training a computer system via human voice input | |
CN108766441B (zh) | 一种基于离线声纹识别和语音识别的语音控制方法及装置 | |
CN1121680C (zh) | 语音识别 | |
DE102018128006A1 (de) | Natürlichsprachliche generierung basierend auf dem benutzersprachstil | |
US7593849B2 (en) | Normalization of speech accent | |
AU2010204470B2 (en) | Automatic sound recognition based on binary time frequency units | |
US10825353B2 (en) | Device for enhancement of language processing in autism spectrum disorders through modifying the auditory stream including an acoustic stimulus to reduce an acoustic detail characteristic while preserving a lexicality of the acoustics stimulus | |
US20160006849A1 (en) | Bluetooth headset and voice interaction control thereof | |
CN1783213A (zh) | 用于自动语音识别的方法和装置 | |
CN103903627A (zh) | 一种语音数据的传输方法及装置 | |
DE102014111816A1 (de) | Fahrzeugtelematikeinheit und Verfahren zum Bedienen dieser | |
US20040098259A1 (en) | Method for recognition verbal utterances by a non-mother tongue speaker in a speech processing system | |
CN106981289A (zh) | 一种识别模型训练方法及系统以及智能终端 | |
CN110400565A (zh) | 说话人识别方法、系统及计算机可读存储介质 | |
CN107039035A (zh) | 一种语音起始点和终止点的检测方法 | |
CN109599094A (zh) | 声音美容与情感修饰的方法 | |
EP1280137A1 (en) | Method for speaker identification | |
CN110232924A (zh) | 车载语音管理方法、装置、车辆及存储介质 | |
DE102019201456B3 (de) | Verfahren für eine individualisierte Signalverarbeitung eines Audiosignals eines Hörgerätes | |
US20030120490A1 (en) | Method for creating a speech database for a target vocabulary in order to train a speech recorgnition system | |
CN111179903A (zh) | 一种语音识别方法、装置、存储介质及电器 | |
EP1723636A1 (de) | Benutzer- und vokabularadaptive bestimmung von konfidenz- und rückweisungsschwellen | |
KR20170086233A (ko) | 라이프 음성 로그 및 라이프 영상 로그를 이용한 점증적 음향 모델 및 언어 모델 학습 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180817 |