CN112908296A - 一种方言识别方法 - Google Patents
一种方言识别方法 Download PDFInfo
- Publication number
- CN112908296A CN112908296A CN202110187552.8A CN202110187552A CN112908296A CN 112908296 A CN112908296 A CN 112908296A CN 202110187552 A CN202110187552 A CN 202110187552A CN 112908296 A CN112908296 A CN 112908296A
- Authority
- CN
- China
- Prior art keywords
- dialect
- voice
- user
- initial
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 24
- 238000001514 detection method Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims abstract description 4
- 238000012545 processing Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 2
- 241001672694 Citrus reticulata Species 0.000 abstract description 3
- 230000007547 defect Effects 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 244000062793 Sorghum vulgare Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 235000019713 millet Nutrition 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种方言识别方法包括:收集并录入各地区方言数据,并基于Hadoop平台建立初始方言数据库,提取所述初始方言数据库中的语音特征,并建立卷积神经网络模型,对所述卷积神经网络模型进行训练,将训练后的所述卷积神经网络模型进行用户语音匹配检测,并根据用户满意度的反馈不断对所述初始方言数据库和所述卷积神经网络模型进行优化。本发明弥补了当前语音识别中方言识别欠缺的缺陷,初始方言数据库可通过自我学习不断完善,当达到一定规模时,其识别精度与普通话识别无异,使得语音识别系统可以应用的领域更加广泛。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种语音识别方法。
背景技术
近年来,随着人工智能的兴起,语音识别技术取得明显的进步,并应用 于我们生活的各个方面,例如苹果公司的Siri、微软公司的小娜、小米公司 的小爱同学、百度公司的小度。语音智能助理的功能不断完善,可以与用户 聊天、操作智能设备、智能家居管理等等。
目前,普通话识别技术逐渐成熟,但对于方言的识别仍然非常欠缺。一 方面,中国的地区多,不同地区都有自己的方言,方言统计起来耗时耗力; 另一方面,方言口口相传,并没有确定的方言标准。所以,到目前为止,并 未有一个可以识别全国方言的语音识别系统。因此,如何解决语音识别中的 缺陷,完善语音识别功能是目前有待解决的问题。
发明内容
本发明要解决的技术问题是如何解决语音识别中的缺陷,完善语音识别 功能,提供一种方言识别方法。
本发明是通过下述技术方案来解决上述技术问题:
一种方言识别方法,所述识别方法包括:
收集并录入各地区方言数据,并基于Hadoop平台建立初始方言数据库;
提取所述初始方言数据库中的语音特征,并建立卷积神经网络模型;
对所述卷积神经网络模型进行训练;
将训练后的所述卷积神经网络模型进行用户语音匹配检测,并根据用户 满意度的反馈不断对所述初始方言数据库和所述卷积神经网络模型进行优 化。
进一步地,所述初始方言数据库中存储的数据包括:各方言所属的地区, 与方言对应的语音数据,与方言对应的文本数据,所述用户满意度。
进一步地,所述方言数据包括:语音数据和文本数据,所述语音数据和 所述文本数据存储于所述初始方言数据库的分布式文件系统中。
进一步地,所述提取所述方言数据库中的语音特征包括:
使用VAD技术对录入的所述语音数据按频率进行分段处理;
对进行所述分段处理后的所述语音数据采用聚类方法进行降噪处理。
进一步地,所述进行用户语音匹配检测包括:
用户录入方言;
所述卷积神经网络模型对所述用户录入方言进行语音特征提取,获取用 户语音特征;
当所述用户语音特征存在于所述初始方言数据库中时,进行语音 征匹配,当语音特征匹配成功时,则输出所述用户语音特征的匹配文 本,当语音特征匹配不成功时,所述初始方言数据库存储所述用户语 音特征并请用户输入所述用户语音特征对应的文本数据;
当所述用户语音特征不存在于所述初始方言数据库中时,所述初始方言 数据库存储所述用户语音特征并请用户输入所述用户语音特征对应的文本 数据。
在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发 明各较佳实例。
本发明的积极进步效果在于:本发明弥补了当前语音识别中方言识别欠 缺的缺陷;初始方言数据库可通过自我学习不断完善,当达到一定规模时, 其识别精度与普通话识别无异,使得语音识别系统可以应用的领域更加广泛。
附图说明
图1为本发明一种方言识别方法一实施例中的方法流程图。
具体实施方式
为了便于理解本申请,下面将参照相关附图对本申请进行更全面的描述。 附图中给出了本申请的首选实施例。但是,本申请可以以许多不同的形式来 实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使 对本申请的公开内容更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技 术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用 的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。本文所 使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组 合。
S01:收集并录入各地区方言数据,并基于Hadoop平台建立初始方言数 据库;
在一个示例中,收集大量的各个地区的方言资料,根据地区把这些语 音及其文本数据分地区全部录入,基于Hadoop平台,建立初始方言数据库, 语音数据和文本数据均存储在HDFS(Hadoop Distributed File System,Hadoop 分布式文件系统)中。初始方言数据库中需存储以下数据:一是该方言所属地 区;二是的该方言提取的声音特征;三是该方言的文本数据;四是用户满意 度信息。
S02:提取所述初始方言数据库中的语音特征,并建立卷积神经网络模 型;
在一个示例中,从语音波形中提取出语音特征序列,建立卷积神经网络 模型,首先使用基于模型的VAD(Voice Activity Detection,语音活动检测)技 术对录入的方言按照频率进行分段,然后采用聚类的方法对语音模型进行降 噪处理,排除不同人之间的口音特征,按照不同地区的方言进行聚类。主流 的特征域的处理方式包括VTLN(Vocal TractLength Normalization,声道长度 归一化)、HLDA、特征域SAT相关技术,较好的提取其声学特征。所建立的 卷积神经网络模型,使用大量的卷积层直接对整句语音信号进行建模,每个 卷积层使用3x3的小卷积核,并在多个卷积层之后再加上池化层。 CNN(ConvolutionalNeural Network,卷积神经网络),最开始应用于图像处理, 当运用于语音识别中的频谱图时,可以克服传统语音识别中采样时间,频率 而导致的不稳定问题。
S03:对所述卷积神经网络模型进行训练;
在一个示例中,使用在初始方言数据库中与初筛数据集关联性大于设定 阈值的数据对卷积神经网络模型进行训练,从而确定卷积神经网络模型的参 数。
S04:将训练后的所述卷积神经网络模型进行用户语音匹配检测,并根 据用户满意度的反馈不断对所述初始方言数据库和所述卷积神经网络模型 进行优化。
在一个示例中,在录入端,用户录入方言,然后对用户录入的方言进行 语音特征提取,当提取的语音特征存在于初始方言数据库中时,与初始方言 数据库中的语音特征进行比对,若成功匹配,则输出匹配文本;若没有匹配 项,初始方言数据库储存其声音特征,并向录入模块进行反馈,用户自行输 入方言的文本数据,输入后的文本数据和语音特征共同存储在初始方言数据 库中。当提取的语音特征不存在于初始方言数据库中时,则初始方言数据库 暂时存储方言的语音特征,然后反馈给录入模块,录入模块给用户提供一个 输入文本数据的选项,用户根据自己所录入的方言语音,自行录入文本数据。 卷积神经网络模型可以将新增的用户输入的语音和文本数据输入神经网络 模型进行计算,得到预测结果集;建立每个预测结果与其时间维度上相邻数 据的关联映射,对预测结果进行调整,使关联映射全部收敛,不断调整优化 模型,以此提高方言数据库的识别精确度。并且,用户根据输出的文本信息 进行满意度的反馈,反馈的满意度越高,说明该方言识别的准确度越高。通 过对模型的不断优化,对用户反馈的识别满意度不高的方言重点进行优化, 更加高效迅速的提高方言识别系统的识别准确度。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理 解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领 域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式 做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (5)
1.一种方言识别方法,其特征在于,所述识别方法包括:
收集并录入各地区方言数据,并基于Hadoop平台建立初始方言数据库;
提取所述初始方言数据库中的语音特征,并建立卷积神经网络模型;
对所述卷积神经网络模型进行训练;
将训练后的所述卷积神经网络模型进行用户语音匹配检测,并根据用户满意度的反馈不断对所述初始方言数据库和所述卷积神经网络模型进行优化。
2.如权利要求1所述的一种方言识别方法,其特征在于,所述初始方言数据库中存储的数据包括:各方言所属的地区,与方言对应的语音数据,与方言对应的文本数据,所述用户满意度。
3.如权利要求1所述的一种方言识别方法,其特征在于,所述方言数据包括:语音数据和文本数据,所述语音数据和所述文本数据存储于所述初始方言数据库的分布式文件系统中。
4.如权利要求1所述的一种方言识别方法,其特征在于,所述提取所述方言数据库中的语音特征包括:
使用VAD技术对录入的所述语音数据按频率进行分段处理;
对进行所述分段处理后的所述语音数据采用聚类方法进行降噪处理。
5.如权利要求1所述的一种方言识别方法,其特征在于,所述进行用户语音匹配检测包括:
用户录入方言;
所述卷积神经网络模型对所述用户录入方言进行语音特征提取,获取用户语音特征;
当所述用户语音特征存在于所述初始方言数据库中时,进行语音征匹配,当语音特征匹配成功时,则输出所述用户语音特征的匹配文本,当语音特征匹配不成功时,所述初始方言数据库存储所述用户语音特征并请用户输入所述用户语音特征对应的文本数据;
当所述用户语音特征不存在于所述初始方言数据库中时,所述初始方言数据库存储所述用户语音特征并请用户输入所述用户语音特征对应的文本数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110187552.8A CN112908296A (zh) | 2021-02-18 | 2021-02-18 | 一种方言识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110187552.8A CN112908296A (zh) | 2021-02-18 | 2021-02-18 | 一种方言识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112908296A true CN112908296A (zh) | 2021-06-04 |
Family
ID=76123723
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110187552.8A Pending CN112908296A (zh) | 2021-02-18 | 2021-02-18 | 一种方言识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112908296A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117690416A (zh) * | 2024-02-02 | 2024-03-12 | 江西科技学院 | 一种人工智能交互方法及人工智能交互系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102737631A (zh) * | 2011-04-15 | 2012-10-17 | 富泰华工业(深圳)有限公司 | 互功式语音识别电子装置及方法 |
WO2017054122A1 (zh) * | 2015-09-29 | 2017-04-06 | 深圳市全圣时代科技有限公司 | 语音识别系统及方法、客户端设备及云端服务器 |
US20190089816A1 (en) * | 2012-01-26 | 2019-03-21 | ZOOM International a.s. | Phrase labeling within spoken audio recordings |
CN110211609A (zh) * | 2019-06-03 | 2019-09-06 | 四川长虹电器股份有限公司 | 一种提升语音识别准确率的方法 |
CN110517664A (zh) * | 2019-09-10 | 2019-11-29 | 科大讯飞股份有限公司 | 多方言识别方法、装置、设备及可读存储介质 |
CN110660394A (zh) * | 2018-06-13 | 2020-01-07 | 研祥智能科技股份有限公司 | 文本编辑方法及装置 |
KR20200007983A (ko) * | 2020-01-03 | 2020-01-22 | 엘지전자 주식회사 | 지역적 특징 기반의 음성인식 방법 및 시스템 |
EP3640934A1 (en) * | 2018-10-19 | 2020-04-22 | Samsung Electronics Co., Ltd. | Speech recognition method and apparatus |
CN112233653A (zh) * | 2020-12-10 | 2021-01-15 | 北京远鉴信息技术有限公司 | 多方言口音普通话语音识别模型训练方法、装置及设备 |
-
2021
- 2021-02-18 CN CN202110187552.8A patent/CN112908296A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102737631A (zh) * | 2011-04-15 | 2012-10-17 | 富泰华工业(深圳)有限公司 | 互功式语音识别电子装置及方法 |
US20190089816A1 (en) * | 2012-01-26 | 2019-03-21 | ZOOM International a.s. | Phrase labeling within spoken audio recordings |
WO2017054122A1 (zh) * | 2015-09-29 | 2017-04-06 | 深圳市全圣时代科技有限公司 | 语音识别系统及方法、客户端设备及云端服务器 |
CN110660394A (zh) * | 2018-06-13 | 2020-01-07 | 研祥智能科技股份有限公司 | 文本编辑方法及装置 |
EP3640934A1 (en) * | 2018-10-19 | 2020-04-22 | Samsung Electronics Co., Ltd. | Speech recognition method and apparatus |
CN110211609A (zh) * | 2019-06-03 | 2019-09-06 | 四川长虹电器股份有限公司 | 一种提升语音识别准确率的方法 |
CN110517664A (zh) * | 2019-09-10 | 2019-11-29 | 科大讯飞股份有限公司 | 多方言识别方法、装置、设备及可读存储介质 |
KR20200007983A (ko) * | 2020-01-03 | 2020-01-22 | 엘지전자 주식회사 | 지역적 특징 기반의 음성인식 방법 및 시스템 |
CN112233653A (zh) * | 2020-12-10 | 2021-01-15 | 北京远鉴信息技术有限公司 | 多方言口音普通话语音识别模型训练方法、装置及设备 |
Non-Patent Citations (2)
Title |
---|
"《计算机工程》2016年(第42卷)总目次", 《计算机工程》 * |
薛福亮: "《电子商务推荐相关技术及其改进机制》", 30 June 2014 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117690416A (zh) * | 2024-02-02 | 2024-03-12 | 江西科技学院 | 一种人工智能交互方法及人工智能交互系统 |
CN117690416B (zh) * | 2024-02-02 | 2024-04-12 | 江西科技学院 | 一种人工智能交互方法及人工智能交互系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110728997B (zh) | 一种基于情景感知的多模态抑郁症检测系统 | |
CN111145729B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
EP3260996A1 (en) | Dialogue act estimation method, dialogue act estimation apparatus, and storage medium | |
Casale et al. | Speech emotion classification using machine learning algorithms | |
CN110675859B (zh) | 结合语音与文本的多情感识别方法、系统、介质及设备 | |
CN110853649A (zh) | 基于智能语音技术的标签提取方法、系统、设备及介质 | |
CN110990543A (zh) | 智能对话的生成方法、装置、计算机设备及计算机存储介质 | |
CN112233680B (zh) | 说话人角色识别方法、装置、电子设备及存储介质 | |
CN109313892A (zh) | 稳健的语言识别方法和系统 | |
CN111445898B (zh) | 语种识别方法、装置、电子设备和存储介质 | |
US20180308501A1 (en) | Multi speaker attribution using personal grammar detection | |
CN114691852A (zh) | 人机对话系统及方法 | |
TWI734085B (zh) | 使用意圖偵測集成學習之對話系統及其方法 | |
CN114596844A (zh) | 声学模型的训练方法、语音识别方法及相关设备 | |
CN110019741A (zh) | 问答系统答案匹配方法、装置、设备及可读存储介质 | |
CN110503943B (zh) | 一种语音交互方法以及语音交互系统 | |
CN111199149A (zh) | 一种对话系统的语句智能澄清方法及系统 | |
CN113744727A (zh) | 模型训练方法、系统、终端设备及存储介质 | |
CN112256229A (zh) | 人机语音交互方法、装置、电子设备及存储介质 | |
CN116246632A (zh) | 外呼话术指导方法及装置 | |
CN113555133A (zh) | 一种医疗问诊数据处理方法和装置 | |
CN113299277A (zh) | 一种语音语义识别方法及系统 | |
CN112908296A (zh) | 一种方言识别方法 | |
CN117634471A (zh) | 一种nlp质检方法及计算机可读存储介质 | |
Cong et al. | Unsatisfied customer call detection with deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210604 |
|
RJ01 | Rejection of invention patent application after publication |