CN112908296A - 一种方言识别方法 - Google Patents

一种方言识别方法 Download PDF

Info

Publication number
CN112908296A
CN112908296A CN202110187552.8A CN202110187552A CN112908296A CN 112908296 A CN112908296 A CN 112908296A CN 202110187552 A CN202110187552 A CN 202110187552A CN 112908296 A CN112908296 A CN 112908296A
Authority
CN
China
Prior art keywords
dialect
voice
user
initial
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110187552.8A
Other languages
English (en)
Inventor
郑增亮
苏前敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai University of Engineering Science
Original Assignee
Shanghai University of Engineering Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai University of Engineering Science filed Critical Shanghai University of Engineering Science
Priority to CN202110187552.8A priority Critical patent/CN112908296A/zh
Publication of CN112908296A publication Critical patent/CN112908296A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种方言识别方法包括:收集并录入各地区方言数据,并基于Hadoop平台建立初始方言数据库,提取所述初始方言数据库中的语音特征,并建立卷积神经网络模型,对所述卷积神经网络模型进行训练,将训练后的所述卷积神经网络模型进行用户语音匹配检测,并根据用户满意度的反馈不断对所述初始方言数据库和所述卷积神经网络模型进行优化。本发明弥补了当前语音识别中方言识别欠缺的缺陷,初始方言数据库可通过自我学习不断完善,当达到一定规模时,其识别精度与普通话识别无异,使得语音识别系统可以应用的领域更加广泛。

Description

一种方言识别方法
技术领域
本发明涉及人工智能技术领域,具体涉及一种语音识别方法。
背景技术
近年来,随着人工智能的兴起,语音识别技术取得明显的进步,并应用 于我们生活的各个方面,例如苹果公司的Siri、微软公司的小娜、小米公司 的小爱同学、百度公司的小度。语音智能助理的功能不断完善,可以与用户 聊天、操作智能设备、智能家居管理等等。
目前,普通话识别技术逐渐成熟,但对于方言的识别仍然非常欠缺。一 方面,中国的地区多,不同地区都有自己的方言,方言统计起来耗时耗力; 另一方面,方言口口相传,并没有确定的方言标准。所以,到目前为止,并 未有一个可以识别全国方言的语音识别系统。因此,如何解决语音识别中的 缺陷,完善语音识别功能是目前有待解决的问题。
发明内容
本发明要解决的技术问题是如何解决语音识别中的缺陷,完善语音识别 功能,提供一种方言识别方法。
本发明是通过下述技术方案来解决上述技术问题:
一种方言识别方法,所述识别方法包括:
收集并录入各地区方言数据,并基于Hadoop平台建立初始方言数据库;
提取所述初始方言数据库中的语音特征,并建立卷积神经网络模型;
对所述卷积神经网络模型进行训练;
将训练后的所述卷积神经网络模型进行用户语音匹配检测,并根据用户 满意度的反馈不断对所述初始方言数据库和所述卷积神经网络模型进行优 化。
进一步地,所述初始方言数据库中存储的数据包括:各方言所属的地区, 与方言对应的语音数据,与方言对应的文本数据,所述用户满意度。
进一步地,所述方言数据包括:语音数据和文本数据,所述语音数据和 所述文本数据存储于所述初始方言数据库的分布式文件系统中。
进一步地,所述提取所述方言数据库中的语音特征包括:
使用VAD技术对录入的所述语音数据按频率进行分段处理;
对进行所述分段处理后的所述语音数据采用聚类方法进行降噪处理。
进一步地,所述进行用户语音匹配检测包括:
用户录入方言;
所述卷积神经网络模型对所述用户录入方言进行语音特征提取,获取用 户语音特征;
当所述用户语音特征存在于所述初始方言数据库中时,进行语音 征匹配,当语音特征匹配成功时,则输出所述用户语音特征的匹配文 本,当语音特征匹配不成功时,所述初始方言数据库存储所述用户语 音特征并请用户输入所述用户语音特征对应的文本数据;
当所述用户语音特征不存在于所述初始方言数据库中时,所述初始方言 数据库存储所述用户语音特征并请用户输入所述用户语音特征对应的文本 数据。
在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发 明各较佳实例。
本发明的积极进步效果在于:本发明弥补了当前语音识别中方言识别欠 缺的缺陷;初始方言数据库可通过自我学习不断完善,当达到一定规模时, 其识别精度与普通话识别无异,使得语音识别系统可以应用的领域更加广泛。
附图说明
图1为本发明一种方言识别方法一实施例中的方法流程图。
具体实施方式
为了便于理解本申请,下面将参照相关附图对本申请进行更全面的描述。 附图中给出了本申请的首选实施例。但是,本申请可以以许多不同的形式来 实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使 对本申请的公开内容更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技 术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用 的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。本文所 使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组 合。
S01:收集并录入各地区方言数据,并基于Hadoop平台建立初始方言数 据库;
在一个示例中,收集大量的各个地区的方言资料,根据地区把这些语 音及其文本数据分地区全部录入,基于Hadoop平台,建立初始方言数据库, 语音数据和文本数据均存储在HDFS(Hadoop Distributed File System,Hadoop 分布式文件系统)中。初始方言数据库中需存储以下数据:一是该方言所属地 区;二是的该方言提取的声音特征;三是该方言的文本数据;四是用户满意 度信息。
S02:提取所述初始方言数据库中的语音特征,并建立卷积神经网络模 型;
在一个示例中,从语音波形中提取出语音特征序列,建立卷积神经网络 模型,首先使用基于模型的VAD(Voice Activity Detection,语音活动检测)技 术对录入的方言按照频率进行分段,然后采用聚类的方法对语音模型进行降 噪处理,排除不同人之间的口音特征,按照不同地区的方言进行聚类。主流 的特征域的处理方式包括VTLN(Vocal TractLength Normalization,声道长度 归一化)、HLDA、特征域SAT相关技术,较好的提取其声学特征。所建立的 卷积神经网络模型,使用大量的卷积层直接对整句语音信号进行建模,每个 卷积层使用3x3的小卷积核,并在多个卷积层之后再加上池化层。 CNN(ConvolutionalNeural Network,卷积神经网络),最开始应用于图像处理, 当运用于语音识别中的频谱图时,可以克服传统语音识别中采样时间,频率 而导致的不稳定问题。
S03:对所述卷积神经网络模型进行训练;
在一个示例中,使用在初始方言数据库中与初筛数据集关联性大于设定 阈值的数据对卷积神经网络模型进行训练,从而确定卷积神经网络模型的参 数。
S04:将训练后的所述卷积神经网络模型进行用户语音匹配检测,并根 据用户满意度的反馈不断对所述初始方言数据库和所述卷积神经网络模型 进行优化。
在一个示例中,在录入端,用户录入方言,然后对用户录入的方言进行 语音特征提取,当提取的语音特征存在于初始方言数据库中时,与初始方言 数据库中的语音特征进行比对,若成功匹配,则输出匹配文本;若没有匹配 项,初始方言数据库储存其声音特征,并向录入模块进行反馈,用户自行输 入方言的文本数据,输入后的文本数据和语音特征共同存储在初始方言数据 库中。当提取的语音特征不存在于初始方言数据库中时,则初始方言数据库 暂时存储方言的语音特征,然后反馈给录入模块,录入模块给用户提供一个 输入文本数据的选项,用户根据自己所录入的方言语音,自行录入文本数据。 卷积神经网络模型可以将新增的用户输入的语音和文本数据输入神经网络 模型进行计算,得到预测结果集;建立每个预测结果与其时间维度上相邻数 据的关联映射,对预测结果进行调整,使关联映射全部收敛,不断调整优化 模型,以此提高方言数据库的识别精确度。并且,用户根据输出的文本信息 进行满意度的反馈,反馈的满意度越高,说明该方言识别的准确度越高。通 过对模型的不断优化,对用户反馈的识别满意度不高的方言重点进行优化, 更加高效迅速的提高方言识别系统的识别准确度。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理 解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领 域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式 做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (5)

1.一种方言识别方法,其特征在于,所述识别方法包括:
收集并录入各地区方言数据,并基于Hadoop平台建立初始方言数据库;
提取所述初始方言数据库中的语音特征,并建立卷积神经网络模型;
对所述卷积神经网络模型进行训练;
将训练后的所述卷积神经网络模型进行用户语音匹配检测,并根据用户满意度的反馈不断对所述初始方言数据库和所述卷积神经网络模型进行优化。
2.如权利要求1所述的一种方言识别方法,其特征在于,所述初始方言数据库中存储的数据包括:各方言所属的地区,与方言对应的语音数据,与方言对应的文本数据,所述用户满意度。
3.如权利要求1所述的一种方言识别方法,其特征在于,所述方言数据包括:语音数据和文本数据,所述语音数据和所述文本数据存储于所述初始方言数据库的分布式文件系统中。
4.如权利要求1所述的一种方言识别方法,其特征在于,所述提取所述方言数据库中的语音特征包括:
使用VAD技术对录入的所述语音数据按频率进行分段处理;
对进行所述分段处理后的所述语音数据采用聚类方法进行降噪处理。
5.如权利要求1所述的一种方言识别方法,其特征在于,所述进行用户语音匹配检测包括:
用户录入方言;
所述卷积神经网络模型对所述用户录入方言进行语音特征提取,获取用户语音特征;
当所述用户语音特征存在于所述初始方言数据库中时,进行语音征匹配,当语音特征匹配成功时,则输出所述用户语音特征的匹配文本,当语音特征匹配不成功时,所述初始方言数据库存储所述用户语音特征并请用户输入所述用户语音特征对应的文本数据;
当所述用户语音特征不存在于所述初始方言数据库中时,所述初始方言数据库存储所述用户语音特征并请用户输入所述用户语音特征对应的文本数据。
CN202110187552.8A 2021-02-18 2021-02-18 一种方言识别方法 Pending CN112908296A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110187552.8A CN112908296A (zh) 2021-02-18 2021-02-18 一种方言识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110187552.8A CN112908296A (zh) 2021-02-18 2021-02-18 一种方言识别方法

Publications (1)

Publication Number Publication Date
CN112908296A true CN112908296A (zh) 2021-06-04

Family

ID=76123723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110187552.8A Pending CN112908296A (zh) 2021-02-18 2021-02-18 一种方言识别方法

Country Status (1)

Country Link
CN (1) CN112908296A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117690416A (zh) * 2024-02-02 2024-03-12 江西科技学院 一种人工智能交互方法及人工智能交互系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737631A (zh) * 2011-04-15 2012-10-17 富泰华工业(深圳)有限公司 互功式语音识别电子装置及方法
WO2017054122A1 (zh) * 2015-09-29 2017-04-06 深圳市全圣时代科技有限公司 语音识别系统及方法、客户端设备及云端服务器
US20190089816A1 (en) * 2012-01-26 2019-03-21 ZOOM International a.s. Phrase labeling within spoken audio recordings
CN110211609A (zh) * 2019-06-03 2019-09-06 四川长虹电器股份有限公司 一种提升语音识别准确率的方法
CN110517664A (zh) * 2019-09-10 2019-11-29 科大讯飞股份有限公司 多方言识别方法、装置、设备及可读存储介质
CN110660394A (zh) * 2018-06-13 2020-01-07 研祥智能科技股份有限公司 文本编辑方法及装置
KR20200007983A (ko) * 2020-01-03 2020-01-22 엘지전자 주식회사 지역적 특징 기반의 음성인식 방법 및 시스템
EP3640934A1 (en) * 2018-10-19 2020-04-22 Samsung Electronics Co., Ltd. Speech recognition method and apparatus
CN112233653A (zh) * 2020-12-10 2021-01-15 北京远鉴信息技术有限公司 多方言口音普通话语音识别模型训练方法、装置及设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737631A (zh) * 2011-04-15 2012-10-17 富泰华工业(深圳)有限公司 互功式语音识别电子装置及方法
US20190089816A1 (en) * 2012-01-26 2019-03-21 ZOOM International a.s. Phrase labeling within spoken audio recordings
WO2017054122A1 (zh) * 2015-09-29 2017-04-06 深圳市全圣时代科技有限公司 语音识别系统及方法、客户端设备及云端服务器
CN110660394A (zh) * 2018-06-13 2020-01-07 研祥智能科技股份有限公司 文本编辑方法及装置
EP3640934A1 (en) * 2018-10-19 2020-04-22 Samsung Electronics Co., Ltd. Speech recognition method and apparatus
CN110211609A (zh) * 2019-06-03 2019-09-06 四川长虹电器股份有限公司 一种提升语音识别准确率的方法
CN110517664A (zh) * 2019-09-10 2019-11-29 科大讯飞股份有限公司 多方言识别方法、装置、设备及可读存储介质
KR20200007983A (ko) * 2020-01-03 2020-01-22 엘지전자 주식회사 지역적 특징 기반의 음성인식 방법 및 시스템
CN112233653A (zh) * 2020-12-10 2021-01-15 北京远鉴信息技术有限公司 多方言口音普通话语音识别模型训练方法、装置及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"《计算机工程》2016年(第42卷)总目次", 《计算机工程》 *
薛福亮: "《电子商务推荐相关技术及其改进机制》", 30 June 2014 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117690416A (zh) * 2024-02-02 2024-03-12 江西科技学院 一种人工智能交互方法及人工智能交互系统
CN117690416B (zh) * 2024-02-02 2024-04-12 江西科技学院 一种人工智能交互方法及人工智能交互系统

Similar Documents

Publication Publication Date Title
CN110728997B (zh) 一种基于情景感知的多模态抑郁症检测系统
CN111145729B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
EP3260996A1 (en) Dialogue act estimation method, dialogue act estimation apparatus, and storage medium
Casale et al. Speech emotion classification using machine learning algorithms
CN110675859B (zh) 结合语音与文本的多情感识别方法、系统、介质及设备
CN110853649A (zh) 基于智能语音技术的标签提取方法、系统、设备及介质
CN110990543A (zh) 智能对话的生成方法、装置、计算机设备及计算机存储介质
CN112233680B (zh) 说话人角色识别方法、装置、电子设备及存储介质
CN109313892A (zh) 稳健的语言识别方法和系统
CN111445898B (zh) 语种识别方法、装置、电子设备和存储介质
US20180308501A1 (en) Multi speaker attribution using personal grammar detection
CN114691852A (zh) 人机对话系统及方法
TWI734085B (zh) 使用意圖偵測集成學習之對話系統及其方法
CN114596844A (zh) 声学模型的训练方法、语音识别方法及相关设备
CN110019741A (zh) 问答系统答案匹配方法、装置、设备及可读存储介质
CN110503943B (zh) 一种语音交互方法以及语音交互系统
CN111199149A (zh) 一种对话系统的语句智能澄清方法及系统
CN113744727A (zh) 模型训练方法、系统、终端设备及存储介质
CN112256229A (zh) 人机语音交互方法、装置、电子设备及存储介质
CN116246632A (zh) 外呼话术指导方法及装置
CN113555133A (zh) 一种医疗问诊数据处理方法和装置
CN113299277A (zh) 一种语音语义识别方法及系统
CN112908296A (zh) 一种方言识别方法
CN117634471A (zh) 一种nlp质检方法及计算机可读存储介质
Cong et al. Unsatisfied customer call detection with deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210604

RJ01 Rejection of invention patent application after publication