CN112270923A - 一种基于神经网络的语义识别系统 - Google Patents

一种基于神经网络的语义识别系统 Download PDF

Info

Publication number
CN112270923A
CN112270923A CN202011137077.5A CN202011137077A CN112270923A CN 112270923 A CN112270923 A CN 112270923A CN 202011137077 A CN202011137077 A CN 202011137077A CN 112270923 A CN112270923 A CN 112270923A
Authority
CN
China
Prior art keywords
semantic
module
recognition
semantics
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011137077.5A
Other languages
English (en)
Inventor
毕卉
储开网
王家骏
肖蓉蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Fengxin Network Technology Co ltd
Original Assignee
Jiangsu Fengxin Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Fengxin Network Technology Co ltd filed Critical Jiangsu Fengxin Network Technology Co ltd
Priority to CN202011137077.5A priority Critical patent/CN112270923A/zh
Publication of CN112270923A publication Critical patent/CN112270923A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Abstract

本发明公开了一种基于神经网络的语义识别系统,包括特征提取系统、模型训练系统、语义分割模块和语义组合模块;特征提取系统用于提取语言的特征信息,将语音段所有帧的音素状态后验概率取均值,得到该语音段的数据;模型训练系统采用SVM区分性建模方法,对此可对比SVM在采取不同核条件下的识别性能;基于输出层语音段表示服从直方图分布的假设,实现对语种的识别;语义分割模块将特征提取系统提取的语音段进行分割,独立分段翻译出单独语义;语义组合模块将单独语义进行组合,组合出含有语义的语句,从而实现语义的识别。本发明大大提高语义识别的准确性。

Description

一种基于神经网络的语义识别系统
技术领域
本发明涉及语义识别系统领域,具体涉及一种基于神经网络的语义识别系统。
背景技术
语义识别是对文本或者录音进行文字的转换,转换成操作者直观看到的语言文字,便于人们了解所要传达的意思,语义识别前期需要对语种进行识别。
语种识别的目的在于自动确定一段语音所属的语言种类.作为相关语音应用的一种前端处理技术,语种识别在多语种语音识别、信息检索和服务、跨语
种通信系统和机器翻译等领域中有着广泛应用.语种识别中的一个重要问题是如何得到语音段的有效表示,这主要涉及前端特征提取和后端建模两方面的内容.对于给定语音段,音素学方法首先利用音素识别器得到语音段的符号串特征,然后建立相应的n-gram语言模型表示.声学方法对语音段提取梅尔倒谱参数或移位差分倒谱参数等作为前端特征,并利用混合高斯模型表示语音段信息。
近年很多研究工作采用区分性训练、因子分析或全差异空间建模等机器学习领域中的成熟方法,提高后端建模的区分性和鲁棒性,使得语种识别性能得到一定提高。
但是上述方法对短时语音段和方言的识别准确率还是过低,从而影响后期语义的识别,仍远不能满足实际应用的需求。
发明内容
本发明提出了一种基于神经网络的语义识别系统,解决了现有语义识别系统对短时语音段和方言的识别准确率还是过低,从而影响后期语义的识别,仍远不能满足实际应用的需求的问题。
本发明的技术方案是这样实现的:
一种基于神经网络的语义识别系统,包括特征提取系统、模型训练系统、语义分割模块和语义组合模块;
所述特征提取系统用于提取语言的特征信息,将语音段所有帧的音素状态后验概率取均值,得到该语音段的数据;所述模型训练系统采用 SVM 区分性建模方法,对此可对比SVM 在采取不同核条件下的识别性能;基于输出层语音段表示服从直方图分布的假设,实现对语种的识别;
所述语义分割模块将所述特征提取系统提取的语音段进行分割,独立分段翻译出单独语义;所述语义组合模块将单独语义进行组合,组合出含有语义的语句,从而实现语义的识别。
优选的,所述模型训练系统在实现语种的识别后,通过与传统的音素识别结合支持向量机语种识别方法进行对比实验,以此对比音素状态级信息和音素级信息的有效性。
优选的,所述语义分割模块对所述语音段进行分割时,采用区域生长法对语音段进行分割。
优选的,所述语义分割模块进行分割后还包括对分割后的语音段进行二次特征提取,提取方法采用的方法为颜色直方图或灰度共生矩。
优选的,还包括数据库,所述数据库用于存储应用场景数据和语法规则数据。
优选的,所述数据库中还包括插入对比模块,所述插入对比模块与所述语义组合模块相匹配,当所述语义组合模块组合出含有语义的话语时,通过插入对比模块中的场景数据和语法规则模块对语句进行限定,选取最优语句。
优选的,还包括语义输出模块,所述语义输出模块采用E702T音频模块,用于语音播放输出最优语句。
本发明的有益效果是,
本发明通过设置特征提取系统、模型训练系统、语义分割模块和语义组合模块;其中特征提取系统、模型训练系统构成语种的识别单独系统,语义分割模块和语义组合模块构成语义输出系统。
特征提取系统用于提取语言的特征信息,将语音段所有帧的音素状态后验概率取均值,得到该语音段的数据;模型训练系统采用 SVM 区分性建模方法,对此可对比 SVM 在采取不同核条件下的识别性能;基于输出层语音段表示服从直方图分布的假设,实现对语种的识别。
语义分割模块将特征提取系统提取的语音段进行分割,独立分段翻译出单独语义;语义组合模块将单独语义进行组合,组合出含有语义的语句,从而实现语义的识别,并且通过在语音段进行分割时,还可以进行二次特征提取,提高语义输出的准确性。
申请通过设置独立的语种识别系统和语义识别系统,逐步实现对文本语义的输出,大大提高语义识别的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于神经网络的语义识别系统的原理框图;
图2为本发明中语义分割模块的工作原理框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1-2,于神经网络的语义识别系统,包括特征提取系统、模型训练系统、语义分割模块和语义组合模块;
特征提取系统用于提取语言的特征信息,将语音段所有帧的音素状态后验概率取均值,得到该语音段的数据;模型训练系统采用 SVM 区分性建模方法,对此可对比 SVM 在采取不同核条件下的识别性能;基于输出层语音段表示服从直方图分布的假设,实现对语种的识别;
语义分割模块将特征提取系统提取的语音段进行分割,独立分段翻译出单独语义;语义组合模块将单独语义进行组合,组合出含有语义的语句,从而实现语义的识别。
模型训练系统在实现语种的识别后,通过与传统的音素识别结合支持向量机语种识别方法进行对比实验,以此对比音素状态级信息和音素级信息的有效性。
语义分割模块对语音段进行分割时,采用区域生长法对语音段进行分割。
语义分割模块进行分割后还包括对分割后的语音段进行二次特征提取,提取方法采用的方法为颜色直方图或灰度共生矩。
还包括数据库,数据库用于存储应用场景数据和语法规则数据,其中场景数据包括不同的地域、不同的环境;本申请语法规则数据采用中文语法规则,但是为了保证本实施例应用的范围更加广泛,数据库上可以外接输入端口,实现对数据库的不断完善,在发现新的应用场景,或者在本系统使用者处于不同的地域时,输出的最优语句也会采用不同的语言进行输出,此时需要录入不同输出语言作为语法规则数据。
数据库中还包括插入对比模块,插入对比模块与语义组合模块相匹配,当语义组合模块组合出含有语义的话语时,通过插入对比模块中的场景数据和语法规则模块对语句进行限定,选取最优语句,语义组合模块在对语义进行合成时,面对不同含有的多个词汇,合成的语句也会有多个,通过添加应用场景和语法,这样就能通过条件筛选最优语句。
还包括语义输出模块,语义输出模块采用E702T音频模块,用于语音播放输出最优语句,E702T音频模块主要由ARM+DSP构架,专注于网络音频传输的控制模块,具有10/100M以太网接口,可通过网络进行单向MP3音频流和双向语音传输。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于神经网络的语义识别系统,其特征在于,包括特征提取系统、模型训练系统、语义分割模块和语义组合模块;
所述特征提取系统用于提取语言的特征信息,将语音段所有帧的音素状态后验概率取均值,得到该语音段的数据;所述模型训练系统采用 SVM 区分性建模方法,对此可对比SVM 在采取不同核条件下的识别性能;基于输出层语音段表示服从直方图分布的假设,实现对语种的识别;
所述语义分割模块将所述特征提取系统提取的语音段进行分割,独立分段翻译出单独语义;所述语义组合模块将单独语义进行组合,组合出含有语义的语句,从而实现语义的识别。
2.如权利要求1所述的基于神经网络的语义识别系统,其特征在于,所述模型训练系统在实现语种的识别后,通过与传统的音素识别结合支持向量机语种识别方法进行对比实验,以此对比音素状态级信息和音素级信息的有效性。
3.如权利要求1所述的基于神经网络的语义识别系统,其特征在于,所述语义分割模块对所述语音段进行分割时,采用区域生长法对语音段进行分割。
4.如权利要求3所述的基于神经网络的语义识别系统,其特征在于,所述语义分割模块进行分割后还包括对分割后的语音段进行二次特征提取,提取方法采用的方法为颜色直方图或灰度共生矩。
5.如权利要求1所述的基于神经网络的语义识别系统,其特征在于,还包括数据库,所述数据库用于存储应用场景数据和语法规则数据。
6.如权利要求5所述的基于神经网络的语义识别系统,其特征在于,所述数据库中还包括插入对比模块,所述插入对比模块与所述语义组合模块相匹配,当所述语义组合模块组合出含有语义的话语时,通过插入对比模块中的场景数据和语法规则模块对语句进行限定,选取最优语句。
7.如权利要求6所述的基于神经网络的语义识别系统,其特征在于,还包括语义输出模块,所述语义输出模块采用E702T音频模块,用于语音播放输出最优语句。
CN202011137077.5A 2020-10-22 2020-10-22 一种基于神经网络的语义识别系统 Pending CN112270923A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011137077.5A CN112270923A (zh) 2020-10-22 2020-10-22 一种基于神经网络的语义识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011137077.5A CN112270923A (zh) 2020-10-22 2020-10-22 一种基于神经网络的语义识别系统

Publications (1)

Publication Number Publication Date
CN112270923A true CN112270923A (zh) 2021-01-26

Family

ID=74341513

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011137077.5A Pending CN112270923A (zh) 2020-10-22 2020-10-22 一种基于神经网络的语义识别系统

Country Status (1)

Country Link
CN (1) CN112270923A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113707130A (zh) * 2021-08-16 2021-11-26 北京搜狗科技发展有限公司 一种语音识别方法、装置和用于语音识别的装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050101694A (ko) * 2004-04-19 2005-10-25 대한민국(전남대학교총장) 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법
CN105280181A (zh) * 2014-07-15 2016-01-27 中国科学院声学研究所 一种语种识别模型的训练方法及语种识别方法
CN106384587A (zh) * 2015-07-24 2017-02-08 科大讯飞股份有限公司 一种语音识别方法及系统
CN109817213A (zh) * 2019-03-11 2019-05-28 腾讯科技(深圳)有限公司 用于自适应语种进行语音识别的方法、装置及设备
CN109903750A (zh) * 2019-02-21 2019-06-18 科大讯飞股份有限公司 一种语音识别方法及装置
CN110895932A (zh) * 2018-08-24 2020-03-20 中国科学院声学研究所 基于语言种类和语音内容协同分类的多语言语音识别方法
CN111009244A (zh) * 2019-12-06 2020-04-14 贵州电网有限责任公司 语音识别方法及系统
CN111261141A (zh) * 2018-11-30 2020-06-09 北京嘀嘀无限科技发展有限公司 一种语音识别方法以及语音识别装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050101694A (ko) * 2004-04-19 2005-10-25 대한민국(전남대학교총장) 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법
CN105280181A (zh) * 2014-07-15 2016-01-27 中国科学院声学研究所 一种语种识别模型的训练方法及语种识别方法
CN106384587A (zh) * 2015-07-24 2017-02-08 科大讯飞股份有限公司 一种语音识别方法及系统
CN110895932A (zh) * 2018-08-24 2020-03-20 中国科学院声学研究所 基于语言种类和语音内容协同分类的多语言语音识别方法
CN111261141A (zh) * 2018-11-30 2020-06-09 北京嘀嘀无限科技发展有限公司 一种语音识别方法以及语音识别装置
CN109903750A (zh) * 2019-02-21 2019-06-18 科大讯飞股份有限公司 一种语音识别方法及装置
CN109817213A (zh) * 2019-03-11 2019-05-28 腾讯科技(深圳)有限公司 用于自适应语种进行语音识别的方法、装置及设备
CN111009244A (zh) * 2019-12-06 2020-04-14 贵州电网有限责任公司 语音识别方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113707130A (zh) * 2021-08-16 2021-11-26 北京搜狗科技发展有限公司 一种语音识别方法、装置和用于语音识别的装置

Similar Documents

Publication Publication Date Title
CN109410914B (zh) 一种赣方言语音和方言点识别方法
CN108986791B (zh) 针对民航陆空通话领域的中英文语种语音识别方法及系统
CN110364171B (zh) 一种语音识别方法、语音识别系统及存储介质
CN107945805B (zh) 一种智能化跨语言语音识别转化方法
CN110517663B (zh) 一种语种识别方法及识别系统
US9734820B2 (en) System and method for translating real-time speech using segmentation based on conjunction locations
Palaskar et al. End-to-end multimodal speech recognition
CN111477216A (zh) 一种用于对话机器人的音意理解模型的训练方法及系统
CN101447185A (zh) 一种基于内容的音频快速分类方法
CN102063900A (zh) 克服混淆发音的语音识别方法及系统
CN112151015A (zh) 关键词检测方法、装置、电子设备以及存储介质
KR101424193B1 (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
CN112397054A (zh) 一种电力调度语音识别方法
CN111489743A (zh) 一种基于智能语音技术的运营管理分析系统
CN111883137A (zh) 基于语音识别的文本处理方法及装置
CN107123419A (zh) Sphinx语速识别中背景降噪的优化方法
CN112270923A (zh) 一种基于神经网络的语义识别系统
KR100573870B1 (ko) 대화체 연속음성인식을 위한 의사형태소 기반다중발음사전 구축 방법 및 그 시스템과 이를 이용한대화체 음성인식 방법
CN108417209A (zh) 一种基于自然语言处理技术的电力调度语素抽取方法
CN111898342A (zh) 一种基于编辑距离的中文发音校验方法
US20030069730A1 (en) Meaning token dictionary for automatic speech recognition
Mehra et al. Improving word recognition in speech transcriptions by decision-level fusion of stemming and two-way phoneme pruning
JP3364631B2 (ja) 統計的言語モデル生成装置及び音声認識装置
Rasipuram et al. Grapheme and multilingual posterior features for under-resourced speech recognition: a study on scottish gaelic
JP2938865B1 (ja) 音声認識装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination