CN113053387A - 一种支持语义理解的语音录入系统 - Google Patents
一种支持语义理解的语音录入系统 Download PDFInfo
- Publication number
- CN113053387A CN113053387A CN202110215699.3A CN202110215699A CN113053387A CN 113053387 A CN113053387 A CN 113053387A CN 202110215699 A CN202110215699 A CN 202110215699A CN 113053387 A CN113053387 A CN 113053387A
- Authority
- CN
- China
- Prior art keywords
- semantic understanding
- voice
- speech
- input
- system supporting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005192 partition Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 7
- 230000002452 interceptive effect Effects 0.000 claims abstract description 6
- 238000012216 screening Methods 0.000 claims abstract description 4
- 238000012937 correction Methods 0.000 abstract description 2
- 238000012986 modification Methods 0.000 abstract description 2
- 230000004048 modification Effects 0.000 abstract description 2
- 239000002699 waste material Substances 0.000 abstract description 2
- 238000000034 method Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000012905 input function Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241000008357 Okapia johnstoni Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明实例提供一种支持语义理解的语音录入系统,以提高语音输入的准确度。一种支持语义理解的语音录入系统,主要包括语义理解模块和语音录入模块。语义理解模块的步骤为:预处理、建立主题模型、提取分区特征、词组权重计算、提取关键词、构建词向量和句向量空间、筛选区分度高的特征、训练各分区语言模型、储存所述语言模型。语音录入模块由语音接收、预处理、语音识别、保存交互部分组成。本发明实例提出了一种支持语义理解的语音录入系统,在录入前收集常用文本集输入其中的语义理解模块,并进行训练学习;接受录入语音时,系统可根据录入语音匹配相关的文本。因此,本发明实例的语音录入系统既能提高语音录入的准确率,还能避免反复纠错修改所浪费的时间,大大提高从语音转换为文字的效率。
Description
技术领域
本发明涉及语音识别技术领域,特别是涉及一种支持语义理解的语音录入系统。
背景技术
智能语音技术的发展使得语音录入功能成为可能,语音录入系统可以收集录入对象发出的语音信号,并将通过语音识别技术将其转换成文字输入。语音录入功能具有便捷、高效、强理解性、强互动性,可应用于日常生活、高空作业、步行与驾驶、课堂会议等各种不同的场景,解放录入对象双手,满足其不同的需求。
目前,语音识别技术原理是将输入的语音转换成声音信号,进行一系列信号处理、分帧、声学特征提取等处理,再与储存的声学模型和语音模型比照,得出识别结果。然而,由于各方面的局限性,语音录入的准确性还需要更高层次的发展。在自然语言中,单词是否出现在一个特定的点,需要通过上下文关联内容进行判断;而在语音录入过程中,当录入语音的声学特征模型对应至多个不同的文字或单词时,系统会不能准确判断录入对象到底需要的是哪个文字或单词。
语义理解是自然语言处理技术的核心环节,主要采用序列标注方法,可以针对输入材料的内容判断其属于哪个领域、具体对应哪个词槽,达到充分理解语义的目的。
发明内容
针对上述问题,本发明实例提供一种支持语义理解的语音录入系统,以提高语音输入的准确度。
为实现上述目的,本发明实例提供如下技术方案:
一种支持语义理解的语音录入系统,主要包括语义理解模块和语音录入模块。
进一步地,用常用文本集训练语义理解模块:
对所述文本集进行预处理,具体为:
对所述文本集进行分词;
对所述文本集进行词性标注;
对所述文本集进行命名实体识别;
对所述文本集进行新词发现。
为所述文本集建立主题模型,辨析所述文本集围绕的主题,并分区储存不同主题模型的文本集。
分别提取所述各分区的所述文本集的特征,如构建词向量空间和句向量空间、给词组权重打分、计算词频域特征等:
优选地,对所述文本集进行词组权重计算,具体为:
构建词组权重打分公式;
根据所述词组权重提取所述文本集的核心词、关键词。
优选地,构建所述文本集的词向量和句向量空间。
所述特征进行筛选,选择区分度高的所述特征。
训练所述各分区的所述文本集的语言模型,储存所述语言模型。
进一步地,语音录入模块由语音接收、预处理、语音识别、保存交互部分组成:
语音接收部分:与外置收音设备连接,采集录入对象的语音信号,并输入预处理部分。
预处理部分:从所述语音接收部分接收所述语音信号,完成信号处理及特征提取,从输入信号中提取特征,并降低环境噪声、信道、说话人等因素对所述特征造成的影响,输入语音识别部分。
语音识别部分:接收所述预处理部分的所述特征,完成从声音信号到文字输出的转换,具体的:
构建统计声学模型,将所述特征与所述声学模型比对,确定对应信号;
预存标准发音词典;
调用所述语义理解模块的所述语言模型;
根据所述发音词典,使用解码器将所述语言模型与所述声学模型对应上,寻找以最大概率输出所述信号的词组,并串联成句,输入保存交互部分。
保存交互部分:保存并显示和/或输出所述语音识别部分输入的所述文字信息,提供完整的语音录入功能。
相比于现有技术,本发明实例的技术效果和优点:本发明实例提出了一种支持语义理解的语音录入系统,在录入前收集常用文本集输入其中的语义理解模块,并进行训练学习;接受录入语音时,系统可根据录入语音匹配相关的文本。因此,本发明实例的语音录入系统既能提高语音录入的准确率,还能避免反复纠错修改所浪费的时间,大大提高从语音转换为文字的效率。
附图说明
图1为本发明实例支持语义理解的语音录入系统在某具体应用场景中的流程示意图。
具体实施方式
为了便于理解和实施本发明实例,下面将结合本发明实例中的附图,对本发明实施例中的技术方案进行清楚、完善的描述。显然,所描述的实例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动成果前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
为了实现构建上述语音录入系统,通过预先训练好语言模型提高语音录入的准确性和快捷性的目的,本发明提供了支持语义理解的语音录入系统实例1;图1为本发明实现语音录入的实施例1的流程示意图;如图1所示,可以包括以下模块和步骤:
针对上述问题,本发明实例提供一种支持语义理解的语音录入系统,以提高语音输入的准确度。
一种支持语义理解的语音录入系统,主要包括语义理解模块和语音录入模块。
进一步地,用常用文本集训练语义理解模块:
对所述文本集进行预处理,具体为:
对所述文本集进行分词,可采用基于字符串匹配、全切分、由字构词、基于深度学习等方法;
对所述文本集进行词性标注;
对所述文本集进行命名实体识别;
对所述文本集进行新词发现。
为所述文本集建立主题模型,辨析所述文本集围绕的主题,可采用pLSA、LDA、NMF、HDP等方法,并分区储存不同主题模型的文本集。
分别提取所述各分区的所述文本集的特征,如构建词向量空间和句向量空间、给词组权重打分、计算词频域特征等:
优选地,对所述文本集进行词组权重计算,具体为:
构建词组权重打分公式,通过local、global、normalization公式的组合计算词组权重,可采用TF-IDF、Okapi、MI、LTU、ATC、TF-ICF等方法,或有监督机器学习+逻辑回归模型方法,获得词组权重;
根据所述词组权重提取所述文本集的核心词、关键词。
优选地,采用ffnnlm、word2vec、c-bow等方法构建所述文本集的词向量和句向量空间。
采用基尼系数、信息增益、互信息、相关系数等指标对所述特征进行筛选,选择区分度高的所述特征。
训练所述各分区的所述文本集的语言模型,可采用常用监督模型,如lr、svm、maxent、朴素贝叶斯、决策树、深度神经网络等,储存所述语言模型。
进一步地,语音录入模块由语音接收、预处理、语音识别、保存交互部分组成:
语音接收部分:与外置收音设备连接,采集录入对象的语音信号,并输入预处理部分。
预处理部分:从所述语音接收部分接收所述语音信号,完成信号处理及特征提取,从输入信号中提取特征,并降低环境噪声、信道、说话人等因素对所述特征造成的影响,输入语音识别部分。
语音识别部分:接收所述预处理部分的所述特征,完成从声音信号到文字输出的转换,具体的:
基于一阶隐马尔科夫模型构建统计声学模型,将所述特征与所述声学模型比对,确定对应信号;
预存标准发音词典;
调用所述语义理解模块的所述语言模型;
根据所述发音词典,使用解码器将所述语言模型与所述声学模型对应上,寻找以最大概率输出所述信号的词组,并串联成句,输入保存交互部分。
保存交互部分:保存并显示和/或输出所述语音识别部分输入的所述文字信息,提供完整的语音录入功能。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并没有因此而理解为对本申请专利范围的限制。应当指出,本发明的各种不同的实施方式之间也可以进行随意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。
Claims (4)
1.本发明涉及一种支持语义理解的语音录入系统,以提高语音输入的准确度。
2.如权利要求1所述一种支持语义理解的语音录入系统,其特征在于,主要包括语义理解模块和语音录入模块。
3.如权利要求1所述一种支持语义理解的语音录入系统,其特征在于,语义理解模块的步骤为:预处理、建立主题模型、提取分区特征、词组权重计算、提取关键词、构建词向量和句向量空间、筛选区分度高的特征、训练各分区语言模型、储存所述语言模型。
4.如权利要求1所述一种支持语义理解的语音录入系统,其特征在于,语音录入模块由语音接收、预处理、语音识别、保存交互部分组成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110215699.3A CN113053387A (zh) | 2021-02-26 | 2021-02-26 | 一种支持语义理解的语音录入系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110215699.3A CN113053387A (zh) | 2021-02-26 | 2021-02-26 | 一种支持语义理解的语音录入系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113053387A true CN113053387A (zh) | 2021-06-29 |
Family
ID=76509173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110215699.3A Pending CN113053387A (zh) | 2021-02-26 | 2021-02-26 | 一种支持语义理解的语音录入系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113053387A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160259779A1 (en) * | 2015-03-06 | 2016-09-08 | Nuance Communications, Inc. | Evidence-Based Natural Language Input Recognition |
CN107247780A (zh) * | 2017-06-12 | 2017-10-13 | 北京理工大学 | 一种基于知识本体的专利文献相似性度量方法 |
CN107665705A (zh) * | 2017-09-20 | 2018-02-06 | 平安科技(深圳)有限公司 | 语音关键词识别方法、装置、设备及计算机可读存储介质 |
CN111144127A (zh) * | 2019-12-25 | 2020-05-12 | 科大讯飞股份有限公司 | 文本语义识别方法及其模型的获取方法及相关装置 |
US20200160851A1 (en) * | 2018-11-20 | 2020-05-21 | Institute For Information Industry | Semantic analysis method, semantic analysis system and non-transitory computer-readable medium |
CN111597308A (zh) * | 2020-05-19 | 2020-08-28 | 中国电子科技集团公司第二十八研究所 | 一种基于知识图谱的语音问答系统及其应用方法 |
CN111613212A (zh) * | 2020-05-13 | 2020-09-01 | 携程旅游信息技术(上海)有限公司 | 语音识别方法、系统、电子设备和存储介质 |
CN112382276A (zh) * | 2020-10-20 | 2021-02-19 | 国网山东省电力公司物资公司 | 一种基于语音语义识别的电网物料信息采集方法及装置 |
-
2021
- 2021-02-26 CN CN202110215699.3A patent/CN113053387A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160259779A1 (en) * | 2015-03-06 | 2016-09-08 | Nuance Communications, Inc. | Evidence-Based Natural Language Input Recognition |
CN107247780A (zh) * | 2017-06-12 | 2017-10-13 | 北京理工大学 | 一种基于知识本体的专利文献相似性度量方法 |
CN107665705A (zh) * | 2017-09-20 | 2018-02-06 | 平安科技(深圳)有限公司 | 语音关键词识别方法、装置、设备及计算机可读存储介质 |
US20200160851A1 (en) * | 2018-11-20 | 2020-05-21 | Institute For Information Industry | Semantic analysis method, semantic analysis system and non-transitory computer-readable medium |
CN111144127A (zh) * | 2019-12-25 | 2020-05-12 | 科大讯飞股份有限公司 | 文本语义识别方法及其模型的获取方法及相关装置 |
CN111613212A (zh) * | 2020-05-13 | 2020-09-01 | 携程旅游信息技术(上海)有限公司 | 语音识别方法、系统、电子设备和存储介质 |
CN111597308A (zh) * | 2020-05-19 | 2020-08-28 | 中国电子科技集团公司第二十八研究所 | 一种基于知识图谱的语音问答系统及其应用方法 |
CN112382276A (zh) * | 2020-10-20 | 2021-02-19 | 国网山东省电力公司物资公司 | 一种基于语音语义识别的电网物料信息采集方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111933129B (zh) | 音频处理方法、语言模型的训练方法、装置及计算机设备 | |
CN110033758B (zh) | 一种基于小训练集优化解码网络的语音唤醒实现方法 | |
US9911413B1 (en) | Neural latent variable model for spoken language understanding | |
CN112002308B (zh) | 一种语音识别方法及装置 | |
US10332508B1 (en) | Confidence checking for speech processing and query answering | |
US10388274B1 (en) | Confidence checking for speech processing and query answering | |
US10170107B1 (en) | Extendable label recognition of linguistic input | |
US6067520A (en) | System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models | |
CN111090727B (zh) | 语言转换处理方法、装置及方言语音交互系统 | |
CN101105894B (zh) | 多功能语言学习机 | |
CN114116994A (zh) | 一种迎宾机器人对话方法 | |
CN113178193A (zh) | 一种基于智能语音芯片的中文自定义唤醒与物联交互方法 | |
CN109243460A (zh) | 一种自动生成基于地方方言的讯或询问笔录的方法 | |
CN113609264B (zh) | 电力系统节点的数据查询方法、装置 | |
Shon et al. | Leveraging pre-trained language model for speech sentiment analysis | |
CN112466279A (zh) | 一种英语口语发音自动纠正方法和装置 | |
EP1398758A2 (en) | Method and apparatus for generating decision tree questions for speech processing | |
Ashihara et al. | SpeechGLUE: How well can self-supervised speech models capture linguistic knowledge? | |
CN103035244A (zh) | 一种可实时反馈用户朗读进度的语音跟踪方法 | |
Wang et al. | Design and implementation of an English pronunciation scoring system for pupils based on DNN-HMM | |
CN111968646A (zh) | 一种语音识别方法及装置 | |
CN113053387A (zh) | 一种支持语义理解的语音录入系统 | |
CN115132170A (zh) | 语种分类方法、装置及计算机可读存储介质 | |
Zheng | [Retracted] An Analysis and Research on Chinese College Students’ Psychological Barriers in Oral English Output from a Cross‐Cultural Perspective | |
CN113822506A (zh) | 一种用于电力调控的多轮次语音交互智能检索系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210629 |
|
RJ01 | Rejection of invention patent application after publication |