CN111883112A - 基于多模式标识的语义识别方法、装置和计算机设备 - Google Patents
基于多模式标识的语义识别方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN111883112A CN111883112A CN202010733121.2A CN202010733121A CN111883112A CN 111883112 A CN111883112 A CN 111883112A CN 202010733121 A CN202010733121 A CN 202010733121A CN 111883112 A CN111883112 A CN 111883112A
- Authority
- CN
- China
- Prior art keywords
- recognition
- sub
- behavior pattern
- semantic text
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000003909 pattern recognition Methods 0.000 claims abstract description 60
- 230000006399 behavior Effects 0.000 claims description 321
- 230000015654 memory Effects 0.000 claims description 99
- 238000012545 processing Methods 0.000 claims description 87
- 238000012795 verification Methods 0.000 claims description 42
- 238000004458 analytical method Methods 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 12
- 238000003062 neural network model Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 11
- 101100134058 Caenorhabditis elegans nth-1 gene Proteins 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000007726 management method Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 108010001267 Protein Subunits Proteins 0.000 description 5
- 230000008451 emotion Effects 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012550 audit Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 208000003443 Unconsciousness Diseases 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Medical Informatics (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及人工智能技术领域,应用于智慧城市领域中,揭示了一种基于多模式标识的语义识别方法、装置和计算机设备,获取第一语音信息;将第一语音信息输入第一语音识别模型,得到第一识别结果;若第一识别结果包括两个以上的识别组,则提取行为特征语音片段;输入第一行为模式识别模型,得到第一行为模式标识;感测得到手指压力信号和掌心温度信号;输入第二行为模式识别模型,得到第二行为模式标识;若行为模式标识匹配,并且第一行为模式标识存在第一识别结果中,则选出指定识别组;将指定识别组中的识别语义文本作为最终识别结果。从而提高语义识别的准确性。本申请还涉及区块链技术,第一和第二行为模式识别模型可存储于区块链中。
Description
技术领域
本申请涉及到人工智能技术领域,特别是涉及到一种基于多模式标识的语义识别方法、装置、计算机设备和存储介质。
背景技术
语音语义识别,是人工智能领域中的一种自然语音处理技术,能够将输入的语音信息识别为语义文本。传统的语音语义识别方法,虽然能够完成语音识别任务,但是在对于输入的语音信息中包括同音、相似音等的情况下,无法得到准确的识别结果。因此,传统的语音语义识别的准确性有待提高。
发明内容
本申请的主要目的为提供一种基于多模式标识的语义识别方法、装置、计算机设备和存储介质,旨在提高语音语义识别的准确性。
为了实现上述发明目的,本申请提出一种基于多模式标识的语义识别方法,应用于第一移动终端,包括:
通过所述第一移动终端上预设的收音设备,获取输入的第一语音信息;
将所述第一语音信息输入预设的第一语音识别模型中进行处理,从而得到所述第一语音识别模型输出的第一识别结果;其中所述第一识别结果由至少一个识别组构成,每个识别组均包括一个识别语义文本和一个行为模式标识;
判断所述第一识别结果是否包括两个以上的识别组;
若所述第一识别结果包括两个以上的识别组,则根据预设的行为特征语音提取方法,从所述第一语音信息中提取至少两个行为特征语音片段,其中所述至少两个行为特征语音片段两两之间在时间上不连续;
将所述至少两个行为特征语音片段输入预设的第一行为模式识别模型中进行处理,从而得到所述第一行为模式识别模型输出的第一行为模式标识;
通过所述第一移动终端的侧面预设的压力传感器,感测得到所述第一移动终端的使用者的手指压力信号,以及,通过所述第一移动终端的背面预设的温度传感器,感测得到所述第一移动终端的使用者的手掌的掌心温度信号;其中,所述第一移动终端的背面指与所述第一移动终端的屏幕面相反的一面;
将所述手指压力信号和所述掌心温度信号输入预设的第二行为模式识别模型中进行处理,从而得到所述第二行为模式识别模型输出的第二行为模式标识;
判断所述第一行为模式标识与所述第二行为模式标识是否匹配,以及判断所述第一行为模式标识是否存在于所述第一识别结果中;
若所述第一行为模式标识与所述第二行为模式标识匹配,并且所述第一行为模式标识存在于所述第一识别结果中,则从所述第一识别结果中选出指定识别组,其中所述指定识别组中的行为模式标识为所述第一行为模式标识;
将所述指定识别组中的识别语义文本作为对应于所述第一语音信息的最终识别结果。
进一步地,所述第一语音信息是实时获取的语音信息,所述第一语音识别模型包括顺序连接的编码用长短期记忆网络和解码用长短期记忆网络,所述将所述第一语音信息输入预设的第一语音识别模型中进行处理,从而得到所述第一语音识别模型输出的第一识别结果;其中所述第一识别结果由至少一个识别组构成,每个识别组均包括一个识别语义文本和一个行为模式标识的步骤,包括:
执行第一次编码操作,所述第一次编码操指实时获取第一时长的子语音信息,并将所述第一时长的子语音信息输入预设的第一语音识别模型中的编码用长短期记忆网络进行处理,从而得到所述编码用长短期记忆网络输出的第一隐藏状态向量序列;
执行第一次解码操作,所述第一次解码操指将所述第一隐藏状态向量序列输入所述第一语音识别模型中的解码用长短期记忆网络中进行处理,从而得到所述解码用长短期记忆网络输出的第一子识别语义文本和与所述第一子识别语义文本对应的行为模式标识;
依次执行第二次编码操作、第二次解码操作、...、第n次编码操作、第n次解码操作,其中所述第二次编码操作指实时获取第二时长的子语音信息,并将所述第二时长的子语音信息输入预设的第一语音识别模型中的编码用长短期记忆网络进行处理,从而得到所述编码用长短期记忆网络输出的第二隐藏状态向量序列,并且所述第二时长与所述第一时长的差值等于预设时间差;所述第二次解码操作指将所述第二隐藏状态向量序列输入所述第一语音识别模型中的解码用长短期记忆网络中进行处理,从而得到所述解码用长短期记忆网络输出的第二子识别语义文本和与所述第二子识别语义文本对应的行为模式标识;...;所述第n次编码操作指实时获取第n时长的子语音信息,并将所述第n时长的子语音信息输入预设的第一语音识别模型中的编码用长短期记忆网络进行处理,从而得到所述编码用长短期记忆网络输出的第n隐藏状态向量序列,并且所述第n时长与第n-1时长的差值等于预设时间差,所述第n时长的子语音信息等于所述第一语音信息;所述第n次解码操作指将所述第n隐藏状态向量序列输入所述第一语音识别模型中的解码用长短期记忆网络中进行处理,从而得到所述解码用长短期记忆网络输出的第n子识别语义文本和与所述第n子识别语义文本对应的行为模式标识;
根据预设的数据合并方法,对第一子识别语义文本和与第一子识别语义文本对应的行为模式标识、第二子识别语义文本和与第二子识别语义文本对应的行为模式标识、...以及第n子识别语义文本和与第n子识别语义文本对应的行为模式标识进行合并处理,从而得到所述第一识别结果;其中所述第一识别结果由至少一个识别组构成,每个识别组均包括一个识别语义文本和一个行为模式标识。
进一步地,所述根据预设的数据合并方法,对第一子识别语义文本和与第一子识别语义文本对应的行为模式标识、第二子识别语义文本和与第二子识别语义文本对应的行为模式标识、...以及第n子识别语义文本和与第n子识别语义文本对应的行为模式标识进行合并处理,从而得到所述第一识别结果的步骤,包括:
判断第n子识别语义文本是否完全包含第n-1子识别语义文本,判断第n-1子识别语义文本是否完全包含第n-2子识别语义文本,...,以及判断第二子识别语义文本是否完全包含第一子识别语义文本;
若第n子识别语义文本完全包含第n-1子识别语义文本,并且第n-1子识别语义文本完全包含第n-2子识别语义文本,...,并且第二子识别语义文本完全包含第一子识别语义文本,则生成仅包括一个识别组的第一识别结果,该识别组仅包括所述第n子识别语义文本和与所述第n子识别语义文本对应的行为模式标识。
进一步地,所述将所述手指压力信号和所述掌心温度信号输入预设的第二行为模式识别模型中进行处理,从而得到所述第二行为模式识别模型输出的第二行为模式标识的步骤之前,包括:
调取预收集的数据集,所述数据集由多个数据组构成,每个数据组均包括一个手指压力信号、一个掌心温度信号和一个人工标记的行为模式标识;
将所述数据集中的数据组按预设比例划分为训练组和验证组;
调取预设的神经网络模型,并将所述训练组中的数据输入所述神经网络模型中进行训练,从而得到初始识别模型;
采用所述验证组中的数据对所述初始识别模型进行验证,从而得到验证结果,其中所述验证结果包括验证通过或者验证不通过;
判断所述验证结果是否为验证通过;
若所述验证结果为验证通过,则将所述初始识别模型记为第二行为模式识别模型。
进一步地,所述第一语音信息是所述第一移动终端与第二移动终端进行语音通话时的语音信息,所述将所述指定识别组中的识别语义文本作为对应于所述第一语音信息的最终识别结果的步骤,包括:
向第二移动终端发送参考语义文本获取请求;所述参考语义文本指进行所述语音通话时,所述第二移动终端对第二语音信息进行语义识别得到的语义文本;所述第二语音信息指进行所述语音通话时,所述第二移动终端通过所述第二移动终端上预设的收音设备获取的语音信息;
获取所述第二移动终端发送的参考语义文本,并将所述指定识别组中的识别语义文本和所述参考语义文本根据时间顺序组成对话文本;
将所述对话文本输入预设的流畅性分析模型中进行处理,从而得到所述流畅性分析模型输出的分析结果,所述分析结果包括流畅或者不流畅;
判断所述分析结果是否为流畅;
若所述分析结果为流畅,则将所述指定识别组中的识别语义文本作为对应于所述第一语音信息的最终识别结果。
本申请提供一种基于多模式标识的语义识别装置,应用于第一移动终端,包括:
第一语音信息获取单元,用于通过所述第一移动终端上预设的收音设备,获取输入的第一语音信息;
第一识别结果获取单元,用于将所述第一语音信息输入预设的第一语音识别模型中进行处理,从而得到所述第一语音识别模型输出的第一识别结果;其中所述第一识别结果由至少一个识别组构成,每个识别组均包括一个识别语义文本和一个行为模式标识;
识别组判断单元,用于判断所述第一识别结果是否包括两个以上的识别组;
行为特征语音片段提取单元,用于若所述第一识别结果包括两个以上的识别组,则根据预设的行为特征语音提取方法,从所述第一语音信息中提取至少两个行为特征语音片段,其中所述至少两个行为特征语音片段两两之间在时间上不连续;
第一行为模式标识获取单元,用于将所述至少两个行为特征语音片段输入预设的第一行为模式识别模型中进行处理,从而得到所述第一行为模式识别模型输出的第一行为模式标识;
信号感测单元,用于通过所述第一移动终端的侧面预设的压力传感器,感测得到所述第一移动终端的使用者的手指压力信号,以及,通过所述第一移动终端的背面预设的温度传感器,感测得到所述第一移动终端的使用者的手掌的掌心温度信号;其中,所述第一移动终端的背面指与所述第一移动终端的屏幕面相反的一面;
第二行为模式标识获取单元,用于将所述手指压力信号和所述掌心温度信号输入预设的第二行为模式识别模型中进行处理,从而得到所述第二行为模式识别模型输出的第二行为模式标识;
模式标识判断单元,用于判断所述第一行为模式标识与所述第二行为模式标识是否匹配,以及判断所述第一行为模式标识是否存在于所述第一识别结果中;
指定识别组选取单元,用于若所述第一行为模式标识与所述第二行为模式标识匹配,并且所述第一行为模式标识存在于所述第一识别结果中,则从所述第一识别结果中选出指定识别组,其中所述指定识别组中的行为模式标识为所述第一行为模式标识;
最终识别结果获取单元,用于将所述指定识别组中的识别语义文本作为对应于所述第一语音信息的最终识别结果。
进一步地,所述第一语音信息是实时获取的语音信息,所述第一语音识别模型包括顺序连接的编码用长短期记忆网络和解码用长短期记忆网络,所述第一识别结果获取单元,包括:
第一次编码操作执行子单元,用于执行第一次编码操作,所述第一次编码操指实时获取第一时长的子语音信息,并将所述第一时长的子语音信息输入预设的第一语音识别模型中的编码用长短期记忆网络进行处理,从而得到所述编码用长短期记忆网络输出的第一隐藏状态向量序列;
第一次解码操作执行子单元,用于执行第一次解码操作,所述第一次解码操指将所述第一隐藏状态向量序列输入所述第一语音识别模型中的解码用长短期记忆网络中进行处理,从而得到所述解码用长短期记忆网络输出的第一子识别语义文本和与所述第一子识别语义文本对应的行为模式标识;
多次编码与解码子单元,用于依次执行第二次编码操作、第二次解码操作、...、第n次编码操作、第n次解码操作,其中所述第二次编码操作指实时获取第二时长的子语音信息,并将所述第二时长的子语音信息输入预设的第一语音识别模型中的编码用长短期记忆网络进行处理,从而得到所述编码用长短期记忆网络输出的第二隐藏状态向量序列,并且所述第二时长与所述第一时长的差值等于预设时间差;所述第二次解码操作指将所述第二隐藏状态向量序列输入所述第一语音识别模型中的解码用长短期记忆网络中进行处理,从而得到所述解码用长短期记忆网络输出的第二子识别语义文本和与所述第二子识别语义文本对应的行为模式标识;...;所述第n次编码操作指实时获取第n时长的子语音信息,并将所述第n时长的子语音信息输入预设的第一语音识别模型中的编码用长短期记忆网络进行处理,从而得到所述编码用长短期记忆网络输出的第n隐藏状态向量序列,并且所述第n时长与第n-1时长的差值等于预设时间差,所述第n时长的子语音信息等于所述第一语音信息;所述第n次解码操作指将所述第n隐藏状态向量序列输入所述第一语音识别模型中的解码用长短期记忆网络中进行处理,从而得到所述解码用长短期记忆网络输出的第n子识别语义文本和与所述第n子识别语义文本对应的行为模式标识;
数据合并子单元,用于根据预设的数据合并方法,对第一子识别语义文本和与第一子识别语义文本对应的行为模式标识、第二子识别语义文本和与第二子识别语义文本对应的行为模式标识、...以及第n子识别语义文本和与第n子识别语义文本对应的行为模式标识进行合并处理,从而得到所述第一识别结果;其中所述第一识别结果由至少一个识别组构成,每个识别组均包括一个识别语义文本和一个行为模式标识。
进一步地,所述数据合并子单元,包括:
子识别语义文本判断模块,用于判断第n子识别语义文本是否完全包含第n-1子识别语义文本,判断第n-1子识别语义文本是否完全包含第n-2子识别语义文本,...,以及判断第二子识别语义文本是否完全包含第一子识别语义文本;
第一识别结果生成模块,用于若第n子识别语义文本完全包含第n-1子识别语义文本,并且第n-1子识别语义文本完全包含第n-2子识别语义文本,...,并且第二子识别语义文本完全包含第一子识别语义文本,则生成仅包括一个识别组的第一识别结果,该识别组仅包括所述第n子识别语义文本和与所述第n子识别语义文本对应的行为模式标识。
本申请提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的基于多模式标识的语义识别方法、装置、计算机设备和存储介质,获取输入的第一语音信息;将所述第一语音信息输入预设的第一语音识别模型中进行处理,从而得到第一识别结果;若所述第一识别结果包括两个以上的识别组,则提取至少两个行为特征语音片段;将所述至少两个行为特征语音片段输入预设的第一行为模式识别模型中进行处理,从而得到第一行为模式标识;感测得到所述第一移动终端的使用者的手指压力信号,以及,感测得到所述第一移动终端的使用者的手掌的掌心温度信号;将所述手指压力信号和所述掌心温度信号输入预设的第二行为模式识别模型中进行处理,从而得到第二行为模式标识;若所述第一行为模式标识与所述第二行为模式标识匹配,并且所述第一行为模式标识存在于所述第一识别结果中,则从所述第一识别结果中选出指定识别组;将所述指定识别组中的识别语义文本作为对应于所述第一语音信息的最终识别结果。从而提高了语义识别的准确性。
获取输入的第一语音信息;将所述第一语音信息输入预设的第一语音识别模型中进行处理,从而得到第一识别结果;若所述第一识别结果包括两个以上的识别组,则提取至少两个行为特征语音片段;将所述至少两个行为特征语音片段输入预设的第一行为模式识别模型中进行处理,从而得到第一行为模式标识;感测得到所述第一移动终端的使用者的手指压力信号,以及,感测得到所述第一移动终端的使用者的手掌的掌心温度信号;将所述手指压力信号和所述掌心温度信号输入预设的第二行为模式识别模型中进行处理,从而得到第二行为模式标识;若所述第一行为模式标识与所述第二行为模式标识匹配,并且所述第一行为模式标识存在于所述第一识别结果中,则从所述第一识别结果中选出指定识别组;将所述指定识别组中的识别语义文本作为对应于所述第一语音信息的最终识别结果。从而提高了语义识别的准确性。
附图说明
图1为本申请一实施例的基于多模式标识的语义识别方法的流程示意图;
图2为本申请一实施例的基于多模式标识的语义识别装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提供一种基于多模式标识的语义识别方法,应用于第一移动终端,包括:
S1、通过所述第一移动终端上预设的收音设备,获取输入的第一语音信息;
S2、将所述第一语音信息输入预设的第一语音识别模型中进行处理,从而得到所述第一语音识别模型输出的第一识别结果;其中所述第一识别结果由至少一个识别组构成,每个识别组均包括一个识别语义文本和一个行为模式标识;
S3、判断所述第一识别结果是否包括两个以上的识别组;
S4、若所述第一识别结果包括两个以上的识别组,则根据预设的行为特征语音提取方法,从所述第一语音信息中提取至少两个行为特征语音片段,其中所述至少两个行为特征语音片段两两之间在时间上不连续;
S5、将所述至少两个行为特征语音片段输入预设的第一行为模式识别模型中进行处理,从而得到所述第一行为模式识别模型输出的第一行为模式标识;
S6、通过所述第一移动终端的侧面预设的压力传感器,感测得到所述第一移动终端的使用者的手指压力信号,以及,通过所述第一移动终端的背面预设的温度传感器,感测得到所述第一移动终端的使用者的手掌的掌心温度信号;其中,所述第一移动终端的背面指与所述第一移动终端的屏幕面相反的一面;
S7、将所述手指压力信号和所述掌心温度信号输入预设的第二行为模式识别模型中进行处理,从而得到所述第二行为模式识别模型输出的第二行为模式标识;
S8、判断所述第一行为模式标识与所述第二行为模式标识是否匹配,以及判断所述第一行为模式标识是否存在于所述第一识别结果中;
S9、若所述第一行为模式标识与所述第二行为模式标识匹配,并且所述第一行为模式标识存在于所述第一识别结果中,则从所述第一识别结果中选出指定识别组,其中所述指定识别组中的行为模式标识为所述第一行为模式标识;
S10、将所述指定识别组中的识别语义文本作为对应于所述第一语音信息的最终识别结果。
本申请通过特别的设计,以提高语音语义识别的准确性。所述特别的设计,包括对多个维度的因素(语音信息、行为特征语音片段、手指压力信号和掌心温度信号)为依据,采用多个模型共同分析,再借由行为模式标识以实现获取准确的识别语义文本。
如上述步骤S1-S2所述,通过所述第一移动终端上预设的收音设备,获取输入的第一语音信息;将所述第一语音信息输入预设的第一语音识别模型中进行处理,从而得到所述第一语音识别模型输出的第一识别结果;其中所述第一识别结果由至少一个识别组构成,每个识别组均包括一个识别语义文本和一个行为模式标识。其中,所述第一移动终端例如为手机终端等,所述收音设备,例如为麦克风等,所述第一语音信息例如为第一移动终端的使用者进行语音通话时的语音信息。所述第一语音识别模型可为任意可行模型,例如为神经网络模型、长短期记忆网络模型等。所述行为模式标识可采用任意形式的标识,其中的一种例如为:同级行为模式(例如与同事通话、与朋友通话等)、上级行为模式(例如与领导通话、与长辈通话等)、下级行为模式(例如与下属通话、与后辈通话等);当然,还可以采用其他分类的行为模式标识,在此不再赘述。其中,所述第一语音识别模型通过预先训练得到,训练数据包括预先采集的语音信息以及与所述预先采集的语音信息对应的行为模式标识。例如对最简单的语音:您好(或是你好,这由于用户发音问题,可能无法区分),对应的第一识别结果就可能包括三个识别组,分别为您好-上级行为模式标识,你好-同级行为模式标识,你好-下级行为模式标识。当然,这只是对于上述介绍的一种确切分类的行为模式标识的举例说明,并不作为对本申请的限制。
如上述步骤S3-S4所述,判断所述第一识别结果是否包括两个以上的识别组;若所述第一识别结果包括两个以上的识别组,则根据预设的行为特征语音提取方法,从所述第一语音信息中提取至少两个行为特征语音片段,其中所述至少两个行为特征语音片段两两之间在时间上不连续。判断所述第一识别结果是否包括两个以上的识别组的目的在于,确定所述第一识别结果是否唯一,即所述第一语音信息存在两种以上的不同含义。若所述第一识别结果仅包括一个识别组,那么只需将该识别组中的识别语义文本作为对应于所述第一语音信息的最终识别结果即可,无需继续耗费计算机算力。若所述第一识别结果包括两个以上的识别组,表明所述第一语音信息存在两种以上的不同含义,则需要进一步确定第一语音信息的具体含义。人的语音中包含有丰富的信息,例如重音、语速等,这些信息有助于对识别结果的准确性优化。因此,本申请从所述第一语音信息中提取至少两个行为特征语音片段,以作为优化识别结果的依据。并且,所述至少两个行为特征语音片段两两之间在时间上不连续,以提高分析的可靠性。其中,所述预设的行为特征语音提取方法可为任意可行方法,例如为提取重音语音作为特征语音。
如上述步骤S5所述,将所述至少两个行为特征语音片段输入预设的第一行为模式识别模型中进行处理,从而得到所述第一行为模式识别模型输出的第一行为模式标识。其中,所述第一行为模式识别模型可为任意可行模型,例如采用监督学习的机器学习模型,或者采用无监督学习的机器学习模型,具体地,例如为神经网络模型,或者为支持向量机、线性分类器等。其可以采用训练数据进行训练,所述训练数据包括多个特征语音片段以及与所述多个特征语音片段对应的行为模式标识。
如上述步骤S6所述,通过所述第一移动终端的侧面预设的压力传感器,感测得到所述第一移动终端的使用者的手指压力信号,以及,通过所述第一移动终端的背面预设的温度传感器,感测得到所述第一移动终端的使用者的手掌的掌心温度信号;其中,所述第一移动终端的背面指与所述第一移动终端的屏幕面相反的一面。进一步地,所述压力传感器被配置于,能够感测到所述第一移动终端的侧面的所有压力信号,因此使用者的手指按压在侧面的位置、按压时间、按压力度和按压面积均能够被感测到,此时所述手指压力信号指压力传感器感测到的所有手指压力信号。进一步地,所述温度传感器可采用任意类型的传感器,例如通过接触感应或者非接触感应来感测出掌心温度信号。本申请采用手指压力信号和掌心温度信号作为识别结果的准确度提升的依据,是利用了人在不自觉状态下的情绪、姿势惯性的自然规律,即,当使用者进行不同行为模型的通话时,其情绪、手势均不同,导致其在手持第一移动终端时的手势不同(例如对于使用者A,其在与上司通话时,情绪紧张,采用紧握方式手持第一移动终端)、并且掌心温度不同(例如对于使用者A,其在与上司通话时,情绪紧张,相对而言,手掌掌心温度较高),因此本申请利用手指压力信号和掌心温度信号来判断使用者的行为模型,进而作为识别结果的准确度提升的依据。
如上述步骤S7所述,将所述手指压力信号和所述掌心温度信号输入预设的第二行为模式识别模型中进行处理,从而得到所述第二行为模式识别模型输出的第二行为模式标识。所述第二行为模式识别模型可为任意可行模型,在此不再赘述。进一步地,第二行为模式识别模型采用小体量的模型,即,第二行为模式识别模型通过预设的模型库中调取得到,所述模型库中预存有与不同使用者对应的不同模型,从而每个第二行为模式识别模型只需要对应某个特定的使用者即可,从而在训练的过程中只需要采集单个确切的使用者的数据进行训练,从而提高了训练速度并且不会降低准确性。
如上述步骤S8所述,判断所述第一行为模式标识与所述第二行为模式标识是否匹配,以及判断所述第一行为模式标识是否存在于所述第一识别结果中。其中,判断所述第一行为模式标识与所述第二行为模式标识是否匹配,目的在于确定本申请采用语音特征得到的行为模式标识与采用手指压力信号、掌心温度信号得到的行为模式是否相符合,并且只有在相符合的情况下,进行识别结果准确性的提高才有意义。其中,判断所述第一行为模式标识与所述第二行为模式标识是否匹配,例如为判断所述第一行为模式标识与所述第二行为模式标识是否相同,或者,判断所述第一行为模式标识与所述第二行为模式标识是否为互相包含的关系。判断所述第一行为模式标识是否存在于所述第一识别结果中,目的在于确定第一识别结果是否具有优选的识别语义文本。
如上述步骤S9-10所述,若所述第一行为模式标识与所述第二行为模式标识匹配,并且所述第一行为模式标识存在于所述第一识别结果中,则从所述第一识别结果中选出指定识别组,其中所述指定识别组中的行为模式标识为所述第一行为模式标识;将所述指定识别组中的识别语义文本作为对应于所述第一语音信息的最终识别结果。若所述第一行为模式标识与所述第二行为模式标识匹配,并且所述第一行为模式标识存在于所述第一识别结果中,则可以确定存在准确的识别结果,即第一识别结果中行为模式标识为所述第一行为模式标识对应的识别语义文本。因此,将所述指定识别组中的识别语义文本作为对应于所述第一语音信息的最终识别结果,从而实现了提高语义识别的准确性。
在一个实施方式中,所述第一语音信息是实时获取的语音信息,所述第一语音识别模型包括顺序连接的编码用长短期记忆网络和解码用长短期记忆网络,所述将所述第一语音信息输入预设的第一语音识别模型中进行处理,从而得到所述第一语音识别模型输出的第一识别结果;其中所述第一识别结果由至少一个识别组构成,每个识别组均包括一个识别语义文本和一个行为模式标识的步骤S2,包括:
S201、执行第一次编码操作,所述第一次编码操指实时获取第一时长的子语音信息,并将所述第一时长的子语音信息输入预设的第一语音识别模型中的编码用长短期记忆网络进行处理,从而得到所述编码用长短期记忆网络输出的第一隐藏状态向量序列;
S202、执行第一次解码操作,所述第一次解码操指将所述第一隐藏状态向量序列输入所述第一语音识别模型中的解码用长短期记忆网络中进行处理,从而得到所述解码用长短期记忆网络输出的第一子识别语义文本和与所述第一子识别语义文本对应的行为模式标识;
S203、依次执行第二次编码操作、第二次解码操作、...、第n次编码操作、第n次解码操作,其中所述第二次编码操作指实时获取第二时长的子语音信息,并将所述第二时长的子语音信息输入预设的第一语音识别模型中的编码用长短期记忆网络进行处理,从而得到所述编码用长短期记忆网络输出的第二隐藏状态向量序列,并且所述第二时长与所述第一时长的差值等于预设时间差;所述第二次解码操作指将所述第二隐藏状态向量序列输入所述第一语音识别模型中的解码用长短期记忆网络中进行处理,从而得到所述解码用长短期记忆网络输出的第二子识别语义文本和与所述第二子识别语义文本对应的行为模式标识;...;所述第n次编码操作指实时获取第n时长的子语音信息,并将所述第n时长的子语音信息输入预设的第一语音识别模型中的编码用长短期记忆网络进行处理,从而得到所述编码用长短期记忆网络输出的第n隐藏状态向量序列,并且所述第n时长与第n-1时长的差值等于预设时间差,所述第n时长的子语音信息等于所述第一语音信息;所述第n次解码操作指将所述第n隐藏状态向量序列输入所述第一语音识别模型中的解码用长短期记忆网络中进行处理,从而得到所述解码用长短期记忆网络输出的第n子识别语义文本和与所述第n子识别语义文本对应的行为模式标识;
S204、根据预设的数据合并方法,对第一子识别语义文本和与第一子识别语义文本对应的行为模式标识、第二子识别语义文本和与第二子识别语义文本对应的行为模式标识、...以及第n子识别语义文本和与第n子识别语义文本对应的行为模式标识进行合并处理,从而得到所述第一识别结果;其中所述第一识别结果由至少一个识别组构成,每个识别组均包括一个识别语义文本和一个行为模式标识。
如上所述,实现了将所述第一语音信息输入预设的第一语音识别模型中进行处理,从而得到所述第一语音识别模型输出的第一识别结果。其中,本申请的第一语音识别模型是基于长短期记忆网络的模型,具体地,由编码用长短期记忆网络和解码用长短期记忆网络顺序构成。其中的编码指将输入的语音信息转换为预设长度的向量序列,解码指将向量序列转换为预测的向量序列以最终解读得到子识别语义文本和和行为模式标识。解码用长短期记忆网络可采用任意可行方法运算,例如根据公式: eij=score(si,hj), 其中ci为编码用长短期记忆网络中最终隐藏状态向量ci,aij为权重参数,共有n个时间段(即,当输入的子语音信息为第一时长时,则划分为一个时间段,当输入的子语音信息为第n时长时,则划分为n个时间段),si为所述解码用长短期记忆网络中的第i个隐藏状态向量,score(si,hj)指采用预设的score函数根据si和hj计算出的分数,WC为权值,p为输出概率,yt为解码用长短期记忆网络的对应第t个时间段的输出,x为输入。尤其需要注意的是,本申请采用的是具有纠错功能的设计,即先执行第一次编码操作、第一次解码操作,以实时得到第一子识别语义文本和与所述第一子识别语义文本对应的行为模式标识;但在后续的编码操作、解码操作中,若得到的子识别语义文本与之前得到的子识别语义文本不匹配(例如不完全包含),则根据预设的数据合并方法,对之前的子识别语义文本进行纠错(也称为合并),从而实现了即时性与准确性的兼得。
在一个实施方式中,所述根据预设的数据合并方法,对第一子识别语义文本和与第一子识别语义文本对应的行为模式标识、第二子识别语义文本和与第二子识别语义文本对应的行为模式标识、...以及第n子识别语义文本和与第n子识别语义文本对应的行为模式标识进行合并处理,从而得到所述第一识别结果的步骤S204,包括:
S2041、判断第n子识别语义文本是否完全包含第n-1子识别语义文本,判断第n-1子识别语义文本是否完全包含第n-2子识别语义文本,...,以及判断第二子识别语义文本是否完全包含第一子识别语义文本;
S2042、若第n子识别语义文本完全包含第n-1子识别语义文本,并且第n-1子识别语义文本完全包含第n-2子识别语义文本,...,并且第二子识别语义文本完全包含第一子识别语义文本,则生成仅包括一个识别组的第一识别结果,该识别组仅包括所述第n子识别语义文本和与所述第n子识别语义文本对应的行为模式标识。
如上所述,实现了根据预设的数据合并方法,对第一子识别语义文本和与第一子识别语义文本对应的行为模式标识、第二子识别语义文本和与第二子识别语义文本对应的行为模式标识、...以及第n子识别语义文本和与第n子识别语义文本对应的行为模式标识进行合并处理,从而得到所述第一识别结果。本申请采用的数据合并方法,具体地,是通过比对后获取的子识别语义文本与前获取的子识别语义文本的方式,来进行数据合并。后获取的子识别语义文本若包含前获取的子识别语义文本,则表明识别结果相同,因此以后获取的子识别语义文本为准即可,即,若第n子识别语义文本完全包含第n-1子识别语义文本,并且第n-1子识别语义文本完全包含第n-2子识别语义文本,...,并且第二子识别语义文本完全包含第一子识别语义文本,则生成仅包括一个识别组的第一识别结果,该识别组仅包括所述第n子识别语义文本和与所述第n子识别语义文本对应的行为模式标识。进一步地,若第i子识别语义文本不完全包含第i-1子识别语义文本,则将生成两个不同的识别组,其中一个识别组包括第i子识别语义文本和与第i子识别语义文本对应的行为模式标识,另一识别组包括第i-1子识别语义文本和与第i-1子识别语义文本对应的行为模式标识,从而将存在歧义的识别结果呈现出来,以备后续步骤进行识别结果的准确性提升的基础。
在一个实施方式中,所述将所述手指压力信号和所述掌心温度信号输入预设的第二行为模式识别模型中进行处理,从而得到所述第二行为模式识别模型输出的第二行为模式标识的步骤S7之前,包括:
S61、调取预收集的数据集,所述数据集由多个数据组构成,每个数据组均包括一个手指压力信号、一个掌心温度信号和一个人工标记的行为模式标识;
S62、将所述数据集中的数据组按预设比例划分为训练组和验证组;
S63、调取预设的神经网络模型,并将所述训练组中的数据输入所述神经网络模型中进行训练,从而得到初始识别模型;
S64、采用所述验证组中的数据对所述初始识别模型进行验证,从而得到验证结果,其中所述验证结果包括验证通过或者验证不通过;
S65、判断所述验证结果是否为验证通过;
S66、若所述验证结果为验证通过,则将所述初始识别模型记为第二行为模式识别模型。
如上所述,实现了将所述初始识别模型记为第二行为模式识别模型。本申请采用监督学习的方式来训练得到第二行为模式识别模型。其中第二行为模式识别模型是基于神经网络模型训练而成的。将所述数据集中的数据组按预设比例划分为训练组和验证组,可按任意可行比例进行划分,例如按0.8:0.2-0.95:0.05的比例进行划分。再将所述训练组中的数据输入所述神经网络模型中进行训练,从而得到初始识别模型;采用所述验证组中的数据对所述初始识别模型进行验证,从而得到验证结果;若验证结果为验证通过,则表明所述初始识别模型可胜任输入为所述手指压力信号和所述掌心温度信号,预测结果为行为模式标识的预测任务。因此,将所述初始识别模型记为第二行为模式识别模型。
在一个实施方式中,所述第一语音信息是所述第一移动终端与第二移动终端进行语音通话时的语音信息,所述将所述指定识别组中的识别语义文本作为对应于所述第一语音信息的最终识别结果的步骤S10,包括:
S101、向第二移动终端发送参考语义文本获取请求;所述参考语义文本指进行所述语音通话时,所述第二移动终端对第二语音信息进行语义识别得到的语义文本;所述第二语音信息指进行所述语音通话时,所述第二移动终端通过所述第二移动终端上预设的收音设备获取的语音信息;
S102、获取所述第二移动终端发送的参考语义文本,并将所述指定识别组中的识别语义文本和所述参考语义文本根据时间顺序组成对话文本;
S103、将所述对话文本输入预设的流畅性分析模型中进行处理,从而得到所述流畅性分析模型输出的分析结果,所述分析结果包括流畅或者不流畅;
S104、判断所述分析结果是否为流畅;
S105、若所述分析结果为流畅,则将所述指定识别组中的识别语义文本作为对应于所述第一语音信息的最终识别结果。
如上所述,实现了将所述指定识别组中的识别语义文本作为对应于所述第一语音信息的最终识别结果。本申请采用了与第二移动终端进行交互的方式,进一步提高了识别结果的准确性。其中,第一移动终端与第二移动终端进行语音通话,那么第一移动终端的语音语义识别结果应当与第二移动终端的语音语义识别结果是存在上下文关联关系的。据此,本申请在获取所述第二移动终端发送的参考语义文本后,将所述指定识别组中的识别语义文本和所述参考语义文本根据时间顺序组成对话文本;将所述对话文本输入预设的流畅性分析模型中进行处理,从而得到所述流畅性分析模型输出的分析结果;若所述分析结果为流畅,则表明所述指定识别组中的识别语义文本与所述参考语义文本能够实现顺畅通话,即所述指定识别组中的识别语义文本是准确的识别结果,因此将所述指定识别组中的识别语义文本作为对应于所述第一语音信息的最终识别结果。需要注意的是,采用这种方式,无需耗费第一移动终端在语音语义识别上的额外算力消耗,却能够进一步地提高识别结果的准确性。
本申请的基于多模式标识的语义识别方法,获取输入的第一语音信息;将所述第一语音信息输入预设的第一语音识别模型中进行处理,从而得到第一识别结果;若所述第一识别结果包括两个以上的识别组,则提取至少两个行为特征语音片段;将所述至少两个行为特征语音片段输入预设的第一行为模式识别模型中进行处理,从而得到第一行为模式标识;感测得到所述第一移动终端的使用者的手指压力信号,以及,感测得到所述第一移动终端的使用者的手掌的掌心温度信号;将所述手指压力信号和所述掌心温度信号输入预设的第二行为模式识别模型中进行处理,从而得到第二行为模式标识;若所述第一行为模式标识与所述第二行为模式标识匹配,并且所述第一行为模式标识存在于所述第一识别结果中,则从所述第一识别结果中选出指定识别组;将所述指定识别组中的识别语义文本作为对应于所述第一语音信息的最终识别结果。从而提高了语义识别的准确性。
参照图2,本申请实施例提供一种基于多模式标识的语义识别装置,应用于第一移动终端,包括:
第一语音信息获取单元10,用于通过所述第一移动终端上预设的收音设备,获取输入的第一语音信息;
第一识别结果获取单元20,用于将所述第一语音信息输入预设的第一语音识别模型中进行处理,从而得到所述第一语音识别模型输出的第一识别结果;其中所述第一识别结果由至少一个识别组构成,每个识别组均包括一个识别语义文本和一个行为模式标识;
识别组判断单元30,用于判断所述第一识别结果是否包括两个以上的识别组;
行为特征语音片段提取单元40,用于若所述第一识别结果包括两个以上的识别组,则根据预设的行为特征语音提取方法,从所述第一语音信息中提取至少两个行为特征语音片段,其中所述至少两个行为特征语音片段两两之间在时间上不连续;
第一行为模式标识获取单元50,用于将所述至少两个行为特征语音片段输入预设的第一行为模式识别模型中进行处理,从而得到所述第一行为模式识别模型输出的第一行为模式标识;
信号感测单元60,用于通过所述第一移动终端的侧面预设的压力传感器,感测得到所述第一移动终端的使用者的手指压力信号,以及,通过所述第一移动终端的背面预设的温度传感器,感测得到所述第一移动终端的使用者的手掌的掌心温度信号;其中,所述第一移动终端的背面指与所述第一移动终端的屏幕面相反的一面;
第二行为模式标识获取单元70,用于将所述手指压力信号和所述掌心温度信号输入预设的第二行为模式识别模型中进行处理,从而得到所述第二行为模式识别模型输出的第二行为模式标识;
模式标识判断单元80,用于判断所述第一行为模式标识与所述第二行为模式标识是否匹配,以及判断所述第一行为模式标识是否存在于所述第一识别结果中;
指定识别组选取单元90,用于若所述第一行为模式标识与所述第二行为模式标识匹配,并且所述第一行为模式标识存在于所述第一识别结果中,则从所述第一识别结果中选出指定识别组,其中所述指定识别组中的行为模式标识为所述第一行为模式标识;
最终识别结果获取单元100,用于将所述指定识别组中的识别语义文本作为对应于所述第一语音信息的最终识别结果。
其中上述单元、子单元或模块分别用于执行的操作与前述实施方式的基于多模式标识的语义识别方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述第一语音信息是实时获取的语音信息,所述第一语音识别模型包括顺序连接的编码用长短期记忆网络和解码用长短期记忆网络,所述第一识别结果获取单元,包括:
第一次编码操作执行子单元,用于执行第一次编码操作,所述第一次编码操指实时获取第一时长的子语音信息,并将所述第一时长的子语音信息输入预设的第一语音识别模型中的编码用长短期记忆网络进行处理,从而得到所述编码用长短期记忆网络输出的第一隐藏状态向量序列;
第一次解码操作执行子单元,用于执行第一次解码操作,所述第一次解码操指将所述第一隐藏状态向量序列输入所述第一语音识别模型中的解码用长短期记忆网络中进行处理,从而得到所述解码用长短期记忆网络输出的第一子识别语义文本和与所述第一子识别语义文本对应的行为模式标识;
多次编码与解码子单元,用于依次执行第二次编码操作、第二次解码操作、...、第n次编码操作、第n次解码操作,其中所述第二次编码操作指实时获取第二时长的子语音信息,并将所述第二时长的子语音信息输入预设的第一语音识别模型中的编码用长短期记忆网络进行处理,从而得到所述编码用长短期记忆网络输出的第二隐藏状态向量序列,并且所述第二时长与所述第一时长的差值等于预设时间差;所述第二次解码操作指将所述第二隐藏状态向量序列输入所述第一语音识别模型中的解码用长短期记忆网络中进行处理,从而得到所述解码用长短期记忆网络输出的第二子识别语义文本和与所述第二子识别语义文本对应的行为模式标识;...;所述第n次编码操作指实时获取第n时长的子语音信息,并将所述第n时长的子语音信息输入预设的第一语音识别模型中的编码用长短期记忆网络进行处理,从而得到所述编码用长短期记忆网络输出的第n隐藏状态向量序列,并且所述第n时长与第n-1时长的差值等于预设时间差,所述第n时长的子语音信息等于所述第一语音信息;所述第n次解码操作指将所述第n隐藏状态向量序列输入所述第一语音识别模型中的解码用长短期记忆网络中进行处理,从而得到所述解码用长短期记忆网络输出的第n子识别语义文本和与所述第n子识别语义文本对应的行为模式标识;
数据合并子单元,用于根据预设的数据合并方法,对第一子识别语义文本和与第一子识别语义文本对应的行为模式标识、第二子识别语义文本和与第二子识别语义文本对应的行为模式标识、...以及第n子识别语义文本和与第n子识别语义文本对应的行为模式标识进行合并处理,从而得到所述第一识别结果;其中所述第一识别结果由至少一个识别组构成,每个识别组均包括一个识别语义文本和一个行为模式标识。
其中上述单元、子单元或模块分别用于执行的操作与前述实施方式的基于多模式标识的语义识别方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述数据合并子单元,包括:
子识别语义文本判断模块,用于判断第n子识别语义文本是否完全包含第n-1子识别语义文本,判断第n-1子识别语义文本是否完全包含第n-2子识别语义文本,...,以及判断第二子识别语义文本是否完全包含第一子识别语义文本;
第一识别结果生成模块,用于若第n子识别语义文本完全包含第n-1子识别语义文本,并且第n-1子识别语义文本完全包含第n-2子识别语义文本,...,并且第二子识别语义文本完全包含第一子识别语义文本,则生成仅包括一个识别组的第一识别结果,该识别组仅包括所述第n子识别语义文本和与所述第n子识别语义文本对应的行为模式标识。
其中上述单元、子单元或模块分别用于执行的操作与前述实施方式的基于多模式标识的语义识别方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述装置,包括:
数据集调取单元,用于调取预收集的数据集,所述数据集由多个数据组构成,每个数据组均包括一个手指压力信号、一个掌心温度信号和一个人工标记的行为模式标识;
数据集划分单元,用于将所述数据集中的数据组按预设比例划分为训练组和验证组;
初始识别模型获取单元,用于调取预设的神经网络模型,并将所述训练组中的数据输入所述神经网络模型中进行训练,从而得到初始识别模型;
验证单元,用于采用所述验证组中的数据对所述初始识别模型进行验证,从而得到验证结果,其中所述验证结果包括验证通过或者验证不通过;
验证结果判断单元,用于判断所述验证结果是否为验证通过;
第二行为模式识别模型标记单元,用于若所述验证结果为验证通过,则将所述初始识别模型记为第二行为模式识别模型。
其中上述单元、子单元或模块分别用于执行的操作与前述实施方式的基于多模式标识的语义识别方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述第一语音信息是所述第一移动终端与第二移动终端进行语音通话时的语音信息,所述最终识别结果获取单元,包括:
参考语义文本获取请求发送子单元,用于向第二移动终端发送参考语义文本获取请求;所述参考语义文本指进行所述语音通话时,所述第二移动终端对第二语音信息进行语义识别得到的语义文本;所述第二语音信息指进行所述语音通话时,所述第二移动终端通过所述第二移动终端上预设的收音设备获取的语音信息;
参考语义文本获取子单元,用于获取所述第二移动终端发送的参考语义文本,并将所述指定识别组中的识别语义文本和所述参考语义文本根据时间顺序组成对话文本;
分析结果获取子单元,用于将所述对话文本输入预设的流畅性分析模型中进行处理,从而得到所述流畅性分析模型输出的分析结果,所述分析结果包括流畅或者不流畅;
分析结果判断子单元,用于判断所述分析结果是否为流畅;
最终识别结果获取子单元,用于若所述分析结果为流畅,则将所述指定识别组中的识别语义文本作为对应于所述第一语音信息的最终识别结果。
其中上述单元、子单元或模块分别用于执行的操作与前述实施方式的基于多模式标识的语义识别方法的步骤一一对应,在此不再赘述。
本申请的基于多模式标识的语义识别装置,获取输入的第一语音信息;将所述第一语音信息输入预设的第一语音识别模型中进行处理,从而得到第一识别结果;若所述第一识别结果包括两个以上的识别组,则提取至少两个行为特征语音片段;将所述至少两个行为特征语音片段输入预设的第一行为模式识别模型中进行处理,从而得到第一行为模式标识;感测得到所述第一移动终端的使用者的手指压力信号,以及,感测得到所述第一移动终端的使用者的手掌的掌心温度信号;将所述手指压力信号和所述掌心温度信号输入预设的第二行为模式识别模型中进行处理,从而得到第二行为模式标识;若所述第一行为模式标识与所述第二行为模式标识匹配,并且所述第一行为模式标识存在于所述第一识别结果中,则从所述第一识别结果中选出指定识别组;将所述指定识别组中的识别语义文本作为对应于所述第一语音信息的最终识别结果。从而提高了语义识别的准确性。
参照图3,本发明实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于多模式标识的语义识别方法所用数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于多模式标识的语义识别方法。
上述处理器执行上述基于多模式标识的语义识别方法,其中所述方法包括的步骤分别与执行前述实施方式的基于多模式标识的语义识别方法的步骤一一对应,在此不再赘述。
本领域技术人员可以理解,图中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请的计算机设备,获取输入的第一语音信息;将所述第一语音信息输入预设的第一语音识别模型中进行处理,从而得到第一识别结果;若所述第一识别结果包括两个以上的识别组,则提取至少两个行为特征语音片段;将所述至少两个行为特征语音片段输入预设的第一行为模式识别模型中进行处理,从而得到第一行为模式标识;感测得到所述第一移动终端的使用者的手指压力信号,以及,感测得到所述第一移动终端的使用者的手掌的掌心温度信号;将所述手指压力信号和所述掌心温度信号输入预设的第二行为模式识别模型中进行处理,从而得到第二行为模式标识;若所述第一行为模式标识与所述第二行为模式标识匹配,并且所述第一行为模式标识存在于所述第一识别结果中,则从所述第一识别结果中选出指定识别组;将所述指定识别组中的识别语义文本作为对应于所述第一语音信息的最终识别结果。从而提高了语义识别的准确性。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现基于多模式标识的语义识别方法,其中所述方法包括的步骤分别与执行前述实施方式的基于多模式标识的语义识别方法的步骤一一对应,在此不再赘述。
本申请的计算机可读存储介质,获取输入的第一语音信息;将所述第一语音信息输入预设的第一语音识别模型中进行处理,从而得到第一识别结果;若所述第一识别结果包括两个以上的识别组,则提取至少两个行为特征语音片段;将所述至少两个行为特征语音片段输入预设的第一行为模式识别模型中进行处理,从而得到第一行为模式标识;感测得到所述第一移动终端的使用者的手指压力信号,以及,感测得到所述第一移动终端的使用者的手掌的掌心温度信号;将所述手指压力信号和所述掌心温度信号输入预设的第二行为模式识别模型中进行处理,从而得到第二行为模式标识;若所述第一行为模式标识与所述第二行为模式标识匹配,并且所述第一行为模式标识存在于所述第一识别结果中,则从所述第一识别结果中选出指定识别组;将所述指定识别组中的识别语义文本作为对应于所述第一语音信息的最终识别结果。从而提高了语义识别的准确性。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
本申请可应用于智慧城市领域中,从而推动智慧城市的建设。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种基于多模式标识的语义识别方法,其特征在于,应用于第一移动终端,包括:
通过所述第一移动终端上预设的收音设备,获取输入的第一语音信息;
将所述第一语音信息输入预设的第一语音识别模型中进行处理,从而得到所述第一语音识别模型输出的第一识别结果;其中所述第一识别结果由至少一个识别组构成,每个识别组均包括一个识别语义文本和一个行为模式标识;
判断所述第一识别结果是否包括两个以上的识别组;
若所述第一识别结果包括两个以上的识别组,则根据预设的行为特征语音提取方法,从所述第一语音信息中提取至少两个行为特征语音片段,其中所述至少两个行为特征语音片段两两之间在时间上不连续;
将所述至少两个行为特征语音片段输入预设的第一行为模式识别模型中进行处理,从而得到所述第一行为模式识别模型输出的第一行为模式标识;
通过所述第一移动终端的侧面预设的压力传感器,感测得到所述第一移动终端的使用者的手指压力信号,以及,通过所述第一移动终端的背面预设的温度传感器,感测得到所述第一移动终端的使用者的手掌的掌心温度信号;其中,所述第一移动终端的背面指与所述第一移动终端的屏幕面相反的一面;
将所述手指压力信号和所述掌心温度信号输入预设的第二行为模式识别模型中进行处理,从而得到所述第二行为模式识别模型输出的第二行为模式标识;
判断所述第一行为模式标识与所述第二行为模式标识是否匹配,以及判断所述第一行为模式标识是否存在于所述第一识别结果中;
若所述第一行为模式标识与所述第二行为模式标识匹配,并且所述第一行为模式标识存在于所述第一识别结果中,则从所述第一识别结果中选出指定识别组,其中所述指定识别组中的行为模式标识为所述第一行为模式标识;
将所述指定识别组中的识别语义文本作为对应于所述第一语音信息的最终识别结果。
2.根据权利要求1所述的基于多模式标识的语义识别方法,其特征在于,所述第一语音信息是实时获取的语音信息,所述第一语音识别模型包括顺序连接的编码用长短期记忆网络和解码用长短期记忆网络,所述将所述第一语音信息输入预设的第一语音识别模型中进行处理,从而得到所述第一语音识别模型输出的第一识别结果;其中所述第一识别结果由至少一个识别组构成,每个识别组均包括一个识别语义文本和一个行为模式标识的步骤,包括:
执行第一次编码操作,所述第一次编码操指实时获取第一时长的子语音信息,并将所述第一时长的子语音信息输入预设的第一语音识别模型中的编码用长短期记忆网络进行处理,从而得到所述编码用长短期记忆网络输出的第一隐藏状态向量序列;
执行第一次解码操作,所述第一次解码操指将所述第一隐藏状态向量序列输入所述第一语音识别模型中的解码用长短期记忆网络中进行处理,从而得到所述解码用长短期记忆网络输出的第一子识别语义文本和与所述第一子识别语义文本对应的行为模式标识;
依次执行第二次编码操作、第二次解码操作、...、第n次编码操作、第n次解码操作,其中所述第二次编码操作指实时获取第二时长的子语音信息,并将所述第二时长的子语音信息输入预设的第一语音识别模型中的编码用长短期记忆网络进行处理,从而得到所述编码用长短期记忆网络输出的第二隐藏状态向量序列,并且所述第二时长与所述第一时长的差值等于预设时间差;所述第二次解码操作指将所述第二隐藏状态向量序列输入所述第一语音识别模型中的解码用长短期记忆网络中进行处理,从而得到所述解码用长短期记忆网络输出的第二子识别语义文本和与所述第二子识别语义文本对应的行为模式标识;...;所述第n次编码操作指实时获取第n时长的子语音信息,并将所述第n时长的子语音信息输入预设的第一语音识别模型中的编码用长短期记忆网络进行处理,从而得到所述编码用长短期记忆网络输出的第n隐藏状态向量序列,并且所述第n时长与第n-1时长的差值等于预设时间差,所述第n时长的子语音信息等于所述第一语音信息;所述第n次解码操作指将所述第n隐藏状态向量序列输入所述第一语音识别模型中的解码用长短期记忆网络中进行处理,从而得到所述解码用长短期记忆网络输出的第n子识别语义文本和与所述第n子识别语义文本对应的行为模式标识;
根据预设的数据合并方法,对第一子识别语义文本和与第一子识别语义文本对应的行为模式标识、第二子识别语义文本和与第二子识别语义文本对应的行为模式标识、...以及第n子识别语义文本和与第n子识别语义文本对应的行为模式标识进行合并处理,从而得到所述第一识别结果;其中所述第一识别结果由至少一个识别组构成,每个识别组均包括一个识别语义文本和一个行为模式标识。
3.根据权利要求2所述的基于多模式标识的语义识别方法,其特征在于,所述根据预设的数据合并方法,对第一子识别语义文本和与第一子识别语义文本对应的行为模式标识、第二子识别语义文本和与第二子识别语义文本对应的行为模式标识、...以及第n子识别语义文本和与第n子识别语义文本对应的行为模式标识进行合并处理,从而得到所述第一识别结果的步骤,包括:
判断第n子识别语义文本是否完全包含第n-1子识别语义文本,判断第n-1子识别语义文本是否完全包含第n-2子识别语义文本,...,以及判断第二子识别语义文本是否完全包含第一子识别语义文本;
若第n子识别语义文本完全包含第n-1子识别语义文本,并且第n-1子识别语义文本完全包含第n-2子识别语义文本,...,并且第二子识别语义文本完全包含第一子识别语义文本,则生成仅包括一个识别组的第一识别结果,该识别组仅包括所述第n子识别语义文本和与所述第n子识别语义文本对应的行为模式标识。
4.根据权利要求1所述的基于多模式标识的语义识别方法,其特征在于,所述将所述手指压力信号和所述掌心温度信号输入预设的第二行为模式识别模型中进行处理,从而得到所述第二行为模式识别模型输出的第二行为模式标识的步骤之前,包括:
调取预收集的数据集,所述数据集由多个数据组构成,每个数据组均包括一个手指压力信号、一个掌心温度信号和一个人工标记的行为模式标识;
将所述数据集中的数据组按预设比例划分为训练组和验证组;
调取预设的神经网络模型,并将所述训练组中的数据输入所述神经网络模型中进行训练,从而得到初始识别模型;
采用所述验证组中的数据对所述初始识别模型进行验证,从而得到验证结果,其中所述验证结果包括验证通过或者验证不通过;
判断所述验证结果是否为验证通过;
若所述验证结果为验证通过,则将所述初始识别模型记为第二行为模式识别模型。
5.根据权利要求1所述的基于多模式标识的语义识别方法,其特征在于,所述第一语音信息是所述第一移动终端与第二移动终端进行语音通话时的语音信息,所述将所述指定识别组中的识别语义文本作为对应于所述第一语音信息的最终识别结果的步骤,包括:
向第二移动终端发送参考语义文本获取请求;所述参考语义文本指进行所述语音通话时,所述第二移动终端对第二语音信息进行语义识别得到的语义文本;所述第二语音信息指进行所述语音通话时,所述第二移动终端通过所述第二移动终端上预设的收音设备获取的语音信息;
获取所述第二移动终端发送的参考语义文本,并将所述指定识别组中的识别语义文本和所述参考语义文本根据时间顺序组成对话文本;
将所述对话文本输入预设的流畅性分析模型中进行处理,从而得到所述流畅性分析模型输出的分析结果,所述分析结果包括流畅或者不流畅;
判断所述分析结果是否为流畅;
若所述分析结果为流畅,则将所述指定识别组中的识别语义文本作为对应于所述第一语音信息的最终识别结果。
6.一种基于多模式标识的语义识别装置,其特征在于,应用于第一移动终端,包括:
第一语音信息获取单元,用于通过所述第一移动终端上预设的收音设备,获取输入的第一语音信息;
第一识别结果获取单元,用于将所述第一语音信息输入预设的第一语音识别模型中进行处理,从而得到所述第一语音识别模型输出的第一识别结果;其中所述第一识别结果由至少一个识别组构成,每个识别组均包括一个识别语义文本和一个行为模式标识;
识别组判断单元,用于判断所述第一识别结果是否包括两个以上的识别组;
行为特征语音片段提取单元,用于若所述第一识别结果包括两个以上的识别组,则根据预设的行为特征语音提取方法,从所述第一语音信息中提取至少两个行为特征语音片段,其中所述至少两个行为特征语音片段两两之间在时间上不连续;
第一行为模式标识获取单元,用于将所述至少两个行为特征语音片段输入预设的第一行为模式识别模型中进行处理,从而得到所述第一行为模式识别模型输出的第一行为模式标识;
信号感测单元,用于通过所述第一移动终端的侧面预设的压力传感器,感测得到所述第一移动终端的使用者的手指压力信号,以及,通过所述第一移动终端的背面预设的温度传感器,感测得到所述第一移动终端的使用者的手掌的掌心温度信号;其中,所述第一移动终端的背面指与所述第一移动终端的屏幕面相反的一面;
第二行为模式标识获取单元,用于将所述手指压力信号和所述掌心温度信号输入预设的第二行为模式识别模型中进行处理,从而得到所述第二行为模式识别模型输出的第二行为模式标识;
模式标识判断单元,用于判断所述第一行为模式标识与所述第二行为模式标识是否匹配,以及判断所述第一行为模式标识是否存在于所述第一识别结果中;
指定识别组选取单元,用于若所述第一行为模式标识与所述第二行为模式标识匹配,并且所述第一行为模式标识存在于所述第一识别结果中,则从所述第一识别结果中选出指定识别组,其中所述指定识别组中的行为模式标识为所述第一行为模式标识;
最终识别结果获取单元,用于将所述指定识别组中的识别语义文本作为对应于所述第一语音信息的最终识别结果。
7.根据权利要求6所述的基于多模式标识的语义识别装置,其特征在于,所述第一语音信息是实时获取的语音信息,所述第一语音识别模型包括顺序连接的编码用长短期记忆网络和解码用长短期记忆网络,所述第一识别结果获取单元,包括:
第一次编码操作执行子单元,用于执行第一次编码操作,所述第一次编码操指实时获取第一时长的子语音信息,并将所述第一时长的子语音信息输入预设的第一语音识别模型中的编码用长短期记忆网络进行处理,从而得到所述编码用长短期记忆网络输出的第一隐藏状态向量序列;
第一次解码操作执行子单元,用于执行第一次解码操作,所述第一次解码操指将所述第一隐藏状态向量序列输入所述第一语音识别模型中的解码用长短期记忆网络中进行处理,从而得到所述解码用长短期记忆网络输出的第一子识别语义文本和与所述第一子识别语义文本对应的行为模式标识;
多次编码与解码子单元,用于依次执行第二次编码操作、第二次解码操作、...、第n次编码操作、第n次解码操作,其中所述第二次编码操作指实时获取第二时长的子语音信息,并将所述第二时长的子语音信息输入预设的第一语音识别模型中的编码用长短期记忆网络进行处理,从而得到所述编码用长短期记忆网络输出的第二隐藏状态向量序列,并且所述第二时长与所述第一时长的差值等于预设时间差;所述第二次解码操作指将所述第二隐藏状态向量序列输入所述第一语音识别模型中的解码用长短期记忆网络中进行处理,从而得到所述解码用长短期记忆网络输出的第二子识别语义文本和与所述第二子识别语义文本对应的行为模式标识;...;所述第n次编码操作指实时获取第n时长的子语音信息,并将所述第n时长的子语音信息输入预设的第一语音识别模型中的编码用长短期记忆网络进行处理,从而得到所述编码用长短期记忆网络输出的第n隐藏状态向量序列,并且所述第n时长与第n-1时长的差值等于预设时间差,所述第n时长的子语音信息等于所述第一语音信息;所述第n次解码操作指将所述第n隐藏状态向量序列输入所述第一语音识别模型中的解码用长短期记忆网络中进行处理,从而得到所述解码用长短期记忆网络输出的第n子识别语义文本和与所述第n子识别语义文本对应的行为模式标识;
数据合并子单元,用于根据预设的数据合并方法,对第一子识别语义文本和与第一子识别语义文本对应的行为模式标识、第二子识别语义文本和与第二子识别语义文本对应的行为模式标识、...以及第n子识别语义文本和与第n子识别语义文本对应的行为模式标识进行合并处理,从而得到所述第一识别结果;其中所述第一识别结果由至少一个识别组构成,每个识别组均包括一个识别语义文本和一个行为模式标识。
8.根据权利要求7所述的基于多模式标识的语义识别装置,其特征在于,所述数据合并子单元,包括:
子识别语义文本判断模块,用于判断第n子识别语义文本是否完全包含第n-1子识别语义文本,判断第n-1子识别语义文本是否完全包含第n-2子识别语义文本,...,以及判断第二子识别语义文本是否完全包含第一子识别语义文本;
第一识别结果生成模块,用于若第n子识别语义文本完全包含第n-1子识别语义文本,并且第n-1子识别语义文本完全包含第n-2子识别语义文本,...,并且第二子识别语义文本完全包含第一子识别语义文本,则生成仅包括一个识别组的第一识别结果,该识别组仅包括所述第n子识别语义文本和与所述第n子识别语义文本对应的行为模式标识。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010733121.2A CN111883112B (zh) | 2020-07-27 | 2020-07-27 | 基于多模式标识的语义识别方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010733121.2A CN111883112B (zh) | 2020-07-27 | 2020-07-27 | 基于多模式标识的语义识别方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111883112A true CN111883112A (zh) | 2020-11-03 |
CN111883112B CN111883112B (zh) | 2022-03-18 |
Family
ID=73200751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010733121.2A Active CN111883112B (zh) | 2020-07-27 | 2020-07-27 | 基于多模式标识的语义识别方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111883112B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112735406A (zh) * | 2020-12-23 | 2021-04-30 | 青岛海尔科技有限公司 | 设备的控制方法及装置、存储介质及电子装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005084590A (ja) * | 2003-09-11 | 2005-03-31 | Nissan Motor Co Ltd | 音声認識装置 |
CN104986040A (zh) * | 2015-07-08 | 2015-10-21 | 无锡职业技术学院 | 一种语音识别汽车车速控制器及其控制方法 |
CN105393302A (zh) * | 2013-07-17 | 2016-03-09 | 三星电子株式会社 | 多级语音识别 |
CN107301862A (zh) * | 2016-04-01 | 2017-10-27 | 北京搜狗科技发展有限公司 | 一种语音识别方法、识别模型建立方法、装置及电子设备 |
CN108962228A (zh) * | 2018-07-16 | 2018-12-07 | 北京百度网讯科技有限公司 | 模型训练方法和装置 |
CN109559748A (zh) * | 2018-12-21 | 2019-04-02 | 出门问问信息科技有限公司 | 一种语义识别方法、装置、智能设备及存储介质 |
CN110827810A (zh) * | 2013-07-04 | 2020-02-21 | 三星电子株式会社 | 用于识别语音和文本的设备和方法 |
CN111402866A (zh) * | 2020-03-23 | 2020-07-10 | 北京声智科技有限公司 | 语义识别方法、装置及电子设备 |
-
2020
- 2020-07-27 CN CN202010733121.2A patent/CN111883112B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005084590A (ja) * | 2003-09-11 | 2005-03-31 | Nissan Motor Co Ltd | 音声認識装置 |
CN110827810A (zh) * | 2013-07-04 | 2020-02-21 | 三星电子株式会社 | 用于识别语音和文本的设备和方法 |
CN105393302A (zh) * | 2013-07-17 | 2016-03-09 | 三星电子株式会社 | 多级语音识别 |
CN104986040A (zh) * | 2015-07-08 | 2015-10-21 | 无锡职业技术学院 | 一种语音识别汽车车速控制器及其控制方法 |
CN107301862A (zh) * | 2016-04-01 | 2017-10-27 | 北京搜狗科技发展有限公司 | 一种语音识别方法、识别模型建立方法、装置及电子设备 |
CN108962228A (zh) * | 2018-07-16 | 2018-12-07 | 北京百度网讯科技有限公司 | 模型训练方法和装置 |
CN109559748A (zh) * | 2018-12-21 | 2019-04-02 | 出门问问信息科技有限公司 | 一种语义识别方法、装置、智能设备及存储介质 |
CN111402866A (zh) * | 2020-03-23 | 2020-07-10 | 北京声智科技有限公司 | 语义识别方法、装置及电子设备 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112735406A (zh) * | 2020-12-23 | 2021-04-30 | 青岛海尔科技有限公司 | 设备的控制方法及装置、存储介质及电子装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111883112B (zh) | 2022-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3477519B1 (en) | Identity authentication method, terminal device, and computer-readable storage medium | |
CN111028827B (zh) | 基于情绪识别的交互处理方法、装置、设备和存储介质 | |
CN112612894B (zh) | 意图识别模型的训练方法、装置、计算机设备和存储介质 | |
US20210350346A1 (en) | System and method for using passive multifactor authentication to provide access to secure services | |
CN111104495A (zh) | 基于意图识别的信息交互方法、装置、设备和存储介质 | |
CN111883140B (zh) | 基于知识图谱和声纹识别的认证方法、装置、设备及介质 | |
CN113688221B (zh) | 基于模型的话术推荐方法、装置、计算机设备和存储介质 | |
CN111914076B (zh) | 一种基于人机对话的用户画像构建方法、系统、终端及存储介质 | |
CN111901554B (zh) | 基于语义聚类的通话通道构建方法、装置和计算机设备 | |
CN109448732B (zh) | 一种数字串语音处理方法及装置 | |
CN109462482A (zh) | 声纹识别方法、装置、电子设备及计算机可读存储介质 | |
CN112131888A (zh) | 分析语义情感的方法、装置、设备及存储介质 | |
CN112418059A (zh) | 一种情绪识别的方法、装置、计算机设备及存储介质 | |
CN112699213A (zh) | 语音意图识别方法、装置、计算机设备及存储介质 | |
CN111883112B (zh) | 基于多模式标识的语义识别方法、装置和计算机设备 | |
CN112951215B (zh) | 语音的智能客服回答方法、装置以及计算机设备 | |
CN113220828B (zh) | 意图识别模型处理方法、装置、计算机设备及存储介质 | |
CN113873088A (zh) | 语音通话的交互方法、装置、计算机设备和存储介质 | |
Ouadjer et al. | Feature importance evaluation of smartphone touch gestures for biometric authentication | |
CN113821587A (zh) | 文本相关性确定方法、模型训练方法、装置及存储介质 | |
CN113064997B (zh) | 基于bert模型的意图分析方法、装置、设备及介质 | |
CN113223494B (zh) | 梅尔频谱的预测方法、装置、设备及存储介质 | |
CN112364136B (zh) | 关键词生成方法、装置、设备及存储介质 | |
CN112669836B (zh) | 命令的识别方法、装置及计算机可读存储介质 | |
CN111899765A (zh) | 基于情绪预测模型的语音发送方法、装置和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |