CN113658596A - 语意辨识方法与语意辨识装置 - Google Patents
语意辨识方法与语意辨识装置 Download PDFInfo
- Publication number
- CN113658596A CN113658596A CN202010355431.5A CN202010355431A CN113658596A CN 113658596 A CN113658596 A CN 113658596A CN 202010355431 A CN202010355431 A CN 202010355431A CN 113658596 A CN113658596 A CN 113658596A
- Authority
- CN
- China
- Prior art keywords
- semantic
- keyword
- spectrogram
- neural network
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000003062 neural network model Methods 0.000 claims abstract description 40
- 238000012545 processing Methods 0.000 claims description 62
- 238000013527 convolutional neural network Methods 0.000 claims description 18
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 238000011176 pooling Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002650 habitual effect Effects 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明提出一种语意辨识方法与语意辨识装置。产生一语音信号的语谱图。通过将语谱图输入至一神经网络模型而侦测语谱图的至少一关键词。判别至少一关键词其中每一者所属的语意类别。依据至少一关键词与至少一关键词的语意类别,决定语音信号的语意意图。
Description
技术领域
本发明是有关于一种语音识别技术,且特别是有关于一种应用神经网络模型的语意辨识方法与语意辨识装置。
背景技术
随着科技的进步,越来越多的电子装置开始使用语音控制,语音控制今后将成为大多数电子装置常用的用户接口。由此可知,语音识别(Speech Recognition)的辨识率将直接影响用户使用电子装置的用户体验。在语音控制的应用领域中,当语音指令是限制为具有固定语音长度且语音指令的词汇顺序是固定的时,语音识别所需的运算资源较少,但使用上非常不人性化且误判率较高。像是,当用户说出不同词汇顺序的语音指令或具有赘词的语音指令或存在周围噪音干扰时,误判率皆会大幅上升。举例而言,当语音指令被设计为“打开电视”但用户说出“电视打开”的语句时,就会发生无法辨识语音指令的情况。“
另一方面,自然语言理解(Natural Language Understanding,NLU)技术是目前重要的关键技术。自然语言理解技术能负责提取使用者语句中的关键信息,并且能判断使用者的意图,以对应于使用者的意图执行后续处理。因此,当应用可以进行词汇分割与词汇重新排列的NLU技术时,语音指令的语音长度与的词汇顺序可以是不固定的,好让使用者可依据自己习惯的说话方式来下达语音指令。然而,在实际应用中,自然语言理解技术所需的运算资源相当大,不易实做于嵌入式系统中。举例而言,在应用自然语言理解技术来实现语音识别的情境中,数据量庞大的声学数据库与语言数据库都是必须的,因而运算处理一般都是由云端计算平台来负责。
发明内容
有鉴于此,本发明提出一种语意辨识方法与语意辨识装置,其可在无须云端运算资源的条件下增加语意辨识的弹性。
本发明实施例提供一种语意辨识方法,其包括下列步骤。产生一语音信号的语谱图。通过将语谱图输入至一神经网络模型而侦测语谱图的至少一关键词。判别至少一关键词其中每一者所属的语意类别。依据至少一关键词与至少一关键词的语意类别,决定语音信号的语意意图。
本发明实施例提供一种语意辨识装置,其包括存储装置以及处理电路。处理电路耦接存储装置,经配置以执行存储装置中的指令,以执行下列步骤。产生一语音信号的语谱图。通过将语谱图输入至一神经网络模型而侦测语谱图的至少一关键词。判别至少一关键词其中每一者所属的语意类别。依据至少一关键词与至少一关键词的语意类别,决定语音信号的语意意图。
基于上述,于本发明的实施例中,由经训练的神经网络模型对语音信号的语谱图进行目标特征的侦测。通过自语音信号的语谱图侦测出关键词所对应的目标特征区块,可自语音信号中辨识出关键词。因此,语音信号的语意意图可基于一或多个关键词各自的语意类别来进行辨识。藉此,在明显节省运算资源的情况下可增加语意辨识的弹性,从而提升语音控制的便利性与应用广度。
为让本发明的上述特征和优点能更明显易懂,下文特举具体实施方式,并配合附图作详细说明如下。
附图说明
包含附图以便进一步理解本发明,且附图并入本说明书中并构成本说明书的一部分。附图说明本发明的实施例,并与描述一起用于解释本发明的原理。
图1是依照本发明一实施例的语意辨识装置的示意图。
图2是依照本发明一实施例的语意辨识方法的流程图。
图3是依照本发明一实施例的产生语谱图的流程图。
图4是依照本发明一实施例的依据卷积神经网络(CNN)模型侦测关键词的示意图。
图5是依照本发明一实施例的语谱图与目标特征区块的示意图。
图6是依照本发明一实施例的辨识语意意图的示意图。
附图标号说明
100:语意辨识装置;
110:存储装置;
120:处理电路;
S201~S204、S301~S304:步骤;
S1、S2:语谱图;
Obj1、N1~N9:目标特征区块;
Au1:语音信号;
410:卷积层;
420:池化层;
430:全连接层;
440:输出层;
400:卷积神经网络模型;
450:物件分类信息;
Slot1~Slot3:语意槽。
具体实施方式
现将详细地参考本发明的示范性实施例,示范性实施例的实例说明于附图中。只要有可能,相同组件符号在图式和描述中用来表示相同或相似部分。
以下揭露的语意辨识装置和语意辨识方法可以通过硬件和软件的组合来实现。图1是依照本发明一实施例的语意辨识装置的示意图。请参照图1,语意辨识装置100包括存储装置110以及处理电路120。于一实施例中,语意辨识装置100可实做为具有语音识别功能为一音频处理芯片。
存储装置110用以存储程序代码、固件/软件模块等等数据,其可以例如是任意型式的固定式或可移动式随机存取内存(random access memory,RAM)、只读存储器(read-only memory,ROM)、闪存(flash memory)、硬盘或其他类似装置、集成电路及其组合。于一实施例中,存储装置110可记录有神经网络模型与其模型参数。
处理电路120耦接存储装置110,例如是中央处理单元(Central ProcessingUnit,CPU),或是其他可程序化之一般用途或特殊用途的微处理器(Microprocessor)、数字信号处理器(Digital Signal Processor,DSP)、可程序化控制器、特殊应用集成电路(Application Specific Integrated Circuits,ASIC)、可程序化逻辑设备(ProgrammableLogic Device,PLD)或其他类似装置或这些装置的组合。于一实施例中,处理电路120可执行记录于存储装置110中的程序代码、固件/软件模块、指令等等,以实现本发明实施例的语意辨识方法。
图2是依照本发明一实施例的语意辨识方法的流程图。请参照图1与图2,本实施例的方法适用于图1中的语意辨识装置100,以下即搭配语意辨识装置100中的各项组件说明本实施例方法的详细流程。
于步骤S201,处理电路120产生一语音信号的语谱图。透过收音装置(例如麦克风)接收用户说出的语音信号,处理电路120可获取语音信号。接着,处理电路120可对模拟的时域(time-domain)语音信号进行一系列的语音处理而产生对应的语谱图。语谱图(Spectrogram,亦称为声谱图)用以表示语音信号随时间变化的语音频谱特性。语谱图的横轴表示时间,语谱图的纵轴表示频率,而语谱图上每一特征点的颜色深浅则用以表示特定频带的能量强度。换言之,语谱图包括语音信号的时间信息、频率信息与强度信息。语音信号中许多有用的信息可通过语谱图彰显出来,像是音量大小、中心频率、频率分布范围与语音长度等等。
于一实施例中,处理电路120可使用快速傅立叶变换(Fast FourierTransformation,FFT)将语音信号转换为语谱图。或者,于一实施例中,处理电路120可使用快速傅立叶变换与梅尔滤波(mel-filtering)将语音信号转换为语谱图。
详细而言,图3是依照本发明一实施例的产生语谱图的流程图。请参照图3,于步骤S301,处理电路120可对语音信号进行音频预处理。处理电路120可先对模拟的时域语音信号进行取样而获得取样后的语音信号,而取样频率例如是8K赫兹或16K赫兹等等,本发明对此不限制。接着,处理电路120可进行预加重(Pre-emphasis)处理与音框化(Frameblocking)处理。详细而言,处理电路120可使用高通滤波器来进行预加重处理。接着,处理电路120可通过将N个取样数据组为一个音框(Frame)来进行音框化处理。
于步骤S302,处理电路120可进行加窗处理。举例而言,处理电路120可通过将每一个音框乘上汉明窗(Hamming window)来进行加窗处理。于步骤S303,处理电路120可进行快速傅立叶变换。具体而言,处理电路120可透过快速傅立叶变换对一个取样时段(亦即一个音框)内的时域数据进行时间频率变换处理,而获得关联于一个音框的频谱信息。频域信息包括对应至不同频率的频谱系数。
于一实施例中,于步骤S304,处理电路120可进一步进行梅尔滤波处理,以产生语谱图S1。具体而言,处理电路120可将快速傅立叶变换产生的频谱信息输入至多个非线性分布的三角带通滤波器(Triangular Bandpass Filters)进行滤波,以获取梅尔倒频谱系数(Mel-frequency cepstral coefficient,MFCC)。梅尔倒频谱系数模拟了人耳的听觉特性,能够反映人对语音的感知特性,可取得较高的辨识率。接着,处理电路120可将对应至不同时间的多个音框的梅尔倒频谱系数组合起来而获取语谱图S1。如图3所示,语谱图S1的横轴表示时间(单位:秒),语谱图的纵轴表示频率(单位:千赫兹(kHz)),而语谱图上每一特征点的颜色深浅则用以表示特定频带的能量强度。然而,本发明对于语谱图的时间长度并不加以限制,其可视实际需求而设置。
需说明的是,于一实施例中,处理电路120可直接依据快速傅立叶变换所产生的频谱信息产生语谱图,并将对应至不同时间的每一音框的频谱信息组合起来而获取语谱图。由此可知,步骤S304的实施是选择性的。
回到图2的流程,在获取语音信号的语谱图之后,于步骤S202,处理电路120通过将语谱图输入至一神经网络模型而侦测语谱图的至少一关键词。于此,语音信号的语谱图可包括P*Q个特征点(P与Q为正整数),而语谱图可视为一张用以输入至神经网络模型的影像数据。处理电路120可使用神经网络模型来判断语谱图是否包括对应至关键词的目标特征区块。处理电路120将语谱图输入至神经网络模型,以自语谱图中侦测对应至至少一关键词的至少一目标特征区块。
于此,经训练的神经网络模型是依据训练数据集进行深度学习而事先建构,其可存储于存储装置110中。换言之,经训练的神经网络模型的模型参数(例如神经网络层数目与各神经网络层的权重等等)已经由事前训练而决定并存储于存储装置110中。具体而言,当语谱图输入至神经网络模型时,首先进行特征撷取而产生特征向量(Feature vector)。之后,这些特征向量会被输入至神经网络模型中的分类器,分类器再依照此些特征向量进行分类,进而侦测出语谱图中对应至关键词的目标特征区块。于此,神经网络模型可包括卷积神经网络(Convolution Neural Network,CNN)模型或应用注意力机制(AttentionMechanism)的神经网络模型。举例而言,神经网络模型可为卷积神经网络(ConvolutionNeural Network,CNN)模型中用以进行目标特征侦测的R-CNN、Fast R-CNN、Faster R-CNN、YOLO或SSD等等,但本发明对此不限制。
图4是依照本发明一实施例的依据CNN模型侦测关键词的示意图。请参照图4,以下将语谱图S1输入至CNN模型为例进行说明。在本范例中,卷积神经网络400是由至少一个的卷积层(Convolution Layer)410、至少一个的池化层(Pooling Layer)420、至少一个的全连接层(Fully connected layer)430以及输出层440所构成。
在卷积神经网络400的前段通常由卷积层410与池化层420串连组成,用以取得语谱图S1的特征值。此特征值可以是多维数组,一般被视为输入的语谱图S1的特征向量。在卷积神经网络400的后段包括全连接层430与输出层440,全连接层430与输出层440会根据经由卷积层410与池化层420所产生的特征值来将语谱图S1中的物件(即目标特征区块)进行分类,并且可以取得物件分类信息450。物件分类信息450将可包括分类类别与分类机率。图4的范例中,处理电路120可透过卷积神经网络400自语谱图S1侦测到分类为“电视”的目标特征区块Obj1。目标特征区块Obj1对应至分类机率P1。藉此,处理电路120可判定从语谱图S1侦测到关键词“电视”。然而,本发明对于关键词的数量与种类并不限制,其可视实际需求而设置。
此外,于一实施例中,处理电路120可透过应用注意力机制的神经网络模型来侦测语谱图中的关键词。举例而言,将卷积神经网络模型产生特征向量的方法,改为以实现注意力机制的连接层取代,可建构出一个应用注意力机制的神经网络模型。
另一方面,为了建构可以从语谱图侦测关键词的神经网络模型,用以训练神经网络模型的训练数据集包括许多样本语谱图。这些样本语谱图是由一位以上的人员说出已知关键词而产生。在模型训练阶段,这些样本语谱图中的对应于已知关键词的区块皆已经被框选并赋予解答信息(即对应的已知关键词)。这些样本语谱图逐一输入至神经网络模型,并透过比对神经网络模型依据样本语谱图所产生的侦测结果与解答信息来计算出误差。之后,通过此误差并以倒传递的方式,来调整网络中每一个网络层的权重。误差计算的方式(即损失函数)例如是平方差或Softmax等等。
图5是依照本发明一实施例的语谱图与目标特征区块的示意图。请参照图5,处理电路120可获取持续一分钟的语音信号au1,并产生语音信号au1的语谱图s2。接着,处理电路120可依据经训练的神经网络模型自语谱图s2侦测出多个目标特征区块N1~N9。这些目标特征区块N1~N9可各自被分类为对应至一关键词,并具有对应的分类机率。之后,处理电路120便可依据目标特征区块N1~N9各自对应的关键词来决定语意意图。换言之,本发明实施例可透过将语音信号的语谱图输入至神经网络模型来辨识出语音信号所包含的关键词,再进一步依据关键词来辨识语意意图。
回到图2的流程,在从语谱图侦测出至少一关键词后,于步骤S203,处理电路120可判别至少一关键词其中每一者所属的语意类别。于此,处理电路120可通过查询存储装置110中的关键词列表来判别语谱图中每一个关键词的语意类别,上述关键词列表记录有多个关键词与其对应的语意类别。上述的语意类别的数量与种类可视实际应用场合而设计,本发明对此不限制。表1为关键词列表的范例,但本发明不限制于此。
表1
编号 | 语意类别 | 关键词 |
1 | 动作 | 打开、关闭… |
2 | 物件 | 电视、电扇、冷气、电灯… |
3 | 场景 | 房间、客厅、厕所… |
于步骤S204,处理电路120依据至少一关键词与至少一关键词的语意类别,决定语音信号的语意意图。于一实施例中,处理电路120可进行语意槽填充(Semantic SlotFilling)来决定语音信号的语意意图。处理电路120依据至少一关键词的语意类别,将至少一关键词填入语意框架(Semantic Frame)的至少一语意槽。具体而言,于一实施例中,语意框架的多个语意槽也各自对应于语意槽类别。当关键词的语意类别相同于语意槽的语意槽类别时,处理电路120可将关键词填入对应的语意槽。反应于至少一语意槽皆填满,处理电路120可依据填入至少一语意槽中的至少一关键词决定语意意图。
举例而言,图6是依照本发明一实施例的辨识语意意图的示意图。请参照图6,于此范例中,三个语意槽Slot1~Slot3各自对应至语意槽类别“动作”、“物件”、“场景”。假设处理电路120可自语谱图侦测出三个关键词“打开”、“电视”、“房间”,则处理电路120可将关键词“打开”填入对应至语意槽类别“动作”的语意槽Slot1;将关键词“电视”填入对应至语意槽类别“物件”的语意槽Slot2;以及将关键词“房间”填入对应至语意槽类别“场景”的语意槽Slot3。反应于三个语意槽Slot1~Slot3皆填满,处理电路120可输出语意意图。由此可知,于一实施例中,即便使用者说出关键词的先后顺序不同,处理电路120还是可辨识出相同的语意意图。举例而言,无论用户说出“房间电视请打开”或“打开电视在房间”,经过步骤S201~步骤S204的执行,处理电路120都会输出相同的语意意图。
值得一提的是,于一实施例中,当至少一关键词中的第一关键词的语意类别相同于至少一关键词中的第二关键词的语意类别,处理电路120选择将具有第一分类机率的第一关键词填入语意框架的至少一语意槽。于此,第一关键词的第一分类机率与第二关键词的第二分类机率由神经网络模型产生,且第一分类机率大于第二分类机率。详细而言,处理电路120可能自语谱图侦测出对应至相同语意类别的一个以上的关键词(即第一关键词与第二关键词)。当进行语意槽填充时,将存在多个关键词的语意类别相同于语意槽的语意槽类别的情况,但处理电路120会选择将具有较高分类机率的其中一个关键词(即第一关键词)填入对应的语意槽。举例而言,处理电路120可能透过神经网络模型自语谱图当中同时侦测出关键词“房间”与“客厅”,且关键词“房间”对应于分类机率0.8而关键词“客厅”对应于分类机率0.5。于此情况下,处理电路120会选择将具有较高分类机率的关键词“客厅”填入语意槽,并舍弃具有较低分类机率的关键词“客厅”。
综上所述,于本发明的实施例中,在无须庞大的声学数据库、语言数据库以及复杂运算的情况下,可透过神经网络模型来侦测语谱图中对应于关键词的目标特征区块,因而适于实做于嵌入式系统中。神经网络模型的目标特征侦测结果可用以判别用户说出的语音信号是否包括关键词,致使使用者的语意意图可依据关键词来决定。因此,即便语音指令中的词汇顺序改变,依然可辨识出使用者的语意意图,大幅语意辨识的弹性,从而提升语音控制的实用性、便利性与应用广度。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (14)
1.一种语意辨识方法,其特征在于,包括:
产生语音信号的语谱图;
通过将所述语谱图输入至神经网络模型而侦测所述语谱图的至少一关键词:
判别所述至少一关键词其中每一者所属的语意类别;以及
依据所述至少一关键词与所述至少一关键词的所述语意类别,决定所述语音信号的语意意图。
2.根据权利要求1所述的语意辨识方法,其特征在于,产生所述语音信号的所述语谱图的步骤包括:
使用快速傅立叶变换将所述语音信号转换为所述语谱图,其中所述语谱图包括所述语音信号的时间信息、频率信息与强度信息。
3.根据权利要求1所述的语意辨识方法,其特征在于,产生所述语音信号的所述语谱图的步骤包括:
使用快速傅立叶变换与梅尔滤波将所述语音信号转换为所述语谱图,其中所述语谱图包括所述语音信号的时间信息、频率信息与强度信息。
4.根据权利要求1所述的语意辨识方法,其特征在于,通过将所述语谱图输入至所述神经网络模型而侦测所述语谱图中的所述至少一关键词的步骤包括:
将所述语谱图输入至所述神经网络模型,以自所述语谱图中侦测对应至所述至少一关键词的至少一目标特征区块。
5.根据权利要求1所述的语意辨识方法,其特征在于,所述神经网络模型包括卷积神经网络模型或应用注意力机制的神经网络模型。
6.根据权利要求1所述的语意辨识方法,其特征在于,依据所述至少一关键词与所述至少一关键词的所述语意类别,决定所述语音信号的所述语意意图的步骤包括:
依据所述至少一关键词的所述语意类别,将所述至少一关键词填入语意框架的至少一语意槽;以及
反应于所述至少一语意槽皆填满,依据填入所述至少一语意槽中的所述至少一关键词决定所述语意意图。
7.根据权利要求6所述的语意辨识方法,其特征在于,依据所述至少一关键词的所述语意类别,将所述至少一关键词填入所述语意框架的所述至少一语意槽的步骤包括:
当所述至少一关键词中的第一关键词的所述语意类别相同于所述至少一关键词中的第二关键词的所述语意类别,选择将具有第一分类机率的所述第一关键词填入所述语意框架的所述至少一语意槽,其中所述第一关键词的所述第一分类机率与所述第二关键词的第二分类机率由所述神经网络模型产生,且所述第一分类机率大于所述第二分类机率。
8.一种语意辨识装置,其特征在于,包括:
存储装置;以及
处理电路,耦接所述存储装置,经配置以执行所述存储装置中的指令以:
产生语音信号的语谱图;
通过将所述语谱图输入至神经网络模型而侦测所述语谱图中的至少一关键词:
判别所述至少一关键词其中每一者所属的语意类别;以及
依据所述至少一关键词与所述至少一关键词的所述语意类别,决定所述语音信号的语意意图。
9.根据权利要求8所述的语意辨识装置,其特征在于,所处处理电路经配置以:
使用快速傅立叶变换将所述语音信号转换为所述语谱图,其中所述语谱图包括所述语音信号的时间信息、频率信息与强度信息。
10.根据权利要求8所述的语意辨识装置,其特征在于,所处处理电路经配置以:
使用快速傅立叶变换与梅尔滤波将所述语音信号转换为所述语谱图,其中所述语谱图包括所述语音信号的时间信息、频率信息与强度信息。
11.根据权利要求8所述的语意辨识装置,其特征在于,所处处理电路经配置以:
将所述语谱图输入至所述神经网络模型,以自所述语谱图中侦测所述至少一关键词对应的至少一目标特征区块。
12.根据权利要求8所述的语意辨识装置,其特征在于,所述神经网络模型包括卷积神经网络模型或应用注意力机制的神经网络模型。
13.根据权利要求8所述的语意辨识装置,其特征在于,所处处理电路经配置以:
依据所述至少一关键词的所述语意类别,将所述至少一关键词填入语意框架的至少一语意槽;以及
反应于所述至少一语意槽皆填满,依据填入所述至少一语意槽中的至少一关键词决定所述语意意图。
14.根据权利要求13所述的语意辨识装置,其特征在于,所处处理电路经配置以:
当所述至少一关键词中的第一关键词的所述语意类别相同于所述至少一关键词中的第二关键词的所述语意类别,选择将具有第一分类机率的所述第一关键词填入所述语意框架的所述至少一语意槽,其中所述第一关键词的所述第一分类机率与所述第二关键词的第二分类机率由所述神经网络模型产生,且所述第一分类机率大于所述第二分类机率。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010355431.5A CN113658596A (zh) | 2020-04-29 | 2020-04-29 | 语意辨识方法与语意辨识装置 |
US17/103,968 US11475876B2 (en) | 2020-04-29 | 2020-11-25 | Semantic recognition method and semantic recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010355431.5A CN113658596A (zh) | 2020-04-29 | 2020-04-29 | 语意辨识方法与语意辨识装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113658596A true CN113658596A (zh) | 2021-11-16 |
Family
ID=78293757
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010355431.5A Pending CN113658596A (zh) | 2020-04-29 | 2020-04-29 | 语意辨识方法与语意辨识装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11475876B2 (zh) |
CN (1) | CN113658596A (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114093365A (zh) * | 2021-11-11 | 2022-02-25 | 四川虹美智能科技有限公司 | 实时更新语料库的方法、服务器、终端和系统 |
CN115206305B (zh) * | 2022-09-16 | 2023-01-20 | 北京达佳互联信息技术有限公司 | 语义文本的生成方法、装置、电子设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101540009A (zh) * | 2008-03-17 | 2009-09-23 | 大叶大学 | 预测设施与设备故障的方法 |
CN103426438A (zh) * | 2012-05-25 | 2013-12-04 | 洪荣昭 | 婴儿哭声分析方法及系统 |
CN104572801A (zh) * | 2013-10-29 | 2015-04-29 | 百旭科技有限公司 | 语意商业智能系统 |
CN105679316A (zh) * | 2015-12-29 | 2016-06-15 | 深圳微服机器人科技有限公司 | 一种基于深度神经网络的语音关键词识别方法及装置 |
CN108281139A (zh) * | 2016-12-30 | 2018-07-13 | 深圳光启合众科技有限公司 | 语音转写方法和装置、机器人 |
CN109461478A (zh) * | 2017-09-06 | 2019-03-12 | 唐纪絜 | 幼儿健康信息管理系统与方法 |
CN110046232A (zh) * | 2019-01-23 | 2019-07-23 | 艾肯特公司 | 自然智能的自然表达处理方法、回应方法、设备及系统 |
CN110189749A (zh) * | 2019-06-06 | 2019-08-30 | 四川大学 | 语音关键词自动识别方法 |
CN110223695A (zh) * | 2019-06-27 | 2019-09-10 | 维沃移动通信有限公司 | 一种任务创建方法及移动终端 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7676372B1 (en) * | 1999-02-16 | 2010-03-09 | Yugen Kaisha Gm&M | Prosthetic hearing device that transforms a detected speech into a speech of a speech form assistive in understanding the semantic meaning in the detected speech |
CN101794120A (zh) | 2010-02-09 | 2010-08-04 | 张文中 | 用于家庭电器模糊控制的语音控制系统 |
KR20240132105A (ko) * | 2013-02-07 | 2024-09-02 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US10748529B1 (en) * | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014144579A1 (en) * | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US10474962B2 (en) * | 2015-09-04 | 2019-11-12 | Microsoft Technology Licensing, Llc | Semantic entity relation detection classifier training |
KR102313028B1 (ko) | 2015-10-29 | 2021-10-13 | 삼성에스디에스 주식회사 | 음성 인식 시스템 및 방법 |
US10262062B2 (en) * | 2015-12-21 | 2019-04-16 | Adobe Inc. | Natural language system question classifier, semantic representations, and logical form templates |
US10467510B2 (en) * | 2017-02-14 | 2019-11-05 | Microsoft Technology Licensing, Llc | Intelligent assistant |
US11100384B2 (en) * | 2017-02-14 | 2021-08-24 | Microsoft Technology Licensing, Llc | Intelligent device user interactions |
CN107229684B (zh) | 2017-05-11 | 2021-05-18 | 合肥美的智能科技有限公司 | 语句分类方法、系统、电子设备、冰箱及存储介质 |
US11222627B1 (en) * | 2017-11-22 | 2022-01-11 | Educational Testing Service | Exploring ASR-free end-to-end modeling to improve spoken language understanding in a cloud-based dialog system |
US10705892B2 (en) * | 2018-06-07 | 2020-07-07 | Microsoft Technology Licensing, Llc | Automatically generating conversational services from a computing application |
US10559308B2 (en) * | 2018-06-18 | 2020-02-11 | Sas Institute Inc. | System for determining user intent from text |
US11182432B2 (en) * | 2019-06-28 | 2021-11-23 | Microsoft Technology Licensing, Llc | Vertical processing of natural language searches |
-
2020
- 2020-04-29 CN CN202010355431.5A patent/CN113658596A/zh active Pending
- 2020-11-25 US US17/103,968 patent/US11475876B2/en active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101540009A (zh) * | 2008-03-17 | 2009-09-23 | 大叶大学 | 预测设施与设备故障的方法 |
CN103426438A (zh) * | 2012-05-25 | 2013-12-04 | 洪荣昭 | 婴儿哭声分析方法及系统 |
CN104572801A (zh) * | 2013-10-29 | 2015-04-29 | 百旭科技有限公司 | 语意商业智能系统 |
CN105679316A (zh) * | 2015-12-29 | 2016-06-15 | 深圳微服机器人科技有限公司 | 一种基于深度神经网络的语音关键词识别方法及装置 |
CN108281139A (zh) * | 2016-12-30 | 2018-07-13 | 深圳光启合众科技有限公司 | 语音转写方法和装置、机器人 |
CN109461478A (zh) * | 2017-09-06 | 2019-03-12 | 唐纪絜 | 幼儿健康信息管理系统与方法 |
CN110046232A (zh) * | 2019-01-23 | 2019-07-23 | 艾肯特公司 | 自然智能的自然表达处理方法、回应方法、设备及系统 |
CN110189749A (zh) * | 2019-06-06 | 2019-08-30 | 四川大学 | 语音关键词自动识别方法 |
CN110223695A (zh) * | 2019-06-27 | 2019-09-10 | 维沃移动通信有限公司 | 一种任务创建方法及移动终端 |
Also Published As
Publication number | Publication date |
---|---|
US11475876B2 (en) | 2022-10-18 |
US20210343272A1 (en) | 2021-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6903129B2 (ja) | ささやき声変換方法、装置、デバイス及び可読記憶媒体 | |
CN110364143B (zh) | 语音唤醒方法、装置及其智能电子设备 | |
CN109741732B (zh) | 命名实体识别方法、命名实体识别装置、设备及介质 | |
CN107195296B (zh) | 一种语音识别方法、装置、终端及系统 | |
CN110782872A (zh) | 基于深度卷积循环神经网络的语种识别方法及装置 | |
EP3469582A1 (en) | Neural network-based voiceprint information extraction method and apparatus | |
CN105654955B (zh) | 语音识别方法及装置 | |
US20230070000A1 (en) | Speech recognition method and apparatus, device, storage medium, and program product | |
Ismail et al. | Mfcc-vq approach for qalqalahtajweed rule checking | |
CN114550703A (zh) | 语音识别系统的训练方法和装置、语音识别方法和装置 | |
CN111798846A (zh) | 语音命令词识别方法、装置、会议终端及会议终端系统 | |
US11475876B2 (en) | Semantic recognition method and semantic recognition device | |
CN110853669B (zh) | 音频识别方法、装置及设备 | |
Rudresh et al. | Performance analysis of speech digit recognition using cepstrum and vector quantization | |
WO2024114303A1 (zh) | 音素识别方法、装置、电子设备及存储介质 | |
CN112216270B (zh) | 语音音素的识别方法及系统、电子设备及存储介质 | |
CN111640423B (zh) | 一种词边界估计方法、装置及电子设备 | |
CN114360514A (zh) | 语音识别方法、装置、设备、介质及产品 | |
Sahoo et al. | MFCC feature with optimized frequency range: An essential step for emotion recognition | |
Матиченко et al. | The structural tuning of the convolutional neural network for speaker identification in mel frequency cepstrum coefficients space | |
EP4287178A1 (en) | Improved performance evaluation of automatic speech recognition engines | |
Shah et al. | Speaker recognition for pashto speakers based on isolated digits recognition using accent and dialect approach | |
US9928832B2 (en) | Method and apparatus for classifying lexical stress | |
CN114171009A (zh) | 用于目标设备的语音识别方法、装置、设备及存储介质 | |
Iswarya et al. | Speech query recognition for Tamil language using wavelet and wavelet packets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211116 |