CN116959442B - 用于智能开关面板的芯片及其方法 - Google Patents
用于智能开关面板的芯片及其方法 Download PDFInfo
- Publication number
- CN116959442B CN116959442B CN202310942308.7A CN202310942308A CN116959442B CN 116959442 B CN116959442 B CN 116959442B CN 202310942308 A CN202310942308 A CN 202310942308A CN 116959442 B CN116959442 B CN 116959442B
- Authority
- CN
- China
- Prior art keywords
- user control
- control instruction
- feature vector
- semantic
- local
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000004458 analytical method Methods 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 171
- 238000009826 distribution Methods 0.000 claims description 25
- 230000004927 fusion Effects 0.000 claims description 19
- 238000005457 optimization Methods 0.000 claims description 19
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
公开了一种用于智能开关面板的芯片及其方法。其首先获取由麦克风采集的用户控制指令语音输入信号,接着,对所述用户控制指令语音输入信号进行语义分析以得到用户控制指令语义特征,然后,基于所述用户控制指令语义特征,生成控制指令。这样,可以通过简单的语音指令来实现对电器设备的控制,提高了使用的便捷性和智能化程度。
Description
技术领域
本公开涉及芯片领域,且更为具体地,涉及一种用于智能开关面板的芯片及其方法。
背景技术
开关面板是一种常见的电气设备控制装置,用于控制和操作各种电器设备。然而,传统的开关面板需要用户通过手动操作开关和按钮来控制电器设备。这种方式需要用户亲自接近开关面板进行操作,对于一些需要频繁开关或调节的设备,如灯光、风扇等,用户可能需要多次往返于开关面板和设备之间,不够便捷。并且,传统开关面板通常有多个开关和按钮,每个开关和按钮都对应着不同的设备或功能。用户需要记住每个开关的位置和对应的设备或功能,这对于老年人或者新用户来说可能会造成一定的困扰和混淆。
因此,期望一种用于智能开关面板的芯片。
发明内容
有鉴于此,本公开提出了一种用于智能开关面板的芯片及其方法,其可以通过简单的语音指令来实现对电器设备的控制,提高了使用的便捷性和智能化程度。
根据本公开的一方面,提供了一种用于智能开关面板的芯片,其包括:
语音信号采集系统,用于获取由麦克风采集的用户控制指令语音输入信号;
语义识别系统,用于对所述用户控制指令语音输入信号进行语义分析以得到用户控制指令语义特征;以及
控制指令生成系统,用于基于所述用户控制指令语义特征,生成控制指令。
根据本公开的另一方面,提供了一种用于智能开关面板的芯片的控制方法,其包括:
获取由麦克风采集的用户控制指令语音输入信号;
对所述用户控制指令语音输入信号进行语义分析以得到用户控制指令语义特征;以及
基于所述用户控制指令语义特征,生成控制指令。
根据本公开的实施例,其首先获取由麦克风采集的用户控制指令语音输入信号,接着,对所述用户控制指令语音输入信号进行语义分析以得到用户控制指令语义特征,然后,基于所述用户控制指令语义特征,生成控制指令。这样,可以通过简单的语音指令来实现对电器设备的控制,提高了使用的便捷性和智能化程度。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出根据本公开的实施例的用于智能开关面板的芯片的框图。
图2示出根据本公开的实施例的用于智能开关面板的芯片中所述语义识别系统的框图。
图3示出根据本公开的实施例的用于智能开关面板的芯片中所述文本语义编码模块的框图。
图4示出根据本公开的实施例的用于智能开关面板的芯片中所述控制指令生成系统的框图。
图5示出根据本公开的实施例的用于智能开关面板的芯片中所述语义特征分布优化模块的框图。
图6示出根据本公开的实施例的用于智能开关面板的芯片的控制方法的流程图。
图7示出根据本公开的实施例的用于智能开关面板的芯片的控制方法的架构示意图。
图8示出根据本公开的实施例的用于智能开关面板的芯片的应用场景图。
图9示出根据本公开的实施例的用于智能开关面板的芯片的结构示意图。
图10示出根据本公开的实施例的用于智能开关面板的芯片的电路原理图。
具体实施方式
下面将结合附图对本公开实施例中的技术方案进行清楚、完整地描述,显而易见地,所描述的实施例仅仅是本公开的部分实施例,而不是全部的实施例。基于本公开实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,也属于本公开保护的范围。
如本公开和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
智能开关面板是一种集成了语音识别和控制功能的设备,它可以通过语音指令实现对各种电器设备的控制。传统的开关面板通常需要手动操作,而智能开关面板利用语音识别技术可以实现更加便捷和智能化的控制方式。
在智能开关面板中,芯片是关键的组成部分之一。芯片负责处理从麦克风采集到的用户控制指令语音输入信号,并将其转化为可识别的文本指令。然后,通过芯片中内置的语音识别算法,智能开关面板可以对用户语音的文本指令进行分析,并将其转化为相应的控制命令。这使得用户可以通过简单的语音指令来实现对电器设备的控制,提高了使用的便捷性和智能化程度。
具体地,图1示出根据本公开的实施例的用于智能开关面板的芯片的框图示意图。如图1所示,根据本公开实施例的用于智能开关面板的芯片100,包括:语音信号采集系统110,用于获取由麦克风采集的用户控制指令语音输入信号;语义识别系统120,用于对所述用户控制指令语音输入信号进行语义分析以得到用户控制指令语义特征;以及,控制指令生成系统130,用于基于所述用户控制指令语义特征,生成控制指令。
相应地,在本公开的技术方案中,首先,获取由麦克风采集的用户控制指令语音输入信号。应可以理解,用户在通过说话的方式来进行控制指令的语音输入时,可能存在停顿、重复和连续说话等情况,且还会存在有多个指令的语音输入情况,导致语音识别系统在对输入的语音信号进行分析和处理,以提取其中的语音特征并将其转换为文本或命令时出现语义偏差或遗漏,从而影响指令的生成准确性。因此,在本公开的技术方案中,需要对所述用户控制指令语音输入信号进行波形切分以得到多个用户控制指令语音局部输入信号,以此来将整个语音输入信号划分为多个局部输入信号,从而更准确地识别每个片段中的语音内容,减少因长语音片段造成的识别错误。此外,如果用户在一次语音输入中包含了多个控制指令,通过波形切分可以将不同指令的语音片段分离开来,实现对多个指令的识别和处理。
继而,再分别对所述多个用户控制指令语音局部输入信号进行语音-文本识别以得到多个用户控制指令局部文本。应可以理解,所述语音-文本识别是一种将语音信号转换为文本的技术,通过对每个所述用户控制指令语音局部输入信号进行语音-文本识别,可以将语音片段中的语音内容转化为文本形式。相比于语音信号,文本形式的指令更易于进行处理和解析。文本可以被计算机直接处理,可以进行关键词匹配、语义理解等操作,有利于后续的指令解析和执行。并且,通过这样的处理方式,能够对文本进行纠错和优化,从而识别和修正可能存在的识别错误或模糊的部分,以便于更准确地理解用户的意图。
然后,通过FastText模型将所述多个用户控制指令局部文本转化为多个用户控制指令局部文本嵌入向量,以将文本表示转化为向量表示,以便于后续进行语义理解和编码操作。应可以理解,FastText是一种基于词袋模型的文本分类和词向量学习算法,它通过将文本分解为字符级别的n-gram特征,并使用这些特征来表示文本,从而得到文本的嵌入向量。FastText模型基于字符级别的n-gram特征,可以更好地处理词汇鸿沟问题。即使在面对未登录词或低频词时,FastText模型也能够通过字符级别的特征捕捉到一定的语义信息。
进一步地,为了能够对于所述用户控制指令语音输入信号中的各个局部文本进行基于整体的语义关联分析,以提高对于用户控制指令语义识别的精准度,在本公开的技术方案中,进一步将所述多个用户控制指令局部文本嵌入向量通过基于转换器的上下文编码器中进行编码,以此来提取出所述各个用户控制指令局部文本中有关于用户指令语义的基于全局的上下文语义关联特征信息,从而得到用户控制指令全局语义编码特征向量。
相应地,如图2所示,所述语义识别系统120,包括:语音波形切分模块121,用于对所述用户控制指令语音输入信号进行波形切分以得到多个用户控制指令语音局部输入信号;文本识别模块122,用于分别对所述多个用户控制指令语音局部输入信号进行语音-文本识别以得到多个用户控制指令局部文本;以及,文本语义编码模块123,用于对所述多个用户控制指令局部文本进行语义编码以得到所述用户控制指令语义特征。应可以理解,波形切分是语义识别系统中的一个模块,用于对用户控制指令语音输入信号进行切分,将其分割成多个局部输入信号,具体来说,它将语音信号按照一定的规则进行分段,将整个语音信号切割成多个小段。波形切分的目的是将长时间的语音信号分解成更小的片段,以便后续的处理和分析。这样做的好处有几个:1.提高识别准确性:长时间的语音信号可能包含多个用户控制指令,将其切分成局部输入信号可以使语音-文本识别模块更准确地识别每个指令的内容;2.减少计算复杂度:对整个语音信号进行识别需要耗费大量的计算资源和时间,而将语音信号切分成小段后,每个小段的识别可以独立进行,从而减少了计算的复杂度;3.支持实时处理:波形切分可以将语音信号实时地切分成小段进行处理,这对于需要快速响应用户指令的应用非常重要。即,波形切分在语义识别系统中起到了将长语音信号分解成小段的作用,以便后续的语音-文本识别和语义编码处理。这样可以提高识别准确性、减少计算复杂度,并支持实时处理。
更具体地,如图3所示,所述文本语义编码模块123,包括:文本嵌入化单元1231,用于通过FastText模型将所述多个用户控制指令局部文本转化为多个用户控制指令局部文本嵌入向量;以及,文本上下文编码单元1232,用于将所述多个用户控制指令局部文本嵌入向量通过基于转换器的上下文编码器以得到用户控制指令全局语义编码特征向量作为所述用户控制指令语义特征。应可以理解,本嵌入化单元1231使用FastText模型将多个用户控制指令的局部文本转化为嵌入向量,FastText是一种词向量表示方法,它将每个词转换为一个固定长度的向量表示,通过将用户控制指令的局部文本转化为嵌入向量,可以将文本信息表示为连续的数值向量,从而方便进行后续的计算和处理;文本上下文编码单元1232使用基于转换器的上下文编码器,对多个用户控制指令的局部文本嵌入向量进行处理,以得到用户控制指令的全局语义编码特征向量,基于转换器的上下文编码器是一种用于处理序列数据的深度学习模型,它能够捕捉文本中的上下文信息和语义关联,通过对用户控制指令的局部文本嵌入向量进行上下文编码,可以将局部信息整合成全局的语义特征向量,更好地表示用户控制指令的含义和意图。
值得一提的是,转换器(Transformer)是一种用于处理序列数据的深度学习模型,被广泛应用于自然语言处理任务中。传统的序列模型,如循环神经网络(RNN)和长短期记忆网络(LSTM),在处理长序列时可能存在梯度消失或梯度爆炸等问题。而转换器通过引入自注意力机制(self-attention)来解决这些问题,并在处理序列数据时表现出色。转换器的核心思想是利用自注意力机制来对输入序列中的不同位置之间的依赖关系进行建模。自注意力机制可以计算序列中每个位置与其他位置的相关度,从而将全局上下文信息纳入考虑。通过多层自注意力机制的堆叠,转换器可以在不依赖于位置顺序的情况下对序列进行建模,并捕捉序列中的长程依赖关系。转换器的结构包括编码器和解码器两部分。编码器用于将输入序列转化为一系列上下文感知的特征表示,而解码器则根据编码器的输出和之前的预测结果生成目标序列。在文本语义编码模块中,使用的是转换器的编码器部分,用于对用户控制指令的局部文本嵌入向量进行上下文编码,得到全局语义编码特征向量。总之,转换器是一种用于处理序列数据的深度学习模型,通过自注意力机制来建模序列中不同位置之间的依赖关系,能够捕捉全局上下文信息并解决传统序列模型的问题。在文本语义编码模块中,转换器被应用于上下文编码,以提取用户控制指令的语义特征。
更具体地,所述文本上下文编码单元1232,进一步用于:将所述多个用户控制指令局部文本嵌入向量输入所述基于转换器的上下文编码器以得到多个用户控制指令局部文本语义特征向量;以及,将所述多个用户控制指令局部语义编码特征向量进行级联以得到所述用户控制指令全局语义编码特征向量。应可以理解,将多个用户控制指令局部文本嵌入向量输入基于转换器的上下文编码器,以得到多个用户控制指令局部文本语义特征向量的目的是对每个用户控制指令的局部文本进行上下文编码,捕捉文本之间的语义关联和上下文信息,这一步骤的作用是将每个用户控制指令的局部文本转化为更具语义表示能力的特征向量,以更好地理解每个指令的含义。将多个用户控制指令局部语义编码特征向量进行级联的目的是将多个指令的局部特征整合为一个全局特征向量,以得到用户控制指令的全局语义编码特征向量,通过级联操作,可以将每个指令的语义特征进行组合,捕捉指令之间的整体语义关系和上下文信息,这一步骤的作用是将多个指令的局部语义特征整合为一个全局特征,更好地表示用户控制指令的整体含义和意图。综合来说,将多个用户控制指令局部文本嵌入向量输入基于转换器的上下文编码器可以获得每个指令的局部文本语义特征向量,捕捉语义关联和上下文信息。将多个用户控制指令局部语义编码特征向量进行级联可以得到用户控制指令的全局语义编码特征向量,整合了多个指令的语义特征,更好地表示指令的整体含义和意图。这些步骤的目的是提高语义识别的准确性和效果,使系统能够更好地理解和处理用户的控制指令。
进一步地,再将所述用户控制指令全局语义编码特征向量通过基于AIGC模型的控制指令生成器以得到生成控制指令。应可以理解,由于所述用户控制指令全局语义编码特征向量包含了用户的意图和需求的语义特征信息。因此,通过所述基于AIGC模型的控制指令生成器,可以将这些语义编码特征向量转换为实际的控制指令,使智能开关面板能够理解并执行用户的意图。这样,能够通过简单的语音指令来实现对电器设备的控制,提高了使用的便捷性和智能化程度。
相应地,如图4所示,所述控制指令生成系统130,包括:语义特征分布优化模块131,用于将所述用户控制指令全局语义编码特征向量进行特征分布优化以得到优化用户控制指令全局语义编码特征向量;以及,指令生成模块132,用于将所述优化用户控制指令全局语义编码特征向量通过基于AIGC模型的控制指令生成器以得到生成控制指令。应可以理解,将用户控制指令全局语义编码特征向量进行特征分布优化的目的是提高生成控制指令的质量和准确性,通过优化特征分布,可以使生成的控制指令更好地表达用户的意图和需求。具体来说,特征分布优化可以帮助解决以下问题:1.特征重要性不平衡:在用户控制指令的全局语义编码特征向量中,不同的语义特征可能对指令生成的贡献程度不同,某些特征可能更重要,而其他特征可能相对不那么重要,通过特征分布优化,可以调整特征的权重,使得更重要的特征在生成指令时具有更大的影响力,从而提高指令生成的准确性;2.特征相关性处理:在用户控制指令的全局语义编码特征向量中,不同的特征可能存在相关性,特征分布优化可以帮助处理特征之间的相关性,确保生成的指令能够充分利用相关特征的信息,避免冗余或相互矛盾的指令生成;3.适应不同任务和环境:特征分布优化可以根据不同的任务和环境需求,自适应地调整特征的分布,不同的任务和环境可能对不同的特征有不同的要求和重要性,通过优化特征分布,可以使生成的指令更加适应具体的任务和环境,提高指令的适应性和可用性。综合来说,通过对用户控制指令全局语义编码特征向量进行特征分布优化,可以提高生成控制指令的质量和准确性,使其更好地表达用户的意图和需求。优化特征分布可以解决特征重要性不平衡、特征相关性处理和适应不同任务和环境等问题,提高指令生成的效果和适应性。
进一步,值得一提的是,AIGC模型是指基于自适应信息增益控制(AdaptiveInformation Gain Control)的模型,用于控制指令生成,该模型是指令生成模块132中的一部分,用于将优化的用户控制指令全局语义编码特征向量通过控制指令生成器生成控制指令。AIGC模型的作用是通过自适应信息增益控制来提高生成控制指令的质量和准确性。在指令生成过程中,不同的语义特征可能对指令的生成起到不同的作用和重要性。AIGC模型通过对语义特征的信息增益进行建模和控制,可以自适应地调整不同语义特征的权重,使得生成的控制指令更加准确地表达用户的意图。具体来说,AIGC模型通过对用户控制指令全局语义编码特征向量中的不同语义特征进行分析,计算每个特征的信息增益。信息增益表示在给定当前特征的情况下,该特征对于指令生成的贡献程度。根据信息增益,AIGC模型可以自适应地调整每个特征的权重,将更重要的特征赋予更高的权重,从而优化生成控制指令的质量。总之,AIGC模型是基于自适应信息增益控制的模型,用于控制指令生成过程中的语义特征权重调整。通过分析语义特征的信息增益,AIGC模型可以自适应地调整每个特征的权重,提高生成控制指令的准确性和质量,使其更好地表达用户的意图。
更具体地,如图5所示,所述语义特征分布优化模块131,包括:嵌入向量级联单元1311,用于将所述多个用户控制指令局部文本嵌入向量进行级联处理以得到的级联特征向量;以及,均衡化融合单元1312,用于对所述级联特征向量和所述用户控制指令全局语义编码特征向量进行希尔伯特空间启发式序列跟踪均衡化融合以得到所述优化用户控制指令全局语义编码特征向量。应可以理解,嵌入向量级联单元1311的作用是将多个用户控制指令的局部文本嵌入向量进行级联处理,以得到级联特征向量。具体来说,该单元将多个局部文本嵌入向量按照一定的顺序连接起来,形成一个更长的向量,用于表示多个指令的语义特征。通过级联处理,可以将多个指令的语义信息整合在一起,更好地捕捉指令的整体含义和意图。均衡化融合单元1312的作用是对级联特征向量和用户控制指令全局语义编码特征向量进行希尔伯特空间启发式序列跟踪均衡化融合,以得到优化的用户控制指令全局语义编码特征向量。具体来说,该单元利用希尔伯特空间启发式序列跟踪均衡化方法,对级联特征向量和全局语义编码特征向量进行融合和优化。希尔伯特空间启发式序列跟踪均衡化是一种信号处理方法,用于增强信号的特定频率成分。在这里,它被应用于特征向量的融合和优化,以增强重要的语义特征。通过均衡化融合单元的处理,优化的用户控制指令全局语义编码特征向量可以更好地反映用户指令的语义含义和意图。这样的优化可以提高特征向量的表达能力和区分度,有助于后续的指令生成过程。换言之,嵌入向量级联单元将多个局部文本嵌入向量级联处理,形成级联特征向量,而均衡化融合单元通过希尔伯特空间启发式序列跟踪均衡化融合,将级联特征向量和全局语义编码特征向量进行优化,得到优化的用户控制指令全局语义编码特征向量。这两个单元的作用是在特征处理阶段对语义特征进行整合和优化,以提高用户指令的语义表达和生成效果。
特别地,在本公开的技术方案中,在将所述多个用户控制指令局部文本嵌入向量通过基于转换器的上下文编码器以得到用户控制指令全局语义编码特征向量的情况下,所述用户控制指令全局语义编码特征向量可以表达各个用户控制指令局部文本嵌入向量的上下文关联编码特征,但是,在进行上下文关联编码的同时,所述用户控制指令全局语义编码特征向量的整体分布也会相对于所述多个用户控制指令局部文本嵌入向量存在分布不均衡,从而影响所述用户控制指令全局语义编码特征向量通过基于AIGC模型的控制指令生成器得到的生成控制指令与用户控制指令语音输入信号的对应性。
因此,考虑到所述用户控制指令全局语义编码特征向量实质上是所述多个用户控制指令局部文本嵌入向量通过基于转换器的上下文编码器得到的多个上下文用户控制指令局部文本特征向量级联得到的,因此所述用户控制指令全局语义编码特征向量也符合与所述多个用户控制指令局部文本嵌入向量对应的局部文本语义表示的序列化排列,本公开的申请人对所述多个用户控制指令局部文本嵌入向量级联得到的级联特征向量,例如记为V1,以及所述用户控制指令全局语义编码特征向量,例如记为V2,进行希尔伯特空间启发式序列跟踪均衡化融合,以优化所述用户控制指令全局语义编码特征向量,例如记为V2′。
相应地,在一个具体示例中,所述均衡化融合单元1312,用于:以如下优化公式对所述级联特征向量和所述用户控制指令全局语义编码特征向量进行希尔伯特空间启发式序列跟踪均衡化融合以得到所述优化用户控制指令全局语义编码特征向量;其中,所述优化公式为:
其中,V1是所述级联特征向量,V2是所述用户控制指令全局语义编码特征向量,(·)V表示转置操作,且特征向量V1和V2均为行向量,‖(V1;V2)‖2表示特征向量V1和V2的级联向量的二范数,表示特征向量V1和V2的所有特征值构成的并集集合的均值,/>表示所述级联特征向量中所有位置的特征值的集合,/>表示所述用户控制指令全局语义编码特征向量中所有位置的特征值的集合,⊙表示按位置点乘,⊕表示向量加法,V2′是所述优化用户控制指令全局语义编码特征向量。
这里,利用具有内积的希尔伯特空间的完备内积空间特性,来通过所述级联特征向量V1和所述用户控制指令全局语义编码特征向量V2的序列聚合的集合性均值(collective average),探索所述级联特征向量V1和所述用户控制指令全局语义编码特征向量V2经由上下文关联编码的特征融合空间内的基于序列的空间分布启发式(heuristics),从而将所述用户控制指令全局语义编码特征向量V2的各个局部特征分布转化为融合空间内的序列跟踪实例(tracked instance),以实现序列的特征空间分布的跟踪小片段认知的(tracklet-aware)分布均衡化,这样,就改善了所述用户控制指令全局语义编码特征向量相对于所述多个用户控制指令局部文本嵌入向量的分布均衡性。这样,能够基于用户的语音意图来自动生成相应的控制指令,从而使得用户通过简单的语音指令来实现对电器设备的控制,提高了使用的便捷性和智能化程度。
综上,基于本公开实施例的用于智能开关面板的芯片100被阐明,其可以通过简单的语音指令来实现对电器设备的控制,提高了使用的便捷性和智能化程度。
如上所述,根据本公开实施例的所述用于智能开关面板的芯片100可以实现在各种终端设备中,例如具有用于智能开关面板的芯片的控制算法的服务器等。在一个示例中,用于智能开关面板的芯片100可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该用于智能开关面板的芯片100可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该用于智能开关面板的芯片100同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该用于智能开关面板的芯片100与该终端设备也可以是分立的设备,并且该用于智能开关面板的芯片100可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
图6示出根据本公开的实施例的用于智能开关面板的芯片的控制方法的流程图。图7示出根据本公开的实施例的用于智能开关面板的芯片的控制方法的系统架构的示意图。如图6和图7所示,根据本公开实施例的用于智能开关面板的芯片的控制方法,其包括:S110,获取由麦克风采集的用户控制指令语音输入信号;S120,对所述用户控制指令语音输入信号进行语义分析以得到用户控制指令语义特征;以及,S130,基于所述用户控制指令语义特征,生成控制指令。
在一种可能的实现方式中,对所述用户控制指令语音输入信号进行语义分析以得到用户控制指令语义特征,包括:对所述用户控制指令语音输入信号进行波形切分以得到多个用户控制指令语音局部输入信号;分别对所述多个用户控制指令语音局部输入信号进行语音-文本识别以得到多个用户控制指令局部文本;以及,对所述多个用户控制指令局部文本进行语义编码以得到所述用户控制指令语义特征。
在一种可能的实现方式中,对所述多个用户控制指令局部文本进行语义编码以得到所述用户控制指令语义特征,包括:通过FastText模型将所述多个用户控制指令局部文本转化为多个用户控制指令局部文本嵌入向量;以及,将所述多个用户控制指令局部文本嵌入向量通过基于转换器的上下文编码器以得到用户控制指令全局语义编码特征向量作为所述用户控制指令语义特征。
这里,本领域技术人员可以理解,上述用于智能开关面板的芯片的控制方法中的各个步骤的具体操作已经在上面参考图1到图4的用于智能开关面板的芯片的描述中得到了详细介绍,并因此,将省略其重复描述。
图8示出根据本公开的实施例的用于智能开关面板的芯片的应用场景图。如图8所示,在该应用场景中,首先,获取由麦克风采集的用户控制指令语音输入信号(例如,图8中所示意的D),然后,将所述用户控制指令语音输入信号输入至部署有用于智能开关面板的芯片的控制算法的服务器中(例如,图8中所示意的S),其中,所述服务器能够使用所述用于智能开关面板的芯片的控制算法对所述用户控制指令语音输入信号进行处理以得到生成控制指令。
进一步地,参照图9和图10,分别示出了根据本公开的实施例的用于智能开关面板的芯片的结构示意图和电路原理图。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (2)
1.一种用于智能开关面板的芯片,其特征在于,包括:
语音信号采集系统,用于获取由麦克风采集的用户控制指令语音输入信号;
语义识别系统,用于对所述用户控制指令语音输入信号进行语义分析以得到用户控制指令语义特征;以及
控制指令生成系统,用于基于所述用户控制指令语义特征,生成控制指令;
其中,所述语义识别系统,包括:
语音波形切分模块,用于对所述用户控制指令语音输入信号进行波形切分以得到多个用户控制指令语音局部输入信号;
文本识别模块,用于分别对所述多个用户控制指令语音局部输入信号进行语音-文本识别以得到多个用户控制指令局部文本;以及
文本语义编码模块,用于对所述多个用户控制指令局部文本进行语义编码以得到所述用户控制指令语义特征;
其中,所述文本语义编码模块,包括:
文本嵌入化单元,用于通过FastText模型将所述多个用户控制指令局部文本转化为多个用户控制指令局部文本嵌入向量;以及
文本上下文编码单元,用于将所述多个用户控制指令局部文本嵌入向量通过基于转换器的上下文编码器以得到用户控制指令全局语义编码特征向量作为所述用户控制指令语义特征;
其中,所述文本上下文编码单元,进一步用于:
将所述多个用户控制指令局部文本嵌入向量输入所述基于转换器的上下文编码器以得到多个用户控制指令局部文本语义特征向量;以及
将所述多个用户控制指令局部语义编码特征向量进行级联以得到所述用户控制指令全局语义编码特征向量;
其中,所述控制指令生成系统,包括:
语义特征分布优化模块,用于将所述用户控制指令全局语义编码特征向量进行特征分布优化以得到优化用户控制指令全局语义编码特征向量;以及
指令生成模块,用于将所述优化用户控制指令全局语义编码特征向量通过基于AIGC模型的控制指令生成器以得到生成控制指令;
其中,所述语义特征分布优化模块,包括:
嵌入向量级联单元,用于将所述多个用户控制指令局部文本嵌入向量进行级联处理以得到的级联特征向量;以及
均衡化融合单元,用于对所述级联特征向量和所述用户控制指令全局语义编码特征向量进行希尔伯特空间启发式序列跟踪均衡化融合以得到所述优化用户控制指令全局语义编码特征向量;
其中,所述均衡化融合单元,用于:
以如下优化公式对所述级联特征向量和所述用户控制指令全局语义编码特征向量进行希尔伯特空间启发式序列跟踪均衡化融合以得到所述优化用户控制指令全局语义编码特征向量;
其中,所述优化公式为:
其中,V1是所述级联特征向量,V2是所述用户控制指令全局语义编码特征向量,(·)T表示转置操作,且特征向量V1和V2均为行向量,||(V1;V2)||2表示特征向量V1和V2的级联向量的二范数,表示特征向量V1和V2的所有特征值构成的并集集合的均值,/>表示所述级联特征向量中所有位置的特征值的集合,/>表示所述用户控制指令全局语义编码特征向量中所有位置的特征值的集合,⊙表示按位置点乘,/>表示向量加法,V2'是所述优化用户控制指令全局语义编码特征向量。
2.一种用于智能开关面板的芯片的控制方法,其特征在于,包括:
获取由麦克风采集的用户控制指令语音输入信号;
对所述用户控制指令语音输入信号进行语义分析以得到用户控制指令语义特征;以及
基于所述用户控制指令语义特征,生成控制指令;
其中,对所述用户控制指令语音输入信号进行语义分析以得到用户控制指令语义特征,包括:
对所述用户控制指令语音输入信号进行波形切分以得到多个用户控制指令语音局部输入信号;
分别对所述多个用户控制指令语音局部输入信号进行语音-文本识别以得到多个用户控制指令局部文本;以及
对所述多个用户控制指令局部文本进行语义编码以得到所述用户控制指令语义特征;
其中,对所述多个用户控制指令局部文本进行语义编码以得到所述用户控制指令语义特征,包括:
通过FastText模型将所述多个用户控制指令局部文本转化为多个用户控制指令局部文本嵌入向量;以及
将所述多个用户控制指令局部文本嵌入向量通过基于转换器的上下文编码器以得到用户控制指令全局语义编码特征向量作为所述用户控制指令语义特征;
其中,将所述多个用户控制指令局部文本嵌入向量通过基于转换器的上下文编码器以得到用户控制指令全局语义编码特征向量作为所述用户控制指令语义特征,包括:
将所述多个用户控制指令局部文本嵌入向量输入所述基于转换器的上下文编码器以得到多个用户控制指令局部文本语义特征向量;以及
将所述多个用户控制指令局部语义编码特征向量进行级联以得到所述用户控制指令全局语义编码特征向量;
其中,基于所述用户控制指令语义特征,生成控制指令,包括:
将所述用户控制指令全局语义编码特征向量进行特征分布优化以得到优化用户控制指令全局语义编码特征向量;以及
将所述优化用户控制指令全局语义编码特征向量通过基于AIGC模型的控制指令生成器以得到生成控制指令;
其中,将所述用户控制指令全局语义编码特征向量进行特征分布优化以得到优化用户控制指令全局语义编码特征向量,包括:
将所述多个用户控制指令局部文本嵌入向量进行级联处理以得到的级联特征向量;
对所述级联特征向量和所述用户控制指令全局语义编码特征向量进行希尔伯特空间启发式序列跟踪均衡化融合以得到所述优化用户控制指令全局语义编码特征向量;
其中,对所述级联特征向量和所述用户控制指令全局语义编码特征向量进行希尔伯特空间启发式序列跟踪均衡化融合以得到所述优化用户控制指令全局语义编码特征向量,包括:
以如下优化公式对所述级联特征向量和所述用户控制指令全局语义编码特征向量进行希尔伯特空间启发式序列跟踪均衡化融合以得到所述优化用户控制指令全局语义编码特征向量;
其中,所述优化公式为:
其中,V1是所述级联特征向量,V2是所述用户控制指令全局语义编码特征向量,(·)T表示转置操作,且特征向量V1和V2均为行向量,||(V1;V2)||2表示特征向量V1和V2的级联向量的二范数,表示特征向量V1和V2的所有特征值构成的并集集合的均值,/>表示所述级联特征向量中所有位置的特征值的集合,/>表示所述用户控制指令全局语义编码特征向量中所有位置的特征值的集合,⊙表示按位置点乘,/>表示向量加法,V2'是所述优化用户控制指令全局语义编码特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310942308.7A CN116959442B (zh) | 2023-07-29 | 2023-07-29 | 用于智能开关面板的芯片及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310942308.7A CN116959442B (zh) | 2023-07-29 | 2023-07-29 | 用于智能开关面板的芯片及其方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116959442A CN116959442A (zh) | 2023-10-27 |
CN116959442B true CN116959442B (zh) | 2024-03-19 |
Family
ID=88446033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310942308.7A Active CN116959442B (zh) | 2023-07-29 | 2023-07-29 | 用于智能开关面板的芯片及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116959442B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118230722B (zh) * | 2024-05-22 | 2024-08-13 | 陕西拓方信息技术有限公司 | 基于ai的智能语音识别方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019023877A1 (zh) * | 2017-07-31 | 2019-02-07 | 深圳和而泰智能家居科技有限公司 | 特定声音识别方法、设备和存储介质 |
CN113779208A (zh) * | 2020-12-24 | 2021-12-10 | 北京汇钧科技有限公司 | 用于人机对话的方法和装置 |
WO2022057712A1 (zh) * | 2020-09-15 | 2022-03-24 | 华为技术有限公司 | 电子设备及其语义解析方法、介质和人机对话系统 |
CN114944149A (zh) * | 2022-04-15 | 2022-08-26 | 科大讯飞股份有限公司 | 语音识别方法、语音识别设备及计算机可读存储介质 |
CN116340796A (zh) * | 2023-05-22 | 2023-06-27 | 平安科技(深圳)有限公司 | 时序数据分析方法、装置、设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130297299A1 (en) * | 2012-05-07 | 2013-11-07 | Board Of Trustees Of Michigan State University | Sparse Auditory Reproducing Kernel (SPARK) Features for Noise-Robust Speech and Speaker Recognition |
US11694678B2 (en) * | 2020-10-07 | 2023-07-04 | General Dynamics Mission Systems, Inc. | Signal processor employing neural network trained using evolutionary feature selection |
-
2023
- 2023-07-29 CN CN202310942308.7A patent/CN116959442B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019023877A1 (zh) * | 2017-07-31 | 2019-02-07 | 深圳和而泰智能家居科技有限公司 | 特定声音识别方法、设备和存储介质 |
WO2022057712A1 (zh) * | 2020-09-15 | 2022-03-24 | 华为技术有限公司 | 电子设备及其语义解析方法、介质和人机对话系统 |
CN113779208A (zh) * | 2020-12-24 | 2021-12-10 | 北京汇钧科技有限公司 | 用于人机对话的方法和装置 |
CN114944149A (zh) * | 2022-04-15 | 2022-08-26 | 科大讯飞股份有限公司 | 语音识别方法、语音识别设备及计算机可读存储介质 |
CN116340796A (zh) * | 2023-05-22 | 2023-06-27 | 平安科技(深圳)有限公司 | 时序数据分析方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
复杂环境下的说话人识别;卜奎昊;;福建电脑;20100525(05);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116959442A (zh) | 2023-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021093449A1 (zh) | 基于人工智能的唤醒词检测方法、装置、设备及介质 | |
CN111402861B (zh) | 一种语音识别方法、装置、设备及存储介质 | |
TWI610295B (zh) | 解壓縮及壓縮用於語音辨識之轉換器資料的電腦實施方法及電腦實施之語音辨識系統 | |
Sacchi et al. | Open-vocabulary keyword spotting with audio and text embeddings | |
CN112509552B (zh) | 语音合成方法、装置、电子设备和存储介质 | |
CN116959442B (zh) | 用于智能开关面板的芯片及其方法 | |
GB2343285A (en) | Speech recognition system | |
CN114141228B (zh) | 语音合成模型的训练方法、语音合成方法和装置 | |
CN111783480B (zh) | 文本处理和模型训练方法、装置、存储介质和电子设备 | |
CN112420050B (zh) | 一种语音识别方法、装置和电子设备 | |
CN105788596A (zh) | 一种语音识别电视控制方法及系统 | |
Ng et al. | De’hubert: Disentangling noise in a self-supervised model for robust speech recognition | |
WO2024139805A1 (zh) | 一种音频处理方法及相关装置 | |
CN113823265A (zh) | 一种语音识别方法、装置和计算机设备 | |
KR20130124704A (ko) | 분산환경 리스코어링 방법 및 장치 | |
CN115104151A (zh) | 一种离线语音识别方法和装置、电子设备和可读存储介质 | |
CN111968646A (zh) | 一种语音识别方法及装置 | |
US20230005466A1 (en) | Speech synthesis method, and electronic device | |
CN116361316A (zh) | 一种语义引擎适配方法、装置、设备及存储介质 | |
CN116092485A (zh) | 语音识别模型的训练方法及装置、语音识别方法及装置 | |
CN113763924B (zh) | 声学深度学习模型训练方法、语音生成方法及设备 | |
CN115331658A (zh) | 一种语音识别方法 | |
CN112466282B (zh) | 一种面向航天专业领域的语音识别系统和方法 | |
CN115064160A (zh) | 语音唤醒方法以及装置 | |
Wang | Design of speech recognition system based on LD3320 chip |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |