CN112489644A - 用于电子设备的语音识别方法及装置 - Google Patents

用于电子设备的语音识别方法及装置 Download PDF

Info

Publication number
CN112489644A
CN112489644A CN202011215812.XA CN202011215812A CN112489644A CN 112489644 A CN112489644 A CN 112489644A CN 202011215812 A CN202011215812 A CN 202011215812A CN 112489644 A CN112489644 A CN 112489644A
Authority
CN
China
Prior art keywords
intention
user
similarity
voice recognition
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011215812.XA
Other languages
English (en)
Other versions
CN112489644B (zh
Inventor
徐苏琴
杨建军
李斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics China R&D Center
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics China R&D Center
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics China R&D Center, Samsung Electronics Co Ltd filed Critical Samsung Electronics China R&D Center
Priority to CN202011215812.XA priority Critical patent/CN112489644B/zh
Publication of CN112489644A publication Critical patent/CN112489644A/zh
Application granted granted Critical
Publication of CN112489644B publication Critical patent/CN112489644B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供一种用于电子设备的语音识别方法及装置。该用于电子设备的语音识别方法包括:接收用户输入的语音信号并预测用户意图;计算预测出的用户意图和接收的语音信号之间的相似性;当相似性大于预设阈值时,根据预测出的用户意图控制电子设备执行操作,从而在不需要网络的情况下进行语音识别,并且提高了语音识别的速度以及准确率。

Description

用于电子设备的语音识别方法及装置
技术领域
本公开涉及语音识别技术领域。更具体地,本公开涉及一种用于电子设备的语音识别方法及装置。
背景技术
现有语音识别技术,先把语音上传到语音识别云中,识别之后再把结果反馈给智能设备,识别时间长,影响用户体验,并且需要连接网络。
发明内容
本公开的示例性实施例在于提供一种用于电子设备的语音识别方法及装置,以在不需要网络的情况下进行语音识别,并且提高语音识别的速度以及准确率。
根据本公开的示例性实施例,提供一种用于电子设备的语音识别方法,所述语音识别方法包括:接收用户输入的语音信号并预测用户意图;计算预测出的用户意图和接收的语音信号之间的相似性;并且当相似性大于预设阈值时,根据预测出的用户意图控制电子设备执行操作。
可选地,所述语音识别方法还可包括:当相似性小于预设阈值时,基于预测出的用户意图对接收的语音信号进行语音识别以得到语音识别结果,或者将预测出的用户意图和接收的语音信号输入到语音识别云,并从语音识别云接收语音识别结果;并且根据语音识别结果控制电子设备执行操作。
可选地,预测用户意图的步骤包括:通过意图预测模型基于电子设备的当前使用情况和用户习惯来预测用户意图,其中,意图预测模型是使用随机森林算法生成的,或者意图预测模型是使用随机森林算法对意图预测模型进行迁移学习得到的扩充后的意图预测模型。
可选地,计算预测出的用户意图和接收的语音信号之间的相似性的步骤可包括:通过伪双胞胎网络计算预测出的用户意图和接收的语音信号之间的相似性。
可选地,计算预测出的用户意图和接收的语音信号之间的相似性的步骤可包括:提取预测出的用户意图的第一特征向量,并且提取接收的语音信号的第二特征向量;计算第一特征向量和第二特征向量的差;并且基于第一特征向量和第二特征向量的差计算预测出的用户意图和接收的语音信号之间的相似性。
可选地,用户意图包括以下至少一项:用户期望打开的应用、用户期望执行的操作。
根据本公开的示例性实施例,提供一种用于电子设备的语音识别装置,包括:语音接收单元,被配置为接收用户输入的语音信号;意图预测单元,被配置为预测用户意图;相似性计算单元,被配置为计算预测出的用户意图和接收的语音信号之间的相似性;和操作执行单元,被配置为当相似性大于预设阈值时,根据预测出的用户意图控制电子设备执行操作。
可选地,所述语音识别装置还可包括辅助执行单元,被配置为:当相似性小于预设阈值时,基于预测出的用户意图对接收的语音信号进行语音识别以得到语音识别结果,或者将预测出的用户意图和接收的语音信号输入到语音识别云,并从语音识别云接收语音识别结果;并且根据语音识别结果控制电子设备执行操作。
可选地,意图预测单元可被配置为:通过意图预测模型基于电子设备的当前使用情况和用户习惯来预测用户意图,其中,意图预测模型是使用随机森林算法生成的,或者意图预测模型是使用随机森林算法对意图预测模型进行迁移学习得到的扩充后的意图预测模型。
可选地,相似性计算单元可被配置为:通过伪双胞胎网络计算预测出的用户意图和接收的语音信号之间的相似性。
可选地,相似性计算单元可被配置为:提取预测出的用户意图的第一特征向量,并且提取接收的语音信号的第二特征向量;计算第一特征向量和第二特征向量的差;并且基于第一特征向量和第二特征向量的差计算预测出的用户意图和接收的语音信号之间的相似性。
可选地,用户意图包括以下至少一项:用户期望打开的应用、用户期望执行的操作。
根据本公开的示例性实施例,提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被处理器执行时,实现根据本公开的示例性实施例的用于电子设备的语音识别方法。
根据本公开的示例性实施例,提供一种计算装置,包括:处理器;存储器,存储有计算机程序,当所述计算机程序被处理器执行时,实现根据本公开的示例性实施例的用于电子设备的语音识别方法。
根据本公开的示例性实施例的用于电子设备的语音识别方法及装置,通过接收用户输入的语音信号并预测用户意图,计算预测出的用户意图和接收的语音信号之间的相似性,并且当相似性大于预设阈值时,根据预测出的用户意图控制电子设备执行操作,从而在不需要网络的情况下进行语音识别,并且提高了语音识别的速度以及准确率。
将在接下来的描述中部分阐述本公开总体构思另外的方面和/或优点,还有一部分通过描述将是清楚的,或者可以经过本公开总体构思的实施而得知。
附图说明
通过下面结合示例性地示出实施例的附图进行的描述,本公开的示例性实施例的上述和其他目的和特点将会变得更加清楚,其中:
图1示出根据本公开的示例性实施例的用于电子设备的语音识别方法的流程图;
图2示出使用随机森林算法生成意图预测模型的示图;
图3示出使用随机森林算法对已有意图预测模型进行迁移学习的示图;
图4示出根据本公开的示例性实施例的用于电子设备的语音识别装置的框图;和
图5示出根据本公开的示例性实施例的计算装置的示意图。
具体实施方式
现将详细参照本公开的示例性实施例,所述实施例的示例在附图中示出,其中,相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例,以便解释本公开。
图1示出根据本公开的示例性实施例的用于电子设备的语音识别方法的流程图。图1中的语音识别方法可适用于可接收语音输入的电子设备,例如,但不限于,手机、计算机、学习机、游戏机、智能家居、物联网设备等。电子设备可通过例如语音助手来接收语音。
参照图1,在步骤S101,接收用户输入的语音信号并预测用户意图。
具体来说,可在检测到用户输入语音时,接收用户输入的语音信号并预测用户意图。如果用户通过例如语音助手输入语音,则说明用户需要通过语音输入控制信号来控制电子设备。此时,可接收用户输入的语音信号并预测用户意图,以通过预测得知用户期望做什么。还可在响应于检测到预设的需要预测用户意图的情况时,预测用户意图并接收用户输入的语音信号。预设的需要预测用户意图的情况可以是例如,但不限于,用户输入语音、用户进入某个具体应用、用户解锁屏幕、用户点击或者滑动按键。例如,如果预测到用户的意图是想打开音乐播放器,那么此时用户对语音助手输入的语音的意思就类似于打开音乐播放器。
在本公开的示例性实施例中,可首先接收用户输入的语音信号,然后预测用户意图;也可首先预测用户意图,然后接收用户输入的语音信号;也可在接收用户输入的语音信号的同时预测用户意图,本公开对此不进行限制。
在本公开的示例性实施例中,用户意图可包括但不限于以下至少一项:用户期望打开的应用、用户期望执行的操作。
在本公开的示例性实施例中,在预测用户意图时,可通过意图预测模型基于电子设备的当前使用情况和用户习惯来预测用户意图。这里,电子设备的当前使用情况可包括当前运行的应用、上一次打开的应用、电子设备的运行模式,用户习惯可包括用户在过去使用电子设备时在各种情况下将打开的应用或者执行的操作等。
在本公开的示例性实施例中,意图预测模型可以是使用随机森林算法生成的,或者意图预测模型可以是使用随机森林算法对意图预测模型进行迁移学习得到的扩充后的意图预测模型。这里,随机森林算法是利用多颗树对样本进行训练并预测的一种分类器。
具体来说,在使用电子设备进行语音识别之前,可首先检测电子设备是否存在意图预测模型,如果电子设备上没有意图预测模型,则使用随机森林算法生成意图预测模型,如果电子设备上已有意图预测模型,则使用随机森林算法对已有意图预测模型进行迁移学习,从而实现对已有意图预测模型的意图扩充。
例如,图2示出使用随机森林算法生成意图预测模型的示图。如图2所示,可基于训练样本集D和预设的特征使用随机森林算法去训练模型,预设的特征可以为:当天是周几、当前时间、当前位置、上一个被打开的应用等。可以用xa={D1,D2,D3,D4}来表示特征向量。
例如,图3示出使用随机森林算法对已有意图预测模型进行迁移学习的示图。迁移学习就是对原始的训练数据进行有选择的使用,有的训练数据的权重大点,有的训练数据的权重小点。
当用户遇到相似的情况,但是场景不同时,例如,用智能手机Dex连接智能电视或者进入某个具体的应用程序,意图预测模型就不能很好的去预测用户意图。此时,可使用随机森林算法的迁移学习功能去扩展意图预测模型以增加一个设备场景的特征,之前那种情况就可以用“home”表示,用“Dex”连接之后,就是用“Dex”来表示,并且可用xt={D0,D1,D2,D3,D4}来标识特征向量。当用户进入某个具体应用时,也会预测意图序列。
例如,当用户用智能手机的Dex连接智能电视后,预设的特征可如表1所示:
表1
设备场景 当天是周几 当前时间 当前位置 上一个被打开的应用
Dex 周二 20:00 新罗酒店 PPT
具体来说,当用户使用智能手机的Dex连接智能电视时,预测出的意图序列可以是:打开PPT,0.99;打开excel,0.90;打开word,0.80;打开游戏,0.60;打开图库,0.50。也就是说,用户使用智能手机的Dex连接智能电视之后,打开PPT的概率为0.99,打开excel的概率为0.90,打开word的概率为0.80,打开游戏的概率为0.60,打开图库的概率为0.50。
在步骤S102,计算预测出的用户意图和接收的语音信号之间的相似性。
在本公开的示例性实施例中,在计算预测出的用户意图和接收的语音信号之间的相似性时,可通过伪双胞胎网络计算预测出的用户意图和接收的语音信号之间的相似性。
在本公开的示例性实施例中,在计算预测出的用户意图和接收的语音信号之间的相似性时,可首先提取预测出的用户意图的第一特征向量,并且提取接收的语音信号的第二特征向量,然后计算第一特征向量和第二特征向量的差,并且基于第一特征向量和第二特征向量的差计算预测出的用户意图和接收的语音信号之间的相似性。
在步骤S103,当相似性大于预设阈值时,根据预测出的用户意图控制电子设备执行操作。
在本公开的示例性实施例中,当相似性小于预设阈值时,基于预测出的用户意图对接收的语音信号进行语音识别以得到语音识别结果,或者将预测出的用户意图和接收的语音信号输入到语音识别云,并从语音识别云接收语音识别结果,根据语音识别结果控制电子设备执行操作。
具体来说,如果相似性大于预设阈值(例如,0.7),则说明预测出的用户意图和用户的语音信号基本一致,所以不需要将语音信号传递到云端进行语音识别,此时电子设备可仅根据预测出的用户意图进行相应的操作,从而在不需要网络或者网络通信的情况下实现语音识别,并且提高语音识别处理速度和正确率;如果相似性小于预设阈值(例如,0.7),则说明预测出的用户意图和用户的语音信号差别大,所以需要将意图预测模型生成的用户意图(例如,意图序列)以及语音信号(或者语音信号)一起输入到语音识别云上,根据用户意图(例如,意图序列)来缩小语音识别过程中的模式匹配,缩短了语音识别的时间,从而提高语音识别处理速度和正确率。
在一个示例中,如果当用户正在开车时接收到电话,则预测出的意图序列可以是:发送消息(我正在开车,稍后联系),0.99;挂断电话,0.80;接听电话,0.40;设置静音,0.15;等。也就是说,如果当用户正在开车时接收到电话,则发送消息(我正在开车,稍后联系)的概率为0.99,挂断电话的概率为0.80,接听电话的概率为0.40,设置为静音模式的概率为0.15。如果此时接收到用户输入的语音信号(发送消息“我正在开车,稍后联系”),则将意图序列和语音信号输入到伪双胞胎网络以在意图序列中查找“发送消息”的可能性,由于“发送消息”的概率(可能性)是0.99,大于预设阈值T1,也就是说,相似性大于预设阈值,因此智能手机将执行发送消息(我正在开车,稍后联系)的信号。此种情况下,智能手机可以在没有连接网络的情况下执行语音信号,并且提高了执行的速度。
在另一示例中,当用户第一次使用智能手机连接智能电视时,预测出的意图序列可以是:打开游戏,0.60;打开PPT,0.50;打开excel,0.45;打开word,0.45;打开图库,0.40;等。也就是说,用户使用智能手机的Dex连接智能电视之后,打开游戏的概率为0.60,打开PPT的概率为0.5,打开excel的概率为0.45,打开word的概率为0.45,打开图库的概率为0.40。如果此时接收到用户输入的语音信号(打开游戏),则将意图序列和语音信号输入到伪双胞胎网络以在意图序列中查找“打开游戏”的可能性,由于意图预测“打开游戏”的概率(可能性)是0.60,小于预设阈值,也就是说,相似性小于预设阈值,因此,将意图序列和语音信号输入到语音识别云。这个意图序列会帮助语音识别云更快的获得语音识别结果,然后,将语音识别结果反馈给智能手机,以使得智能手机执行反馈指令。
此外,根据本公开的示例性实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被执行时,实现根据本公开的示例性实施例的用于电子设备的语音识别方法。
在本公开的示例性实施例中,所述计算机可读存储介质可承载有一个或者多个程序,当所述计算机程序被执行时可实现以下步骤:接收用户输入的语音信号并预测用户意图;计算预测出的用户意图和接收的语音信号之间的相似性;当相似性大于预设阈值时,根据预测出的用户意图控制电子设备执行操作。
计算机可读存储介质例如可以是,但不限于,电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中,计算机可读存储介质可以是任何包含或存储计算机程序的有形介质,该计算机程序可以被指令执行系统、装置或者器件使用或者与其结合使用。计算机可读存储介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。计算机可读存储介质可以包含在任意装置中;也可以单独存在,而未装配入该装置中。
以上已经结合图1至图3对根据本公开的示例性实施例的用于电子设备的语音识别方法进行了描述。在下文中,将参照图4对根据本公开的示例性实施例的用于电子设备的语音识别装置及其单元进行描述。
图4示出根据本公开的示例性实施例的用于电子设备的语音识别装置的框图。
参照图4,用于电子设备的语音识别装置包括语音接收单元41、意图预测单元42、相似性计算单元43和操作执行单元44。
语音接收单元41被配置为接收用户输入的语音信号。
意图预测单元42被配置为预测用户意图。
在本公开的示例性实施例中,意图预测单元42可被配置为:通过意图预测模型基于电子设备的当前使用情况和用户习惯来预测用户意图。这里,意图预测模型是使用随机森林算法生成的,或者意图预测模型是使用随机森林算法对意图预测模型进行迁移学习得到的扩充后的意图预测模型。
在本公开的示例性实施例中,用户意图包括以下至少一项:用户期望打开的应用、用户期望执行的操作。
相似性计算单元43被配置为计算预测出的用户意图和接收的语音信号之间的相似性。
在本公开的示例性实施例中,相似性计算单元43可被配置为:通过伪双胞胎网络计算预测出的用户意图和接收的语音信号之间的相似性。
在本公开的示例性实施例中,相似性计算单元43可被配置为:提取预测出的用户意图的第一特征向量,并且提取接收的语音信号的第二特征向量;计算第一特征向量和第二特征向量的差;并且基于第一特征向量和第二特征向量的差计算预测出的用户意图和接收的语音信号之间的相似性。
操作执行单元44被配置为当相似性大于预设阈值时,根据预测出的用户意图执行操作。
在本公开的示例性实施例中,所述装置还可包括辅助执行单元(未示出),被配置为:当相似性小于预设阈值时,基于预测出的用户意图对接收的语音信号进行语音识别以得到语音识别结果,或者将预测出的用户意图和接收的语音信号输入到语音识别云,并从语音识别云接收语音识别结果;并且根据语音识别结果控制电子设备执行操作。
以上已经结合图4对根据本公开的示例性实施例的用于电子设备的语音识别装置进行了描述。接下来,结合图5对根据本公开的示例性实施例的计算装置进行描述。
图5示出根据本公开的示例性实施例的计算装置的示意图。
参照图5,根据本公开的示例性实施例的计算装置5,包括存储器51和处理器52,所述存储器51上存储有计算机程序,当所述计算机程序被处理器52执行时,实现根据本公开的示例性实施例的用于电子设备的语音识别方法。
在本公开的示例性实施例中,当所述计算机程序被处理器52执行时,可实现以下步骤:接收用户输入的语音信号并预测用户意图;计算预测出的用户意图和接收的语音信号之间的相似性;当相似性大于预设阈值时,根据预测出的用户意图控制电子设备执行操作。
本公开实施例中的计算装置可以包括但不限于诸如移动电话、笔记本电脑、PDA(个人数字助理)、PAD(平板电脑)、台式计算机、学习机、游戏机、智能家居、物联网设备等的装置。图5示出的计算装置仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
以上已参照图1至图5描述了根据本公开的示例性实施例的用于电子设备的语音识别方法及装置。然而,应该理解的是:图4中所示的用于电子设备的语音识别装置及其单元可分别被配置为执行特定功能的软件、硬件、固件或上述项的任意组合,图5中所示的计算装置并不限于包括以上示出的组件,而是可根据需要增加或删除一些组件,并且以上组件也可被组合。
根据本公开的示例性实施例的用于电子设备的语音识别方法及装置,通过接收用户输入的语音信号并预测用户意图,计算预测出的用户意图和接收的语音信号之间的相似性,并且当相似性大于预设阈值时,根据预测出的用户意图控制电子设备执行操作,从而在不需要网络的情况下进行语音识别,并且提高了语音识别的速度以及准确率。
尽管已经参照其示例性实施例具体显示和描述了本公开,但是本领域的技术人员应该理解,在不脱离权利要求所限定的本公开的精神和范围的情况下,可以对其进行形式和细节上的各种改变。

Claims (14)

1.一种用于电子设备的语音识别方法,所述语音识别方法包括:
接收用户输入的语音信号并预测用户意图;
计算预测出的用户意图和接收的语音信号之间的相似性;并且
当相似性大于预设阈值时,根据预测出的用户意图控制电子设备执行操作。
2.根据权利要求1所述的语音识别方法,还包括:
当相似性小于预设阈值时,基于预测出的用户意图对接收的语音信号进行语音识别以得到语音识别结果,或者将预测出的用户意图和接收的语音信号输入到语音识别云,并从语音识别云接收语音识别结果;并且
根据语音识别结果控制电子设备执行操作。
3.根据权利要求1所述的语音识别方法,其中,预测用户意图的步骤包括:通过意图预测模型基于电子设备的当前使用情况和用户习惯来预测用户意图,
其中,意图预测模型是使用随机森林算法生成的,或者意图预测模型是使用随机森林算法对意图预测模型进行迁移学习得到的扩充后的意图预测模型。
4.根据权利要求3所述的语音识别方法,其中,计算预测出的用户意图和接收的语音信号之间的相似性的步骤包括:
通过伪双胞胎网络计算预测出的用户意图和接收的语音信号之间的相似性。
5.根据权利要求3所述的语音识别方法,其中,计算预测出的用户意图和接收的语音信号之间的相似性的步骤包括:
提取预测出的用户意图的第一特征向量,并且提取接收的语音信号的第二特征向量;
计算第一特征向量和第二特征向量的差;并且
基于第一特征向量和第二特征向量的差计算预测出的用户意图和接收的语音信号之间的相似性。
6.根据权利要求1-5中任一项所述的语音识别方法,其中,用户意图包括以下至少一项:用户期望打开的应用、用户期望执行的操作。
7.一种用于电子设备的语音识别装置,包括:
语音接收单元,被配置为接收用户输入的语音信号;
意图预测单元,被配置为预测用户意图;
相似性计算单元,被配置为计算预测出的用户意图和接收的语音信号之间的相似性;和
操作执行单元,被配置为当相似性大于预设阈值时,根据预测出的用户意图控制电子设备执行操作。
8.根据权利要求7所述的语音识别装置,还包括辅助执行单元,被配置为:
当相似性小于预设阈值时,基于预测出的用户意图对接收的语音信号进行语音识别以得到语音识别结果,或者将预测出的用户意图和接收的语音信号输入到语音识别云,并从语音识别云接收语音识别结果;并且
根据语音识别结果控制电子设备执行操作。
9.根据权利要求7所述的语音识别装置,其中,意图预测单元被配置为:通过意图预测模型基于电子设备的当前使用情况和用户习惯来预测用户意图,
其中,意图预测模型是使用随机森林算法生成的,或者意图预测模型是使用随机森林算法对意图预测模型进行迁移学习得到的扩充后的意图预测模型。
10.根据权利要求9所述的语音识别装置,其中,相似性计算单元被配置为:
通过伪双胞胎网络计算预测出的用户意图和接收的语音信号之间的相似性。
11.根据权利要求9所述的语音识别装置,其中,相似性计算单元被配置为:
提取预测出的用户意图的第一特征向量,并且提取接收的语音信号的第二特征向量;
计算第一特征向量和第二特征向量的差;并且
基于第一特征向量和第二特征向量的差计算预测出的用户意图和接收的语音信号之间的相似性。
12.根据权利要求7-11中任一项所述的语音识别装置,其中,用户意图包括以下至少一项:用户期望打开的应用、用户期望执行的操作。
13.一种存储有计算机程序的计算机可读存储介质,其中,当所述计算机程序被处理器执行时,实现权利要求1至6中任一项所述的用于电子设备的语音识别方法。
14.一种计算装置,包括:
处理器;
存储器,存储有计算机程序,当所述计算机程序被处理器执行时,实现权利要求1至6中任一项所述的用于电子设备的语音识别方法。
CN202011215812.XA 2020-11-04 2020-11-04 用于电子设备的语音识别方法及装置 Active CN112489644B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011215812.XA CN112489644B (zh) 2020-11-04 2020-11-04 用于电子设备的语音识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011215812.XA CN112489644B (zh) 2020-11-04 2020-11-04 用于电子设备的语音识别方法及装置

Publications (2)

Publication Number Publication Date
CN112489644A true CN112489644A (zh) 2021-03-12
CN112489644B CN112489644B (zh) 2023-12-19

Family

ID=74928244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011215812.XA Active CN112489644B (zh) 2020-11-04 2020-11-04 用于电子设备的语音识别方法及装置

Country Status (1)

Country Link
CN (1) CN112489644B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11750689B2 (en) 2021-08-10 2023-09-05 Apollo Intelligent Connectivity (Beijing) Technology Co., Ltd. Speech processing method and apparatus, device, storage medium and program

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170161393A1 (en) * 2015-12-08 2017-06-08 Samsung Electronics Co., Ltd. Terminal, server and event suggesting methods thereof
CN108010526A (zh) * 2017-12-08 2018-05-08 北京奇虎科技有限公司 语音处理方法及装置
CN109785838A (zh) * 2019-01-28 2019-05-21 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及存储介质
US20190198019A1 (en) * 2017-12-26 2019-06-27 Baidu Online Network Technology (Beijing) Co., Ltd Method, apparatus, device, and storage medium for voice interaction
CN110718223A (zh) * 2019-10-28 2020-01-21 百度在线网络技术(北京)有限公司 用于语音交互控制的方法、装置、设备和介质
US20200035228A1 (en) * 2019-08-05 2020-01-30 Lg Electronics Inc. Method and apparatus for speech recognition

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170161393A1 (en) * 2015-12-08 2017-06-08 Samsung Electronics Co., Ltd. Terminal, server and event suggesting methods thereof
CN108010526A (zh) * 2017-12-08 2018-05-08 北京奇虎科技有限公司 语音处理方法及装置
US20190198019A1 (en) * 2017-12-26 2019-06-27 Baidu Online Network Technology (Beijing) Co., Ltd Method, apparatus, device, and storage medium for voice interaction
CN109785838A (zh) * 2019-01-28 2019-05-21 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及存储介质
US20200035228A1 (en) * 2019-08-05 2020-01-30 Lg Electronics Inc. Method and apparatus for speech recognition
CN110718223A (zh) * 2019-10-28 2020-01-21 百度在线网络技术(北京)有限公司 用于语音交互控制的方法、装置、设备和介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11750689B2 (en) 2021-08-10 2023-09-05 Apollo Intelligent Connectivity (Beijing) Technology Co., Ltd. Speech processing method and apparatus, device, storage medium and program

Also Published As

Publication number Publication date
CN112489644B (zh) 2023-12-19

Similar Documents

Publication Publication Date Title
CN107644642B (zh) 语义识别方法、装置、存储介质及电子设备
CN109514586B (zh) 实现智能客服机器人的方法及系统
JP2019139211A (ja) 音声ウェイクアップ方法及び装置
KR20170115501A (ko) 크라우드 소싱에 기초해서 디지털 퍼스널 어시스턴트에 대한 언어 이해 분류기 모델을 업데이트하는 기법
CN112970059B (zh) 用于处理用户话语的电子装置及其控制方法
CN111261151B (zh) 一种语音处理方法、装置、电子设备及存储介质
CN108428450B (zh) 一种操作指令处理方法及装置
CN107995370A (zh) 通话控制方法、装置及存储介质和移动终端
CN112286485B (zh) 通过语音控制应用的方法、装置、电子设备与存储介质
WO2019207379A1 (en) System and method for providing a response to a user query using a visual assistant
CN109360551B (zh) 一种语音识别方法及装置
CN110570855A (zh) 通过对话机制控制智能家居设备的系统、方法及装置
CN111341315A (zh) 语音控制方法、装置、计算机设备和存储介质
CN111309857A (zh) 一种处理方法及处理装置
CN106776039A (zh) 一种数据处理方法及装置
CN112767916A (zh) 智能语音设备的语音交互方法、装置、设备、介质及产品
CN112489644B (zh) 用于电子设备的语音识别方法及装置
US10873662B2 (en) Identifying a media item to present to a user device via a communication session
CN117575008A (zh) 训练样本生成方法、模型训练方法、知识问答方法及设备
WO2021068247A1 (zh) 神经网络调度方法、装置、计算机设备及可读存储介质
CN112837683A (zh) 语音服务方法及装置
CN109413663B (zh) 一种信息处理方法和设备
KR102485339B1 (ko) 차량의 음성 명령 처리 장치 및 방법
CN111899747B (zh) 用于合成音频的方法和装置
WO2022161025A1 (zh) 声纹识别方法、装置、电子设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant