CN114566144A - 一种语音识别方法、装置、服务器和电子设备 - Google Patents
一种语音识别方法、装置、服务器和电子设备 Download PDFInfo
- Publication number
- CN114566144A CN114566144A CN202210051292.6A CN202210051292A CN114566144A CN 114566144 A CN114566144 A CN 114566144A CN 202210051292 A CN202210051292 A CN 202210051292A CN 114566144 A CN114566144 A CN 114566144A
- Authority
- CN
- China
- Prior art keywords
- intention
- default
- score
- voice data
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/635—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
- H04L12/2803—Home automation networks
- H04L12/2816—Controlling appliance services of a home automation network by calling their functionalities
- H04L12/282—Controlling appliance services of a home automation network by calling their functionalities based on user interaction within the home
Abstract
本申请一种语音识别方法、装置、服务器和电子设备,涉及人工智能技术领域,解决了现有技术中电视机在接收到不够明确或者有歧义的语音,电视机无法根据该语音确定出用户的用户意图,之后电视机会默认用户意图为默认意图,导致实际的用户意图的识别率较低的问题。该方法包括:接收电子设备发送的查询信息;在将语音数据输入至dialogFlow模型,确定用户意图为默认default意图的情况下,将语音数据输入至预先配置的文本卷积网络模型中,确定除default意图以外的每个意图的意图得分;确定存在意图得分大于第一阈值的意图时,将包含意图得分大于第一阈值的意图的第一显示信息发送至电子设备。
Description
技术领域
本申请涉及人工智能技术领域,具体而言,涉及一种语音识别方法、装置、服务器和电子设备。
背景技术
随着语音识别技术的发展,智能语音交互技术逐渐成为终端设备(如手机、平板电脑或智能家电等智能家居产品)的标准配置。在智能语音交互场景下,用户可以通过语音控制智能家电,以终端设备为电视机为例,用户可以通过语音控制电视机,实现看视频、听音乐或查天气等一系列电视控制操作。但是,通常情况下,电视机在接收到不够明确或者有歧义的语音,电视机无法根据该语音确定出用户的用户意图,之后电视机会默认用户意图为默认意图,导致实际的用户意图的识别率较低。
发明内容
本申请提供一种语音识别方法、装置、服务器和电子设备,解决了现有技术中电视机在接收到不够明确或者有歧义的语音,电视机无法根据该语音确定出用户的用户意图,之后电视机会默认用户意图为默认意图,导致实际的用户意图的识别率较低的问题。
为达到上述目的,本申请采用如下技术方案:
第一方面、本申请提供一种语音识别方法,包括:接收电子设备发送的查询信息;查询信息包括语音数据;在将语音数据输入至dialogFlow模型,确定用户意图为默认default意图的情况下,将语音数据输入至预先配置的文本卷积网络模型中,确定除default意图以外的每个意图的意图得分;确定存在意图得分大于第一阈值的意图时,将包含意图得分大于第一阈值的意图的第一显示信息发送至电子设备,第一显示信息用于指示电子设备执行意图得分大于第一阈值的意图,并搜索语音数据。
在一些可实施的示例中,本申请提供的语音识别方法还包括:获取至少一个default意图对应的历史查询数据;历史查询数据包括至少一条查询信息,至少一条查询信息中一条查询信息对应一个default意图;将至少一条查询信息中每条查询信息对应的语音数据输入至文本卷积网络模型中,确定每个default意图对应的最大意图得分,以及最大意图得分对应的意图;根据每个default意图对应的最大意图得分,以及最大意图得分对应的意图,确定第一阈值和第二阈值。
在一些可实施的示例中,本申请提供的语音识别方法还包括:在意图得分均小于或等于第一阈值的情况下,确定意图得分大于或等于第二阈值的意图;将包含意图得分大于或等于第二阈值的意图的第二显示信息发送至电子设备,第二显示信息用于指示电子设备显示意图得分大于或等于第二阈值的意图。
在一些可实施的示例中,本申请提供的语音识别方法还包括:确定意图得分均小于第二阈值的情况下,将包含default意图的第三显示信息发送至电子设备,第三显示信息用于指示电子设备执行default意图,并搜索语音数据。
在一些可实施的示例中,查询信息还包括国际语言代码;将语音数据输入至预先配置的文本卷积网络模型中,确定除default意图以外的每个意图的意图得分,包括:在国际语言代码对应的语言为目标语言的情况下,对语音数据进行字分类预处理,确定第一分类数据;其中,目标语言包括汉语、泰语和日语中的一项或者多项。将第一分类数据输入至预先配置的文本卷积网络模型中,确定除default意图以外的每个意图的意图得分。
在一些可实施的示例中,查询信息还包括国际语言代码;将语音数据输入至预先配置的文本卷积网络模型中,确定除default意图以外的每个意图的意图得分,包括:在国际语言代码对应的语言不是目标语言的情况下,对语音数据进行词分类预处理,确定第二分类数据;其中,目标语言包括汉语、泰语和日语中的一项或者多项。将第二分类数据输入至预先配置的文本卷积网络模型中,确定除default意图以外的每个意图的意图得分。
在一些可实施的示例中,文本卷积网络模型的训练过程如下:获取训练语句和训练语句的标记结果;其中,训练语句包括语音数据和意图;将训练语句输入至神经网络模型中;基于目标损失函数,确定神经网络模型输出的训练语句的预测结果与标记结果是否匹配;在预测结果与标记结果不匹配的情况下,循环迭代神经网络模型的配置参数,直至神经网络模型收敛,得到文本卷积网络模型。
在一些可实施的示例中,本申请提供的语音识别方法还包括:将语音数据输入至预先配置的文本卷积网络模型中,确定除default意图以外的每个意图的置信度;根据置信度,确定除default意图以外的每个意图对应的意图得分。
在一些可实施的示例中,本申请提供的语音识别方法还包括:获取除default意图以外的每个意图归属的意图类别的使用频率;根据使用频率,确定每个意图类别对应的意图系数;将语音数据输入至预先配置的文本卷积网络模型中,确定除default意图以外的每个意图的置信度;根据置信度和每个意图类别对应的意图系数,确定除default意图以外的每个意图对应的意图得分。
第二方面、本申请提供一种语音识别方法,应用于电子设备,包括:向服务器发送查询信息;查询信息包括语音数据;接收服务器发送的包含意图得分大于第一阈值的意图的第一显示信息;根据第一显示信息,执行意图得分大于第一阈值的意图,并搜索语音数据;显示执行意图得分大于第一阈值的意图,并搜索语音数据的搜索结果。
在一些可实施的示例中,本申请提供的语音识别方法还包括:接收服务器发送的包含意图得分大于或等于第二阈值的意图的第二显示信息;根据第二显示信息,显示意图得分大于或等于第二阈值的意图。
在一些可实施的示例中,根据第二显示信息,显示意图得分大于或等于第二阈值的意图,包括:根据第二显示信息,按照从大到小的顺序对意图得分进行排序,确定意图得分大于或等于第二阈值的每个意图的显示顺序;根据显示顺序,显示意图得分大于或等于第二阈值的意图。
在一些可实施的示例中,本申请提供的语音识别方法还包括:接收服务器发送的包含default意图的第三显示信息;根据第三显示信息,执行default意图,并搜索语音数据。
第三方面、本申请提供一种语音识别装置,包括:收发单元,用于接收电子设备发送的查询信息;查询信息包括语音数据;处理单元,用于在将收到单元接收的语音数据输入至dialogFlow模型,确定用户意图为默认default意图的情况下,将语音数据输入至预先配置的文本卷积网络模型中,确定除default意图以外的每个意图的意图得分;处理单元,还用于确定存在意图得分大于第一阈值的意图时,控制收发单元将包含意图得分大于第一阈值的意图的第一显示信息发送至电子设备,第一显示信息用于指示电子设备执行意图得分大于第一阈值的意图,并搜索语音数据。
在一些可实施的示例中,收发单元,还用于获取至少一个default意图对应的历史查询数据;历史查询数据包括至少一条查询信息,至少一条查询信息中一条查询信息对应一个default意图;处理单元,还用于将收发单元获取的至少一条查询信息中每条查询信息对应的语音数据输入至文本卷积网络模型中,确定每个default意图对应的最大意图得分,以及最大意图得分对应的意图;
处理单元,还用于根据每个default意图对应的最大意图得分,以及最大意图得分对应的意图,确定第一阈值和第二阈值。
在一些可实施的示例中,处理单元,还用于在意图得分均小于或等于第一阈值的情况下,确定意图得分大于或等于第二阈值的意图;处理单元,还用于控制收发单元将包含意图得分大于或等于第二阈值的意图的第二显示信息发送至电子设备,第二显示信息用于指示电子设备显示意图得分大于或等于第二阈值的意图。
在一些可实施的示例中,处理单元,还用于确定意图得分均小于第二阈值的情况下,控制收发单元将包含default意图的第三显示信息发送至电子设备,第三显示信息用于指示电子设备执行default意图,并搜索语音数据。
在一些可实施的示例中,查询信息还包括国际语言代码;处理单元,具体用于在收发单元接收的国际语言代码对应的语言为目标语言的情况下,对语音数据进行字分类预处理,确定第一分类数据;其中,目标语言包括汉语、泰语和日语中的一项或者多项;处理单元,具体用于将第一分类数据输入至预先配置的文本卷积网络模型中,确定除default意图以外的每个意图的意图得分。
在一些可实施的示例中,查询信息还包括国际语言代码;处理单元,具体用于在收发单元接收的国际语言代码对应的语言不是目标语言的情况下,对语音数据进行词分类预处理,确定第二分类数据;其中,目标语言包括汉语、泰语和日语中的一项或者多项;处理单元,具体用于将第二分类数据输入至预先配置的文本卷积网络模型中,确定除default意图以外的每个意图的意图得分。
在一些可实施的示例中,文本卷积网络模型的训练过程如下:收发单元,还用于获取训练语句和训练语句的标记结果;其中,训练语句包括语音数据和意图;处理单元,还用于将收发单元获取的训练语句输入至神经网络模型中;处理单元,还用于基于目标损失函数,确定神经网络模型输出的训练语句的预测结果与标记结果是否匹配;处理单元,还用于在预测结果与标记结果不匹配的情况下,循环迭代神经网络模型的配置参数,直至神经网络模型收敛,得到文本卷积网络模型。
在一些可实施的示例中,处理单元,还用于将收发单元接收的语音数据输入至预先配置的文本卷积网络模型中,确定除default意图以外的每个意图的置信度;处理单元,还用于根据置信度,确定除default意图以外的每个意图对应的意图得分。
在一些可实施的示例中,收发单元,还用于获取除default意图以外的每个意图归属的意图类别的使用频率;处理单元,还用于根据收发单元获取的使用频率,确定每个意图类别对应的意图系数;处理单元,还用于将语音数据输入至预先配置的文本卷积网络模型中,确定除default意图以外的每个意图的置信度;处理单元,还用于根据置信度和每个意图类别对应的意图系数,确定除default意图以外的每个意图对应的意图得分。
第四方面、本申请提供一种语音识别装置,包括:收发单元,用于向服务器发送查询信息;查询信息包括语音数据;收发单元,还用于接收服务器发送的包含意图得分大于第一阈值的意图的第一显示信息;处理单元,还用于根据收发单元接收的第一显示信息,执行意图得分大于第一阈值的意图,并搜索语音数据;显示单元,用于显示处理单元执行意图得分大于第一阈值的意图,并搜索语音数据的搜索结果。
在一些可实施的示例中,收发单元,还用于接收服务器发送的包含意图得分大于或等于第二阈值的意图的第二显示信息;处理单元,还用于根据收发单元接收的第二显示信息,控制显示单元显示意图得分大于或等于第二阈值的意图。
在一些可实施的示例中,处理单元,具体用于根据收发单元接收的第二显示信息,按照从大到小的顺序对意图得分进行排序,确定意图得分大于或等于第二阈值的每个意图的显示顺序;处理单元,具体用于根据显示顺序,控制显示单元显示意图得分大于或等于第二阈值的意图。
在一些可实施的示例中,收发单元,还用于接收服务器发送的包含default意图的第三显示信息;处理单元,还用于根据收发单元接收的第三显示信息,执行default意图,并搜索语音数据;显示单元,还用于显示处理单元执行default意图,并搜索语音数据的搜索结果。
第五方面、本申请提供一种语音识别系统,其特征在于,包括服务器和电子设备,服务器执行如第一方面提供的任一项的语音识别方法,所述电子设备执行如第二方面提供的任一项所述的语音识别方法。
第六方面、本申请提供一种计算机可读存储介质,其特征在于,包括指令,当其在计算机上运行时,使得计算机执行如第一方面提供的任一项所述的语音识别方法。
第七方面、本申请提供一种服务器,其特征在于,包括:通信接口、处理器、存储器、总线;所述存储器用于存储计算机执行指令,所述处理器与所述存储器通过所述总线连接;当所述服务器运行时,所述处理器执行所述存储器存储的计算机执行指令,以使所述服务器执行如第一方面提供的任一项所述的语音识别方法。
第八方面,本申请提供一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如第一方面的设计方式所述的语音识别方法。
第九方面、本申请提供一种计算机可读存储介质,其特征在于,包括指令,当其在计算机上运行时,使得计算机执行如第二方面提供的任一项所述的语音识别方法。
第十方面、本申请提供一种电子设备,其特征在于,包括:通信接口、处理器、存储器、总线;所述存储器用于存储计算机执行指令,所述处理器与所述存储器通过所述总线连接;当所述电子设备运行时,所述处理器执行所述存储器存储的计算机执行指令,以使所述电子设备执行如第二方面提供的任一项所述的语音识别方法。
第十一方面,本申请提供一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如第二方面的设计方式所述的语音识别方法。
需要说明的是,上述计算机指令可以全部或者部分存储在第一计算机可读存储介质上。其中,第一计算机可读存储介质可以与服务器封装在一起的,也可以与电子设备或者服务器的处理器单独封装,本申请对此不作限定。
本申请中第三方面、第六方面、第七方面以及第八方面的描述,可以参考第一方面的详细描述;并且,第三方面、第六方面、第七方面以及第八方面的描述的有益效果,可以参考第一方面的有益效果分析,此处不再赘述。
本申请中第四方面、第九方面、第十方面以及第十一方面的描述,可以参考第二方面的详细描述;并且,第四方面、第九方面、第十方面以及第十一方面的描述的有益效果,可以参考第二方面的有益效果分析,此处不再赘述。
在本申请中,上述服务器或者电子设备的名字对设备或功能模块本身不构成限定,在实际实现中,这些设备或功能模块可以以其他名称出现。只要各个设备或功能模块的功能和本申请类似,属于本申请权利要求及其等同技术的范围之内。
本申请的这些方面或其他方面在以下的描述中会更加简明易懂。
本申请提供的技术方案与现有技术相比具有如下优点:
在将电子设备发送的语音数据输入至dialogFlow模型后,若dialogFlow模型无法识别该语音数据,此时dialogFlow模型用户意图为default意图,导致实际的用户意图的识别率较低。为此,本申请提供的语音识别方法,在dialogFlow模型确定用户意图为默认default意图的情况下,通过再次分析电子设备发送的语音数据,从而可以确定除default意图以外的每个意图的意图得分,进一步可以根据意图得分与第一阈值的大小关系,确定用户意图。如:确定存在意图得分大于第一阈值的意图时,将包含意图得分大于第一阈值的意图的第一显示信息发送至电子设备。如此,可以提高实际的用户意图的识别率,解决了现有技术中电视机在接收到不够明确或者有歧义的语音,电视机无法根据该语音确定出用户的用户意图,之后电视机会默认用户意图为默认意图,导致实际的用户意图的识别率较低的问题。
附图说明
图1为本申请实施例提供的用户意图的识别方法的场景示意图之一;
图2为本申请实施例提供的用户意图的识别方法中显示设备的结构示意图之一;
图3为本申请实施例提供的用户意图的识别方法中显示设备的结构示意图之二;
图4为本申请实施例提供的用户意图的识别方法的流程示意图之一;
图5为本申请实施例提供的用户意图的识别方法的流程示意图之二;
图6为本申请实施例提供的用户意图的识别方法的意图得分分布示意图;
图7为本申请实施例提供的用户意图的识别方法的流程示意图之三;
图8为本申请实施例提供的用户意图的识别方法的文本卷积网络模型的结构示意图;
图9为本申请实施例提供的用户意图的识别方法的流程示意图之四;
图10为本申请实施例提供的用户意图的识别方法的流程示意图之五;
图11为本申请实施例提供的用户意图的识别方法的场景示意图之二;
图12为本申请实施例提供的服务器的结构示意图;
图13为本申请实施例提供的一种芯片系统的示意图之一;
图14为本申请实施例提供的电视机的结构示意图;
图15为本申请实施例提供的一种芯片系统的示意图之二。
具体实施方式
为使本申请的目的、实施方式和优点更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,所描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
基于本申请描述的示例性实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请所附权利要求保护的范围。此外,虽然本申请中公开内容按照示范性一个或几个实例来介绍,但应理解,可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
目前,在智能语音交互场景下,用户可以通过语音控制智能家电,如用户可以通过基于谷歌assistant、三星bixby等语音助手控制智能家电。以终端设备为电视机为例,用户可以通过语音控制电视机,实现看视频、听音乐或查天气等一系列电视控制操作。但是,通常情况下,电视机在接收到不够明确或者有歧义的语音,电视机无法根据该语音确定出用户的用户意图,之后电视机会默认用户意图为默认意图,导致实际的用户意图的识别率较低。
图1为根据本申请一个或多个实施例的显示设备与控制装置之间操作场景的示意图,如图1所示,用户可通过移动终端300和控制装置100操作显示设备200。控制装置100可以是遥控器,遥控器和显示设备的通信包括红外协议通信、蓝牙协议通信,无线或其他有线方式来控制显示设备200。用户可以通过遥控器上按键,语音输入、控制面板输入等输入用户指令,来控制显示设备200。在一些实施例中,也可以使用移动终端、平板电脑、计算机、笔记本电脑、和其他智能设备以控制显示设备200。
在一些实施例中,移动终端300可与显示设备200安装软件应用,通过网络通信协议实现连接通信,实现一对一控制操作的和数据通信的目的。也可以将移动终端300上显示音视频内容传输到显示设备200上,实现同步显示功能显示设备200还与服务器400通过多种通信方式进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。显示设备200,可以液晶显示器、OLED显示器、投影显示设备。显示设备200除了提供广播接收电视功能之外,还可以附加提供计算机支持功能的智能网络电视功能。
在一些实施例中,本申请实施例提供电子设备可以为上述显示设备200。其中,显示设备200用于包含语音数据的查询信息发送至服务器400,这样服务器400可以将语音数据输入至dialogFlow模型,以确定用户的意图。在确定用户意图为default意图的情况下,将语音数据输入至预先配置的文本卷积网络模型中,确定除default意图以外的每个意图的意图得分;确定存在意图得分大于第一阈值的意图时,将包含意图得分大于第一阈值的意图的第一显示信息发送至显示设备200。
图2示出了根据示例性实施例中显示设备200的硬件配置框图。如图2所示显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口280中的至少一种。控制器包括中央处理器,视频处理器,音频处理器,图形处理器,RAM,ROM,用于输入/输出的第一接口至第n接口。显示器260可为液晶显示器、OLED显示器、触控显示器以及投影显示器中的至少一种,还可以为一种投影装置和投影屏幕。调谐解调器210通过有线或无线接收方式接收广播电视信号,以及从多个无线或有线广播电视信号中解调出音视频信号,如以及EPG数据信号。检测器230用于采集外部环境或与外部交互的信号。控制器250和调谐解调器210可以位于不同的分体设备中,即调谐解调器210也可在控制器250所在的主体设备的外置设备中,如外置机顶盒等。
在一些实施例中,控制器250,通过存储在存储器上中各种软件控制程序,来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。用户可在显示器260上显示的图形用户界面(GUI)输入用户命令,则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者,用户可通过输入特定的声音或手势进行输入用户命令,则用户输入接口通过传感器识别出声音或手势,来接收用户输入命令。
在一些实施例中,声音采集器可以是麦克风,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当进行语音交互时,用户可以通过人嘴靠近麦克风发声,将声音信号输入到麦克风。显示设备200可以设置至少一个麦克风。在另一些实施例中,显示设备200可以设置两个麦克风,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,显示设备200还可以设置三个,四个或更多麦克风,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
其中,麦克风可以是内置在显示设备200上,或者麦克风通过有线或者无线的方式与显示设备200相连接。例如,麦克风可以设置于显示设备200的显示器260的下侧边缘处。当然,本申请实施例对麦克风在显示设备200上的位置不作限定。或者,显示设备200可以不包括麦克风,即上述麦克风并未设置于显示设备200中。显示设备200可以通过接口(如USB接口130)外接麦克风(也可以称为话筒)。该外接的话筒可以通过外部固定件(如带夹子的摄像头支架)固定在显示设备200上。例如,外接的话筒可以通过外部固定件,固定在显示设备200的显示器260的边缘处,如上侧边缘处。
在一些实施例中,“用户界面”,是应用程序或操作系统与用户之间进行交互和信息交换的介质接口,它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface,GUI),是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素,其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素中的至少一种。
在一些示例中,以申请一个或多个实施例的显示设备200为电视机1,并且电视机1的操作系统为Android系统为例,如图3所示,电视机1从逻辑上可以分为应用程序(Applications)层(简称“应用层”)21,内核层22和硬件层23。
其中,如图3所示,硬件层可包括图2所示的控制器250、通信器220、检测器230和显示器260等。应用层21包括一个或多个应用。应用可以为系统应用,也可以为第三方应用。如,应用层21包括语音识别应用,语音识别应用可以提供语音交互界面和服务,用于实现电视机1与服务器400的连接。
内核层22作为硬件层和应用层21之间的软件中间件,用于管理和控制硬件与软件资源。
服务器400包括通信控制模块201和意图识别模块202。通信控制模块201用于与电视机1建立通信连接。如:电视机1中的语音识别应用通过调用通信器220,实现与服务器400的通信控制模块201的通信连接。
在一些示例中,内核层22包括检测器驱动,检测器驱动用于将检测器230采集的语音数据发送至语音识别应用。以显示设备200为电视机1为例,电视机1中的语音识别应用启动,电视机1与服务器400建立了通信连接的情况下,检测器驱动用于将检测器230采集的用户输入的语音数据发送至语音识别应用。之后,语音识别应用将包含该语音数据的查询信息发送至服务器400中的意图识别模块202。意图识别模块202用于将电视机1发送的语音数据输入至dialogFlow模型,确定用户意图为默认default意图的情况下,将该语音数据输入至预先配置的文本卷积网络模型中,确定除default意图以外的每个意图的意图得分;意图识别模块202用于确定存在意图得分大于第一阈值的意图时,将包含意图得分大于第一阈值的意图的第一显示信息发送至电视机1。
本申请所涉及的语音数据可以为经用户授权或者经过各方充分授权的数据。
以下实施例中的方法均可以在具有上述硬件结构的电视机1中实现。以下实施例中以上述电子设备是电视机1为例,对本申请实施例的方法进行说明。
本申请实施例提供一种语音识别方法,如图4所示,该语音识别方法可以包括S11-S13。
S11、服务器400接收电视机1发送的查询信息。查询信息包括语音数据。
S12、服务器400在将语音数据输入至dialogFlow模型,确定用户意图为默认default意图的情况下,将语音数据输入至预先配置的文本卷积网络模型(TextConvolutional Neural Networks,TEXTCNN)中,确定除default意图以外的每个意图的意图得分。
在一些示例中,采用dialogFlow模型的语音助手,在接收到无法识别或者语义模糊的语音数据时,dialogFlow模型会默认用户意图为default意图。如:用户输入的语音数据为“仙剑奇侠传”,实际意图为观看“仙剑奇侠传”的电视剧。将语音数据“仙剑奇侠传”后,由于训练样本中未训练该句式,此时dialogFlow模型直接输出default意图,如default意图为查询音乐。此时,会出现dialogFlow模型输出的default意图,并不是用户的实际意图。基于此,本申请实施例提供一种语音识别方法,在现dialogFlow模型输出default意图时,通过预先配置的文本卷积网络模型再次对语音数据进行分析,从而确定出除default意图以外的每个意图的意图得分。之后,根据除default意图以外的每个意图的意图得分,确定用户意图。
具体的,每个意图的意图得分之和等于1。
示例性的,以意图包括5种意图,分别为打开应用、视频搜索、音乐播放、天气查询和K歌为例,假设default意图为打开应用为例,将语音数据输入至dialogFlow模型,确定用户意图为default意图时,将语音数据输入至预先配置的文本卷积网络模型中,确定视频搜索对应的意图得分、音乐播放的意图得分、天气查询的意图得分和K歌的意图得分。
S13、服务器400确定存在意图得分大于第一阈值的意图时,将包含意图得分大于第一阈值的意图的第一显示信息发送至电视机1。其中,第一显示信息用于指示电视机1执行意图得分大于第一阈值的意图,并搜索语音数据。
在一些示例中,意图得分越高表示用户对该意图的兴趣程度越高,在意图得分大于第一阈值时,说明该语音数据的意图明确,可直接进入该意图的业务。
示例性的,结合上述S12的给出的示例,假设视频搜索对应的意图得分为0.95、音乐播放的意图得分为0.03、天气查询的意图得分为0.02和K歌的意图得分为0。第一阈值为0.9时,由于视频搜索对应的意图得分大于第一阈值。此时服务器400,将包含视频搜索的第一显示信息发送至电视机1。之后,电视机1在接收到第一显示信息后,执行视频搜索,并搜索语音数据,如该语音数据为“仙剑奇侠传”时,电视机1在执行视频搜索,并搜索“仙剑奇侠传”后,电视机1的显示界面显示对应的搜索结果。如搜索结果包括“仙剑奇侠传”电视剧、以及“仙剑奇侠传”电影。
在一些可实施的示例中,结合图4,如图5所示,本申请实施例提供的语音识别方法,还包括:S14-S16。
S14、服务器400获取至少一个default意图对应的历史查询数据。历史查询数据包括至少一条查询信息,至少一条查询信息中一条查询信息对应一个default意图;
S15、服务器400将至少一条查询信息中每条查询信息对应的语音数据输入至文本卷积网络模型中,确定每个default意图对应的最大意图得分,以及最大意图得分对应的意图。
在一些示例中,为了可以更好地识别出用户意图,本申请实施例提供的语音识别方法,服务器400通过收集dialogFlow模型每次确定用户意图为default意图时对应的语音数据,从而得到历史查询数据。之后,通过将历史查询数据中的每一条语音数据输入至文本卷积网络模型,从而可以确定每个default意图对应的最大意图得分,以及最大意图得分对应的意图。
示例性的,结合上述S12给出的示例,以历史查询数据中包括2条语音数据,分别为语音数据1和语音数据2为例,确定每个default意图对应的最大意图得分,以及最大意图得分对应的意图的步骤如下:
将语音数据1输入至文本卷积网络模型中,可以确定除default意图以外的每个意图对应的意图得分。如,默认意图为打开应用,此时需要确定视频搜索对应的意图得分、音乐播放的意图得分、天气查询的意图得分和K歌的意图得分。若,视频搜索对应的意图得分为最大的意图得分时,此时确定语音数据1对应的default意图的最大意图得分为视频搜索对应的意图得分。
同理,将语音数据2输入至文本卷积网络模型中,可以确定除default意图以外的每个意图对应的意图得分。如,默认意图为视频搜索,此时需要确定打开应用对应的意图得分、音乐播放的意图得分、天气查询的意图得分和K歌的意图得分。若,天气查询对应的意图得分为最大的意图得分时,此时确定语音数据1对应的default意图的最大意图得分为天气查询对应的意图得分。
S16、服务器400根据每个default意图对应的最大意图得分,以及最大意图得分对应的意图,确定第一阈值和第二阈值。
在一些示例中,由于每个default意图对应一个最大意图得分,每个最大意图得分对应一个意图。通过收集不同的最大意图得分包含的意图的总数,从而可以确定出最大意图得分的分布。如此,可以确定出第一阈值和第二阈值。
示例性的,以历史查询数据包含26712条语音数据,通过将历史查询数据中的每条语音数据输入至文本卷积网络模型中,可以确定除default意图以外的每个意图对应的意图得分,得到如图6所示的意图得分分布图。
可以看出,图6中意图得分区间[0.2,0.9)中包含的意图的占比较高,如此可以将第一阈值设置为0.9,将第二阈值设置为0.2。当意图得分小于0.2时,认为该语音数据的意图不明,服务器400无法判断该语音数据属于哪个意图;当意图得分大于0.9时,认为该语音数据的意图明确,此时服务器400可以直接执行该意图,并搜索该语音数据。当意图得分处于意图得分区间[0.2,0.9)之间时,认为这些意图较为明确但无法确定用户到底是哪个意图,此时可以将这些意图展示在终端显示界面上,以便用户自行选择需要的意图。
在一些可实施的示例中,结合图4,如图5所示,本申请实施例提供的语音识别方法,还包括:S17和S18。
S17、服务器400在意图得分均小于或等于第一阈值的情况下,确定意图得分大于或等于第二阈值的意图。
S18、服务器400将包含意图得分大于或等于第二阈值的意图的第二显示信息发送至电视机1,第二显示信息用于指示电视机1显示意图得分大于或等于第二阈值的意图。
在一些可实施的示例中,结合图4,如图5所示,本申请实施例提供的语音识别方法,还包括:S19。
S19、服务器400确定意图得分均小于第二阈值的情况下,将包含default意图的第三显示信息发送至电视机1,第三显示信息用于指示电视机1执行default意图,并搜索语音数据。
在一些示例中,服务器确定意图得分均小于第二阈值时,说明该语音数据不够明确或者有歧义,此时服务器400无法继续判断用户意图,因此服务器400确定用户意图为default意图。
在一些可实施的示例中,查询信息还包括国际语言代码,结合图4,如图5所示,上述S12具体可以通过下述S120和S121实现。
S120、服务器400在将语音数据输入至dialogFlow模型,确定用户意图为默认default意图,且国际语言代码(languageCode)对应的语言为目标语言的情况下,对语音数据进行字分类预处理,确定第一分类数据。其中,目标语言包括汉语、泰语和日语中的一项或者多项。
在一些示例中,服务器400在国际语言代码对应的语言为汉语的情况下,采用Jieba分词对语音数据进行字分类预处理,确定第一分类数据。
S121、服务器400将第一分类数据输入至预先配置的文本卷积网络模型中,确定除default意图以外的每个意图的意图得分。
在一些可实施的示例中,查询信息还包括国际语言代码,结合图4,如图5所示,上述S12具体可以通过下述S122和S123实现。
S122、服务器400在将语音数据输入至dialogFlow模型,确定用户意图为默认default意图,且国际语言代码对应的语言不是目标语言的情况下,对语音数据进行词分类预处理,确定第二分类数据。其中,目标语言包括汉语、泰语和日语中的一项或者多项。
在一些示例中,服务器400在国际语言代码为英语的情况下,采用自然语言处理工具包(Natural Language Toolkit,NLTK)分词对语音数据进行字分类预处理,确定第二分类数据。
S123、服务器400将第二分类数据输入至预先配置的文本卷积网络模型中,确定除default意图以外的每个意图的意图得分。
在一些可实施的示例中,结合图4,如图7所示,本申请实施例提供的语音识别方法中文本卷积网络模型的训练过程包括:S20-S23。
S20、服务器400获取训练语句和训练语句的标记结果。其中,训练语句包括语音数据和意图。
在一些示例中,为了提高文本卷积网络模型的预测精度,本申请实施例提供的语音识别方法中,训练语句包括用户真实输入的语音数据和词分类训练语音数据。通过词分类训练语音数据训练神经网络模型,得到文本卷积网络模型。然后,通过用户真实输入的语音数据验证文本卷积网络模型,如此反复迭代,使得得到的文本卷积网络模型的预测精度更高。
S21、服务器400将训练语句输入至神经网络模型中。
S22、服务器400基于目标损失函数,确定神经网络模型输出的训练语句的预测结果与标记结果是否匹配。
S23、服务器400在预测结果与标记结果不匹配的情况下,循环迭代神经网络模型的配置参数,直至神经网络模型收敛,得到文本卷积网络模型。
在一些示例中,语音数据中每个词由n维词向量组成的,也就是说语音数据对应的矩阵大小为n×K,其中K为句子长度。
示例性的,以词分类训练语音数据为“please turn up volume to 15”,用户真实输入的语音数据为“please turn up TV sound to 30”。作为区分对词分类训练语音数据中的非数字分词添加标识“-o”,对词分类训练语音数据中的数字分词添加标识“-final.number”,对于用户真实输入的语音数据中的分词不添加任何标识。如图8所示,对“please turn up volume to 15”进行分词,得到如图8所示的5个分词,分别为:“please-o”、“turn up-o”、“volume-o”、“to-o”和“15-final.number”。可以看出,n等于5,K等于8。
对“please turn up TV sound to 30”进行分词,得到如图8所示的6个分词,分别为:“please”、“turn up”、“TV”、“sound”、“to”和“30”。可以看出,n等于6,K等于8。
将“please turn up volume to 15”对应的矩阵,和“please turn up TV soundto 30”对应的矩阵分别输入至文本卷积网络模型的嵌入层。之后,将“please turn upvolume to 15”对应的矩阵与卷积层中的特征向量N2进行卷积,并将卷积后的第一特征向量输入至全连接层。同理,“please turn up TV sound to 30”对应的矩阵与卷积层中的卷积核进行卷积,并将卷积后的第二特征向量输入至全连接层。之后,通过将全连接层中的第一特征向量和第二特征向量,二者与卷积核进行卷积,从而得到每个意图的意图得分。如图8所示,文本卷积网络模型输出的意图包含3个,分别为control.volume.up、control.volume.set和control.play.play,control.volume.up对应的意图得分为0.4、control.volume.set对应的意图得分为0.3和control.play.play对应的意图得分为0.2。
可以看出,control.volume.up对应的意图得分、control.volume.set对应的意图得分和control.play.play对应的意图得分均小于0.9,且大于0.2。因此,服务器400将包含control.volume.up、control.volume.set和control.play.play,control.volume.up的第二显示信息发送至电视机1。
在一些可实施的示例中,结合图4,如图9所示,上述S12具体可以通过下述S124和S125实现。
S124、服务器400在将语音数据输入至dialogFlow模型,确定用户意图为默认default意图的情况下,将语音数据输入至预先配置的文本卷积网络模型中,确定除default意图以外的每个意图的置信度。
S125、服务器400根据置信度,确定除default意图以外的每个意图对应的意图得分。
在一些示例中,意图对应的意图得分等于该意图的置信度。
在一些可实施的示例中,结合图4,如图10所示,上述S12具体可以通过下述S124、S126、S127和-S128实现。
S124、服务器400在将语音数据输入至dialogFlow模型,确定用户意图为默认default意图的情况下,将语音数据输入至预先配置的文本卷积网络模型中,确定除default意图以外的每个意图的置信度。
S126、服务器400获取除default意图以外的每个意图归属的意图类别的使用频率。
在一些示例中,通过收集全部用户发送的语音数据,可以发现用户使用不同意图类别的使用频率。如:通过收集预设时间段内用户的语音数据,可以确定每个语音数据对应的意图,之后通过确定每个意图类别中包含的意图的总数。然后,根据意图类别中包含的意图的总数,以及预设时间段内包含的意图的总数,确定该意图类别对应的使用频率。
S127、服务器400根据使用频率,确定每个意图类别对应的意图系数。
在一些示例中,意图类别对应的使用频率等于意图系数。
示例性的,结合上述S23给出的示例,假设意图类别包括电视控制和媒资搜索,确定意图类别的使用频率为该意图类别的意图系数。
具体的,每个意图类别对应的意图系数之和等于1。
S128、服务器400根据置信度和每个意图类别对应的意图系数,确定除default意图以外的每个意图对应的意图得分。
在一些示例中,意图对应的意图得分为该意图对应的置信度与该意图对应的意图系数的乘积,意图对应的意图系数等于该意图归属的意图类别对应的意图系数。
示例性的,结合上述S127给出的示例,假设电视控制对应的意图系数为w1,媒资搜索对应的意图系数为w2,归属于电视控制的意图1的置信度为A,归属于媒资搜索的意图2的置信度为B。由上述可知,意图1对应的意图得分为A×w1,意图2对应的意图得分为B×w2。
本申请实施例提供一种语音识别方法,如图5所示,该语音识别方法可以包括S31-S34。
S31、电视机1向服务器400发送查询信息。查询信息包括语音数据。
S32、电视机1接收服务器400发送的包含意图得分大于第一阈值的意图的第一显示信息。
S33、电视机1根据第一显示信息,执行意图得分大于第一阈值的意图,并搜索语音数据。
S34、电视机1显示执行意图得分大于第一阈值的意图,并搜索语音数据的搜索结果。
在一些示例中,搜索结果中包含多个条目时,电视机案子每个条目对应的条目类别显示。如结合上述S13给出的示例,语音数据为“仙剑奇侠传”时,电视机1在执行视频搜索,并搜索“仙剑奇侠传”后,电视机1的显示如图11中的(a)所示的界面110。界面110包括用于提示“仙剑奇侠传”搜索结果的标题栏1100、“仙剑奇侠传”电视剧的显示栏1101,“仙剑奇侠传”电源的显示栏1102。其中,“仙剑奇侠传”电视剧中显示与“仙剑奇侠传”相关的电视剧,如电视剧“仙剑奇侠传1”和电视剧“仙剑奇侠传2”。“仙剑奇侠传”电影中显示与“仙剑奇侠传”相关的电源,如电源“仙剑奇侠传”。
在一些示例中,如图5所示,本申请实施例提供的语音识别方法还包括:S35和S36。
S35、电视机1接收服务器400发送的包含意图得分大于或等于第二阈值的意图的第二显示信息。
S36、电视机1根据第二显示信息,显示意图得分大于或等于第二阈值的意图。
在一些示例中,结合上述S12给出的示例,假设意图得分大于或等于第二阈值的意图包括打开应用、音乐播放、天气查询和K歌。电视机1根据第二显示信息,显示如图11中的(b)所示的界面111。界面111中包括用于提示用户选择需要意图的“请选择需要的意图”的标题栏1110、意图“音乐播放”的按钮1111、意图“打开应用”的按钮1112、意图“天气查询”的按钮1113和意图“K歌”的按钮1114。响应于用户对按钮1111的选择操作,电视机1显示如图11中的(c)所示的界面112。界面112包括用于指示“仙剑奇侠传”搜索结果的标题栏1110,“仙剑奇侠传”音乐的显示栏1120。
在一些示例中,结合图5,如图9所示,上述S36具体可以通过下述S360和S361实现。
S360、电视机1根据第二显示信息,按照从大到小的顺序对意图得分进行排序,确定意图得分大于或等于第二阈值的每个意图的显示顺序。
S361、电视机1根据显示顺序,显示意图得分大于或等于第二阈值的意图。
在一些示例中,如图5所示,本申请实施例提供的语音识别方法还包括:S37和S38。
S37、电视机1接收服务器400发送的包含default意图的第三显示信息。
S38、电视机1根据第三显示信息,执行default意图,并搜索语音数据。
在一些示例中,结合上述S36给出的示例,假设default意图为音乐播放。电视机1根据第三显示信息,显示如图11中的(d)所示的界面113。界面113包括用于指示“仙剑奇侠传”搜索结果的标题栏1110,和用户提示未识别语音数据的“无法识别”按钮1130。
上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对服务器和电视机1进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
如图12所示,本申请的实施例提供一种服务器400的结构示意图。服务器400包括收发单元101和处理单元102。
收发单元,用于接收电子设备发送的查询信息;查询信息包括语音数据;处理单元,用于在将收到单元接收的语音数据输入至dialogFlow模型,确定用户意图为默认default意图的情况下,将语音数据输入至预先配置的文本卷积网络模型中,确定除default意图以外的每个意图的意图得分;处理单元,还用于确定存在意图得分大于第一阈值的意图时,控制收发单元将包含意图得分大于第一阈值的意图的第一显示信息发送至电子设备,第一显示信息用于指示电子设备执行意图得分大于第一阈值的意图,并搜索语音数据。
在一些可实施的示例中,收发单元,还用于获取至少一个default意图对应的历史查询数据;历史查询数据包括至少一条查询信息,至少一条查询信息中一条查询信息对应一个default意图;处理单元,还用于将收发单元获取的至少一条查询信息中每条查询信息对应的语音数据输入至文本卷积网络模型中,确定每个default意图对应的最大意图得分,以及最大意图得分对应的意图;
处理单元,还用于根据每个default意图对应的最大意图得分,以及最大意图得分对应的意图,确定第一阈值和第二阈值。
在一些可实施的示例中,处理单元,还用于在意图得分均小于或等于第一阈值的情况下,确定意图得分大于或等于第二阈值的意图;处理单元,还用于控制收发单元将包含意图得分大于或等于第二阈值的意图的第二显示信息发送至电子设备,第二显示信息用于指示电子设备显示意图得分大于或等于第二阈值的意图。
在一些可实施的示例中,处理单元,还用于确定意图得分均小于第二阈值的情况下,控制收发单元将包含default意图的第三显示信息发送至电子设备,第三显示信息用于指示电子设备执行default意图,并搜索语音数据。
在一些可实施的示例中,查询信息还包括国际语言代码;处理单元,具体用于在收发单元接收的国际语言代码为中文的情况下,对语音数据进行字分类预处理,确定第一分类数据;处理单元,具体用于将第一分类数据输入至预先配置的文本卷积网络模型中,确定除default意图以外的每个意图的意图得分。
在一些可实施的示例中,查询信息还包括国际语言代码;处理单元,具体用于在收发单元接收的国际语言代码为泰语的情况下,对语音数据进行词分类预处理,确定第二分类数据;处理单元,具体用于将第二分类数据输入至预先配置的文本卷积网络模型中,确定除default意图以外的每个意图的意图得分。
在一些可实施的示例中,文本卷积网络模型的训练过程如下:收发单元,还用于获取训练语句和训练语句的标记结果;其中,训练语句包括语音数据和意图;处理单元,还用于将收发单元获取的训练语句输入至神经网络模型中;处理单元,还用于基于目标损失函数,确定神经网络模型输出的训练语句的预测结果与标记结果是否匹配;处理单元,还用于在预测结果与标记结果不匹配的情况下,循环迭代神经网络模型的配置参数,直至神经网络模型收敛,得到文本卷积网络模型。
在一些可实施的示例中,处理单元,还用于将收发单元接收的语音数据输入至预先配置的文本卷积网络模型中,确定除default意图以外的每个意图的置信度;处理单元,还用于根据置信度,确定除default意图以外的每个意图对应的意图得分。
在一些可实施的示例中,收发单元,还用于获取除default意图以外的每个意图归属的意图类别的使用频率;处理单元,还用于根据收发单元获取的使用频率,确定每个意图类别对应的意图系数;处理单元,还用于将语音数据输入至预先配置的文本卷积网络模型中,确定除default意图以外的每个意图的置信度;处理单元,还用于根据置信度和每个意图类别对应的意图系数,确定除default意图以外的每个意图对应的意图得分。
其中,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,其作用在此不再赘述。
当然,本申请实施例提供的服务器400包括但不限于上述模块,例如服务器400还可以包括存储单元103。存储单元103可以用于存储该写服务器400的程序代码,还可以用于存储写服务器400在运行过程中生成的数据,如写请求中的数据等。
作为一个示例,结合图3,服务器400中的通信控制模块201实现的功能与图12中的收发单元101的功能相同,意图识别模块203实现的功能与图12中的处理单元102的功能相同,数据存储模块203实现的功能与图12中的存储单元103的功能相同。
本申请实施例还提供一种服务器,该服务器可以包括:存储器和一个或多个处理器。该存储器和处理器耦合。该存储器用于存储计算机程序代码,该计算机程序代码包括计算机指令。当处理器执行计算机指令时,服务器可执行上述方法实施例中服务器400执行的各个功能或者步骤。
本申请实施例还提供一种芯片系统,该芯片系统可以应用于前述实施例中的服务器400。如图13所示,该芯片系统包括至少一个处理器1501和至少一个接口电路1502。该处理器1501可以是上述服务器400中的处理器。处理器1501和接口电路1502可通过线路互联。该处理器1501可以通过接口电路1502从上述服务器400的存储器接收并执行计算机指令。当计算机指令被处理器1501执行时,可使得服务器400执行上述实施例中服务器400执行的各个步骤。当然,该芯片系统还可以包含其他分立器件,本申请实施例对此不作具体限定。
本申请实施例还提供一种计算机可读存储介质,用于存储上述服务器400运行的计算机指令。
本申请实施例还提供一种计算机程序产品,包括上述服务器400运行的计算机指令。
如图14所示,本申请的实施例提供一种电视机1的结构示意图。电视机1包括收发单元201和处理单元202。
收发单元,用于向服务器发送查询信息;查询信息包括语音数据;收发单元,还用于接收服务器发送的包含意图得分大于第一阈值的意图的第一显示信息;处理单元,还用于根据收发单元接收的第一显示信息,执行意图得分大于第一阈值的意图,并搜索语音数据;显示单元,用于显示处理单元执行意图得分大于第一阈值的意图,并搜索语音数据的搜索结果。
在一些可实施的示例中,收发单元,还用于接收服务器发送的包含意图得分大于或等于第二阈值的意图的第二显示信息;处理单元,还用于根据收发单元接收的第二显示信息,控制显示单元显示意图得分大于或等于第二阈值的意图。
在一些可实施的示例中,处理单元,具体用于根据收发单元接收的第二显示信息,按照从大到小的顺序对意图得分进行排序,确定意图得分大于或等于第二阈值的每个意图的显示顺序;处理单元,具体用于根据显示顺序,控制显示单元显示意图得分大于或等于第二阈值的意图。
在一些可实施的示例中,收发单元,还用于接收服务器发送的包含default意图的第三显示信息;处理单元,还用于根据收发单元接收的第三显示信息,执行default意图,并搜索语音数据;显示单元,还用于显示处理单元执行default意图,并搜索语音数据的搜索结果。
其中,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,其作用在此不再赘述。
当然,本申请实施例提供的电视机1包括但不限于上述模块,例如电视机1还可以包括存储单元203。存储单元203可以用于存储该写电视机1的程序代码,还可以用于存储写电视机1在运行过程中生成的数据,如写请求中的数据等。
本申请实施例还提供一种电子设备,该电子设备可以包括:存储器和一个或多个处理器。该存储器和处理器耦合。该存储器用于存储计算机程序代码,该计算机程序代码包括计算机指令。当处理器执行计算机指令时,电子设备可执行上述方法实施例中电子设备(如电视机1)执行的各个功能或者步骤。
本申请实施例还提供一种芯片系统,该芯片系统可以应用于前述实施例中的电视机1。如图15所示,该芯片系统包括至少一个处理器1601和至少一个接口电路1602。该处理器1601可以是上述电视机1中的处理器。处理器1601和接口电路1602可通过线路互联。该处理器1601可以通过接口电路1602从上述电视机1的存储器接收并执行计算机指令。当计算机指令被处理器1601执行时,可使得电视机1执行上述实施例中电视机1执行的各个步骤。当然,该芯片系统还可以包含其他分立器件,本申请实施例对此不作具体限定。
本申请实施例还提供一种计算机可读存储介质,用于存储上述电视机1运行的计算机指令。
本申请实施例还提供一种计算机程序产品,包括上述电视机1运行的计算机指令。
通过以上实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
为了方便解释,已经结合具体的实施方式进行了上述说明。但是,上述在一些实施例中讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导,可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用,从而使得本领域技术人员更好的使用实施方式以及适于具体使用考虑的各种不同的变形的实施方式。
Claims (10)
1.一种语音识别方法,其特征在于,包括:
接收电子设备发送的查询信息;所述查询信息包括语音数据;
在将所述语音数据输入至dialogFlow模型,确定用户意图为默认default意图的情况下,将所述语音数据输入至预先配置的文本卷积网络模型中,确定除所述default意图以外的每个意图的意图得分;
确定存在意图得分大于第一阈值的意图时,将包含所述意图得分大于第一阈值的意图的第一显示信息发送至所述电子设备,所述第一显示信息用于指示所述电子设备执行所述意图得分大于第一阈值的意图,并搜索所述语音数据。
2.根据权利要求1所述的语音识别方法,其特征在于,所述语音识别方法还包括:
获取至少一个default意图对应的历史查询数据;所述历史查询数据包括至少一条查询信息,所述至少一条查询信息中一条查询信息对应一个default意图;
将所述至少一条查询信息中每条查询信息对应的语音数据输入至所述文本卷积网络模型中,确定每个所述default意图对应的最大意图得分,以及所述最大意图得分对应的意图;
根据每个所述default意图对应的最大意图得分,以及所述最大意图得分对应的意图,确定所述第一阈值和所述第二阈值。
3.根据权利要求1所述的语音识别方法,其特征在于,所述语音识别方法还包括:
在所述意图得分均小于或等于所述第一阈值的情况下,确定意图得分大于或等于第二阈值的意图;
将包含所述意图得分大于或等于第二阈值的意图的第二显示信息发送至所述电子设备,所述第二显示信息用于指示所述电子设备显示所述意图得分大于或等于第二阈值的意图。
4.根据权利要求1所述的语音识别方法,其特征在于,所述语音识别方法还包括:
确定所述意图得分均小于第二阈值的情况下,将包含所述default意图的第三显示信息发送至所述电子设备,所述第三显示信息用于指示所述电子设备执行所述default意图,并搜索所述语音数据。
5.根据权利要求1所述的语音识别方法,其特征在于,所述查询信息还包括国际语言代码;
所述将所述语音数据输入至预先配置的文本卷积网络模型中,确定除所述default意图以外的每个意图的意图得分,包括:
在所述国际语言代码对应的语言为目标语言的情况下,对所述语音数据进行字分类预处理,确定第一分类数据;其中,所述目标语言包括汉语、泰语和日语中的一项或者多项;
将所述第一分类数据输入至预先配置的文本卷积网络模型中,确定除所述default意图以外的每个意图的意图得分。
6.根据权利要求1所述的语音识别方法,其特征在于,所述查询信息还包括国际语言代码;
所述将所述语音数据输入至预先配置的文本卷积网络模型中,确定除所述default意图以外的每个意图的意图得分,包括:
在所述国际语言代码对应的语言不是目标语言的情况下,对所述语音数据进行词分类预处理,确定第二分类数据;其中,所述目标语言包括汉语、泰语和日语中的一项或者多项;
将所述第二分类数据输入至预先配置的文本卷积网络模型中,确定除所述default意图以外的每个意图的意图得分。
7.根据权利要求1-6任一项所述的语音识别方法,其特征在于,所述文本卷积网络模型的训练过程如下:
获取训练语句和所述训练语句的标记结果;其中,所述训练语句包括语音数据和意图;
将所述训练语句输入至神经网络模型中;
基于目标损失函数,确定所述神经网络模型输出的所述训练语句的预测结果与所述标记结果是否匹配;
在所述预测结果与所述标记结果不匹配的情况下,循环迭代所述神经网络模型的配置参数,直至所述神经网络模型收敛,得到所述文本卷积网络模型。
8.根据权利要求1-7任一项所述的语音识别方法,其特征在于,所述将所述语音数据输入至预先配置的文本卷积网络模型中,确定除所述default意图以外的每个意图的意图得分,包括:
将所述语音数据输入至预先配置的文本卷积网络模型中,确定除所述default意图以外的每个意图的置信度;
根据所述置信度,确定除所述default意图以外的每个意图对应的意图得分。
9.根据权利要求1-7任一项所述的语音识别方法,其特征在于,所述将所述语音数据输入至预先配置的文本卷积网络模型中,确定除所述default意图以外的每个意图的意图得分包括:
获取除所述default意图以外的每个意图归属的意图类别的使用频率;
根据所述使用频率,确定每个所述意图类别对应的意图系数;
将所述语音数据输入至预先配置的文本卷积网络模型中,确定除所述default意图以外的每个意图的置信度;
根据所述置信度和每个所述意图类别对应的意图系数,确定除所述default意图以外的每个意图对应的意图得分。
10.一种计算机可读存储介质,其特征在于,包括指令,当其在计算机上运行时,使得计算机执行如上述权利要求1-9任一项所述的语音识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210051292.6A CN114566144A (zh) | 2022-01-17 | 2022-01-17 | 一种语音识别方法、装置、服务器和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210051292.6A CN114566144A (zh) | 2022-01-17 | 2022-01-17 | 一种语音识别方法、装置、服务器和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114566144A true CN114566144A (zh) | 2022-05-31 |
Family
ID=81711092
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210051292.6A Pending CN114566144A (zh) | 2022-01-17 | 2022-01-17 | 一种语音识别方法、装置、服务器和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114566144A (zh) |
-
2022
- 2022-01-17 CN CN202210051292.6A patent/CN114566144A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11086596B2 (en) | Electronic device, server and control method thereof | |
US20210152870A1 (en) | Display apparatus, server apparatus, display system including them, and method for providing content thereof | |
KR100995440B1 (ko) | 인터랙티브 텔레비전용 개인 채널을 효과적으로 구현하기 위한 시스템 및 방법 | |
CN110737840A (zh) | 语音控制方法及显示设备 | |
WO2020007012A1 (zh) | 一种搜索页面显示方法、装置、终端及存储介质 | |
US20130339032A1 (en) | Server and method of controlling the same | |
US9361787B2 (en) | Information processing apparatus, information processing method, program control target device, and information processing system | |
CN112000820A (zh) | 一种媒资推荐方法及显示设备 | |
CN110235087A (zh) | 一种实现语音控制的方法和终端 | |
CN114155855A (zh) | 语音识别方法、服务器以及电子设备 | |
CN112182196A (zh) | 应用于多轮对话的服务设备及多轮对话方法 | |
US20190014384A1 (en) | Display apparatus for searching and control method thereof | |
CN115240665A (zh) | 显示设备、控制方法和存储介质 | |
CN114566144A (zh) | 一种语音识别方法、装置、服务器和电子设备 | |
CN111552794A (zh) | 提示语生成方法、装置、设备和存储介质 | |
CN114187897A (zh) | 一种用户意图的识别方法、装置和电子设备 | |
US20230119195A1 (en) | Display apparatus | |
CN112908319B (zh) | 一种处理信息交互的方法及设备 | |
CN103473002A (zh) | 智能终端、输入终端及其输入方法 | |
CN109600645B (zh) | 终端控制方法及终端 | |
CN115278316A (zh) | 一种提示语生成方法、装置和电子设备 | |
CN117812422A (zh) | 显示设备及语音搜索方法 | |
CN117278791A (zh) | 显示设备、服务器以及数据处理方法 | |
CN117809633A (zh) | 显示设备和意图识别方法 | |
CN110569433A (zh) | 搜索结果过滤器的构建方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |