CN115547331A - 语音处理方法、处理装置、存储介质以及电子装置 - Google Patents
语音处理方法、处理装置、存储介质以及电子装置 Download PDFInfo
- Publication number
- CN115547331A CN115547331A CN202110745413.2A CN202110745413A CN115547331A CN 115547331 A CN115547331 A CN 115547331A CN 202110745413 A CN202110745413 A CN 202110745413A CN 115547331 A CN115547331 A CN 115547331A
- Authority
- CN
- China
- Prior art keywords
- target
- text
- determining
- voice
- application scene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Abstract
本发明公开了一种语音处理方法、处理装置、存储介质以及电子装置,其中,该处理方法包括:获取目标语音对应的目标文本;确定目标语音对应的目标应用场景;根据目标应用场景以及目标文本,确定最终文本。本申请通过引入语音对应的应用场景,这样可以从应用场景推断用户意图,保证了根据语音转换后的文本以及应用场景,较为准确地确定最终文本,保证了语音识别的准确率较高,从而方便了后续根据识别的最终文本控制智能设备执行预定操作,保证了用户体验感较高,解决了由于智能设备领域的交互语音较短,无法通过模型先验信息纠正错误问题,导致语音识别错误率较高等问题。
Description
技术领域
本发明涉及人机交互领域,具体而言,涉及一种语音处理方法、处理装置、计算机可读的存储介质以及电子装置。
背景技术
在人机交互领域,一般流程为用户对设备发出语音,通过自动语音识别(ASR,Automatic Speech Recognition)技术,把语音转换成文本,再通过自然语言处理技术(NLP,Natural Language Processing),解析并理解文本的内容,并根据内容做出相应的反馈。其中,由于用户所处的环境干扰,口音,近音词等原因,以及ASR技术本身的原因,会出现错误的识别文字,从而导致NLP的解析和意图理解出现错误。为了降低这些问题,除了在ASR本身进行技术提升外,同时对识别结果采用了文本纠错的技术,通过模型、模板、正则等手段,对错误的识别文字进行纠错。文本纠错技术非模型手段,是一种类似映射的方法,只能一对一的解决出现的问题,这样需要巨大的人力投入,同时也有一定的滞后性;文本纠错中模型的手段,通过大量的先验经验的样本的投入训练,可以获得比较灵活的识别效果,其中原理基本都是通过上下文的语境或者文字推断后面的文字是否出现识别错误。但是在智能设备领域,用户在交互使用中使用的语音较短,仅凭语音本身识别的文本上下文信息较少,难以通过模型先验信息纠正错误的文字。
针对相关技术中,由于智能设备领域的交互语音较短,无法通过模型先验信息纠正错误问题,导致语音识别错误率较高等问题,尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种语音处理方法、处理装置、计算机可读的存储介质以及电子装置,以至少解决相关技术中,由于智能设备领域的交互语音较短,无法通过模型先验信息纠正错误问题,导致语音识别错误率较高等问题。
根据本发明实施例的一个实施例,提供了一种语音处理方法,包括:获取目标语音对应的目标文本;确定所述目标语音对应的目标应用场景;根据所述目标应用场景以及所述目标文本,确定最终文本。
在一个示例性实施例中,确定所述目标语音对应的目标应用场景,包括:确定目标设备使用数据,所述目标设备使用数据包括所述目标语音对应的目标用户、所述目标语音对应的智能设备、所述目标语音的时间信息以及所述目标语音的位置信息中的至少一个;对所述目标设备使用数据进行场景分类,确定所述目标语音对应的所述目标应用场景。
在一个示例性实施例中,确定目标设备使用数据,包括:获取用户画像,所述用户画像具有表征多个所述智能设备的历史使用数据的信息;获取所述目标语音对应的所述智能设备的实时使用数据;根据所述用户画像,从所述实时使用数据中提取所述目标设备使用数据。
在一个示例性实施例中,对所述目标设备使用数据进行场景分类,确定所述目标语音对应的所述目标应用场景,包括:建立多个所述应用场景的分类模型;将所述目标设备使用数据输入所述分类模型,得到各所述应用场景的概率值;根据各所述概率值,确定所述目标应用场景。
在一个示例性实施例中,建立多个所述应用场景的分类模型,包括:建立初始神经网络;获取所述智能设备的历史使用数据对应的所述应用场景,所述历史使用数据包括多个子使用数据;根据多个所述子使用数据以及对应的所述应用场景,训练所述初始神经网络,得到所述分类模型。
在一个示例性实施例中,根据所述目标应用场景以及所述目标文本,确定最终文本,包括:根据所述目标应用场景,确定所述目标文本是否需要纠错;在所述目标文本需要纠错的情况下,采用所述目标应用场景对应的纠错模型,对所述目标文本进行纠错,得到所述最终文本;在所述目标文本不需要纠错的情况下,确定所述目标文本为所述最终文本。
在一个示例性实施例中,在根据所述目标应用场景以及所述目标文本,确定最终文本之后,所述方法还包括:采用自然语言处理技术对所述最终文本进行解析,获取用户意图信息;根据所述用户意图信息,控制对应的智能设备执行预定操作。
根据本发明实施例的另一个实施例,还提供了一种语音的处理装置,包括:获取单元,用于获取目标语音对应的目标文本;第一确定单元,用于确定所述目标语音对应的目标应用场景;第二确定单元,用于根据所述目标应用场景以及所述目标文本,确定最终文本。
根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行所述的方法。
根据本发明实施例的又一方面,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述的方法。
在本发明实施例中,所述的语音处理方法首先获取目标语音转换得到的目标文本;然后,确定所述目标语音对应的目标应用场景;最后,根据所述目标应用场景以及所述目标文本确定最终文本。相比相关技术中,由于智能设备领域的交互语音较短,无法通过模型先验信息纠正错误问题,导致语音识别错误率较高等问题,本申请的所述方法通过引入语音对应的应用场景,这样可以从应用场景推断用户意图,保证了根据语音转换后的文本以及应用场景,较为准确地确定最终文本,保证了语音识别的准确率较高,从而方便了后续根据识别的所述最终文本控制智能设备执行预定操作,保证了用户体验感较高。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种方法的计算机终端的硬件结构框图;
图2是根据本发明实施例的语音处理方法生成的流程图;
图3是根据本发明实施例的确定目标语音的目标应用场景的流程图;
图4是根据本发明实施例的语音的控制装置的结构框图;
图5是根据本发明实施例的语音处理的流程图。
其中,上述附图包括以下附图标记:
102、处理器;104、存储器;106、传输设备;108、输入输出设备。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请实施例所提供的方法实施例可以在计算机终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1是本发明实施例的一种方法的计算机终端的硬件结构框图。如图1所示,计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,在一个示例性实施例中,上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述计算机终端的结构造成限定。例如,计算机终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示等同功能或比图1所示功能更多的不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种语音处理方法,可以应用于上述计算机终端,图2是根据本发明实施例的语音处理方法生成的流程图,该流程包括如下步骤:
步骤S101,获取目标语音对应的目标文本;
步骤S102,确定上述目标语音对应的目标应用场景;
步骤S103,根据上述目标应用场景以及上述目标文本,确定最终文本。
上述的语音处理方法中,首先获取目标语音转换得到的目标文本;然后,确定上述目标语音对应的目标应用场景;最后,根据上述目标应用场景以及上述目标文本确定最终文本。相比相关技术中,由于智能设备领域的交互语音较短,无法通过模型先验信息纠正错误问题,导致语音识别错误率较高等问题,本申请的上述方法通过引入语音对应的应用场景,这样可以从应用场景推断用户意图,保证了根据语音转换后的文本以及应用场景,较为准确地确定最终文本,保证了语音识别的准确率较高,从而方便了后续根据识别的上述最终文本控制智能设备执行预定操作,保证了用户体验感较高。
在实际的应用过程中,上述应用场景为用户发出目标语音的时候处于的场景,上述应用场景包括时间、空间、设备、设备支持情况、社交以及用户情绪等多个方面。本申请的一种具体的实施例中,上述应用场景包括使用的智能设备、使用时间场景以及使用空间场景,上述使用时间场景可以包括清晨,上午,中午,下午,傍晚,夜间以及午夜等,上述使用空间场景可以包括客厅、卧室以及卫生间等,上述应用场景可以划分为洗浴场景,夜晚卧室场景,夜晚客厅场景,白天客厅场景以及卫生间场景等。
根据本申请的另一种具体的实施例,获取目标语音对应的目标文本,包括:通过ASR技术将上述目标语音转换为上述目标文本。
为了较为高效且准确地确定上述目标应用场景,根据本申请的再一种具体的实施例,确定上述目标语音对应的目标应用场景,包括:确定目标设备使用数据,上述目标设备使用数据包括上述目标语音对应的目标用户、上述目标语音对应的智能设备、上述目标语音的时间信息以及上述目标语音的位置信息中的至少一个;对上述目标设备使用数据进行场景分类,确定上述目标语音对应的上述目标应用场景。
根据本申请的另一种具体的实施例,确定目标设备使用数据,包括:获取用户画像,上述用户画像具有表征多个上述智能设备的历史使用数据的信息;获取上述目标语音对应的上述智能设备的实时使用数据;根据上述用户画像,从上述实时使用数据中提取上述目标设备使用数据。这样进一步地保证了得到的上述目标设备使用数据较为准确,为后续较为准确的确定是否存储目标应用场景提供了准确的信息基础。
在实际的应用过程中,可以根据多个上述智能设备的历史使用数据,生成上述用户画像。
具体地,上述历史使用数据以及上述实时使用数据都至少包括用户信息、用户发出语音对应的智能设备信息、语音的时间信息以及语音的位置信息。上述智能设备信息包括表征使用的是哪个智能设备的信息以及用户对智能设备的使用信息,如洗衣机的参数设置信息,电视的播放频道、播放音量以及播放内容等信息;上述用户信息包括用户的性别、年龄以及声纹信息等。
本申请的又一种具体的实施例中,如图3所示,对上述目标设备使用数据进行场景分类,确定上述目标语音对应的上述目标应用场景,包括:
步骤S201,建立多个上述应用场景的分类模型;
步骤S202,将上述目标设备使用数据输入上述分类模型,得到各上述应用场景的概率值;
步骤S203,根据各上述概率值,确定上述目标应用场景。
根据上述分类模型,可以较为简单快捷地确定各上述应用场景的概率值,进一步地保证了较为简单快捷地确定上述目标应用场景。
本申请的一种具体的实施例中,根据各上述概率值,确定上述目标应用场景,包括:确定多个上述概率值中的最大值对应的上述应用场景为上述目标应用场景。
根据本申请的另一种具体的实施例,如图3所示,上述步骤S203包括:
步骤S203-1,确定多个上述概率值中的最大值是否大于预定阈值;
步骤S203-2,在上述最大值大于上述预定阈值的情况下,确定上述最大值对应的上述应用场景为上述目标应用场景。
通过确定多个上述概率值中的最大值是否大于预定阈值,这样可以避免上述目标设备使用数据差异不明显的情况下,分类模型对各应用场景的区分度不高的问题,这样进一步地保证了较为准确地确定是否存在上述目标应用场景。
在上述最大值小于或者等于上述预定阈值的情况下,如图3所示,上述方法还包括:
步骤S204,对上述目标文本进行纠错,得到上述最终文本。
在上述最大值小于或者等于上述预定阈值的情况下,直接对上述目标文本进行纠错,这样进一步地保证了得到的最终文本较为准确。
本申请的再一种具体的实施例中,建立多个上述应用场景的分类模型,包括:建立初始神经网络;获取上述智能设备的历史使用数据对应的上述应用场景,上述历史使用数据包括多个子使用数据;根据多个上述子使用数据以及对应的上述应用场景,训练上述初始神经网络,得到上述分类模型。这样可以较为简单快捷地得到上述分类模型。
在实际的应用过程中,上述初始神经网络可以为现有技术中任意可行的分类模型,如逻辑回归模型、深度学习模型、贝叶斯预测模型以及朴素贝叶斯模型等。本领域技术人员可以根据实际情况建立合适的上述初始神经网络。考虑到在线访问的效率问题,推荐使用确定结果比较快速的朴素贝叶斯算法或者softmax算法来构建上述分类模型。以朴素贝叶斯算法为例,简述上述分类模型的建立过程。
朴素贝叶斯算法是基于贝叶斯定理的一种分类算法,其核心公式表述为:
P(B|A)=P(A|B)×P(B)/P(A)
转换为算法表述为:
P(类别|特征1,特征2,特征3…)=P(特征1,特征2,特征3…|类别)×P(类别)/P(特征1,特征2,特征3…)
由于分母对判别不产生影响,所以算法转换为:
P(类别|特征1,特征2,特征3…)=P(特征1,特征2,特征3…|类别)×P(类别)
又有朴素贝叶斯算法的前提假设为独立同分布,所以算法转换为:
P(类别|特征1,特征2,特征3…)=P(特征1|类别)×P(特征2|类别)×P(特征3|类别)×P(类别)。
在一些实施例中,上述历史使用数据包括特征1,特征2,特征3…,各子使用数据分别为特征1、特征2、特征3…。
一种具体的实施例中,上述历史使用数据包括用户的声纹特征、智能设备的设备所在地以及智能设备,具体场景举例如下:
P(场景|时间,声纹特征,设备所在地,唤醒设备)=P(时间|场景)×P(声纹特征|场景)×P(设备所在地|场景)×P(场景)。
在实际的应用过程中,为了防止样本稀疏,可以引入拉普拉斯平滑处理上述分类模型进行处理。为了确保上述分类模型的准确性较高,本领域技术人员还可以利用上述分类模型的测试结果构建混淆矩阵,来评估上述分类模型的性能,确定上述分类模型的结果的准确性,一般主要关注的指标有准确率和召回率,由于是多分类的问题,所以指标可采用Scikit-Learn中的micro算法、macro算法和weighted算法计算。在确定上述分类模型的准确性不满足需求的情况下,可以调整上述目标设备使用数据,来改进上述分类模型。
为了进一步地保证确定的上述最终文本较为准确,从而进一步地保证用户体验感较好,根据本申请的又一种具体的实施例,根据上述目标应用场景以及上述目标文本,确定最终文本,包括:根据上述目标应用场景,确定上述目标文本是否需要纠错;在上述目标文本需要纠错的情况下,采用上述目标应用场景对应的纠错模型,对上述目标文本进行纠错,得到上述最终文本;在上述目标文本不需要纠错的情况下,确定上述目标文本为上述最终文本。上述方法通过引入应用场景的方式,对用户的短语指令做先验判断,从用户意图上推断ASR技术识别得到的上述目标文本是否需要纠错,这样进一步地避免了用户口音等主观因素的干扰,从而进一步地保证了得到的上述最终文本较为准确。
在实际的应用过程中,由于用户口音或者使用环境等原因,会出现ASR技术出现识别错误的问题,如果基于错误的识别文本进行NLP技术,对识别文本进行解析和意图理解,就会违背用户本身的意图做出反馈,所以在ASR技术和NLP技术中间加入一个文本纠错系统来对近音词,特殊指令词,地域,人名等做纠错,提高识别的正确率。但是在家居领域存在一些特殊性,用户交互用语短,且在非连续对话下,每句话都语义独立。在这种条件下,无法得到一些先验知识,对一些文本做出不同的判别,比如:“牛仔裤怎么写”,“牛仔裤怎么洗”,在语义上都是成立的,这种情况下,也无法触发连续对话的话术系统来进行进一步与用户的沟通,这种情况下,通过本申请的上述方法,确定上述目标语音的目标应用场景,再根据上述目标应用场景判断是否需要纠错,比如:在女主人在卫生间对洗衣机发出“牛仔裤怎么写”的指令,就可以根据场景判别文本有错,从而进行纠正。本申请可以在尽量减少用户打扰的情况下,提升对用户意图的理解精准度,提升用户体验。
具体地,本领域技术人员可以采用现有技术中任意可行的方法建立各应用场景的上述纠错模型,如建立洗浴场景、夜晚卧室场景、夜晚客厅场景、白天客厅场景以及卫生间场景等多个场景对应的上述纠错模型,根据应用场景,来对目标文本进行错词表以及近音字等方面的针对性的纠正。当然,对上述目标文本的纠错方法并不限于上述的方法,本领域技术人员还可以采用统一模型重打分的方式或者深度学习等方式来对上述目标文本进行纠错。
在实际的应用过程中,在根据上述目标应用场景以及上述目标文本,确定最终文本之后,上述方法还包括:采用自然语言处理技术对上述最终文本进行解析,获取用户意图信息;根据上述用户意图信息,控制对应的智能设备执行预定操作。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
图4是根据本发明实施例的一种语音的处理装置的结构框图;如图4所示,该处理装置包括获取单元10、第一确定单元20以及第二确定单元30,其中,上述获取单元10用于获取目标语音对应的目标文本;上述第一确定单元20用于确定上述目标语音对应的目标应用场景;上述第二确定单元30用于根据上述目标应用场景以及上述目标文本,确定最终文本。
上述的语音的处理装置中,通过上述获取单元获取目标语音转换得到的目标文本;通过上述第一确定单元确定上述目标语音对应的目标应用场景;通过上述第二确定单元根据上述目标应用场景以及上述目标文本确定最终文本。相比相关技术中,由于智能设备领域的交互语音较短,无法通过模型先验信息纠正错误问题,导致语音识别错误率较高等问题,本申请的上述装置通过引入语音对应的应用场景,这样可以从应用场景推断用户意图,保证了根据语音转换后的文本以及应用场景,较为准确地确定最终文本,保证了语音识别的准确率较高,从而方便了后续根据识别的上述最终文本控制智能设备执行预定操作,保证了用户体验感较高。
在实际的应用过程中,上述应用场景为上述目标语音被使用的时候,目标用户处于的场景,上述应用场景包括时间、空间、设备、设备支持情况、社交以及用户情绪等多个方面。本申请的一种具体的实施例中,上述应用场景包括设备、使用时间场景以及使用空间场景,上述设备为使用的什么智能设备,上述使用时间场景可以包括清晨,上午,中午,下午,傍晚,夜间以及午夜等,上述使用空间场景可以包括客厅、卧室以及卫生间等,上述应用场景可以划分为洗浴场景,夜晚卧室场景,夜晚客厅场景,白天客厅场景以及卫生间场景等。
根据本申请的另一种具体的实施例,上述获取单元包括转换模块,上述转换模块用于通过ASR技术将上述目标语音转换为上述目标文本。
为了较为高效且准确地确定是否存在上述目标应用场景,根据本申请的再一种具体的实施例,上述第一确定单元包括第一确定模块以及分类模块,其中,上述第一确定模块用于确定目标设备使用数据,上述目标设备使用数据包括上述目标语音对应的目标用户、上述目标语音对应的智能设备、上述目标语音的时间信息以及上述目标语音的位置信息中的至少一个;上述分类模块用于对上述目标设备使用数据进行场景分类,确定上述目标语音对应的上述目标应用场景。
根据本申请的另一种具体的实施例,上述第一确定模块包括第一获取子模块、第二获取子模块以及提取子模块,其中,上述第一获取子模块用于获取用户画像,上述用户画像具有表征多个上述智能设备的历史使用数据的信息;上述第二获取子模块用于获取上述目标语音对应的上述智能设备的实时使用数据;上述提取子模块用于根据上述用户画像,从上述实时使用数据中提取上述目标设备使用数据。这样进一步地保证了得到的上述目标设备使用数据较为准确,为后续较为准确的确定是否存储目标应用场景提供了准确的信息基础。
在实际的应用过程中,可以根据多个上述智能设备的历史使用数据,生成上述用户画像。
具体地,上述历史使用数据以及上述实时使用数据都至少包括用户信息、用户发出语音对应的智能设备信息、语音的时间信息以及语音的位置信息。上述智能设备信息包括表征使用的是哪个智能设备的信息以及用户对智能设备的使用信息,如洗衣机的参数设置信息,电视的播放频道、播放音量以及播放内容等信息;上述用户信息包括用户的性别、年龄以及声纹信息等。
本申请的又一种具体的实施例中,上述分类模块包括建立子模块、输入子模块以及确定子模块,其中,上述建立子模块用于建立多个上述应用场景的分类模型;上述输入子模块用于将上述目标设备使用数据输入上述分类模型,得到各上述应用场景的概率值;上述确定子模块用于根据各上述概率值,确定上述目标应用场景。根据上述分类模型,可以较为简单快捷地确定各上述应用场景的概率值,根据上述分类模型,可以较为简单快捷地确定各上述应用场景的概率值,进一步地保证了较为简单快捷地确定上述目标应用场景。
本申请的一种具体的实施例中,上述确定子模块还用于确定多个上述概率值中的最大值对应的上述应用场景为上述目标应用场景。
根据本申请的另一种具体的实施例,上述确定子模块还用于确定多个上述概率值中的最大值是否大于预定阈值;上述确定子模块还用于在上述最大值大于上述预定阈值的情况下,确定上述最大值对应的上述应用场景为上述目标应用场景。通过确定多个上述概率值中的最大值是否大于预定阈值,这样可以避免上述目标设备使用数据差异不明显的情况下,分类模型对各应用场景的区分度不高的问题,这样进一步地保证了较为准确地确定是否存在上述目标应用场景。
上述装置还包括纠错单元,上述纠错单元用于在上述最大值小于或者等于上述预定阈值的情况下,对上述目标文本进行纠错,得到上述最终文本。在上述最大值小于或者等于上述预定阈值的情况下,直接对上述目标文本进行纠错,这样进一步地保证了得到的最终文本较为准确。
本申请的再一种具体的实施例中,上述建立子模块还用于建立初始神经网络;上述建立子模块还用于获取上述智能设备的历史使用数据对应的上述应用场景,上述历史使用数据包括多个子使用数据;上述建立子模块还用于根据多个上述子使用数据以及对应的上述应用场景,训练上述初始神经网络,得到上述分类模型。这样可以较为简单快捷地得到上述分类模型。
在实际的应用过程中,上述分类模型可以为现有技术中任意可行的分类模型,如逻辑回归模型、深度学习模型、贝叶斯预测模型以及朴素贝叶斯模型等。本领域技术人员可以根据实际情况建立合适的上述分类模型。考虑到在线访问的效率问题,推荐使用确定结果比较快速的朴素贝叶斯算法或者softmax算法来构建上述分类模型。以朴素贝叶斯算法为例,简述上述分类模型的建立过程。
朴素贝叶斯算法是基于贝叶斯定理的一种分类算法,其核心公式表述为:
P(B|A)=P(A|B)×P(B)/P(A)
转换为算法表述为:
P(类别|特征1,特征2,特征3…)=P(特征1,特征2,特征3…|类别)×P(类别)/P(特征1,特征2,特征3…)
由于分母对判别不产生影响,所以算法转换为:
P(类别|特征1,特征2,特征3…)=P(特征1,特征2,特征3…|类别)×P(类别)
又有朴素贝叶斯算法的前提假设为独立同分布,所以算法转换为:
P(类别|特征1,特征2,特征3…)=P(特征1|类别)×P(特征2|类别)×P(特征3|类别)×P(类别)
一种具体的实施例中,上述历史使用数据包括用户的声纹特征、智能设备的设备所在地以及智能设备,具体场景举例如下:
P(场景|时间,声纹特征,设备所在地,唤醒设备)=P(时间|场景)×P(声纹特征|场景)×P(设备所在地|场景)×P(场景)。
在实际的应用过程中,为了防止样本稀疏,可以引入拉普拉斯平滑处理上述分类模型进行处理。为了确保上述分类模型的准确性较高,本领域技术人员还可以利用上述分类模型的测试结果构建混淆矩阵,来评估上述分类模型的性能,确定上述分类模型的结果的准确性,一般主要关注的指标有准确率和召回率,由于是多分类的问题,所以指标可采用Scikit-Learn中的micro算法、macro算法和weighted算法计算。在确定上述分类模型的准确性不满足需求的情况下,可以调整上述目标设备使用数据,来改进上述分类模型。
为了进一步地保证确定的上述最终文本较为准确,从而进一步地保证用户体验感较好,根据本申请的又一种具体的实施例,上述第二确定单元包括第二确定模块、纠错模块以及第三确定模块,其中,上述第二确定模块用于根据上述目标应用场景,确定上述目标文本是否需要纠错;上述纠错模块用于在上述目标文本需要纠错的情况下,采用上述目标应用场景对应的纠错模型,对上述目标文本进行纠错,得到上述最终文本;上述第三确定模块用于在上述目标文本不需要纠错的情况下,确定上述目标文本为上述最终文本。上述装置通过引入应用场景的方式,对用户的短语指令做先验判断,从用户意图上推断ASR技术识别得到的上述目标文本是否需要纠错,这样进一步地避免了用户口音等主观因素的干扰,从而进一步地保证了得到的上述最终文本较为准确。
在实际的应用过程中,由于用户口音或者使用环境等原因,会出现ASR技术出现识别错误的问题,如果基于错误的识别文本进行NLP技术,对识别文本进行解析和意图理解,就会违背用户本身的意图做出反馈,所以在ASR技术和NLP技术中间加入一个文本纠错系统来对近音词,特殊指令词,地域,人名等做纠错,提高识别的正确率。但是在家居领域存在一些特殊性,用户交互用语短,且在非连续对话下,每句话都语义独立。在这种条件下,无法得到一些先验知识,对一些文本做出不同的判别,比如:“牛仔裤怎么写”,“牛仔裤怎么洗”,在语义上都是成立的,这种情况下,也无法触发连续对话的话术系统来进行进一步与用户的沟通,这种情况下,通过本申请的上述装置,确定上述目标语音的目标应用场景,再根据上述目标应用场景判断是否需要纠错,比如:在女主人在卫生间对洗衣机发出“牛仔裤怎么写”的指令,就可以根据场景判别文本有错,从而进行纠正。本申请可以在尽量减少用户打扰的情况下,提升对用户意图的理解精准度,提升用户体验。
具体地,本领域技术人员可以采用现有技术中任意可行的装置建立各应用场景的上述纠错模型,如建立洗浴场景、夜晚卧室场景、夜晚客厅场景、白天客厅场景以及卫生间场景等多个场景对应的上述纠错模型,根据应用场景,来对目标文本进行错词表以及近音字等方面的针对性的纠正。当然,对上述目标文本的纠错装置并不限于上述的装置,本领域技术人员还可以采用统一模型重打分的方式或者深度学习等方式来对上述目标文本进行纠错。
在实际的应用过程中,上述装置还包括:解析单元以及控制单元,其中,上述解析单元用于在根据上述目标应用场景以及上述目标文本,确定最终文本之后,采用自然语言处理技术对上述最终文本进行解析,获取用户意图信息;上述控制单元用于根据上述用户意图信息,控制对应的智能设备执行预定操作。
图5示出了根据本申请的一种具体的实施例的语音处理方法的流程图,如图5所示,首先,获取目标语音以及采集信息,其中采集信息为上述的目标设备使用数据;然后,采用ASR技术将目标语音转换为目标文本;之后,利用采集信息和多个应用场景的分类模型对目标语音进行场景判决,确定其对应的目标应用场景;根据场景判决结果,采用目标应用场景对应的纠错模型对目标文本进行纠错,得到最终文本;再使用NLP技术对最终文本进行意图解析;最后,对用户意图进行反馈。
本发明的实施例还提供了一种存储介质,该存储介质包括存储的程序,其中,上述程序运行时执行上述任一种的方法。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的程序代码:
步骤S101,获取目标语音对应的目标文本;
步骤S102,确定上述目标语音对应的目标应用场景;
步骤S103,根据上述目标应用场景以及上述目标文本,确定最终文本。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
步骤S101,获取目标语音对应的目标文本;
步骤S102,确定上述目标语音对应的目标应用场景;
步骤S103,根据上述目标应用场景以及上述目标文本,确定最终文本。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种语音处理方法,其特征在于,包括:
获取目标语音对应的目标文本;
确定所述目标语音对应的目标应用场景;
根据所述目标应用场景以及所述目标文本,确定最终文本。
2.根据权利要求1所述的方法,其特征在于,确定所述目标语音对应的目标应用场景,包括:
确定目标设备使用数据,所述目标设备使用数据包括所述目标语音对应的目标用户、所述目标语音对应的智能设备、所述目标语音的时间信息以及所述目标语音的位置信息中的至少一个;
对所述目标设备使用数据进行场景分类,确定所述目标语音对应的所述目标应用场景。
3.根据权利要求2所述的方法,其特征在于,确定目标设备使用数据,包括:
获取用户画像,所述用户画像具有表征多个所述智能设备的历史使用数据的信息;
获取所述目标语音对应的所述智能设备的实时使用数据;
根据所述用户画像,从所述实时使用数据中提取所述目标设备使用数据。
4.根据权利要求2所述的方法,其特征在于,对所述目标设备使用数据进行场景分类,确定所述目标语音对应的所述目标应用场景,包括:
建立多个所述应用场景的分类模型;
将所述目标设备使用数据输入所述分类模型,得到各所述应用场景的概率值;
根据各所述概率值,确定所述目标应用场景。
5.根据权利要求4所述的方法,其特征在于,建立多个所述应用场景的分类模型,包括:
建立初始神经网络;
获取所述智能设备的历史使用数据对应的所述应用场景,所述历史使用数据包括多个子使用数据;
根据多个所述子使用数据以及对应的所述应用场景,训练所述初始神经网络,得到所述分类模型。
6.根据权利要求1至5中任一项所述的方法,其特征在于,根据所述目标应用场景以及所述目标文本,确定最终文本,包括:
根据所述目标应用场景,确定所述目标文本是否需要纠错;
在所述目标文本需要纠错的情况下,采用所述目标应用场景对应的纠错模型,对所述目标文本进行纠错,得到所述最终文本;
在所述目标文本不需要纠错的情况下,确定所述目标文本为所述最终文本。
7.根据权利要求1所述的方法,其特征在于,在根据所述目标应用场景以及所述目标文本,确定最终文本之后,所述方法还包括:
采用自然语言处理技术对所述最终文本进行解析,获取用户意图信息;
根据所述用户意图信息,控制对应的智能设备执行预定操作。
8.一种语音的处理装置,其特征在于,包括:
获取单元,用于获取目标语音对应的目标文本;
第一确定单元,用于确定所述目标语音对应的目标应用场景;
第二确定单元,用于根据所述目标应用场景以及所述目标文本,确定最终文本。
9.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至7任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110745413.2A CN115547331A (zh) | 2021-06-30 | 2021-06-30 | 语音处理方法、处理装置、存储介质以及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110745413.2A CN115547331A (zh) | 2021-06-30 | 2021-06-30 | 语音处理方法、处理装置、存储介质以及电子装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115547331A true CN115547331A (zh) | 2022-12-30 |
Family
ID=84723016
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110745413.2A Pending CN115547331A (zh) | 2021-06-30 | 2021-06-30 | 语音处理方法、处理装置、存储介质以及电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115547331A (zh) |
-
2021
- 2021-06-30 CN CN202110745413.2A patent/CN115547331A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110838289B (zh) | 基于人工智能的唤醒词检测方法、装置、设备及介质 | |
CN106782536B (zh) | 一种语音唤醒方法及装置 | |
US20180336888A1 (en) | Method and Apparatus of Training Acoustic Feature Extracting Model, Device and Computer Storage Medium | |
CN103971680B (zh) | 一种语音识别的方法、装置 | |
CN111880856B (zh) | 语音唤醒方法、装置、电子设备及存储介质 | |
CN110689881B (zh) | 语音识别方法、装置、计算机设备和存储介质 | |
CN111710337B (zh) | 语音数据的处理方法、装置、计算机可读介质及电子设备 | |
CN107733762B (zh) | 一种智能家居的语音控制方法及装置、系统 | |
CN114676689A (zh) | 语句文本的识别方法和装置、存储介质及电子装置 | |
CN113314119B (zh) | 语音识别智能家居控制方法及装置 | |
CN112116910A (zh) | 语音指令的识别方法和装置、存储介质、电子装置 | |
CN108897517B (zh) | 一种信息处理方法及电子设备 | |
CN115457938A (zh) | 识别唤醒词的方法、装置、存储介质及电子装置 | |
CN113409823A (zh) | 语音情绪识别方法、装置、电子设备及存储介质 | |
CN114420102B (zh) | 语音断句方法、装置、电子设备及存储介质 | |
CN110895936B (zh) | 基于家用电器的语音处理方法和装置 | |
CN111128174A (zh) | 一种语音信息的处理方法、装置、设备及介质 | |
JP6910002B2 (ja) | 対話行為推定方法、対話行為推定装置及びプログラム | |
CN112765981A (zh) | 一种文本信息的生成方法和装置 | |
CN112818096A (zh) | 对话生成方法及其装置 | |
CN112151034A (zh) | 设备的语音控制方法、装置、电子设备及存储介质 | |
CN115547331A (zh) | 语音处理方法、处理装置、存储介质以及电子装置 | |
CN110970019A (zh) | 智能家居系统的控制方法和装置 | |
CN113555005B (zh) | 模型训练、置信度确定方法及装置、电子设备、存储介质 | |
CN111128127A (zh) | 一种语音识别处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |