CN109326285A - 语音信息处理方法、装置及非暂态计算机可读存储介质 - Google Patents
语音信息处理方法、装置及非暂态计算机可读存储介质 Download PDFInfo
- Publication number
- CN109326285A CN109326285A CN201811237614.6A CN201811237614A CN109326285A CN 109326285 A CN109326285 A CN 109326285A CN 201811237614 A CN201811237614 A CN 201811237614A CN 109326285 A CN109326285 A CN 109326285A
- Authority
- CN
- China
- Prior art keywords
- voice messaging
- voice
- information
- analysis result
- preset condition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 23
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 238000003860 storage Methods 0.000 title claims abstract description 19
- 230000001052 transient effect Effects 0.000 title claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 153
- 238000004458 analytical method Methods 0.000 claims abstract description 93
- 238000000034 method Methods 0.000 claims description 42
- 238000012549 training Methods 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 5
- 238000004891 communication Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 235000013399 edible fruits Nutrition 0.000 claims description 3
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 claims 1
- 230000008569 process Effects 0.000 description 21
- 238000005516 engineering process Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000009897 systematic effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 229910052742 iron Inorganic materials 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 239000004568 cement Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明实施例涉及语音识别技术领域,特别是涉及一种语音信息处理方法、装置及非暂态计算机可读存储介质。该语音信息处理方法,包括:接收待处理的语音信息;对语音信息进行语义识别,得到对应的语义特征信息;基于预设的语音处理系统对语义特征信息进行分析,得到分析结果;若分析结果满足第一预设条件时,基于分析结果输出针对语音信息的目的处理结果;若分析结果不满足第一预设条件时,基于分析结果输出相应的指示信息,指示信息用于指示输入其他的语音信息,直至其他的语音信息对应的分析结果满足第一预设条件。本发明实施例实现了对待处理的语音信息的处理,提高了对语音信息的处理效率,节省了人力成本,提升了用户的使用体验。
Description
技术领域
本发明涉及应用软件技术领域,特别是涉及一种语音信息处理方法、装置及非暂态计算机可读存储介质。
背景技术
在现有技术中,当用户需要进行一些问题的咨询时,如查询手机话费、咨询手机套餐、订机票等问题,通常会由较为专业的人工客服来针对用户提出的问题进行相应的解答。
随着社会的高速发展,科技的迅猛创新,智能的电子产品逐渐进入了人们的生活,以其便捷、高效的特质,也在越来越广泛地影响着人们的生活,在为人们提供相应服务的同时,提升了人们的生活品质。
基于智能的电子设备的广泛应用,是否能够通过该智能的电子设备来实现对用户提出的问题咨询进行相应的解决成为了当下亟待考虑与需要解决的技术问题。
发明内容
本发明提供了一种语音信息处理方法、装置及非暂态计算机可读存储介质,实现了基于智能的电子设备的语音信息处理过程,提高了处理效率,节省了大量的人力成本,提升了用户的使用体验。
为了解决上述问题,本发明实施例主要提供如下技术方案:
第一方面,本发明实施例提供了一种语音信息处理方法,包括:
接收待处理的语音信息;
对所述语音信息进行语义识别,得到对应的语义特征信息;
基于预设的语音处理系统对所述语义特征信息进行分析,得到分析结果;
若所述分析结果满足第一预设条件时,基于所述分析结果输出针对所述语音信息的目的处理结果;
若所述分析结果不满足第一预设条件时,基于所述分析结果输出相应的指示信息,所述指示信息用于指示输入其他的语音信息,直至所述其他的语音信息对应的分析结果满足第一预设条件。
第二方面,本发明实施例提供了一种语音信息处理装置,包括:
接收单元,用于接收待处理的语音信息;
识别单元,用于对所述语音信息进行语义识别,得到对应的语义特征信息;
分析单元,用于基于预设的语音处理系统对所述语义特征信息进行分析,得到分析结果;
第一处理单元,用于若所述分析结果满足第一预设条件时,基于所述分析结果输出针对所述语音信息的目的处理结果;
第二处理单元,用于若所述分析结果不满足第一预设条件时,基于所述分析结果输出相应的指示信息,所述指示信息用于指示输入其他的语音信息,直至所述其他的语音信息对应的分析结果满足第一预设条件。
第三方面,本发明实施例提供了一种电子设备,包括:
至少一个处理器;
以及与所述处理器连接的至少一个存储器、总线;其中,
所述处理器、存储器通过所述总线完成相互间的通信;
所述处理器用于调用所述存储器中的程序指令,以执行上述的语音信息处理方法。
第四方面,本发明实施例提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述的语音信息处理方法。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明实施例中,接收待处理的语音信息;对所述语音信息进行语义识别,得到对应的语义特征信息;基于预设的语音处理系统对所述语义特征信息进行分析,得到分析结果;若所述分析结果满足第一预设条件时,基于所述分析结果输出针对所述语音信息的目的处理结果;若所述分析结果不满足第一预设条件时,基于所述分析结果输出相应的指示信息,所述指示信息用于指示输入其他的语音信息,直至所述其他的语音信息对应的分析结果满足第一预设条件。本发明实施例提供的上述处理,通过引入语音处理系统,实现了对待处理的语音信息的相应处理,相较于现有技术中依靠人力进行语音信息的解答处理方式,提高了对语音信息的处理效率,同时由于电子设备的介入,节省了大量的人力成本,提升了用户的使用体验。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例提供的语音信息处理方法的流程示意图;
图2为本发明实施例提供的语音信息处理方法的一种可能实现方式的具体处理流程示意图;
图3为本发明实施例提供的语音信息处理装置的结构示意图;
图4为本发明实施例提供的语音信息处理方法的电子设备的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
在现有技术中,随着信息技术的迅速发展,语音识别技术也随之迅速地发展,而利用语音识别的产品越来越多,例如,会话助理、智能机器人、智能手表等。这些产品都是通过语音识别来增强用户体验和提高自然人机交互的水平。
基于此,本发明实施例基于语音识别技术提供了一种语音信息处理方法、装置及非暂态计算机可读存储介质,旨在解决现有技术的如上技术问题。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
如图1所示,为本发明实施例提供的语音信息处理方法的流程示意图,该方法应用于具有麦克风的电子设备中,该方法包括如下步骤:
步骤S101,接收待处理的语音信息;
步骤S102,对语音信息进行语义识别,得到对应的语义特征信息;
步骤S103,基于预设的语音处理系统对语义特征信息进行分析,得到分析结果;
步骤S104,若分析结果满足第一预设条件时,基于分析结果输出针对语音信息的目的处理结果;
步骤S105,若分析结果不满足第一预设条件时,基于分析结果输出相应的指示信息,指示信息用于指示输入其他的语音信息,直至其他的语音信息对应的分析结果满足第一预设条件。
本发明实施例中,接收待处理的语音信息;对语音信息进行语义识别,得到对应的语义特征信息;基于预设的语音处理系统对语义特征信息进行分析,得到分析结果;若分析结果满足第一预设条件时,基于分析结果输出针对语音信息的目的处理结果;若分析结果不满足第一预设条件时,基于分析结果输出相应的指示信息,指示信息用于指示输入其他的语音信息,直至其他的语音信息对应的分析结果满足第一预设条件。本发明实施例提供的上述处理,通过引入语音处理系统,实现了对待处理的语音信息的相应处理,相较于现有技术中依靠人力进行语音信息的解答处理方式,提高了对语音信息的处理效率,同时由于电子设备的介入,节省了大量的人力成本,提升了用户的使用体验。
基于上述本发明实施例所提供的技术方案,下面对该技术方案进行详尽阐释,如图2所示,为本发明实施例提供的语音信息处理方法的一个可能地实现方式的具体处理流程图。
在一个可能地实现方式中,前述步骤S101的处理具体包括下述步骤S201的处理。
步骤S201,接收待处理的语音信息。
对于本发明实施例,电子设备通过其上的麦克风实时获取环境中的声音信号,并将获取到的声音信号进行数模转换以及降噪等处理后,再按照特定格式进行编码,并将编码后的音频数据输入到语音识别的软件模块。
对于本发明实施例,语音识别的软件模块对于实时输入的流式音频数据,按照一定的时间间隔划分为一帧,并提取相应的音频特征。
上述接收待处理的语音信息的处理可以是直接接收用户输入的语音信息,还可以是通过接收终端的上传请求中携带的用户输入的语音信息。
在一个可能地实现方式中,前述步骤S102的处理具体包括下述步骤S202~步骤S203的处理。
步骤S202,对语音信息进行特征提取,得到语音信息对应的声学特征信息。
在一个可能地实现方式中,在对输入的语音信息进行声学特征提取之前,还可以包括:
对输入的语音信息进行预处理。
为了提高系统的鲁棒性,可以对采集到的原始语音信号做前端降噪预处理。例如,首先通过对语音信号执行短时能量和短时过零率分析,将连续的语音信号分割成独立的语音片断和非语音片断。随后通过维纳滤波等技术对语音片断进行语音增强,进一步消除语音信号中的噪音,提高后续系统对该信号的处理能力。
对于本发明实施例,考虑到降噪处理后的语音信号中依然存在大量语音识别无关的冗余信息,直接对其识别将导致运算量增加和识别准确率的下降,为此可以从语音能量信号中提取识别有效的语音特征信息,并存入特征缓存区内,以表征用户的语音信息输入。在一个可能地实现方式中,提取语音信息的声学特征信息可以包括:提取MFCC(MelFrequency Cepstrum Coefficient,梅尔频率倒谱系数)特征信息。在一个可能地实现方式中,还可以采用PLP(PerceptualLinear Predictive,感知线性预测系数)特征信息、F-bank(Mel-scale Filter Bank,梅尔标度滤波器组)特征信息、CQCC(Constant Q CepstrumCoefficient,常数Q值倒谱系数)特征信息和LPCC(Linear Prediction CepstrumCoefficient,线性预测倒谱系数)特征信息等,来提取输入的语音信息的特征以表征语音输入。为了避免模糊本发明的要点,在此对已知的语音信号跟踪技术、预处理技术和特征提取技术不再详述。
此外,应该理解,本发明实施例的原始的或经预处理的用户输入的语音信息或其特征标识可以存储在存储器中,并且不限于任何特定的存储格式。
步骤S203,对声学特征信息进行语义识别,得到对应的语义特征信息。
对于本发明实施例,在进行语义识别时,可以通过预先对语义特征进行神经网络训练深度学习过程处理,从而构建出相应的语义识别模块,其中,该神经网络可以为CNN(Convolutional Neural Network,卷积神经网络)、DNN(Deep Neural Network,深层神经网络)或RNN(Recurrent neural Network、循环神经网络)。
在一个可能地实现方式中,前述步骤S103的处理具体包括下述步骤S204的处理。
步骤S204,基于预设的语音处理系统对语义特征信息进行分析,得到分析结果。
本步骤中,通过预设的语音处理系统对语义特征信息进行分析,确定该待处理的语音信息所表达的语义,并基于该待处理的语音信息所表达的语义进行查找匹配,从而确定该语音信息所对应的对话处理,以便后续基于该语义进行对应的对话答复。
对于本发明实施例,例如,接收到的待处理的语音信息为“我要去上海”,通过预设的语音处理系统进行分析,确定其所对应的目的处理结果为为用户订票,则通过查询匹配,发现是该为用户订票的对话形式,并确定若要为用户订票,还需要知道其他几个必要的条件,如出发时间、出行方式、出发人数,然而在该待处理的语音信息中并未提供上述几个必要条件。
对于本发明实施例,例如,接收到的待处理的语音信息为“现在几点了”,通过预设的语音处理系统进行分析,确定其所对应的目的处理结果为为用户报时,则通过查询匹配,发现是该为用户报时的对话形式,并确定后续直接为用户报时即可完成处理,并不需要其他任何必要条件。
在该电子设备进行语音信息处理之前,需要先进行用于语音信息处理的语音处理系统的训练,其训练过程可以是在电子设备中进行,利用大量的样本数据不断地循环往复训练,能够使得在利用语音处理系统进行语音信息处理时所得到的目的处理结果更加趋向于准确,从而提升了处理的准确度。
该语音处理系统的训练,可以包括如下过程:
A、获取样本数据
该样本数据可以包括待训练的语音信息及其对应的标识信息;其中,该标识信息用于表征待训练的语音信息对应的目的处理结果。每一条标识信息均是针对其对应的每一条语音信息通过人为分析进行标注的。如用户说出的语音信息是“我要坐高铁去上海”,在人为分析标注时,其标识信息为“订高铁票”。
对于本发明实施例,在进行语音处理系统训练之前,会先获取大量的样本数据,该样本数据可以是人为输入的,也可以是从本地存储中提取得到的,还可以通过向服务器发送样本数据的获取请求来得到的,当然,该样本数据的获取途径并不仅限于此。
B、语音处理系统的训练过程
对于本发明实施例,将获取到的大量样本数据依次输入到待训练的系统中,通过大量地训练,不断完善该系统,从而得到该语音处理系统,通过大量训练也使得该语音处理系统在对类似语音信息的处理时能够愈发精确、准确。
对于本发明实施例,对于得到的目的处理结果,无法做到每一次都是准确的,可能会出现目的处理结果与实际结果不同的情形发生,如目的处理结果是“订去上海的普通火车票”,但实际结果是“用户坐高铁去上海”,所以为了避免该种类似情况的发生,需要对该语音处理系统不断的训练、以完善优化,基于此,需要在满足第二预设条件时对该语音处理系统的样本数据进行更新。
其中,该第二预设条件可以包括:
P1、实时进行该语音处理系统的样本数据更新。
一旦确定目的处理结果与实际结果为不同的结果时,说明该处理结果对应的语音信息有可能未存储于该语音处理系统的样本数据中,则直接利用该处理结果对应的语音信息进行该语音处理系统的样本数据更新。
P2、每隔一段时间进行该语音处理系统的样本数据更新。
此时并不关心处理结果与实际结果是否相同,只要达到了预设时间段就利用这段时间中获取到的语音信息进行该语音处理系统的样本数据更新,从而丰富扩大该语音处理系统的样本数据库。
其中,该预设时间段可以是提前预先配置好的。
P3、在处理结果与实际结果为不同结果的次数达到一定阈值时进行该语音处理系统的样本数据更新,从而丰富扩大该语音处理系统的样本数据库。
对于每一次处理结果与实际结果为不同结果的情况均进行记录,当出现该情况的次数达到预设阈值时,利用出现这种情况的每一个处理结果所对应的语音信息进行该语音处理系统的样本数据更新,从而丰富扩大该语音处理系统的样本数据库。
对于本发明实施例,通过获取用于更新的语音信息,并基于该获取的语音信息来对该语音处理系统中的样本数据进行在线更新。其中,该用于更新的语音信息可以是上述提及的与实际结果为不同的结果的目的处理结果对应的语音信息,还可以是一段时间内的接收到的所有语音信息。
对于本发明实施例,在基于该获取的语音信息来对语音处理系统中的样本数据进行在线更新时,可以分成两种情形:
情形一、若电子设备为终端设备时,上述在线更新的过程包括:
a、基于本地存储的语音信息来对该语音处理系统中的样本数据进行在线更新。
在该处理过程中,该用于更新的语音信息可以是存储在本地存储中的,当需要进行更新时,直接在本地存储中提取相应的样本数据进行在线的更新处理。
b、基于服务器发送的用于更新的样本数据来对该语音处理系统中的样本数据进行在线更新。
在该处理过程中,通过接收服务器发送的针对该语音处理系统的用于更新的样本数据来对该语音处理系统进行更新。
情形二、若电子设备为服务器时,上述在线更新的过程包括:
a、基于本地存储的语音信息来对该语音处理系统中的样本数据进行在线更新。
在该处理过程中,该用于更新的语音信息可以是存储在本地存储中的,当需要进行更新时,直接在本地存储中提取相应的样本数据进行在线的更新处理。
b、基于终端发送的用于更新的语音信息来对该语音处理系统中的样本数据进行在线更新。
在该处理过程中,通过接收终端设备发送的针对该语音处理系统的用于更新的语音信息来对该语音处理系统进行更新。
对于本发明实施例,无论是基于本地存储的语音信息,或是基于服务器发送的样本数据,或是基于终端设备上传的语音信息来对语音处理系统中的样本数据进行的更新过程,可以是由该终端设备或服务器主动发起的更新过程。
在一个可能地实现方式中,前述步骤S104~步骤S105的处理具体包括下述步骤S205的处理。
步骤S205,基于分析结果与第一预设条件的对应关系进行相应的处理。
对于本发明实施例,在得到前述的分析结果后,还需要进一步地确定其与第一预设条件间的对应关系,从而根据不同的对应关系进行相应的不同处理。其中,该第一预设条件用于表征直接输出待处理的语音信息对应的目的处理结果的必要条件,也即该第一预设条件是一个表征当前待处理的语音信息的目的处理结果所对应的必要条件的预设条件。如待处理的语音信息为“我要去上海”,这句语音信息对应的目的处理结果是“为用户订票”,该目的处理结果对应的几个必要条件是出发时间、出行方式、出发人数以及目的地,通过对待处理的语音信息分析,得到的分析结果中只包含了一个必要条件“目的地”,在基于分析结果与第一预设条件(基于目的处理结果“为用户订票”所对应的出发时间、出行方式、出发人数以及目的地这几个必要条件)进行对应关系的确定时,可以确定出二者的对应关系。
对于上述本发明实施例中的具体实例,虽然未提供出发地,但该出发地可以通过配置于该电子设备中的定位装置进行用户当前位置的确定,当然并不仅局限于此。
当然,分析结果与第一预设条件间的对应关系可以包括:
M1、分析结果满足第一预设条件。
对于本发明实施例,在上述对应关系中,电子设备会基于该分析结果输出针对待处理的语音信息的目的处理结果。
在一个具体实施例中,待处理的语音信息为“现在几点了”,通过分析得到的分析结果为用户期望知道当前时间,则明确地确定目的处理结果为为用户报时,对应的第一预设条件为“现在几点”,则由于分析结果满足第一预设条件,电子设备直接输出对应的目的处理结果“为用户报时”即可完成。
M2、分析结果不满足第一预设条件。
对于本发明实施例,在上述对应关系中,电子设备会基于该分析结果输出相应的指示信息;其中,该指示信息用于指示输入其他的语音信息,直至输入的其他的语音信息对应的分析结果满足上述的第一预设条件。
也即,当对应关系为分析结果不满足第一预设条件时,通过发送指示信息给到用户,让其输入其他的语音信息,直到用户输入的其他的语音信息所对应的分析结果能够满足上述的第一预设条件为止,这样,电子设备才会基于分析结果输出针对待处理的语音信息的目的处理结果。
当然,对于上述指示信息的发送方式,可以是该电子设备直接发送语音信息指示对应的用户进行相应的其他的语音信息的输入,还可以是该电子设备通过在其上的显示屏中进行相应的指示信息显示,由用户根据显示屏中所显示的指示信息进行相应的其他的语音信息的输入。并且,无论电子设备采用上述哪一种发送方式进行指示信息的发送时,其可以是一次性将所有的必要条件携带于指示信息中进行发送,也可以分次进行发送,即每一条指示信息中只携带一个必要条件。
若进行分次发送时,对于必要条件的发送顺序并不做限定,可以任意选择。且对于分次发送的处理方式,本发明实施例的处理方式包括:电子设备发送指示信息1,该指示信息1中携带必要条件1,用户输入针对必要条件1的语音信息,电子设备对该语音信息进行上述处理,得到分析结果1,若分析结果1不满足第一预设条件,则电子设备发送指示信息2,该指示信息2中携带必要条件2,用户输入针对必要条件2的语音信息,执行上述与针对必要条件1的语音信息相同的处理,确定分析结果2满足第一预设条件,则执行最终的输出目的处理结果的操作,否则该电子设备继续发送指示信息3,循环执行与上述针对必要条件1的语音信息相同的处理,继续确定分析结果3与第一预设条件的对应关系……直到分析结果n满足第一预设条件时,输出目的处理结果,整个处理流程结束。
本发明实施例中,接收待处理的语音信息;对语音信息进行语义识别,得到对应的语义特征信息;基于预设的语音处理系统对语义特征信息进行分析,得到分析结果;若分析结果满足第一预设条件时,基于分析结果输出针对语音信息的目的处理结果;若分析结果不满足第一预设条件时,基于分析结果输出相应的指示信息,指示信息用于指示输入其他的语音信息,直至其他的语音信息对应的分析结果满足第一预设条件。本发明实施例提供的上述处理,通过引入语音处理系统,实现了对待处理的语音信息的相应处理,相较于现有技术中依靠人力进行语音信息的解答处理方式,提高了对语音信息的处理效率,同时由于电子设备的介入,节省了大量的人力成本,提升了用户的使用体验。
本发明实施例提供一种语音信息处理装置的结构示意图,如图3所示,本发明实施例的语音信息处理装置30可以包括:接收单元31、识别单元32,分析单元33,第一处理单元34、第二处理单元35、第三处理单元36以及更新单元37,其中,
接收单元31,用于接收待处理的语音信息;
识别单元32,用于对语音信息进行语义识别,得到对应的语义特征信息;
分析单元33,用于基于预设的语音处理系统对语义特征信息进行分析,得到分析结果;
第一处理单元34,用于若分析结果满足第一预设条件时,基于分析结果输出针对语音信息的目的处理结果;
第二处理单元35,用于若分析结果不满足第一预设条件时,基于分析结果输出相应的指示信息,指示信息用于指示输入其他的语音信息,直至其他的语音信息对应的分析结果满足第一预设条件。
在一个可能地实现方式中,识别单元32,用于对语音信息进行特征提取,得到语音信息对应的声学特征信息;对声学特征信息进行语义识别,得到对应的语义特征信息。
在一个可能地实现方式中,声学特征信息包括如下任一种:
梅尔频率倒谱系数MFCC特征信息;
梅尔标度滤波器组F-bank特征信息;
常数Q值倒谱系数CQCC特征信息;
感知线性预测系数PLP特征信息;
线性预测倒谱系数LPCC特征信息。
在一个可能地实现方式中,第一预设条件用于表征直接输出待处理的语音信息对应的目的处理结果的必要条件。
在一个可能地实现方式中,第三处理单元36,用于获取样本数据;样本数据包括待训练的语音信息及其对应的标识信息,标识信息用于表征待训练的语音信息对应的目的处理结果;提取样本数据对应的语义特征信息;基于样本数据的语义特征信息进行模型训练,得到语音处理系统。
在一个可能地实现方式中,更新单元37,用于当满足第二预设条件时,对语音处理系统的样本数据进行更新。
其中,更新单元37,具体用于获取用于更新的语音信息;基于用于更新的语音信息对语音处理系统中的样本数据进行在线更新。
在一个可能地实现方式中,第二预设条件包括如下任一项:
目的处理结果与实际结果为不同的结果;
目的处理结果与实际结果为不同结果的次数满足预设阈值;
预设时间段。
本发明实施例中,接收待处理的语音信息;对语音信息进行语义识别,得到对应的语义特征信息;基于预设的语音处理系统对语义特征信息进行分析,得到分析结果;若分析结果满足第一预设条件时,基于分析结果输出针对语音信息的目的处理结果;若分析结果不满足第一预设条件时,基于分析结果输出相应的指示信息,指示信息用于指示输入其他的语音信息,直至其他的语音信息对应的分析结果满足第一预设条件。本发明实施例提供的上述处理,通过引入语音处理系统,实现了对待处理的语音信息的相应处理,相较于现有技术中依靠人力进行语音信息的解答处理方式,提高了对语音信息的处理效率,同时由于电子设备的介入,节省了大量的人力成本,提升了用户的使用体验。
本发明实施例提供了一种电子设备,如图4所示,图4所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括通信接口4004。需要说明的是,实际应用中通信接口4004不限于一个,该电子设备4000的结构并不构成对本发明实施例的限定。
其中,处理器4001应用于本发明实施例中,用于实现图3所示的接收单元31、识别单元32,分析单元33,第一处理单元34、第二处理单元35、第三处理单元36以及更新单元37的功能。
处理器4001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明实施例公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI总线或EISA总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器4003用于存储执行本发明实施例方案的应用程序代码,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现图3所示实施例提供的语音信息处理装置的动作。
本发明实施例提供的电子设备,适用于上述方法的任一实施例,在此不再赘述。
本发明实施例中,接收待处理的语音信息;对语音信息进行语义识别,得到对应的语义特征信息;基于预设的语音处理系统对语义特征信息进行分析,得到分析结果;若分析结果满足第一预设条件时,基于分析结果输出针对语音信息的目的处理结果;若分析结果不满足第一预设条件时,基于分析结果输出相应的指示信息,指示信息用于指示输入其他的语音信息,直至其他的语音信息对应的分析结果满足第一预设条件。本发明实施例提供的上述处理,通过引入语音处理系统,实现了对待处理的语音信息的相应处理,相较于现有技术中依靠人力进行语音信息的解答处理方式,提高了对语音信息的处理效率,同时由于电子设备的介入,节省了大量的人力成本,提升了用户的使用体验。
本发明实施例提供了一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执行上述实施例所示的语音信息处理方法。
本发明实施例提供的非暂态计算机可读存储介质,适用于上述方法任一实施例,在此不再赘述。
本发明实施例中,接收待处理的语音信息;对语音信息进行语义识别,得到对应的语义特征信息;基于预设的语音处理系统对语义特征信息进行分析,得到分析结果;若分析结果满足第一预设条件时,基于分析结果输出针对语音信息的目的处理结果;若分析结果不满足第一预设条件时,基于分析结果输出相应的指示信息,指示信息用于指示输入其他的语音信息,直至其他的语音信息对应的分析结果满足第一预设条件。本发明实施例提供的上述处理,通过引入语音处理系统,实现了对待处理的语音信息的相应处理,相较于现有技术中依靠人力进行语音信息的解答处理方式,提高了对语音信息的处理效率,同时由于电子设备的介入,节省了大量的人力成本,提升了用户的使用体验。
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
其中,本发明装置的各个模块可以集成于一体,也可以分离部署。上述模块可以合并为一个模块,也可以进一步拆分成多个子模块。
本领域技术人员可以理解附图只是一个优选实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本发明序号仅仅为了描述,不代表实施例的优劣。
以上公开的仅为本发明的几个具体实施例,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。
Claims (10)
1.一种语音信息处理方法,其特征在于,包括:
接收待处理的语音信息;
对所述语音信息进行语义识别,得到对应的语义特征信息;
基于预设的语音处理系统对所述语义特征信息进行分析,得到分析结果;
若所述分析结果满足第一预设条件时,基于所述分析结果输出针对所述语音信息的目的处理结果;
若所述分析结果不满足第一预设条件时,基于所述分析结果输出相应的指示信息,所述指示信息用于指示输入其他的语音信息,直至所述其他的语音信息对应的分析结果满足第一预设条件。
2.如权利要求1所述方法,其特征在于,所述对所述语音信息进行语义识别,得到对应的语义特征信息,包括:
对所述语音信息进行特征提取,得到所述语音信息对应的声学特征信息;
对所述声学特征信息进行语义识别,得到对应的语义特征信息。
3.如权利要求2所述方法,其特征在于,所述声学特征信息包括如下任一种:
梅尔频率倒谱系数MFCC特征信息;
梅尔标度滤波器组F-bank特征信息;
常数Q值倒谱系数CQCC特征信息;
感知线性预测系数PLP特征信息;
线性预测倒谱系数LPCC特征信息。
4.如权利要求1-3中任一项所述方法,其特征在于,所述第一预设条件用于表征直接输出待处理的语音信息对应的目的处理结果的必要条件。
5.如权利要求1-4中任一项所述方法,其特征在于,基于预设的语音处理系统对所述语义特征信息进行分析之前,还包括:
获取样本数据;所述样本数据包括待训练的语音信息及其对应的标识信息,所述标识信息用于表征待训练的语音信息对应的目的处理结果;
提取所述样本数据对应的语义特征信息;
基于所述样本数据的语义特征信息进行模型训练,得到所述语音处理系统。
6.如权利要求5所述方法,其特征在于,还包括:
当满足第二预设条件时,对所述语音处理系统的样本数据进行更新;
其中,所述对所述语音处理系统的样本数据进行更新,包括:
获取用于更新的语音信息;
基于用于更新的语音信息对所述语音处理系统中的样本数据进行在线更新。
7.如权利要求6所述方法,其特征在于,所述第二预设条件包括如下任一项:
所述目的处理结果与实际结果为不同的结果;
所述目的处理结果与实际结果为不同结果的次数满足预设阈值;
预设时间段。
8.一种语音信息处理装置,其特征在于,包括:
接收单元,用于接收待处理的语音信息;
识别单元,用于对所述语音信息进行语义识别,得到对应的语义特征信息;
分析单元,用于基于预设的语音处理系统对所述语义特征信息进行分析,得到分析结果;
第一处理单元,用于若所述分析结果满足第一预设条件时,基于所述分析结果输出针对所述语音信息的目的处理结果;
第二处理单元,用于若所述分析结果不满足第一预设条件时,基于所述分析结果输出相应的指示信息,所述指示信息用于指示输入其他的语音信息,直至所述其他的语音信息对应的分析结果满足第一预设条件。
9.一种电子设备,其特征在于,包括:
至少一个处理器;
以及与所述处理器连接的至少一个存储器、总线;其中,
所述处理器、存储器通过所述总线完成相互间的通信;
所述处理器用于调用所述存储器中的程序指令,以执行权利要求1至权利要求7中任一项所述的语音信息处理方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行权利要求1至权利要求7中任一项所述的语音信息处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811237614.6A CN109326285A (zh) | 2018-10-23 | 2018-10-23 | 语音信息处理方法、装置及非暂态计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811237614.6A CN109326285A (zh) | 2018-10-23 | 2018-10-23 | 语音信息处理方法、装置及非暂态计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109326285A true CN109326285A (zh) | 2019-02-12 |
Family
ID=65262885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811237614.6A Pending CN109326285A (zh) | 2018-10-23 | 2018-10-23 | 语音信息处理方法、装置及非暂态计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109326285A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110140676A (zh) * | 2019-07-03 | 2019-08-20 | 成都工业学院 | 一种蜂王浆采集机器人及蜂王浆采集方法 |
CN110556099A (zh) * | 2019-09-12 | 2019-12-10 | 出门问问信息科技有限公司 | 一种命令词控制方法及设备 |
CN111192572A (zh) * | 2019-12-31 | 2020-05-22 | 斑马网络技术有限公司 | 语义识别的方法、装置及系统 |
CN111833848A (zh) * | 2020-05-11 | 2020-10-27 | 北京嘀嘀无限科技发展有限公司 | 用于识别语音的方法、装置、电子设备和存储介质 |
CN112417810A (zh) * | 2020-11-17 | 2021-02-26 | 平安科技(深圳)有限公司 | 显示窗口中内容信息的确认方法、装置、设备及存储介质 |
WO2021159756A1 (zh) * | 2020-09-04 | 2021-08-19 | 平安科技(深圳)有限公司 | 基于多模态的响应义务检测方法、系统及装置 |
CN113348502A (zh) * | 2019-04-17 | 2021-09-03 | 深圳市欢太科技有限公司 | 语音识别方法、装置、存储介质及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102779509A (zh) * | 2011-05-11 | 2012-11-14 | 联想(北京)有限公司 | 语音处理设备和语音处理方法 |
US20130185080A1 (en) * | 2000-03-31 | 2013-07-18 | United Video Properties, Inc. | User speech interfaces for interactive media guidance applications |
CN107195300A (zh) * | 2017-05-15 | 2017-09-22 | 珠海格力电器股份有限公司 | 语音控制方法和系统 |
CN107342076A (zh) * | 2017-07-11 | 2017-11-10 | 华南理工大学 | 一种兼容非常态语音的智能家居控制系统及方法 |
CN107895578A (zh) * | 2017-11-15 | 2018-04-10 | 百度在线网络技术(北京)有限公司 | 语音交互方法和装置 |
CN108573706A (zh) * | 2017-03-10 | 2018-09-25 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置及设备 |
-
2018
- 2018-10-23 CN CN201811237614.6A patent/CN109326285A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130185080A1 (en) * | 2000-03-31 | 2013-07-18 | United Video Properties, Inc. | User speech interfaces for interactive media guidance applications |
CN102779509A (zh) * | 2011-05-11 | 2012-11-14 | 联想(北京)有限公司 | 语音处理设备和语音处理方法 |
CN108573706A (zh) * | 2017-03-10 | 2018-09-25 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置及设备 |
CN107195300A (zh) * | 2017-05-15 | 2017-09-22 | 珠海格力电器股份有限公司 | 语音控制方法和系统 |
CN107342076A (zh) * | 2017-07-11 | 2017-11-10 | 华南理工大学 | 一种兼容非常态语音的智能家居控制系统及方法 |
CN107895578A (zh) * | 2017-11-15 | 2018-04-10 | 百度在线网络技术(北京)有限公司 | 语音交互方法和装置 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113348502A (zh) * | 2019-04-17 | 2021-09-03 | 深圳市欢太科技有限公司 | 语音识别方法、装置、存储介质及电子设备 |
CN110140676A (zh) * | 2019-07-03 | 2019-08-20 | 成都工业学院 | 一种蜂王浆采集机器人及蜂王浆采集方法 |
CN110556099A (zh) * | 2019-09-12 | 2019-12-10 | 出门问问信息科技有限公司 | 一种命令词控制方法及设备 |
CN110556099B (zh) * | 2019-09-12 | 2021-12-21 | 出门问问信息科技有限公司 | 一种命令词控制方法及设备 |
CN111192572A (zh) * | 2019-12-31 | 2020-05-22 | 斑马网络技术有限公司 | 语义识别的方法、装置及系统 |
CN111833848A (zh) * | 2020-05-11 | 2020-10-27 | 北京嘀嘀无限科技发展有限公司 | 用于识别语音的方法、装置、电子设备和存储介质 |
CN111833848B (zh) * | 2020-05-11 | 2024-05-28 | 北京嘀嘀无限科技发展有限公司 | 用于识别语音的方法、装置、电子设备和存储介质 |
WO2021159756A1 (zh) * | 2020-09-04 | 2021-08-19 | 平安科技(深圳)有限公司 | 基于多模态的响应义务检测方法、系统及装置 |
CN112417810A (zh) * | 2020-11-17 | 2021-02-26 | 平安科技(深圳)有限公司 | 显示窗口中内容信息的确认方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109326285A (zh) | 语音信息处理方法、装置及非暂态计算机可读存储介质 | |
CN112804400B (zh) | 客服呼叫语音质检方法、装置、电子设备及存储介质 | |
CN107657017B (zh) | 用于提供语音服务的方法和装置 | |
US11043209B2 (en) | System and method for neural network orchestration | |
CN110047481B (zh) | 用于语音识别的方法和装置 | |
WO2023222088A1 (zh) | 语音识别与分类方法和装置 | |
CN107463700A (zh) | 用于获取信息的方法、装置及设备 | |
US11562735B1 (en) | Multi-modal spoken language understanding systems | |
CN110136726A (zh) | 一种语音性别的估计方法、装置、系统及存储介质 | |
KR20200092166A (ko) | 감정을 인식하는 서버, 방법 및 컴퓨터 프로그램 | |
CN115269836A (zh) | 意图识别方法及装置 | |
CN113793599B (zh) | 语音识别模型的训练方法和语音识别方法及装置 | |
CN114399995A (zh) | 语音模型的训练方法、装置、设备及计算机可读存储介质 | |
CN105869631B (zh) | 语音预测的方法和装置 | |
CN117592564A (zh) | 问答交互方法、装置、设备及介质 | |
CN111326142A (zh) | 基于语音转文本的文本信息提取方法、系统和电子设备 | |
CN110809796B (zh) | 具有解耦唤醒短语的语音识别系统和方法 | |
CN116186258A (zh) | 基于多模态知识图谱的文本分类方法、设备及存储介质 | |
CN113763925B (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN115691500A (zh) | 一种基于时延神经网络的电力客服语音识别方法及装置 | |
CN114373443A (zh) | 语音合成方法和装置、计算设备、存储介质及程序产品 | |
CN114706943A (zh) | 意图识别的方法、装置、设备和介质 | |
CN109657252A (zh) | 信息处理方法、装置、电子设备及计算机可读存储介质 | |
CN113674745A (zh) | 语音识别方法及装置 | |
CN113593523A (zh) | 基于人工智能的语音检测方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190212 |
|
RJ01 | Rejection of invention patent application after publication |