CN110288995A - 基于语音识别的交互方法、装置、存储介质和电子设备 - Google Patents

基于语音识别的交互方法、装置、存储介质和电子设备 Download PDF

Info

Publication number
CN110288995A
CN110288995A CN201910656593.XA CN201910656593A CN110288995A CN 110288995 A CN110288995 A CN 110288995A CN 201910656593 A CN201910656593 A CN 201910656593A CN 110288995 A CN110288995 A CN 110288995A
Authority
CN
China
Prior art keywords
recognition result
voice sequence
identified
model
target user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910656593.XA
Other languages
English (en)
Other versions
CN110288995B (zh
Inventor
张彬彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Go Out And Ask (suzhou) Information Technology Co Ltd
Original Assignee
Go Out And Ask (suzhou) Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Go Out And Ask (suzhou) Information Technology Co Ltd filed Critical Go Out And Ask (suzhou) Information Technology Co Ltd
Priority to CN201910656593.XA priority Critical patent/CN110288995B/zh
Publication of CN110288995A publication Critical patent/CN110288995A/zh
Application granted granted Critical
Publication of CN110288995B publication Critical patent/CN110288995B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明实施例公开了一种基于语音识别的交互方法、装置、存储介质和电子设备。本发明实施例根据目标用户的待识别语音序列获取第一识别结果和第二识别结果,并根据上述识别结果确定待识别语音序列的语音识别结果。在本实施例中,第一识别结果为根据待识别语音序列对应的特定类型的训练样本训练获得的第一模型的输出结果,因此在用于识别特定类型的语音序列时,第一模型具有较高的准确性。第二识别结果为根据多个类型的训练样本训练获得的第二模型的输出结果,因此在用于识别多个类型的语音序列时,第二模型具有较高的灵活性。由此,可以提升交互方法的准确性和灵活性。

Description

基于语音识别的交互方法、装置、存储介质和电子设备
技术领域
本发明公开涉及数据处理领域,具体涉及一种基于语音识别的交互方法、装置、存储介质和电子设备。
背景技术
随着科技的不断发展,语音识别技术逐渐应用于工业、家电、通信、医疗、家庭服务、消费电子产品等越来越多的行业。现有的语音识别技术能够有效降低人力成本,但有时也可能存在准确率较低的情况。因此如何提升人机交互过程中语音识别的准确率是亟需解决的问题。
发明内容
有鉴于此,本发明实施例目的在于提供一种基于语音识别的交互方法、装置、存储介质和电子设备,用于提升语音识别的准确率,同时提升语音识别的灵活性。
第一方面,本发明实施例提供了一种基于语音识别的交互方法,所述方法包括:
获取目标用户的待识别语音序列;
确定所述待识别语音序列对应的第一类型;
将所述待识别语音序列输入第一模型,获取对应的第一识别结果,所述第一模型为根据第一样本集合训练获得的模型,所述第一样本集合包括多个所述第一类型的语音序列;
将所述待识别语音序列输入第二模型,获取对应的第二识别结果,所述第二模型为根据第二样本集合训练获得的模型,所述第二样本集合包括多个类型的语音序列,所述多个类型包括所述第一类型;
根据所述第一识别结果和所述第二识别结果确定所述待识别语音序列的语音识别结果。
优选地,所述第一样本集合还包括各所述第一类型的语音序列对应的标签序列;
所述第二样本集合还包括各所述多个类型的语音序列对应的标签序列。
优选地,所述根据所述第一识别结果和所述第二识别结果确定所述待识别语音序列的语音识别结果包括:
获取所述目标用户的用户信息;
根据所述用户信息、所述第一识别结果和所述第二识别结果确定所述语音识别结果。
优选地,所述根据所述用户信息、所述第一识别结果和所述第二识别结果确定所述语音识别结果包括:
将所述用户信息中的预定信息与所述第一识别结果进行匹配;
响应于所述预定信息与所述第一识别结果匹配,将所述第一识别结果确定为所述语音识别结果;
响应于所述预定信息与所述第一识别结果不匹配,将所述第二识别结果确定为所述语音识别结果。
优选地,所述获取目标用户的待识别语音序列包括:
向所述目标用户发送第一消息,所述第一消息用于提示所述目标用户发送所述第一类型的语音序列;
接收所述目标用户发送的所述待识别语音序列。
优选地,所述方法还包括:
根据所述语音识别结果向所述目标用户进行反馈。
优选地,所述根据所述语音识别结果向所述目标用户进行反馈包括:
响应于所述语音识别结果为所述第一识别结果,向所述目标用户发送第二消息,所述第二消息用于提示所述目标用户发送第二类型的语音序列;
响应于所述语音识别结果为所述第二识别结果且与预定规则匹配,向所述目标用户发送第三信息,所述第三信息用于提示所述目标用户的信息验证失败;
响应于所述语音识别结果为所述第二识别结果且与所述预定规则不匹配,向所述目标用户发送第一信息,所述第一信息用于提示所述目标用户发送所述第一类型的语音序列。
第二方面,本发明实施例提供了一种基于语音识别的交互装置,所述装置包括:
第一获取单元,用于获取目标用户的待识别语音序列;
第一确定单元,用于确定所述待识别语音序列对应的第一类型;
第二获取单元,用于将所述待识别语音序列输入第一模型,获取对应的第一识别结果,所述第一模型为根据所述第一类型的语音序列构成的第一样本集合训练获得的模型;
第三获取单元,用于将所述待识别语音序列输入第二模型,获取对应的第二识别结果,所述第二模型为根据多个类型的语音序列构成的第二样本集合训练获得的模型,所述多个类型包括所述第一类型;
第二确定单元,用于根据所述第一识别结果和所述第二识别结果确定所述待识别语音序列的语音识别结果。
第三方面,本发明实施例提供了一种计算机可读存储介质,其上存储计算机程序指令,其中,所述计算机程序指令在被处理器执行时实现如第一方面中任一项所述的方法。
第四方面,本发明实施例提供了一种电子设备,包括存储器和处理器,其中,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面中任一项所述的方法。
本发明实施例根据目标用户的待识别语音序列获取第一识别结果和第二识别结果,并根据上述识别结果确定待识别语音序列的语音识别结果。在本实施例中,第一识别结果为根据待识别语音序列对应的特定类型的训练样本训练获得的第一模型的输出结果,因此在用于识别特定类型的语音序列时,第一模型具有较高的准确性。第二识别结果为根据多个类型的训练样本训练获得的第二模型的输出结果,因此在用于识别多个类型的语音序列时,第二模型具有较高的灵活性。由此,可以提升交互方法的准确性和灵活性。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是本发明第一实施例的基于语音识别的交互方法的流程图;
图2是本发明第一实施例的一个可选的实现方式中确定语音识别结果的流程图;
图3是本发明第一实施例的基于语音识别的交互方法的数据流程图;
图4是本发明第二实施例的基于语音识别的交互装置的示意图;
图5是本发明第三实施例的电子设备的示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
现有的语音识别技术能够有效降低人力成本,但在特定情况下,可能存在准确率较低的情况。以中文和英文、法文等非中文语种的语音识别为例,语音识别系统通常能够识别发音规则差别较大的词汇,但对于发音规则相近的词汇而言,语音识别系统识别的准确率通常较低。例如,用户发出的语音为“should”,而语音识别系统可能会将“should”错误地识别为“熟悉”,影响后续的交互,从而对用户的使用体验造成影响。因此,如何提升人机交互过程中语音识别的准确率是亟需解决的问题。
图1是本发明第一实施例的基于语音识别的交互方法的流程图。如图1所示,本实施例的方法包括如下步骤:
步骤S100,获取目标用户的待识别语音序列。
在人机交互的过程中,服务器需要根据当前用户在登录时使用的用户标识,或者致电过程中的电话号码等信息初步确认当前用户的用户身份,并将当前用户确定为目标用户。由此,可以以预定周期采集目标用户发出的语音,并将采集到的语音确定为待识别语音序列。具体地,可以根据实际需求设定预定周期的周期长度,例如0.1s等。
可选地,根据语音识别系统的应用场景不同,服务器可以向当前用户发送不同的第一消息,提示当前用户发送第一类型的语音序列(也即,提示当前用户做出第一类型的语音应答),并获取目标用户的待识别语音序列。例如,服务器可以通过身份证号等数字类型的信息判断是否有人冒用目标用户的用户身份,在再次确认当前用户的用户身份时,可以通过第一消息提示当前用户报出身份证号等数字类型的信息,并获取当前用户报出的语音序列作为待识别语音序列。
在本实施例中,根据实际需求的不同,第一类型可以为数字、中文、英文、普通话、方言等多个类型,本实施例不做具体限定。
步骤S200,确定待识别语音序列对应的第一类型。
可选地,服务器可以在向当前用户发送第一消息的同时,根据第一消息确定待识别语音序列对应的第一类型。由此,可以在后续根据第一类型对待识别语音序列进行识别,获取对应的识别结果。
步骤S300,将待识别语音序列输入第一模型,获取对应的第一识别结果。
可选地,第一模型可以为神经网络、隐马尔科夫模型(Hidden Markov Model,HMM)、高斯混合模型(Gaussian Mixture Model)、LSTM-CTC(Long Short-Term Memory-Connectionist temporal classification,长短期记忆网络-联结时间分类模型)等,第一识别结果可以为待识别语音序列中每个声学特征向量对应的特定类型的标签构成的序列。其中,标签可以用于表征音素、字符、数字等。
以神经网络为例,神经网络全称人工神经网络(Artificial Neural Network,ANN),是由大量处理单元互联形成的信息处理模型。常见的ANN包括卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)等。ANN具有非线性(适于处理非线性信息)、非局限性(也即,一个系统的整体行为取决于处理单元间的相互作用)、非常定性(也即,具有自适应、自组织、自学习能力,能够在处理信息的过程中不断进行自我学习)和非凸性(模型的激活函数具有多个极值,这使得模型具有多个较为稳定的平衡态,从而使得模型的变化是多样的)的特点,因此能够广泛地应用于各种领域,进行较为准确的数据(在本实施例中,也即,标签)预测。
在本实施例中,第一模型由第一样本集合训练获得。第一样本集合包括多个第一类型的语音序列以及各第一类型的语音序列对应的标签序列。例如,第一类型为数字类型,则第一类型的语音序列可以为发音为“123”的语音序列及标签序列“123”;第一类型为英文类型,则第一类型的语音序列可以为发音为“good”的语音序列及标签序列“good”。容易理解,也可以将单一数字发音、单一音素发音的语音片段看作一个语音序列,将对应的单一数字、单一因素看作一个标签序列。
在第一模型的训练过程中,输入为多个第一类型的语音序列,输出为对应的标签序列。由此,第一模型能够在后续对于第一类型的语音序列具有准确性较高的识别能力,从而提升了基于语音识别的交互方法的准确性。
容易理解,在本实施例中,第一类型也可以为符合特定规则的数字与英文结合、数字与中文结合、英文与中文结合等复合类型,例如,身份证号、地址等。由此使得第一模型能够对如“462X”(也即,身份证号后四位)、“xx省xx市xx县xx街道xxx号”(也即,家庭住址、公司地址等)等符合特定规则的语音序列进行识别。
步骤S400,将待识别语音序列输入第二模型,获取对应的第二识别结果。
可选地,第二模型可以为神经网络、隐马尔科夫模型(Hidden Markov Model,HMM)、高斯混合模型(Gaussian Mixture Model)、LSTM-CTC(Long Short-Term Memory-Connectionist temporal classification,长短期记忆网络-联结时间分类模型)等,第二识别结果可以为待识别语音序列中每个声学特征向量对应的标签构成的序列。其中,标签可以用于表征音素、字符等。
以隐马尔科夫模型为例,HMM是一种统计模型,用于描述一个含有隐含未知参数的马尔科夫过程。HMM是MC(马尔科夫链,Markov Chain)(具有不可约性、重现性、周期性和遍历性)的一种,它的状态无法被直接观察到,但是能够通过观测向量序列(在本实施例中,也即,语音序列)观察到。每个观测向量都是通过某些概率密度分布呈现出各种状态,并由具有相应概率密度分布的状态序列产生。因此,HMM是一个双重随机过程,也即,具有一定状态数的隐MC和显示随机函数集,并被广泛地应用于语音识别。
在本实施例中,第二模型由第二样本集合训练获得。第二样本集合包括多个不同类型的语音序列以及各语音序列对应的标签序列。其中,多个类型可以包括第一类型。在第二模型的训练过程中,输入为多个不同类型的语音序列,输出为各语音序列对应的标签序列。由此使得第二模型能够对包括第一类型在内的多种不同类型的语音序列进行识别,具有较高的普适性。
容易理解,步骤S300和步骤S400可以同时执行,也可以先后执行,不必区分执行顺序。
步骤S500,根据第一识别结果和第二识别结果确定待识别语音序列的语音识别结果。
可选地,服务器可以根据当前用户在登录时使用的用户标识,或者致电过程中的电话号码等信息获取目标用户的用户信息,从而根据目标用户的用户信息、第一识别结果和第二识别结果确定待识别语音序列的语音识别结果。在本实施例中,目标用户的用户信息可以包括身份证号、年龄、生日、家庭住址、公司地址等信息,本实施例不做限定。
图2是本发明第一实施例的一个可选的实现方式中确定语音识别结果的流程图。如图2所示,在本实施例的一个可选的实现方式中,步骤S500可以包括如下步骤:
步骤S510,将用户信息中的预定信息与第一识别结果进行匹配。
在本实施例中,可以将预定信息与第一识别结果进行匹配。第一识别结果根据由特定类型(也即,第一类型)的语音序列训练获得的第一模型获得,因此在用来识别特定类型的待识别语音序列时能够获准确率较高的第一识别结果。因此,将预定信息与第一识别结果进行匹配可以提高基于语音识别的交互方法的准确性。
例如,第一模型用于识别序列长度为4位且类型为英文数字的语音序列,第二模型用于识别多个类型的语音序列。若当前用户发出的语音为“one one two eight(1128)”的语音序列,第一模型给出的第一识别结果可能为1128,第二模型给出的第二识别结果可能为“汪汪队”。因此,在用户发出的待识别语音序列为第一类型的语音序列时,第一模型的准确率通常高于第二模型。
步骤S520,将第一识别结果确定为语音识别结果。
具体地,若预定信息与第一识别结果匹配,则将第一识别结果确定为待识别语音序列的语音识别结果。例如,目标用户的生日(也即,预定信息)为0409,第一识别结果为0409,与目标用户的生日匹配,则将第一识别结果确定为待识别语音的语音识别结果。
步骤S530,将第二识别结果确定为语音识别结果。
具体地,若预定信息与第一识别结果不匹配,则将第二识别结果确定为待识别语音序列的语音识别结果。当前用户可能由于没有听清第一消息等原因无法做出第一类型的回答(也即,发出第一类型的语音序列),在这种情况下第二模型的准确率会高于第一模型,因此在预定信息与第一识别结果不匹配时,将第二识别结果确定为待识别语音的语音识别结果可以提高基于语音识别的交互方法的灵活性。
例如,第一模型用于识别序列长度为4位且类型为数字的语音序列,第二模型用于识别多个类型的语音序列。若当前用户发出的语音为“我没有听清楚”的语音序列,第一模型给出的第一识别结果可能为“5017”,第二模型给出的第二识别结果可能为“我没有听清楚”。因此,在用户发出的待识别语音序列为非第一类型的语音序列时,第二模型的准确率通常高于第一模型。
可选地,服务器还可以根据待识别语音序列的语音识别结果与目标用户进行进一步交互。在本实施例的另一种可选的实现方式中,本实施例的方法还可以包括如下步骤:
步骤S600,根据语音识别结果向目标用户进行反馈。
在一种可能的情况中,语音识别结果为第一识别结果,表示当前用户通过了信息认证,可以认为当前用户为目标用户,因此可以向目标用户发送第二消息,提示目标用户发送第二类型的语音序列(也即,提示目标用户做出第二类型的语音应答)。其中,第二类型可以为数字、中文、英文、普通话、方言等多个类型,本实施例不做具体限定。容易理解,第一类型和第二类型可以相同,也可以不同。
在另一种可能的情况中,语音识别结果为第二识别结果,可以进一步判断语音识别结果是否符合预定规则。若符合预定规则,有较大的可能表示当前用户冒用了目标用户的身份,或者当前用户报错了信息,可以向当前用户发送第三消息,提示目标用户的信息验证失败。
若不符合预定规则,可能表示当前用户没有听清服务器发送的第一消息,因此可以向当前用户再次发送第一消息,提示目标用户做出第二类型的语音应答。
容易理解,服务器还可以根据语音识别结果与目标用户进行其他方式的交互,例如,向目标用户发送预定内容的语音通知等,在此不做限定。同时,当服务器需要根据第二类型的待识别语音序列与目标用户再次进行交互时,可以将步骤S100中的第一类型更新为第二类型,将步骤S600中的第二类型更新为第三类型,并重复执行步骤S100-步骤S600。
图3是本发明第一实施例的基于语音识别的交互方法的数据流程图。如图3所示,结合图1及图2,本实施例的数据流向如下:
步骤S100,获取目标用户的待识别语音序列。
可选地,服务器可以向当前用户发送不同的第一消息,提示当前用户发送第一类型的语音序列,并获取目标用户的待识别语音序列31。
步骤S200,确定待识别语音序列对应的第一类型。
可选地,服务器可以在向当前用户发送第一消息的同时,根据第一消息确定待识别语音序列对应的第一类型32。
步骤S300,将待识别语音序列输入第一模型,获取对应的第一识别结果。
可选地,第一模型33可以为神经网络、隐马尔科夫模型、LSTM-CTC等,第一识别结果34可以为待识别语音序列中每个声学特征向量对应的特定类型的标签构成的序列。第一模型33的训练方式在此不再赘述。
步骤S400,将待识别语音序列输入第二模型,获取对应的第二识别结果。
可选地,第二模型35可以为神经网络、隐马尔科夫模型、高斯混合模型、LSTM-CTC等,第二识别结果36可以为待识别语音序列中每个声学特征向量对应的标签构成的序列。第二模型35的训练方式在此不再赘述。
步骤S500,根据第一识别结果和第二识别结果确定待识别语音序列的语音识别结果。
可选地,服务器可以获取目标用户的用户信息37,从而根据目标用户的用户信息37、第一识别结果34和第二识别结果36确定待识别语音序列31的语音识别结果38。
具体地,可以将用户信息37中的预定信息371与第一识别结果34进行匹配。若预定信息371与第一识别结果34匹配,则将第一识别结果34确定为语音识别结果38;若预定信息371与第一识别结果34不匹配,则将第二识别结果36确定为语音识别结果38。
步骤S600,根据语音识别结果向目标用户进行反馈。
本实施例根据目标用户的待识别语音序列获取第一识别结果和第二识别结果,并根据上述识别结果确定待识别语音序列的语音识别结果。在本实施例中,第一识别结果为根据待识别语音序列对应的特定类型的训练样本训练获得的第一模型的输出结果,因此在用于识别特定类型的语音序列时,第一模型具有较高的准确性。第二识别结果为根据多个类型的训练样本训练获得的第二模型的输出结果,因此在用于识别多个类型的语音序列时,第二模型具有较高的灵活性。由此,可以提升交互方法的准确性和灵活性。
图4是本发明第二实施例的基于语音识别的交互装置的示意图。如图4所示,本实施例的装置包括第一获取单元41、第一确定单元42、第二获取单元43、第三获取单元44和第二确定单元45。
其中,第一获取单元41用于获取目标用户的待识别语音序列。第一确定单元42用于确定所述待识别语音序列对应的第一类型。第二获取单元43用于将所述待识别语音序列输入第一模型,获取对应的第一识别结果,所述第一模型为根据所述第一类型的语音序列构成的第一样本集合训练获得的模型。第三获取单元44用于将所述待识别语音序列输入第二模型,获取对应的第二识别结果,所述第二模型为根据多个类型的语音序列构成的第二样本集合训练获得的模型,所述多个类型包括所述第一类型。第二确定单元45用于根据所述第一识别结果和所述第二识别结果确定所述待识别语音序列的语音识别结果。
进一步地,所述第一样本集合还包括各所述第一类型的语音序列对应的标签序列;
所述第二样本集合还包括各所述多个类型的语音序列对应的标签序列。
进一步地,所述第二确定单元45包括第一获取子单元451和第一确定子单元452。
其中,第一获取子单元451用于获取所述目标用户的用户信息。第一确定子单元452用于根据所述用户信息、所述第一识别结果和所述第二识别结果确定所述语音识别结果。
进一步地,所述第一确定子单元452包括第一匹配模块、第一确定模块和第二确定模块。
其中,第一匹配模块用于将所述用户信息中的预定信息与所述第一识别结果进行匹配。第一确定模块用于响应于所述预定信息与所述第一识别结果匹配,将所述第一识别结果确定为所述语音识别结果。第二确定模块用于响应于所述预定信息与所述第一识别结果不匹配,将所述第二识别结果确定为所述语音识别结果。
进一步地,所述第一获取单元41包括第一发送子单元411和接收子单元412。
其中,第一发送子单元411用于向所述目标用户发送第一消息,所述第一消息用于提示所述目标用户发送所述第一类型的语音序列。接收子单元412用于接收所述目标用户发送的所述待识别语音序列。
进一步地,所述装置还包括反馈单元46。
其中,反馈单元46用于根据所述语音识别结果向所述目标用户进行反馈。
进一步地,所述反馈单元46包括第二发送子单元461、第三发送子单元462和第四发送子单元463。
其中,第二发送子单元461用于响应于所述语音识别结果为所述第一识别结果,向所述目标用户发送第二消息,所述第二消息用于提示所述目标用户发送第二类型的语音序列。第三发送子单元462用于响应于所述语音识别结果为所述第二识别结果且与预定规则匹配,向所述目标用户发送第三信息,所述第三信息用于提示所述目标用户的信息验证失败。第四发送子单元463用于响应于所述语音识别结果为所述第二识别结果且与所述预定规则不匹配,向所述目标用户发送第一信息,所述第一信息用于提示所述目标用户发送所述第一类型的语音序列。
本实施例根据目标用户的待识别语音序列获取第一识别结果和第二识别结果,并根据上述识别结果确定待识别语音序列的语音识别结果。在本实施例中,第一识别结果为根据待识别语音序列对应的特定类型的训练样本训练获得的第一模型的输出结果,因此在用于识别特定类型的语音序列时,第一模型具有较高的准确性。第二识别结果为根据多个类型的训练样本训练获得的第二模型的输出结果,因此在用于识别多个类型的语音序列时,第二模型具有较高的灵活性。由此,可以提升交互方法的准确性和灵活性。
图5是本发明第三实施例的电子设备的示意图。图5所示的电子设备为通用数据处理装置,其包括通用的计算机硬件结构,其至少包括处理器51和存储器52。处理器51和存储器52通过总线53连接。存储器52适于存储处理器51可执行的指令或程序。处理器51可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器51通过执行存储器52所存储的命令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其他装置的控制。总线53将上述多个组件连接在一起,同时将上述组件连接到显示控制器54和显示装置以及输入/输出(I/O)装置55。输入/输出(I/O)装置55可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出(I/O)装置55通过输入/输出(I/O)控制器56与系统相连。
其中,存储器52可以存储软件组件,例如操作系统、通信模块、交互模块以及应用程序。以上所述的每个模块和应用程序都对应于完成一个或多个功能和在发明实施例中描述的方法的一组可执行程序指令。
上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应理解,流程图和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器,以产生机器,使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。
同时,如本领域技术人员将意识到的,本发明实施例的各个方面可以被实现为系统、方法或计算机程序产品。因此,本发明实施例的各个方面可以采取如下形式:完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实施方式。此外,本发明的方面可以采取如下形式:在一个或多个计算机可读介质中实现的计算机程序产品,计算机可读介质具有在其上实现的计算机可读程序代码。
可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置,或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项:具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中,计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。
计算机可读信号介质可以包括传播的数据信号,所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式,包括但不限于:电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质:不是计算机可读存储介质,并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。
用于执行针对本发明各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写,所述编程语言包括:面向对象的编程语言如Java、Smalltalk、C++、PHP、Python等;以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行;部分地在用户计算机上且部分地在远程计算机上执行;或者完全地在远程计算机或服务器上执行。在后一种情况下,可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户计算机,或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于语音识别的交互方法,其特征在于,所述方法包括:
获取目标用户的待识别语音序列;
确定所述待识别语音序列对应的第一类型;
将所述待识别语音序列输入第一模型,获取对应的第一识别结果,所述第一模型为根据第一样本集合训练获得的模型,所述第一样本集合包括多个所述第一类型的语音序列;
将所述待识别语音序列输入第二模型,获取对应的第二识别结果,所述第二模型为根据第二样本集合训练获得的模型,所述第二样本集合包括多个类型的语音序列,所述多个类型包括所述第一类型;
根据所述第一识别结果和所述第二识别结果确定所述待识别语音序列的语音识别结果。
2.根据权利要求1所述的方法,其特征在于,所述第一样本集合还包括各所述第一类型的语音序列对应的标签序列;
所述第二样本集合还包括各所述多个类型的语音序列对应的标签序列。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一识别结果和所述第二识别结果确定所述待识别语音序列的语音识别结果包括:
获取所述目标用户的用户信息;
根据所述用户信息、所述第一识别结果和所述第二识别结果确定所述语音识别结果。
4.根据权利要求3所述的方法,其特征在于,所述根据所述用户信息、所述第一识别结果和所述第二识别结果确定所述语音识别结果包括:
将所述用户信息中的预定信息与所述第一识别结果进行匹配;
响应于所述预定信息与所述第一识别结果匹配,将所述第一识别结果确定为所述语音识别结果;
响应于所述预定信息与所述第一识别结果不匹配,将所述第二识别结果确定为所述语音识别结果。
5.根据权利要求1所述的方法,其特征在于,所述获取目标用户的待识别语音序列包括:
向所述目标用户发送第一消息,所述第一消息用于提示所述目标用户发送所述第一类型的语音序列;
接收所述目标用户发送的所述待识别语音序列。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述语音识别结果向所述目标用户进行反馈。
7.根据权利要求6所述的方法,其特征在于,所述根据所述语音识别结果向所述目标用户进行反馈包括:
响应于所述语音识别结果为所述第一识别结果,向所述目标用户发送第二消息,所述第二消息用于提示所述目标用户发送第二类型的语音序列;
响应于所述语音识别结果为所述第二识别结果且与预定规则匹配,向所述目标用户发送第三信息,所述第三信息用于提示所述目标用户的信息验证失败;
响应于所述语音识别结果为所述第二识别结果且与所述预定规则不匹配,向所述目标用户发送第一信息,所述第一信息用于提示所述目标用户发送所述第一类型的语音序列。
8.一种基于语音识别的交互装置,其特征在于,所述装置包括:
第一获取单元,用于获取目标用户的待识别语音序列;
第一确定单元,用于确定所述待识别语音序列对应的第一类型;
第二获取单元,用于将所述待识别语音序列输入第一模型,获取对应的第一识别结果,所述第一模型为根据第一样本集合训练获得的模型,所述第一样本集合包括多个所述第一类型的语音序列;
第三获取单元,用于将所述待识别语音序列输入第二模型,获取对应的第二识别结果,所述第二模型为根据第二样本集合训练获得的模型,所述第二样本集合包括多个类型的语音序列,所述多个类型包括所述第一类型;
第二确定单元,用于根据所述第一识别结果和所述第二识别结果确定所述待识别语音序列的语音识别结果。
9.一种计算机可读存储介质,其上存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-7中任一项所述的方法。
10.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-7中任一项所述的方法。
CN201910656593.XA 2019-07-19 2019-07-19 基于语音识别的交互方法、装置、存储介质和电子设备 Active CN110288995B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910656593.XA CN110288995B (zh) 2019-07-19 2019-07-19 基于语音识别的交互方法、装置、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910656593.XA CN110288995B (zh) 2019-07-19 2019-07-19 基于语音识别的交互方法、装置、存储介质和电子设备

Publications (2)

Publication Number Publication Date
CN110288995A true CN110288995A (zh) 2019-09-27
CN110288995B CN110288995B (zh) 2021-07-16

Family

ID=68023553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910656593.XA Active CN110288995B (zh) 2019-07-19 2019-07-19 基于语音识别的交互方法、装置、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN110288995B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110517675A (zh) * 2019-08-08 2019-11-29 出门问问信息科技有限公司 基于语音识别的交互方法、装置、存储介质和电子设备
CN110853629A (zh) * 2019-11-21 2020-02-28 中科智云科技有限公司 一种基于深度学习的语音识别数字的方法
CN112329926A (zh) * 2020-11-30 2021-02-05 珠海采筑电子商务有限公司 智能机器人的质量改善方法及系统
CN112435671A (zh) * 2020-11-11 2021-03-02 深圳市小顺智控科技有限公司 汉语精准识别的智能化语音控制方法及系统
CN113192495A (zh) * 2020-01-10 2021-07-30 普天信息技术有限公司 语音识别方法及装置
CN113299282A (zh) * 2021-07-23 2021-08-24 北京世纪好未来教育科技有限公司 一种语音识别方法、装置、设备及存储介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1593980A (zh) * 2003-09-09 2005-03-16 摩托罗拉公司 自动语音归类方法
US20110015925A1 (en) * 2009-07-15 2011-01-20 Kabushiki Kaisha Toshiba Speech recognition system and method
CN104584118A (zh) * 2012-06-22 2015-04-29 约翰逊控制技术公司 多遍车辆语音识别系统和方法
CN105096941A (zh) * 2015-09-02 2015-11-25 百度在线网络技术(北京)有限公司 语音识别方法以及装置
CN105679314A (zh) * 2015-12-28 2016-06-15 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN106104674A (zh) * 2014-03-24 2016-11-09 微软技术许可有限责任公司 混合语音识别
US20180075846A1 (en) * 2013-03-11 2018-03-15 Nuance Communications, Inc. Semantic re-ranking of nlu results in conversational dialogue applications
US20180174589A1 (en) * 2016-12-19 2018-06-21 Samsung Electronics Co., Ltd. Speech recognition method and apparatus
CN108257593A (zh) * 2017-12-29 2018-07-06 深圳和而泰数据资源与云技术有限公司 一种语音识别方法、装置、电子设备及存储介质
CN108538292A (zh) * 2018-04-26 2018-09-14 科大讯飞股份有限公司 一种语音识别方法、装置、设备及可读存储介质
CN109243461A (zh) * 2018-09-21 2019-01-18 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及存储介质
CN109409049A (zh) * 2018-10-10 2019-03-01 北京京东金融科技控股有限公司 用于识别交互操作的方法和装置
CN109523995A (zh) * 2018-12-26 2019-03-26 出门问问信息科技有限公司 语音识别方法、语音识别装置、可读存储介质和电子设备
CN109887497A (zh) * 2019-04-12 2019-06-14 北京百度网讯科技有限公司 语音识别的建模方法、装置及设备

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1593980A (zh) * 2003-09-09 2005-03-16 摩托罗拉公司 自动语音归类方法
US20110015925A1 (en) * 2009-07-15 2011-01-20 Kabushiki Kaisha Toshiba Speech recognition system and method
CN104584118A (zh) * 2012-06-22 2015-04-29 约翰逊控制技术公司 多遍车辆语音识别系统和方法
US20180075846A1 (en) * 2013-03-11 2018-03-15 Nuance Communications, Inc. Semantic re-ranking of nlu results in conversational dialogue applications
CN106104674A (zh) * 2014-03-24 2016-11-09 微软技术许可有限责任公司 混合语音识别
CN105096941A (zh) * 2015-09-02 2015-11-25 百度在线网络技术(北京)有限公司 语音识别方法以及装置
CN105679314A (zh) * 2015-12-28 2016-06-15 百度在线网络技术(北京)有限公司 语音识别方法和装置
US20180174589A1 (en) * 2016-12-19 2018-06-21 Samsung Electronics Co., Ltd. Speech recognition method and apparatus
CN108257593A (zh) * 2017-12-29 2018-07-06 深圳和而泰数据资源与云技术有限公司 一种语音识别方法、装置、电子设备及存储介质
CN108538292A (zh) * 2018-04-26 2018-09-14 科大讯飞股份有限公司 一种语音识别方法、装置、设备及可读存储介质
CN109243461A (zh) * 2018-09-21 2019-01-18 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及存储介质
CN109409049A (zh) * 2018-10-10 2019-03-01 北京京东金融科技控股有限公司 用于识别交互操作的方法和装置
CN109523995A (zh) * 2018-12-26 2019-03-26 出门问问信息科技有限公司 语音识别方法、语音识别装置、可读存储介质和电子设备
CN109887497A (zh) * 2019-04-12 2019-06-14 北京百度网讯科技有限公司 语音识别的建模方法、装置及设备

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110517675A (zh) * 2019-08-08 2019-11-29 出门问问信息科技有限公司 基于语音识别的交互方法、装置、存储介质和电子设备
CN110517675B (zh) * 2019-08-08 2021-12-03 出门问问信息科技有限公司 基于语音识别的交互方法、装置、存储介质和电子设备
CN110853629A (zh) * 2019-11-21 2020-02-28 中科智云科技有限公司 一种基于深度学习的语音识别数字的方法
CN113192495A (zh) * 2020-01-10 2021-07-30 普天信息技术有限公司 语音识别方法及装置
CN112435671A (zh) * 2020-11-11 2021-03-02 深圳市小顺智控科技有限公司 汉语精准识别的智能化语音控制方法及系统
CN112435671B (zh) * 2020-11-11 2021-06-29 深圳市小顺智控科技有限公司 汉语精准识别的智能化语音控制方法及系统
CN112329926A (zh) * 2020-11-30 2021-02-05 珠海采筑电子商务有限公司 智能机器人的质量改善方法及系统
CN113299282A (zh) * 2021-07-23 2021-08-24 北京世纪好未来教育科技有限公司 一种语音识别方法、装置、设备及存储介质
CN113299282B (zh) * 2021-07-23 2021-11-26 北京世纪好未来教育科技有限公司 一种语音识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110288995B (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
CN110288995A (zh) 基于语音识别的交互方法、装置、存储介质和电子设备
JP6828001B2 (ja) 音声ウェイクアップ方法及び装置
US9742912B2 (en) Method and apparatus for predicting intent in IVR using natural language queries
CN107818798A (zh) 客服服务质量评价方法、装置、设备及存储介质
CN108877782B (zh) 语音识别方法和装置
KR20180070684A (ko) 다이얼로그 시스템들에서의 파라미터 수집 및 자동 다이얼로그 생성
WO2018071594A1 (en) Systems, apparatus, and methods for platform-agnostic message processing
CN107623614A (zh) 用于推送信息的方法和装置
CN106407178A (zh) 一种会话摘要生成方法及装置
US8165887B2 (en) Data-driven voice user interface
EP1593049A1 (en) System for predicting speec recognition accuracy and development for a dialog system
CN110347863A (zh) 话术推荐方法和装置及存储介质
JP2016020963A (ja) 対話評価装置、対話評価システム、対話評価方法および対話評価プログラム
CN109801631A (zh) 基于语音识别的录入方法、装置、计算机设备及存储介质
CN112541068A (zh) 语音对话的意图识别方法、系统、设备及存储介质
CN113111658B (zh) 校验信息的方法、装置、设备和存储介质
CN111160002B (zh) 用于输出口语理解中解析异常信息的方法和装置
CN108206020A (zh) 一种语音识别方法、装置及终端设备
CN114722171B (zh) 多轮对话处理方法、装置、电子设备及存储介质
Hwang et al. Chatti: A conversational chatbot platform
CN114202363A (zh) 基于人工智能的话术调用方法、装置、计算机设备及介质
CN110517675A (zh) 基于语音识别的交互方法、装置、存储介质和电子设备
CN113656566A (zh) 智能对话处理方法、装置、计算机设备及存储介质
Bang et al. UX Design and Evaluation on Conversational Bot Supporting Multi-Turn and Multi-Domain Dialogues
CN113836932A (zh) 交互方法、装置和系统,以及智能设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant