CN110517675A - 基于语音识别的交互方法、装置、存储介质和电子设备 - Google Patents
基于语音识别的交互方法、装置、存储介质和电子设备 Download PDFInfo
- Publication number
- CN110517675A CN110517675A CN201910731433.7A CN201910731433A CN110517675A CN 110517675 A CN110517675 A CN 110517675A CN 201910731433 A CN201910731433 A CN 201910731433A CN 110517675 A CN110517675 A CN 110517675A
- Authority
- CN
- China
- Prior art keywords
- recognition result
- information
- voice sequence
- target user
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 30
- 230000004044 response Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 13
- 230000005540 biological transmission Effects 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 12
- 230000002452 interceptive effect Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 230000003993 interaction Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000008878 coupling Effects 0.000 description 5
- 238000010168 coupling process Methods 0.000 description 5
- 238000005859 coupling reaction Methods 0.000 description 5
- 235000013399 edible fruits Nutrition 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 150000001875 compounds Chemical class 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000001737 promoting effect Effects 0.000 description 3
- 241000232971 Passer domesticus Species 0.000 description 2
- 241000287127 Passeridae Species 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000465 moulding Methods 0.000 description 1
- 210000003733 optic disk Anatomy 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明实施例公开了一种基于语音识别的交互方法、装置、存储介质和电子设备。本发明实施例根据目标用户的待识别语音序列获取第一识别结果和第二识别结果,并根据上述识别结果确定待识别语音序列的语音识别结果。在本实施例中,第一识别结果为根据待识别语音序列对应的特定类型的训练样本训练获得的专用模型的输出结果,因此在用于识别特定类型的语音序列时,专用模型具有较高的准确性。第二识别结果为根据多个类型的训练样本训练获得的通用模型的输出结果,因此在用于识别多个类型的语音序列时,通用模型具有较高的灵活性。由此,可以提升交互方法的准确性和灵活性。
Description
技术领域
本发明公开涉及数据处理领域,具体涉及一种基于语音识别的交互方法、装置、存储介质和电子设备。
背景技术
随着科技的不断发展,语音识别技术逐渐应用于工业、家电、通信、医疗、家庭服务、消费电子产品等越来越多的行业。现有的语音识别技术能够有效降低人力成本,但有时也可能存在准确率较低的情况。因此如何提升人机交互过程中语音识别的准确率是亟需解决的问题。
发明内容
有鉴于此,本发明实施例目的在于提供一种基于语音识别的交互方法、装置、存储介质和电子设备,用于提升语音识别的准确率,同时提升语音识别的灵活性。
第一方面,本发明实施例提供了一种基于语音识别的交互方法,所述方法包括:
向目标用户发送第一消息,所述第一消息用于提示所述目标用户发送识别结果为第一类型的语音序列;
获取所述目标用户的待识别语音序列;
基于第一模型,获取所述待识别语音序列对应的第一识别结果,所述第一模型为根据第一样本集合训练获得的模型,所述第一样本集合包括多个识别结果为所述第一类型的语音序列;
基于第二模型,获取所述待识别语音序列对应的第二识别结果,所述第二模型为根据第二样本集合训练获得的模型,所述第二样本集合包括多个识别结果分别为不同类型的语音序列,所述不同类型包括所述第一类型;
获取所述第一消息对应的第一信息集合,所述第一信息集合为根据与所述第一消息匹配的所述目标用户的特定信息确定的集合;
根据所述第一信息集合、所述第一识别结果和所述第二识别结果确定所述待识别语音序列的语音识别结果。
优选地,所述第一样本集合还包括各所述识别结果为第一类型的语音序列对应的标签序列;
所述第二样本集合还包括各所述识别结果为不同类型的语音序列对应的标签序列。
优选地,所述根据所述第一信息集合、所述第一识别结果和所述第二识别结果确定所述语音识别结果包括:
响应于所述第一识别结果与所述第二识别结果匹配,将所述第一识别结果确定为所述语音识别结果;
响应于所述第一识别结果与所述第二识别结果不匹配,将所述第一识别结果与所述第一信息集合匹配;
响应于所述第一识别结果与所述第一信息集合匹配,将所述第一识别结果确定为所述语音识别结果;
响应于所述第一识别结果与所述第一信息集合不匹配,将所述第二识别结果确定为所述语音识别结果。
优选地,所述将所述第一识别结果与所述第一信息集合匹配包括:
提取所述第一识别结果中的第一关键信息;
将所述第一关键信息与所述第一信息集合中的各信息进行匹配。
优选地,所述方法还包括:
根据所述语音识别结果向所述目标用户进行反馈。
优选地,所述根据所述语音识别结果向所述目标用户进行反馈包括:
获取所述第一消息对应的第一信息集合,所述第一信息集合为根据与所述第一消息匹配的所述目标用户的特定信息确定的集合;
将所述语音识别结果与所述第一信息集合进行匹配;
响应于所述语音识别结果与所述第一信息集合匹配,向所述目标用户发送第二消息,所述第二消息用于提示所述目标用户发送识别结果为第二类型的语音序列;
响应于所述语音识别结果与所述第一信息集合不匹配,向所述目标用户发送第三信息,所述第三信息用于提示所述目标用户的信息验证失败。
根据本发明实施例的第二方面,提供了一种基于语音识别的交互装置,所述装置包括:
第一发送单元,用于向目标用户发送第一消息,所述第一消息用于提示所述目标用户发送识别结果为第一类型的语音序列;
第一获取单元,用于获取所述目标用户的待识别语音序列;
第二获取单元,用于基于第一模型,获取所述待识别语音序列对应的第一识别结果,所述第一模型为根据第一样本集合训练获得的模型,所述第一样本集合包括多个识别结果为所述第一类型的语音序列;
第三获取单元,用于基于第二模型,获取所述待识别语音序列对应的第二识别结果,所述第二模型为根据第二样本集合训练获得的模型,所述第二样本集合包括多个识别结果分别为不同类型的语音序列,所述不同类型包括所述第一类型;
第四获取单元,用于获取所述第一消息对应的第一信息集合,所述第一信息集合为根据与所述第一消息匹配的所述目标用户的特定信息确定的集合;
确定单元,用于根据所述第一信息集合、所述第一识别结果和所述第二识别结果确定所述待识别语音序列的语音识别结果。
根据本发明实施例的第三方面,提供了一种计算机可读存储介质,其上存储计算机程序指令,其中,所述计算机程序指令在被处理器执行时实现如第一方面中任一项所述的方法。
根据本发明实施例的第四方面,提供了一种电子设备,包括存储器和处理器,其中,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面中任一项所述的方法。
本发明实施例根据目标用户的待识别语音序列获取第一识别结果和第二识别结果,并根据上述识别结果确定待识别语音序列的语音识别结果。在本实施例中,第一识别结果为根据待识别语音序列对应的特定类型的训练样本训练获得的专用模型的输出结果,因此在用于识别特定类型的语音序列时,专用模型具有较高的准确性。第二识别结果为根据多个类型的训练样本训练获得的通用模型的输出结果,因此在用于识别多个类型的语音序列时,通用模型具有较高的灵活性。由此,可以提升交互方法的准确性和灵活性。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是本发明第一实施例的基于语音识别的交互方法的流程图;
图2是本发明实施例的第一识别结果与第一信息集合进行匹配的示意图;
图3是本发明第二实施例的基于语音识别的交互装置的示意图;
图4是本发明第三实施例的电子设备的示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则整个说明书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
现有的语音识别技术能够有效降低人力成本,但在特定情况下,可能存在准确率较低的情况。以中文和英文、法文等非中文语种的语音识别为例,语音识别系统通常能够识别发音规则差别较大的词汇,但对于发音规则相近的词汇而言,语音识别系统识别的准确率通常较低。例如,用户发出的语音为“should”,而语音识别系统可能会将“should”错误地识别为“熟悉”,影响后续的交互,从而对用户的使用体验造成影响。因此,如何提升人机交互过程中语音识别的准确率是亟需解决的问题。
图1是本发明第一实施例的基于语音识别的交互方法的流程图。如图1所示,本实施例的方法包括如下步骤:
步骤S100,向目标用户发送第一消息。
在人机交互的过程中,服务器需要根据当前用户在登录时使用的用户标识,或者致电过程中的电话号码等信息初步确认当前用户的用户身份,并将当前用户确定为目标用户。具体地,根据语音识别系统的应用场景不同,服务器可以向当前用户发送不同的第一消息,提示目标用户发送识别结果为第一类型的语音序列(也即,提示目标用户做出第一类型的语音应答)。
在本实施例中,根据实际需求的不同,第一类型可以为数字、中文、英文等单一类型或身份证号、住址等复合类型,本实施例不做具体限定。
步骤S200,获取目标用户的待识别语音序列。
可选地,服务器可以在向用户发送第一消息后,获取目标用户发出的语音序列作为待识别语音序列。例如,服务器可以通过身份证号等数字类型的信息判断是否有人冒用目标用户的用户身份,在再次确认当前用户的用户身份时,可以通过第一消息提示当前用户报出身份证号等类型的语音应答,并获取当前用户报出的语音序列作为待识别语音序列。
具体地,在获取目标用户的待识别语音序列时,可以与预定周期进行采集,由此可以在后续降低服务器的计算量,同时提升语音识别的速度。其中,预定周期的周期长度可以根据实际需求进行设定,例如0.1s等。
步骤S300,基于第一模型,获取待识别语音序列对应的第一识别结果。
在本实施例中,标签序列为语音序列(包括待识别语音序列)中每个声学特征向量对应的标签构成的序列,标签可以用于表征音素、字符、数字等。具体地,可以将待识别语音序列输入第一模型获取待识别语音序列对应的标签序列,从而根据第一模型识别获得的标签序列确定待识别语音序列的第一识别结果。
第一模型可以为神经网络、隐马尔科夫模型(Hidden Markov Model,HMM)、高斯混合模型(Gaussian Mixture Model)、LSTM-CTC(Long Short-Term Memory-Connectionisttemporal classification,长短期记忆网络-联结时间分类模型)等,本实施例不做具体限定。
以神经网络为例,神经网络全称人工神经网络(Artificial Neural Network,ANN),是由大量处理单元互联形成的信息处理模型。常见的ANN包括卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)等。ANN具有非线性(适于处理非线性信息)、非局限性(也即,一个系统的整体行为取决于处理单元间的相互作用)、非常定性(也即,具有自适应、自组织、自学习能力,能够在处理信息的过程中不断进行自我学习)和非凸性(模型的激活函数具有多个极值,这使得模型具有多个较为稳定的平衡态,从而使得模型的变化是多样的)的特点,因此能够广泛地应用于各种领域,进行较为准确的数据(在本实施例中,也即,标签)预测。
在本实施例中,第一模型由第一样本集合训练获得。第一样本集合包括多个识别结果为第一类型的语音序列以及各第一类型的语音序列对应的标签序列。例如,第一类型为数字类型,则识别结果为第一类型的语音序列可以为识别结果为“123”的语音序列及标签序列“123”;第一类型为英文类型,则第一类型的语音序列可以为识别结果为“good”的语音序列及标签序列“good”。容易理解,也可以将单一数字发音、单一音素发音的语音片段看作一个语音序列,将对应的单一数字、单一因素看作一个标签序列。
在第一模型的训练过程中,输入为分别为第一样本集合中的各语音序列,输出为对应的标签序列。由此,第一模型能够在后续对于识别结果为第一类型的语音序列具有准确性较高的识别能力,从而提升了基于语音识别的交互方法的准确性。
例如,在第一类型为符合特定规则的数字与英文结合、数字与中文结合、英文与中文结合等复合类型,如,身份证号、地址时,第一模型能够对如“462X”(也即,身份证号后四位)、“xx省xx市xx县xx街道xxx号”(也即,家庭住址、公司地址等)等符合特定规则的语音序列进行识别。
标签序列可以反映目标用户的语音序列的发音规律。不同地区的用户在发音规律上可能存在差异性,因此可以预先获取不同地区的用户对于事物、概念、关系等的不同发音规律,也即标签序列与事物、概念、关系等的对应关系,从而根据目标用户的所在的地区确定待识别语音序列对应的第一识别结果。例如,对于北京地区的用户,若根据第一模型获得的待识别语音序列对应的标签序列为“jiaqiao”,则第一识别结果可以为“家雀”。
步骤S400,基于第二模型,获取待识别语音序列对应的第二识别结果。
具体地,可以将待识别语音序列输入第二模型获取待识别语音序列对应的标签序列,从而根据第二模型识别获得的标签序列确定待识别语音序列的第二识别结果。
类似地,第二模型同样可以为神经网络、隐马尔科夫模型、高斯混合模型、LSTM-CTC等,本实施例不做限定。以隐马尔科夫模型为例,HMM是一种统计模型,用于描述一个含有隐含未知参数的马尔科夫过程。HMM是MC(马尔科夫链,Markov Chain)(具有不可约性、重现性、周期性和遍历性)的一种,它的状态无法被直接观察到,但是能够通过观测向量序列(在本实施例中,也即,语音序列)观察到。每个观测向量都是通过某些概率密度分布呈现出各种状态,并由具有相应概率密度分布的状态序列产生。因此,HMM是一个双重随机过程,也即,具有一定状态数的隐MC和显示随机函数集,并被广泛地应用于语音识别。
在本实施例中,第二模型由第二样本集合训练获得。第二样本集合包括多个识别结果分别为不同类型的语音序列以及各语音序列对应的标签序列。其中,多个类型可以包括第一类型。在第二模型的训练过程中,输入为分别为第二样本集合中的各语音序列,输出为各语音序列对应的标签序列。由此使得第二模型能够对包括第一类型在内的多种类型的语音序列进行识别,具有较高的普适性。
例如,第一类型为数字类型时,第二模型既能够对识别结果为“123”(也即,第一类型)的语音序列进行识别,也能够对识别结果为中文、英文等非第一类型的语音序列进行识别,因此第二模型具有较高的普适性。
容易理解,在根据第二模型获取待识别语音序列对应的标签序列后,根据第二模型识别获得的标签序列确定待识别语音序列的第二识别结果的方式与根据第一模型识别获得的标签序列确定待识别语音序列的第一识别结果的方式相似,在此不再赘述。
容易理解,步骤S300和步骤S400可以同时执行,也可以先后执行,不必区分执行顺序。
步骤S500,获取第一消息对应的第一信息集合。
在本实施例中,第一信息集合为根据与第一消息匹配的目标用户的特定信息确定的集合。不同地区的用户对于同一事物、概念、关系等的描述方式不同,因此可以根据目标用户的住址所在地区、户籍所在地区、籍贯所在地区等对与第一消息匹配的目标用户的特定信息进行扩展,使得第一信息集合可以包括特定信息的同义词、简称等。由此可以有效降低不同地区的当前用户因描述方式的差异被判定为非目标用户的可能,提升语音识别的准确性。例如,第一消息用于提示当前用户报出目标用户的住址信息“麻雀胡同”,则第一信息集合可以包括“麻雀胡同”,也可以包括“家雀胡同”。
容易理解,步骤S500和步骤S300以及步骤S400可以同时执行,也可以先后执行,不必区分执行顺序。
步骤S600,根据第一信息集合、第一识别结果和第二识别结果确定待识别语音序列的语音识别结果。
在一种可能的情况中,若第一识别结果和第二识别结果匹配,则表示待识别语音序列的语音识别结果属于第一类型。由此,可以将准确性更高的第一识别结果确定为待识别语音序列的语音识别结果。
具体地,在将第一识别结果和第二识别结果进行匹配时,可以提取第一识别结果中的第一关键信息与第二识别结果中的第二关键信息。若第一关键信息与第二关键信息相同,则可以确定第一识别结果与第二识别结果匹配。
在另一种可能的情况中,若第一识别结果和第二识别结果不匹配,可能表示待识别语音序列的识别结果不属于第一类型(例如当前用户想要表达的信息为“没听清”),也可能表示第二识别结果不准确,因此可以将第一识别结果与第一信息集合进行匹配。若第一识别结果与第一信息集合匹配,表示第二识别结果不准确,因此可以将准确性更高的第一识别结果确定为待识别语音序列的语音识别结果。若第一识别结果与第一信息集合不匹配,表示待识别语音序列的识别结果不属于第一类型,则将第二识别结果确定为待识别语音序列的语音识别结果。
具体地,在将第一识别结果与第一信息结合进行匹配时,可以提取第一识别结果中的第一关键信息,并将第一关键信息与第一信息集合中的各关键信息进行匹配。可选地,若第一关键信息仅包括一项信息且第一关键信息与第一信息集合中的任一信息相同,则可以确定第一识别结果与第一信息集合匹配。可选地,若第一关键信息包括多项信息,则可以将第一关键信息中的各项信息与第一信息集合中的各项信息进行匹配。进一步地,若第一关键信息中的各项信息均与第一信息集合中的至少一项信息相同,则可以确定第一识别结果与第一信息集合匹配;若第一关键信息中存在至少一项信息与第一信息集合中的各项信息均不相同,则可以确定第一识别结果与第一信息集合不匹配。
图2是本发明实施例的第一识别结果与第一信息集合进行匹配的示意图。“xxx小区yyy单元zzz号”为服务器向目标用户发送第一消息后获得的待识别语音序列对应的第一识别结果。其中“xxx”“yyy”和“zzz”为第一识别结果中的第一关键信息。集合21为第一消息对应的第一信息集合,其中包括信息1a-1c,信息2a-2b和信息3a-3d。在将第一关键信息中的各项信息分别与集合21中的各项信息进行匹配后,得到第一关键信息中的“xxx”与集合21中的信息1b相同,第一关键信息中的“yyy”与集合21中的信息2b相同,第一关键信息中的“zzz”与集合21中的信息3c相同,也就是说,第一关键信息中的各项信息均能在集合21中找到对应的信息,因此可以确定第一识别结果与集合21匹配。
容易理解,在NLP(自然语言处理,Natural Language Processing)领域中,可以通过槽位填充的方式获取第一识别结果中的第一关键信息。
可选地,服务器还可以根据待识别语音序列的语音识别结果与目标用户进行进一步交互。在本实施例的另一种可选的实现方式中,本实施例的方法还可以包括如下步骤:
步骤S700,根据语音识别结果向目标用户进行反馈。
具体地,可以将第一信息集合与语音识别结果进行匹配,从而根据匹配结果向目标用户进行反馈。
在一种可能的情况中,若语音识别结果与第一信息集合匹配,表示当前用户通过了信息认证,可以认为当前用户为目标用户,因此可以向目标用户发送第二消息,提示目标用户发送识别结果为第二类型的语音序列(也即,提示目标用户做出第二类型的语音应答)。其中,第二类型同样可以为数字、中文、英文等单一类型或身份证号、住址等复合类型,本实施例不做具体限定。容易理解,第一类型和第二类型可以相同,也可以不同。
在另一种可能的情况中,若语音识别结果与第一信息集合不匹配,可能表示当前用户冒用了目标用户的身份,或者当前用户报错了信息,可以向当前用户发送第三消息,提示目标用户的信息验证失败。
在步骤中,语音识别结果与第一信息集合的匹配方式与第一识别结果与第一信息集合的匹配方式相似,在此不再赘述。
容易理解,服务器还可以根据语音识别结果与目标用户进行其他方式的交互,例如,若语音识别结果与第一信息集合不匹配,还可能表示当前用户没有听清服务器发送的第一消息,因此服务器可以对待识别语音序列对应的语音识别结果进行意图识别,从而根据意图识别的结果向当前用户发送对应的消息以进行提示,本实施例不做具体限定。同时,当服务器需要根据第二类型的待识别语音序列与目标用户再次进行交互时,可以将步骤S100中的第一消息更新为第二消息,将第一类型更新为第二类型;将步骤S500和步骤S600中的第一信息集合更新为第二信息集合(也即,根据与第二消息匹配的目标用户的特定信息确定的集合);将步骤S700中的第二类型更新为第三类型,并重复执行步骤S100-步骤S700。
本实施例根据目标用户的待识别语音序列获取第一识别结果和第二识别结果,并根据上述识别结果确定待识别语音序列的语音识别结果。在本实施例中,第一识别结果为根据待识别语音序列对应的特定类型的训练样本训练获得的专用模型的输出结果,因此在用于识别特定类型的语音序列时,专用模型具有较高的准确性。第二识别结果为根据多个类型的训练样本训练获得的通用模型的输出结果,因此在用于识别多个类型的语音序列时,通用模型具有较高的灵活性。由此,可以提升交互方法的准确性和灵活性。
图3是本发明第二实施例的基于语音识别的交互装置的示意图。如图3所示,本实施例的装置包括第一发送单元31、第一获取单元32、第二获取单元33、第三获取单元34、第四获取单元35和确定单元36。
其中,第一发送单元31用于向目标用户发送第一消息,所述第一消息用于提示所述目标用户发送识别结果为第一类型的语音序列。第一获取单元32用于获取所述目标用户的待识别语音序列。第二获取单元33用于基于第一模型,获取所述待识别语音序列对应的第一识别结果,所述第一模型为根据第一样本集合训练获得的模型,所述第一样本集合包括多个识别结果为所述第一类型的语音序列。第三获取单元34用于基于第二模型,获取所述待识别语音序列对应的第二识别结果,所述第二模型为根据第二样本集合训练获得的模型,所述第二样本集合包括多个识别结果分别为不同类型的语音序列,所述不同类型包括所述第一类型。第四获取单元35用于获取所述第一消息对应的第一信息集合,所述第一信息集合为根据与所述第一消息匹配的所述目标用户的特定信息确定的集合。确定单元36用于根据所述第一信息集合、所述第一识别结果和所述第二识别结果确定所述待识别语音序列的语音识别结果。
进一步地,所述第一样本集合还包括各所述识别结果为第一类型的语音序列对应的标签序列;
所述第二样本集合还包括各所述识别结果为不同类型的语音序列对应的标签序列。
进一步地,所述确定单元36包括第一确定子单元361、第一匹配子单元362、第二确定子单元363和第三确定子单元364。
其中,第一确定子单元361用于响应于所述第一识别结果与所述第二识别结果匹配,将所述第一识别结果确定为所述语音识别结果。第一匹配子单元362用于响应于所述第一识别结果与所述第二识别结果不匹配,将所述第一识别结果与所述第一信息集合匹配。第二确定子单元363用于响应于所述第一识别结果与所述第一信息集合匹配,将所述第一识别结果确定为所述语音识别结果。第三确定子单元364用于响应于所述第一识别结果与所述第一信息集合不匹配,将所述第二识别结果确定为所述语音识别结果。
进一步地,所述第一匹配子单元362包括提取模块和匹配模块。
其中,提取模块用于提取所述第一识别结果中的第一关键信息。匹配模块用于将所述第一关键信息与所述第一信息集合中的各信息进行匹配。
进一步地,所述装置还包括反馈单元37。
其中,反馈单元37用于根据所述语音识别结果向所述目标用户进行反馈。
进一步地,所述反馈单元37包括第二匹配子单元371、第一发送子单元372和第二发送子单元373。
其中,第二匹配子单元371用于将所述语音识别结果与所述第一信息集合进行匹配。第一发送子单元372用于响应于所述语音识别结果与所述第一信息集合匹配,向所述目标用户发送第二消息,所述第二消息用于提示所述目标用户发送识别结果为第二类型的语音序列。第二发送子单元373用于响应于所述语音识别结果与所述第一信息集合不匹配,向所述目标用户发送第三信息,所述第三信息用于提示所述目标用户的信息验证失败。
本实施例根据目标用户的待识别语音序列获取第一识别结果和第二识别结果,并根据上述识别结果确定待识别语音序列的语音识别结果。在本实施例中,第一识别结果为根据待识别语音序列对应的特定类型的训练样本训练获得的专用模型的输出结果,因此在用于识别特定类型的语音序列时,专用模型具有较高的准确性。第二识别结果为根据多个类型的训练样本训练获得的通用模型的输出结果,因此在用于识别多个类型的语音序列时,通用模型具有较高的灵活性。由此,可以提升交互方法的准确性和灵活性。
图4是本发明第三实施例的电子设备的示意图。图4所示的电子设备为通用数据处理装置,其包括通用的计算机硬件结构,其至少包括处理器41和存储器42。处理器41和存储器42通过总线43连接。存储器42适于存储处理器41可执行的指令或程序。处理器41可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器41通过执行存储器42所存储的命令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其他装置的控制。总线43将上述多个组件连接在一起,同时将上述组件连接到显示控制器44和显示装置以及输入/输出(I/O)装置45。输入/输出(I/O)装置45可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出(I/O)装置45通过输入/输出(I/O)控制器46与系统相连。
其中,存储器42可以存储软件组件,例如操作系统、通信模块、交互模块以及应用程序。以上所述的每个模块和应用程序都对应于完成一个或多个功能和在发明实施例中描述的方法的一组可执行程序指令。
上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应理解,流程图和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器,以产生机器,使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。
同时,如本领域技术人员将意识到的,本发明实施例的各个方面可以被实现为系统、方法或计算机程序产品。因此,本发明实施例的各个方面可以采取如下形式:完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实施方式。此外,本发明的方面可以采取如下形式:在一个或多个计算机可读介质中实现的计算机程序产品,计算机可读介质具有在其上实现的计算机可读程序代码。
可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置,或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项:具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中,计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。
计算机可读信号介质可以包括传播的数据信号,所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式,包括但不限于:电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质:不是计算机可读存储介质,并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。
用于执行针对本发明各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写,所述编程语言包括:面向对象的编程语言如Java、Smalltalk、C++、PHP、Python等;以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行;部分地在用户计算机上且部分地在远程计算机上执行;或者完全地在远程计算机或服务器上执行。在后一种情况下,可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户计算机,或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于语音识别的交互方法,其特征在于,所述方法包括:
向目标用户发送第一消息,所述第一消息用于提示所述目标用户发送识别结果为第一类型的语音序列;
获取所述目标用户的待识别语音序列;
基于第一模型,获取所述待识别语音序列对应的第一识别结果,所述第一模型为根据第一样本集合训练获得的模型,所述第一样本集合包括多个识别结果为所述第一类型的语音序列;
基于第二模型,获取所述待识别语音序列对应的第二识别结果,所述第二模型为根据第二样本集合训练获得的模型,所述第二样本集合包括多个识别结果分别为不同类型的语音序列,所述不同类型包括所述第一类型;
获取所述第一消息对应的第一信息集合,所述第一信息集合为根据与所述第一消息匹配的所述目标用户的特定信息确定的集合;
根据所述第一信息集合、所述第一识别结果和所述第二识别结果确定所述待识别语音序列的语音识别结果。
2.根据权利要求1所述的方法,其特征在于,所述第一样本集合还包括各所述识别结果为第一类型的语音序列对应的标签序列;
所述第二样本集合还包括各所述识别结果为不同类型的语音序列对应的标签序列。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一信息集合、所述第一识别结果和所述第二识别结果确定所述语音识别结果包括:
响应于所述第一识别结果与所述第二识别结果匹配,将所述第一识别结果确定为所述语音识别结果;
响应于所述第一识别结果与所述第二识别结果不匹配,将所述第一识别结果与所述第一信息集合匹配;
响应于所述第一识别结果与所述第一信息集合匹配,将所述第一识别结果确定为所述语音识别结果;
响应于所述第一识别结果与所述第一信息集合不匹配,将所述第二识别结果确定为所述语音识别结果。
4.根据权利要求3所述的方法,其特征在于,所述将所述第一识别结果与所述第一信息集合匹配包括:
提取所述第一识别结果中的第一关键信息;
将所述第一关键信息与所述第一信息集合中的各信息进行匹配。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述语音识别结果向所述目标用户进行反馈。
6.根据权利要求5所述的方法,其特征在于,所述根据所述语音识别结果向所述目标用户进行反馈包括:
将所述语音识别结果与所述第一信息集合进行匹配;
响应于所述语音识别结果与所述第一信息集合匹配,向所述目标用户发送第二消息,所述第二消息用于提示所述目标用户发送识别结果为第二类型的语音序列;
响应于所述语音识别结果与所述第一信息集合不匹配,向所述目标用户发送第三信息,所述第三信息用于提示所述目标用户的信息验证失败。
7.一种基于语音识别的交互装置,其特征在于,所述装置包括:
第一发送单元,用于向目标用户发送第一消息,所述第一消息用于提示所述目标用户发送识别结果为第一类型的语音序列;
第一获取单元,用于获取所述目标用户的待识别语音序列;
第二获取单元,用于基于第一模型,获取所述待识别语音序列对应的第一识别结果,所述第一模型为根据第一样本集合训练获得的模型,所述第一样本集合包括多个识别结果为所述第一类型的语音序列;
第三获取单元,用于基于第二模型,获取所述待识别语音序列对应的第二识别结果,所述第二模型为根据第二样本集合训练获得的模型,所述第二样本集合包括多个识别结果分别为不同类型的语音序列,所述不同类型包括所述第一类型;
第四获取单元,用于获取所述第一消息对应的第一信息集合,所述第一信息集合为根据与所述第一消息匹配的所述目标用户的特定信息确定的集合;
确定单元,用于根据所述第一信息集合、所述第一识别结果和所述第二识别结果确定所述待识别语音序列的语音识别结果。
8.一种计算机可读存储介质,其上存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-6中任一项所述的方法。
9.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910731433.7A CN110517675B (zh) | 2019-08-08 | 2019-08-08 | 基于语音识别的交互方法、装置、存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910731433.7A CN110517675B (zh) | 2019-08-08 | 2019-08-08 | 基于语音识别的交互方法、装置、存储介质和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110517675A true CN110517675A (zh) | 2019-11-29 |
CN110517675B CN110517675B (zh) | 2021-12-03 |
Family
ID=68623952
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910731433.7A Active CN110517675B (zh) | 2019-08-08 | 2019-08-08 | 基于语音识别的交互方法、装置、存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110517675B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080077409A1 (en) * | 2006-09-25 | 2008-03-27 | Mci, Llc. | Method and system for providing speech recognition |
US20110161077A1 (en) * | 2009-12-31 | 2011-06-30 | Bielby Gregory J | Method and system for processing multiple speech recognition results from a single utterance |
CN108347441A (zh) * | 2018-02-08 | 2018-07-31 | 深圳壹账通智能科技有限公司 | 支付处理方法、装置、计算机设备和存储介质 |
CN108573707A (zh) * | 2017-12-27 | 2018-09-25 | 北京金山云网络技术有限公司 | 一种语音识别结果的处理方法、装置、设备及介质 |
CN109166581A (zh) * | 2018-09-26 | 2019-01-08 | 出门问问信息科技有限公司 | 语音识别方法、装置、电子设备及计算机可读存储介质 |
CN109741750A (zh) * | 2018-05-09 | 2019-05-10 | 北京字节跳动网络技术有限公司 | 一种语音识别的方法、文件处理方法及终端设备 |
CN110288995A (zh) * | 2019-07-19 | 2019-09-27 | 出门问问(苏州)信息科技有限公司 | 基于语音识别的交互方法、装置、存储介质和电子设备 |
-
2019
- 2019-08-08 CN CN201910731433.7A patent/CN110517675B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080077409A1 (en) * | 2006-09-25 | 2008-03-27 | Mci, Llc. | Method and system for providing speech recognition |
US20110161077A1 (en) * | 2009-12-31 | 2011-06-30 | Bielby Gregory J | Method and system for processing multiple speech recognition results from a single utterance |
CN108573707A (zh) * | 2017-12-27 | 2018-09-25 | 北京金山云网络技术有限公司 | 一种语音识别结果的处理方法、装置、设备及介质 |
CN108347441A (zh) * | 2018-02-08 | 2018-07-31 | 深圳壹账通智能科技有限公司 | 支付处理方法、装置、计算机设备和存储介质 |
CN109741750A (zh) * | 2018-05-09 | 2019-05-10 | 北京字节跳动网络技术有限公司 | 一种语音识别的方法、文件处理方法及终端设备 |
CN109166581A (zh) * | 2018-09-26 | 2019-01-08 | 出门问问信息科技有限公司 | 语音识别方法、装置、电子设备及计算机可读存储介质 |
CN110288995A (zh) * | 2019-07-19 | 2019-09-27 | 出门问问(苏州)信息科技有限公司 | 基于语音识别的交互方法、装置、存储介质和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110517675B (zh) | 2021-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110288995A (zh) | 基于语音识别的交互方法、装置、存储介质和电子设备 | |
JP5695199B2 (ja) | 対話システムにおける思考追跡および行動選択 | |
US20170124064A1 (en) | Reply information recommendation method and apparatus | |
CN110879837B (zh) | 一种信息处理方法及装置 | |
CN109643331A (zh) | 通过利用现有内容使自然语言任务/对话创作自动化 | |
CN108877782B (zh) | 语音识别方法和装置 | |
CN105512228A (zh) | 一种基于智能机器人的双向问答数据处理方法和系统 | |
CN109961780A (zh) | 一种人机交互方法、装置、服务器和存储介质 | |
WO2016040769A1 (en) | Platform for creating customizable dialog system engines | |
CN109002501A (zh) | 用于处理自然语言对话的方法、装置、电子设备以及计算机可读存储介质 | |
KR20140094282A (ko) | 다자간 메신저 서비스를 제공하는 방법 및 시스템 | |
CN112183098B (zh) | 会话的处理方法和装置、存储介质、电子装置 | |
CN108446321B (zh) | 一种基于深度学习的自动问答方法 | |
CN109256125B (zh) | 语音的离线识别方法、装置与存储介质 | |
CN103076893A (zh) | 一种用于实现语音输入的方法与设备 | |
CN113836278B (zh) | 通用对话模型的训练与对话生成方法、装置 | |
CN109801631A (zh) | 基于语音识别的录入方法、装置、计算机设备及存储介质 | |
JP5121763B2 (ja) | 感情推定装置、及び方法 | |
CN110727782A (zh) | 问答语料生成方法及系统 | |
CN114548119A (zh) | 测试集的生成方法、测试方法、装置、设备及介质 | |
CN112307188A (zh) | 对话生成方法、系统、电子设备和可读存储介质 | |
CN110517675A (zh) | 基于语音识别的交互方法、装置、存储介质和电子设备 | |
CN114490969B (zh) | 基于表格的问答方法、装置以及电子设备 | |
CN108206020A (zh) | 一种语音识别方法、装置及终端设备 | |
CN111737442B (zh) | 智能客服多轮会话管理的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |