CN113257237A - 语音交互的意图识别方法、装置、电子设备及存储介质 - Google Patents
语音交互的意图识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113257237A CN113257237A CN202110707499.XA CN202110707499A CN113257237A CN 113257237 A CN113257237 A CN 113257237A CN 202110707499 A CN202110707499 A CN 202110707499A CN 113257237 A CN113257237 A CN 113257237A
- Authority
- CN
- China
- Prior art keywords
- recognition
- voice
- intention
- pinyin
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 230000003993 interaction Effects 0.000 title claims abstract description 66
- 238000012549 training Methods 0.000 claims description 81
- 238000004590 computer program Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 abstract description 8
- 238000003058 natural language processing Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000009499 grossing Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明提供的一种语音交互的意图识别方法、装置、电子设备及存储介质,对语音进行识别,获取所述语音的文字识别结果与拼音识别结果;将所述文字识别结果与拼音识别结果同步输入意图识别模型中,对所述语音的意图进行识别;通过语音识别得到文字识别结果和拼音识别结果,对文字识别结果和拼音识别结果综合进行意图识别,增加了意图识别过程中的信息量,优化了识别效果,同时大幅提高了意图识别结果的正确率。
Description
技术领域
本发明涉及语音交互技术领域,尤其涉及一种语音交互的意图识别方法、装置、电子设备及存储介质。
背景技术
随着人工智能产品在生活中的渗透率越来越高,语音交互在智能家居、智能汽车、智能客服等场景下有着广阔的应用,如语音机器人在客户关系维护、事件通知以及客户筛选等,以及在提高人工客服工作效率、节约企业人力等方面起到了至关重要的作用,特别是在客户意图筛选方面,解决了电商、房地产等行业存在的大量外呼销售工作,不仅提高了客服人员的积极性以及转化率,而且大大节约了时间、场地、人力等成本。因此准确识别用户意图,善于理解复杂语言的机器人就尤其重要。
目前,对于语音交互过程中意图识别的方法,语音识别模块只能将语音转化为文字序列,再通过意图识别模块识别出文字序列中的意图。但是,仅仅通过文字序列进行意图识别,信息量少,且当识别出的文字序列存在错误时(例如环境噪音大、用户口音重),会极大地降低语音交互中意图识别的正确率。
由此可见,现有的语音交互的意图识别方法,只通过对语音识别得到的文字序列进行意图识别,有着信息量少、正确率低的缺点。
发明内容
本发明提供一种语音交互的意图识别方法、装置、电子设备及存储介质,用以解决现有的语音交互的意图识别方法,只通过对语音识别得到的文字序列进行意图识别,有着信息量少、正确率低的问题;通过语音识别得到文字识别结果和拼音识别结果,对文字识别结果和拼音识别结果同时进行意图识别,增加了意图识别过程中的信息量,优化了识别效果,同时大幅提高了意图识别结果的正确率。
本发明提供一种语音交互的意图识别方法,包括:
对语音进行识别,获取所述语音的文字识别结果与拼音识别结果;
将所述文字识别结果与拼音识别结果同步输入意图识别模型中,对所述语音的意图进行识别;其中,所述意图识别模型是基于意图识别训练数据中的文字内容以及意图识别训练数据中的意图识别结果训练得到的。
根据本发明提供的语音交互的意图识别方法,所述将所述文字识别结果与拼音识别结果同步输入意图识别模型中之前,方法还包括:
将所述意图识别训练数据中的文字内容作为第一文字内容,并将所述第一文字内容转换为拼音形式的第一拼音内容;
获取所述第一文字内容中的实体词的同音词或相似词,并对所述第一文字内容中的实体词进行随机替换,生成至少一个第二文字内容,将所述第二文字内容转换为拼音形式的第二拼音内容;其中,所述实体词为具有实际含义的词;
通过第一文字内容、第一拼音内容,以及第二文字内容、第二拼音内容,以及所述意图识别训练数据中的意图识别结果,对所述意图识别模型进行训练。
根据本发明提供的语音交互的意图识别方法,所述对语音进行识别,获取所述语音的文字识别结果与拼音识别结果,包括:
通过第一语音识别模型,对语音进行识别,获取所述语音的文字识别结果;其中,所述文字识别结果包括最优文字结果、多候选文字结果;其中,所述第一语音识别模型是基于文字内容以及语音识别的文字结果训练得到的;
通过第二语音识别模型,对语音进行识别,获取所述语音的拼音识别结果;其中,所述拼音识别结果包括最优拼音结果、多候选拼音结果;其中,所述第二语音识别模型是基于拼音内容以及语音识别的拼音结果训练得到的。
根据本发明提供的语音交互的意图识别方法,所述对语音进行识别,获取所述语音的文字识别结果与拼音识别结果之前,方法还包括:
获取目标领域的历史文字数据、不同领域共有的通用文字数据;
通过所述历史文字数据与所述通用文字数据,对所述第一语音识别模型进行训练。
根据本发明提供的语音交互的意图识别方法,所述对语音进行识别,获取所述语音的文字识别结果与拼音识别结果之前,方法还包括:
对所述历史文字数据、所述通用文字数据进行转换,生成历史拼音数据、通用拼音数据;
通过所述历史拼音数据与所述通用拼音数据,对所述第二语音识别模型进行训练。
根据本发明提供的语音交互的意图识别方法,还包括:
基于非平滑的训练方法,对所述第一语音识别模型、第二语音识别模型进行训练。
根据本发明提供的语音交互的意图识别方法,所述对所述语音的意图进行识别之后,方法还包括:
获取对所述语音的意图识别结果;
将所述意图识别结果返回至第一语音识别模型,以作为新的历史文字数据对所述第一语音识别模型进行训练;
将所述意图识别结果返回至第二语音识别模型,以作为新的历史拼音数据对所述第二语音识别模型进行训练。
本发明还提供一种语音交互的意图识别装置,包括:
语音识别单元,用于对语音进行识别,获取所述语音的文字识别结果与拼音识别结果;
意图识别单元,用于将所述文字识别结果与拼音识别结果同步输入意图识别模型中,对所述语音的意图进行识别;其中,所述意图识别模型是基于意图识别训练数据中的文字内容以及意图识别训练数据中的意图识别结果训练得到的。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种语音交互的意图识别方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种语音交互的意图识别方法的步骤。
本发明提供的一种语音交互的意图识别方法、装置、电子设备及存储介质,对语音进行识别,获取所述语音的文字识别结果与拼音识别结果;将所述文字识别结果与拼音识别结果同步输入意图识别模型中,对所述语音的意图进行识别;通过语音识别得到文字识别结果和拼音识别结果,对文字识别结果和拼音识别结果综合进行意图识别,增加了意图识别过程中的信息量,优化了识别效果,同时大幅提高了意图识别结果的正确率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的语音交互的意图识别方法的流程示意图;
图2是本发明另一实施例提供的语音交互的意图识别装置的结构示意图;
图3是本发明提供的电子设备的实体结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
首先对现有的语音交互的意图识别方法进行说明。
传统的语义交互的方式是音频经过信道传输,送给ASR(Automatic SpeechRecognition,自动语音识别)系统将音频转化为文字,ASR系统将识别结果输出给NLP(Natural Language Processing,自然语言处理)模块,再由NLP模块进行意图判断并反馈给用户;整个过程是一个单向的、各系统模块串联的过程,系统的损失是ASR和NLP系统损失的累加;整个交互过程,影响意图识别率的因素有以下几个方面:(1)传递过程信息损失,任何系统在信息传递过程均有损失;(2)ASR与NLP模块相互独立,仅仅通过转写的文字序列进行沟通,信息量少,而且NLP模块接受ASR结果,特别是在用户口音重、环境噪声大时,ASR的性能严重影响最终结果;(3)机器人无语境,无上下文场景。这三个方面的因素导致意图识别准确率不高。
下面结合图1描述本发明提供的语音交互的意图识别方法。
图1为本发明实施例提供的一种语音交互的意图识别方法的流程示意图。参见图1,该语音交互的意图识别方法包括:
步骤201:对语音进行识别,获取所述语音的文字识别结果与拼音识别结果。
在对语音进行识别时,通过不同的语音识别模型,识别得到该语音的文字识别结果和拼音识别结果。其中,文字识别结果中可以包含有多种识别结果,不同的识别结果中存在着不同的实体词,例如同样的拼音,存在着不同的同音字或同义词,也就对应着不同的文字识别结果。
相似的,在拼音识别结果中也可以包含有多种识别结果。
步骤202:将所述文字识别结果与拼音识别结果同步输入意图识别模型中,对所述语音的意图进行识别;其中,所述意图识别模型是基于意图识别训练数据中的文字内容以及意图识别训练数据中的意图识别结果训练得到的。
在进行意图识别之前,首先通过意图识别训练数据,对意图识别模型进行训练。通过意图识别训练数据的文字内容和拼音内容对意图识别模型进行训练,使得意图识别模型能够根据输入的文字内容和拼音内容,综合确定出正确的意图结果。
本发明提供的一种语音交互的意图识别方法,对语音进行识别,获取所述语音的文字识别结果与拼音识别结果;将所述文字识别结果与拼音识别结果同步输入意图识别模型中,对所述语音的意图进行识别;通过语音识别得到文字识别结果和拼音识别结果,对文字识别结果和拼音识别结果综合进行意图识别,增加了意图识别过程中的信息量,优化了识别效果,同时大幅提高了意图识别结果的正确率。
进一步地,在上述实施例的基础上,根据本发明提供的语音交互的意图识别方法,所述将所述文字识别结果与拼音识别结果同步输入意图识别模型中之前,方法还包括:
将所述意图识别训练数据中的文字内容作为第一文字内容,并将所述第一文字内容转换为拼音形式的第一拼音内容;
获取所述第一文字内容中的实体词的同音词或相似词,并对所述第一文字内容中的实体词进行随机替换,生成至少一个第二文字内容,将所述第二文字内容转换为拼音形式的第二拼音内容;其中,所述实体词为具有实际含义的词;
通过第一文字内容、第一拼音内容,以及第二文字内容、第二拼音内容,以及所述意图识别训练数据中的意图识别结果,对所述意图识别模型进行训练。
本实施例中,意图识别模型可以对文字内容和拼音内容同时进行意图识别,即需要通过文字内容和拼音内容对意图识别模型进行训练。
具体的,意图识别模型中包含着文字内容,以及文字内容的意图识别结果。将意图识别训练数据中的文字内容作为一个第一文字内容,也可以对意图识别训练数据中的文字内容进行分组,每一组作为一个第一文字内容;将任一第一文字内容转换为拼音形式的第一拼音内容。
进一步地,对于第一文字内容中的实体词,将实体词随机使用同音词或相似词进行替换,得到至少一个第二文字内容,再将第二文字内容转换为拼音形式的第二拼音内容。由此,对于一组意图识别训练数据,可以得到多组第二文字内容和第二拼音内容,增加了对意图识别模型进行训练的数据量。其中,实体词为语句中具有实际含义的词,例如语句“我想买部手机,请问有什么新机”中,“新机”即为一个实体词。
将第一文字内容、第一拼音内容,以及第二文字内容、第二拼音内容全部输入意图识别模型中,并结合所述意图识别训练数据中的意图识别结果,对意图识别模型进行训练,实现意图识别模型对文字内容和拼音内容的同步识别。
例如,将“我想买部手机,请问有什么新机”这句话作为一组意图识别训练数据的第一文字内容,转换得到第一拼音内容为“wo xiang mai bu shou ji,qing wen you shenme xin ji”,将第一文字内容中的实体词“新机”进行替换,可以得到“我想买部手机,请问有什么心机”、“我想买部手机,请问有什么心急”等文字内容,将替换后得到的文字内容作为第二文字内容,并进行转换得到第二拼音内容。
本实施例中,通过对意图识别训练数据进行拼音转换、实体词替换,可以使得意图识别模型对文字内容和拼音内容同时进行识别,还可以增加意图识别模型训练的数据量,提高意图识别模型的识别精度。
进一步地,在上述实施例的基础上,根据本发明提供的语音交互的意图识别方法,所述对语音进行识别,获取所述语音的文字识别结果与拼音识别结果,包括:
通过第一语音识别模型,对语音进行识别,获取所述语音的文字识别结果;其中,所述文字识别结果包括最优文字结果、多候选文字结果;其中,所述第一语音识别模型是基于文字内容以及语音识别的文字结果训练得到的;
通过第二语音识别模型,对语音进行识别,获取所述语音的拼音识别结果;其中,所述拼音识别结果包括最优拼音结果、多候选拼音结果;其中,所述第二语音识别模型是基于拼音内容以及语音识别的拼音结果训练得到的。
本实施例中,在语音交互的ASR系统中,包含着两个语音识别模型T1和T2,其中T1为第一语音识别模型,即对应于文字的语音识别模型,在对语音进行识别后生成文字内容;T2为第二语音识别模型,即对应于拼音的语音识别模型,在对语音进行识别后生成拼音内容。
具体的,第一语音识别模型在对语音进行识别后,生成文字识别结果,其中文字识别结果具有多个,将多个文字识别结果作为多候选文字结果,再从多候选文字结果中确定出准确度最高的一个文字结果作为最优文字结果。
进一步地,第二语音识别模型在对语音进行识别后,生成拼音识别结果,其中拼音识别结果具有多个,将多个拼音识别结果作为多候选拼音结果,再从多候选拼音结果中确定出准确度最高的一个拼音结果作为最优拼音结果。
具体的,在意图识别模型对输入的文字内容和拼音内容进行意图识别时,对文字内容中的最优文字结果和多候选文字结果进行意图识别,得到文字内容的意图识别结果;对拼音内容中的最优拼音结果和多候选拼音结果进行意图识别,得到拼音内容的意图识别结果;将对文字内容和拼音内容进行识别得到的意图识别结果进行综合,最终得到用户语音内容的意图识别结果。
本实施例中,通过第一语音识别模型和第二识别模型对语音进行识别,得到该语音的文字识别结果和拼音识别结果,增加意图识别模型对于语音意图进行识别的数据量,提高了识别结果的准确性。
进一步地,在上述实施例的基础上,根据本发明提供的语音交互的意图识别方法,所述对语音进行识别,获取所述语音的文字识别结果与拼音识别结果之前,方法还包括:
获取目标领域的历史文字数据、不同领域共有的通用文字数据;
通过所述历史文字数据与所述通用文字数据,对所述第一语音识别模型进行训练。
在对用户的语音进行识别之前,需要对语音识别模型进行训练。对于不同的行业领域,使用该领域的历史文字数据对语音识别模型进行训练,可以进一步增加语音识别模型的识别准确度。
具体的,获取目标领域的历史文字数据,例如机器人问题话术、知识库、FAQ(Frequently Asked Questions,常见问题解答)、工单等具有强烈行业特点的历史文字数据,对历史文字数据进行清洗,以提高得到的历史文字数据的数据质量及语音识别模型的识别结果的可靠性。
进一步地,获取不同领域中共有的通用文字数据,将目标领域的历史文字数据与通用文字数据进行插值处理,再对语音识别模型进行训练。
本实施例中,通过历史文字数据与所述通用文字数据,对第一语音识别模型进行训练,可以有效提高语音识别模型对于语音的识别准确度。
进一步地,在上述实施例的基础上,根据本发明提供的语音交互的意图识别方法,所述对语音进行识别,获取所述语音的文字识别结果与拼音识别结果之前,方法还包括:
对所述历史文字数据、所述通用文字数据进行转化,生成历史拼音数据、通用拼音数据;
通过所述历史拼音数据与所述通用拼音数据,对所述第二语音识别模型进行训练。
对第一语音识别模型进行训练时,还需要对第二语音识别模型进行训练。具体的,将目标领域的历史文字数据与通用文字数据进行转化,得到历史文字数据相对应的历史拼音数据、通用文字数据相对应的通用拼音数据。同样的,将历史拼音数据与通用拼音数据进行插值处理后,对第二语音识别模型进行训练。
本实施例中,通过历史拼音数据与所述通用拼音数据,对第二语音识别模型进行训练,可以有效提高语音识别模型对于语音的识别准确度。
进一步地,在上述实施例的基础上,根据本发明提供的语音交互的意图识别方法,还包括:
基于非平滑的训练方法,对所述第一语音识别模型、第二语音识别模型进行训练。
在传统的语音识别模型的训练过程中,会使用平滑的训练方法,对训练数据中缺少的内容进行平滑处理,从而确保训练数据的完整性。由于语音识别模型的训练数据为目标领域的历史文字数据,因此在训练数据内容上会存在一些缺失;但是本实施例中,通过非平滑的训练方法,不对训练数据中缺少的内容进行平滑处理,而是将通用文字数据与历史文字数据进行插值处理,从而提高语音识别模型的训练数据的数据量,在能够提高语音识别模型对目标领域的语音内容的识别效果的基础上,也能对通用领域的语音内容进行识别。
本实施例中,通过基于非平滑的训练方法,对语音识别模型进行训练,提高了语音识别模型的训练数据的数据量,在能够提高语音识别模型对目标领域的语音内容的识别效果的基础上,也能对通用领域的语音内容进行识别。
进一步地,在上述实施例的基础上,根据本发明提供的语音交互的意图识别方法,所述对所述语音的意图进行识别之后,方法还包括:
获取对所述语音的意图识别结果;
将所述意图识别结果返回至第一语音识别模型,以作为新的历史文字数据对所述第一语音识别模型进行训练;
将所述意图识别结果返回至第二语音识别模型,以作为新的历史拼音数据对所述第二语音识别模型进行训练。
传统的意图识别方法中,ASR将语音识别出的文字传输至NLP中后,NLP根据文字内容识别语音的意图,数据的传输过程是由ASR向NLP的单向传输过程,ASR的识别性能会影响NLP的意图识别结果,而NLP的意图识别结果也无法对ASR进行进一步的训练。
本实施例中,将意图识别模型得到的意图识别结果返回至语音识别模型中,用于对语音识别模型进一步训练。具体的,将意图识别结果的文字内容返回至第一语音识别模型,将意图识别结果的拼音内容返回至第二语音识别模型。
本实施例中,将意图识别结果返回至语音识别模型中,使得语音识别与意图识别构成一个闭环,进一步提高语音识别与意图识别的正确率。
进一步地,本发明实施例提供了一种语音语义融合意图识别方法,以下对该语音语义融合意图识别方法进行说明。
该语音语义融合意图识别方法的步骤包括:
步骤S1:对机器人问题话术、知识库、FAQ、工单等具有强烈的行业特点的历史文本数据清洗;
步骤S2:基于非平滑的方案训练领域语言模型,并给与通用语言模型插值,记为语言模型LM_word;
步骤S3:将清洗后的语料与通用语料转化为音节(即拼音),分别训练语言模型,记为LM_syl1和LM_syl2,并将LM_syl1和LM_syl2插值形成LM_syllable;
步骤S4:ASR系统中的T1和T2采用语言模型LM_word和LM_syllable并结合声学模型进行识别,记T1最优识别结果以及多候选分别为R1和M1,T2最优识别结果以及多候选分别为R2和M2;
例如:用户说,我想买部手机,请问有什么新机,
得到的R1: 我想买部手机,请问有什么心机;
M1:......,请问有什么心机;
......,请问有什么心急;
......,请问有什么新机;
......;
R2: wo|xiang|mai|bu|shou|ji,qing|wen|you|shen|me|xin|ji;
M2:......,qing|wen|you|shen|me|xin|ji;
......,qing|wen|you|shen|me|xin|ji;
......,qin|wen|you|shen|me|xin|ji;
......;
步骤S5:将意图识别训练数据M转化为音节S,并随机用同音词/相似词替换掉M中实体词,同时将替换掉后的文本记为J,将J转化为音节,记为K;
步骤S6:通过M,S,J,K训练意图模型,模型记为Model;
步骤S7:将R1、M1、R2、M2同时输入给模型Model,进行意图判断;
步骤S8:将意图输出的结果结合知识库作为行业历史数据反馈给ASR系统,进行下一轮的识别以及意图判断,使得整个系统形成闭环。
本发明实施例是在语音交互意图识别场景下,通过FAQ、知识库等历史文本数据做限制场景的识别,同时输出文字的最优结果、多候选以及音节的最优结果、多候选,NLP模块结合ASR输出的丰富的结果,提升识别意图,并将意图结合知识库内容反馈给ASR系统,使得整个系统形成闭环。
本发明实施例针对一些语音机器人意图识别场景,通过将问题话术、知识库等具有强烈的行业特点的历史数据引入识别引擎,让机器像人一样在限定场景下进行语音识别,提升识别效果,同时将语音语义融合,提高系统意图识别率。
进一步地,与现有技术相比,本发明实施例提出的技术方案不仅解决了ASR和NLP模块相互独立、信息丢失多导致的意图识别率低的问题,同时通过限制场景语音识别以及意图结果反馈给ASR系统,使得系统形成闭环,性能不断提升。
下面对本发明提供的一种语音交互的意图识别装置进行描述,下文描述的语音交互的意图识别装置与上文描述的语音交互的意图识别方法可相互对应参照。
图2为本发明提供的语音交互的意图识别装置的结构示意图,参见图2,该语音交互的意图识别装置包括:
语音识别单元201,用于对语音进行识别,获取所述语音的文字识别结果与拼音识别结果;
意图识别单元202,用于将所述文字识别结果与拼音识别结果同步输入意图识别模型中,对所述语音的意图进行识别;其中,所述意图识别模型是基于意图识别训练数据中的文字内容以及意图识别训练数据中的意图识别结果训练得到的。
本发明提供的一种语音交互的意图识别装置,对语音进行识别,获取所述语音的文字识别结果与拼音识别结果;将所述文字识别结果与拼音识别结果同步输入意图识别模型中,对所述语音的意图进行识别;通过语音识别得到文字识别结果和拼音识别结果,对文字识别结果和拼音识别结果综合进行意图识别,增加了意图识别过程中的信息量,优化了识别效果,同时大幅提高了意图识别结果的正确率。
本实施例提供的语音交互的意图识别装置适用于上述各实施例提供的语音交互的意图识别方法,在此不再赘述。
具体的,根据本发明提供的语音交互的意图识别装置,所述将所述文字识别结果与拼音识别结果同步输入意图识别模型中之前,方法还包括:
将所述意图识别训练数据中的文字内容作为第一文字内容,并将所述第一文字内容转换为拼音形式的第一拼音内容;
获取所述第一文字内容中的实体词的同音词或相似词,并对所述第一文字内容中的实体词进行随机替换,生成至少一个第二文字内容,将所述第二文字内容转换为拼音形式的第二拼音内容;其中,所述实体词为具有实际含义的词;
通过第一文字内容、第一拼音内容,以及第二文字内容、第二拼音内容,以及所述意图识别训练数据中的意图识别结果,对所述意图识别模型进行训练。
根据本发明提供的语音交互的意图识别装置,所述对语音进行识别,获取所述语音的文字识别结果与拼音识别结果,包括:
通过第一语音识别模型,对语音进行识别,获取所述语音的文字识别结果;其中,所述文字识别结果包括最优文字结果、多候选文字结果;其中,所述第一语音识别模型是基于文字内容以及语音识别的文字结果训练得到的;
通过第二语音识别模型,对语音进行识别,获取所述语音的拼音识别结果;其中,所述拼音识别结果包括最优拼音结果、多候选拼音结果;其中,所述第二语音识别模型是基于拼音内容以及语音识别的拼音结果训练得到的。
根据本发明提供的语音交互的意图识别装置,所述对语音进行识别,获取所述语音的文字识别结果与拼音识别结果之前,方法还包括:
获取目标领域的历史文字数据、不同领域共有的通用文字数据;
通过所述历史文字数据与所述通用文字数据,对所述第一语音识别模型进行训练。
根据本发明提供的语音交互的意图识别装置,所述对语音进行识别,获取所述语音的文字识别结果与拼音识别结果之前,方法还包括:
对所述历史文字数据、所述通用文字数据进行转换,生成历史拼音数据、通用拼音数据;
通过所述历史拼音数据与所述通用拼音数据,对所述第二语音识别模型进行训练。
根据本发明提供的语音交互的意图识别装置,还包括:
基于非平滑的训练方法,对所述第一语音识别模型、第二语音识别模型进行训练。
根据本发明提供的语音交互的意图识别装置,所述对所述语音的意图进行识别之后,方法还包括:
获取对所述语音的意图识别结果;
将所述意图识别结果返回至第一语音识别模型,以作为新的历史文字数据对所述第一语音识别模型进行训练;
将所述意图识别结果返回至第二语音识别模型,以作为新的历史拼音数据对所述第二语音识别模型进行训练。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行语音交互的意图识别方法,该方法包括:对语音进行识别,获取所述语音的文字识别结果与拼音识别结果;将所述文字识别结果与拼音识别结果同步输入意图识别模型中,对所述语音的意图进行识别;其中,所述意图识别模型是基于意图识别训练数据中的文字内容以及意图识别训练数据中的意图识别结果训练得到的。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的语音交互的意图识别方法,该方法包括:对语音进行识别,获取所述语音的文字识别结果与拼音识别结果;将所述文字识别结果与拼音识别结果同步输入意图识别模型中,对所述语音的意图进行识别;其中,所述意图识别模型是基于意图识别训练数据中的文字内容以及意图识别训练数据中的意图识别结果训练得到的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的语音交互的意图识别方法,该方法包括:对语音进行识别,获取所述语音的文字识别结果与拼音识别结果;将所述文字识别结果与拼音识别结果同步输入意图识别模型中,对所述语音的意图进行识别;其中,所述意图识别模型是基于意图识别训练数据中的文字内容以及意图识别训练数据中的意图识别结果训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种语音交互的意图识别方法,其特征在于,包括:
对语音进行识别,获取所述语音的文字识别结果与拼音识别结果;
将所述文字识别结果与拼音识别结果同步输入意图识别模型中,对所述语音的意图进行识别;其中,所述意图识别模型是基于意图识别训练数据中的文字内容以及意图识别训练数据中的意图识别结果训练得到的。
2.根据权利要求1所述的语音交互的意图识别方法,其特征在于,所述将所述文字识别结果与拼音识别结果同步输入意图识别模型中之前,方法还包括:
将所述意图识别训练数据中的文字内容作为第一文字内容,并将所述第一文字内容转换为拼音形式的第一拼音内容;
获取所述第一文字内容中的实体词的同音词或相似词,并对所述第一文字内容中的实体词进行随机替换,生成至少一个第二文字内容,将所述第二文字内容转换为拼音形式的第二拼音内容;其中,所述实体词为具有实际含义的词;
通过第一文字内容、第一拼音内容,以及第二文字内容、第二拼音内容,以及所述意图识别训练数据中的意图识别结果,对所述意图识别模型进行训练。
3.根据权利要求1所述的语音交互的意图识别方法,其特征在于,所述对语音进行识别,获取所述语音的文字识别结果与拼音识别结果,包括:
通过第一语音识别模型,对语音进行识别,获取所述语音的文字识别结果;其中,所述文字识别结果包括最优文字结果、多候选文字结果;其中,所述第一语音识别模型是基于文字内容以及语音识别的文字结果训练得到的;
通过第二语音识别模型,对语音进行识别,获取所述语音的拼音识别结果;其中,所述拼音识别结果包括最优拼音结果、多候选拼音结果;其中,所述第二语音识别模型是基于拼音内容以及语音识别的拼音结果训练得到的。
4.根据权利要求3所述的语音交互的意图识别方法,其特征在于,所述对语音进行识别,获取所述语音的文字识别结果与拼音识别结果之前,方法还包括:
获取目标领域的历史文字数据、不同领域共有的通用文字数据;
通过所述历史文字数据与所述通用文字数据,对所述第一语音识别模型进行训练。
5.根据权利要求4所述的语音交互的意图识别方法,其特征在于,所述对语音进行识别,获取所述语音的文字识别结果与拼音识别结果之前,方法还包括:
对所述历史文字数据、所述通用文字数据进行转换,生成历史拼音数据、通用拼音数据;
通过所述历史拼音数据与所述通用拼音数据,对所述第二语音识别模型进行训练。
6.根据权利要求4或5所述的语音交互的意图识别方法,其特征在于,还包括:
基于非平滑的训练方法,对所述第一语音识别模型、第二语音识别模型进行训练。
7.根据权利要求1或3所述的语音交互的意图识别方法,其特征在于,所述对所述语音的意图进行识别之后,方法还包括:
获取对所述语音的意图识别结果;
将所述意图识别结果返回至第一语音识别模型,以作为新的历史文字数据对所述第一语音识别模型进行训练;
将所述意图识别结果返回至第二语音识别模型,以作为新的历史拼音数据对所述第二语音识别模型进行训练。
8.一种语音交互的意图识别装置,其特征在于,包括:
语音识别单元,用于对语音进行识别,获取所述语音的文字识别结果与拼音识别结果;
意图识别单元,用于将所述文字识别结果与拼音识别结果同步输入意图识别模型中,对所述语音的意图进行识别;其中,所述意图识别模型是基于意图识别训练数据中的文字内容以及意图识别训练数据中的意图识别结果训练得到的。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述语音交互的意图识别方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音交互的意图识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110707499.XA CN113257237B (zh) | 2021-06-25 | 2021-06-25 | 语音交互的意图识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110707499.XA CN113257237B (zh) | 2021-06-25 | 2021-06-25 | 语音交互的意图识别方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113257237A true CN113257237A (zh) | 2021-08-13 |
CN113257237B CN113257237B (zh) | 2021-10-22 |
Family
ID=77189538
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110707499.XA Active CN113257237B (zh) | 2021-06-25 | 2021-06-25 | 语音交互的意图识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113257237B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114373448A (zh) * | 2022-03-22 | 2022-04-19 | 北京沃丰时代数据科技有限公司 | 话题检测方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060004571A1 (en) * | 2004-06-30 | 2006-01-05 | Microsoft Corporation | Homonym processing in the context of voice-activated command systems |
CN109360555A (zh) * | 2017-12-29 | 2019-02-19 | 广州Tcl智能家居科技有限公司 | 一种物联网语音控制方法、装置及存储介质 |
CN109800407A (zh) * | 2017-11-15 | 2019-05-24 | 腾讯科技(深圳)有限公司 | 意图识别方法、装置、计算机设备和存储介质 |
CN110544470A (zh) * | 2019-09-11 | 2019-12-06 | 拉扎斯网络科技(上海)有限公司 | 语音识别方法、装置、可读存储介质和电子设备 |
CN111477216A (zh) * | 2020-04-09 | 2020-07-31 | 南京硅基智能科技有限公司 | 一种用于对话机器人的音意理解模型的训练方法及系统 |
-
2021
- 2021-06-25 CN CN202110707499.XA patent/CN113257237B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060004571A1 (en) * | 2004-06-30 | 2006-01-05 | Microsoft Corporation | Homonym processing in the context of voice-activated command systems |
CN109800407A (zh) * | 2017-11-15 | 2019-05-24 | 腾讯科技(深圳)有限公司 | 意图识别方法、装置、计算机设备和存储介质 |
CN109360555A (zh) * | 2017-12-29 | 2019-02-19 | 广州Tcl智能家居科技有限公司 | 一种物联网语音控制方法、装置及存储介质 |
CN110544470A (zh) * | 2019-09-11 | 2019-12-06 | 拉扎斯网络科技(上海)有限公司 | 语音识别方法、装置、可读存储介质和电子设备 |
CN111477216A (zh) * | 2020-04-09 | 2020-07-31 | 南京硅基智能科技有限公司 | 一种用于对话机器人的音意理解模型的训练方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114373448A (zh) * | 2022-03-22 | 2022-04-19 | 北京沃丰时代数据科技有限公司 | 话题检测方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113257237B (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107818798A (zh) | 客服服务质量评价方法、装置、设备及存储介质 | |
US10255346B2 (en) | Tagging relations with N-best | |
CN111739519B (zh) | 基于语音识别的对话管理处理方法、装置、设备及介质 | |
CN110610698B (zh) | 一种语音标注方法及装置 | |
CN112084317A (zh) | 预训练语言模型的方法和装置 | |
CN113297365B (zh) | 一种用户意向判定方法、装置、设备及存储介质 | |
CN111651497A (zh) | 用户标签挖掘方法、装置、存储介质及电子设备 | |
CN111581360A (zh) | 一种辅助客服的方法、系统和设备 | |
CN114722164A (zh) | 一种智能评论回复方法及装置 | |
CN117251547A (zh) | 用户提问应答方法及其装置、设备、介质 | |
CN113257237B (zh) | 语音交互的意图识别方法、装置、电子设备及存储介质 | |
CN110765776A (zh) | 回访标注样本数据的生成方法及装置 | |
CN116246632A (zh) | 外呼话术指导方法及装置 | |
CN111309882B (zh) | 用于实现智能客服问答的方法和装置 | |
CN110580899A (zh) | 语音识别方法及装置、存储介质、计算设备 | |
CN115757718A (zh) | 文本生成方法及装置 | |
CN114067842B (zh) | 客户满意度鉴别方法及装置、存储介质及电子设备 | |
EP3962073A1 (en) | Online interview method and system | |
CN114202363A (zh) | 基于人工智能的话术调用方法、装置、计算机设备及介质 | |
CN114297380A (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN114265917A (zh) | 工单类别识别方法、模型训练方法、装置和设备 | |
CN115114281A (zh) | 查询语句的生成方法和装置,存储介质和电子设备 | |
CN110852799A (zh) | 基于意图标签的用户筛选方法、装置、电子设备及介质 | |
CN112966077B (zh) | 对话状态的确定方法、装置、设备及存储介质 | |
CN113782022A (zh) | 基于意图识别模型的通信方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |