CN113257237B - 语音交互的意图识别方法、装置、电子设备及存储介质 - Google Patents

语音交互的意图识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113257237B
CN113257237B CN202110707499.XA CN202110707499A CN113257237B CN 113257237 B CN113257237 B CN 113257237B CN 202110707499 A CN202110707499 A CN 202110707499A CN 113257237 B CN113257237 B CN 113257237B
Authority
CN
China
Prior art keywords
voice
recognition
pinyin
intention
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110707499.XA
Other languages
English (en)
Other versions
CN113257237A (zh
Inventor
赵超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wofeng Times Data Technology Co ltd
Original Assignee
Beijing Wofeng Times Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wofeng Times Data Technology Co ltd filed Critical Beijing Wofeng Times Data Technology Co ltd
Priority to CN202110707499.XA priority Critical patent/CN113257237B/zh
Publication of CN113257237A publication Critical patent/CN113257237A/zh
Application granted granted Critical
Publication of CN113257237B publication Critical patent/CN113257237B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供的一种语音交互的意图识别方法、装置、电子设备及存储介质,对语音进行识别,获取所述语音的文字识别结果与拼音识别结果;将所述文字识别结果与拼音识别结果同步输入意图识别模型中,对所述语音的意图进行识别;通过语音识别得到文字识别结果和拼音识别结果,对文字识别结果和拼音识别结果综合进行意图识别,增加了意图识别过程中的信息量,优化了识别效果,同时大幅提高了意图识别结果的正确率。

Description

语音交互的意图识别方法、装置、电子设备及存储介质
技术领域
本发明涉及语音交互技术领域,尤其涉及一种语音交互的意图识别方法、装置、电子设备及存储介质。
背景技术
随着人工智能产品在生活中的渗透率越来越高,语音交互在智能家居、智能汽车、智能客服等场景下有着广阔的应用,如语音机器人在客户关系维护、事件通知以及客户筛选等,以及在提高人工客服工作效率、节约企业人力等方面起到了至关重要的作用,特别是在客户意图筛选方面,解决了电商、房地产等行业存在的大量外呼销售工作,不仅提高了客服人员的积极性以及转化率,而且大大节约了时间、场地、人力等成本。因此准确识别用户意图,善于理解复杂语言的机器人就尤其重要。
目前,对于语音交互过程中意图识别的方法,语音识别模块只能将语音转化为文字序列,再通过意图识别模块识别出文字序列中的意图。但是,仅仅通过文字序列进行意图识别,信息量少,且当识别出的文字序列存在错误时(例如环境噪音大、用户口音重),会极大地降低语音交互中意图识别的正确率。
由此可见,现有的语音交互的意图识别方法,只通过对语音识别得到的文字序列进行意图识别,有着信息量少、正确率低的缺点。
发明内容
本发明提供一种语音交互的意图识别方法、装置、电子设备及存储介质,用以解决现有的语音交互的意图识别方法,只通过对语音识别得到的文字序列进行意图识别,有着信息量少、正确率低的问题;通过语音识别得到文字识别结果和拼音识别结果,对文字识别结果和拼音识别结果同时进行意图识别,增加了意图识别过程中的信息量,优化了识别效果,同时大幅提高了意图识别结果的正确率。
本发明提供一种语音交互的意图识别方法,包括:
对语音进行识别,获取所述语音的文字识别结果与拼音识别结果;
将所述文字识别结果与拼音识别结果同步输入意图识别模型中,对所述语音的意图进行识别;其中,所述意图识别模型是基于意图识别训练数据中的文字内容以及意图识别训练数据中的意图识别结果训练得到的。
根据本发明提供的语音交互的意图识别方法,所述将所述文字识别结果与拼音识别结果同步输入意图识别模型中之前,方法还包括:
将所述意图识别训练数据中的文字内容作为第一文字内容,并将所述第一文字内容转换为拼音形式的第一拼音内容;
获取所述第一文字内容中的实体词的同音词或相似词,并对所述第一文字内容中的实体词进行随机替换,生成至少一个第二文字内容,将所述第二文字内容转换为拼音形式的第二拼音内容;其中,所述实体词为具有实际含义的词;
通过第一文字内容、第一拼音内容,以及第二文字内容、第二拼音内容,以及所述意图识别训练数据中的意图识别结果,对所述意图识别模型进行训练。
根据本发明提供的语音交互的意图识别方法,所述对语音进行识别,获取所述语音的文字识别结果与拼音识别结果,包括:
通过第一语音识别模型,对语音进行识别,获取所述语音的文字识别结果;其中,所述文字识别结果包括最优文字结果、多候选文字结果;其中,所述第一语音识别模型是基于文字内容以及语音识别的文字结果训练得到的;
通过第二语音识别模型,对语音进行识别,获取所述语音的拼音识别结果;其中,所述拼音识别结果包括最优拼音结果、多候选拼音结果;其中,所述第二语音识别模型是基于拼音内容以及语音识别的拼音结果训练得到的。
根据本发明提供的语音交互的意图识别方法,所述对语音进行识别,获取所述语音的文字识别结果与拼音识别结果之前,方法还包括:
获取目标领域的历史文字数据、不同领域共有的通用文字数据;
通过所述历史文字数据与所述通用文字数据,对所述第一语音识别模型进行训练。
根据本发明提供的语音交互的意图识别方法,所述对语音进行识别,获取所述语音的文字识别结果与拼音识别结果之前,方法还包括:
对所述历史文字数据、所述通用文字数据进行转换,生成历史拼音数据、通用拼音数据;
通过所述历史拼音数据与所述通用拼音数据,对所述第二语音识别模型进行训练。
根据本发明提供的语音交互的意图识别方法,还包括:
基于非平滑的训练方法,对所述第一语音识别模型、第二语音识别模型进行训练。
根据本发明提供的语音交互的意图识别方法,所述对所述语音的意图进行识别之后,方法还包括:
获取对所述语音的意图识别结果;
将所述意图识别结果返回至第一语音识别模型,以作为新的历史文字数据对所述第一语音识别模型进行训练;
将所述意图识别结果返回至第二语音识别模型,以作为新的历史拼音数据对所述第二语音识别模型进行训练。
本发明还提供一种语音交互的意图识别装置,包括:
语音识别单元,用于对语音进行识别,获取所述语音的文字识别结果与拼音识别结果;
意图识别单元,用于将所述文字识别结果与拼音识别结果同步输入意图识别模型中,对所述语音的意图进行识别;其中,所述意图识别模型是基于意图识别训练数据中的文字内容以及意图识别训练数据中的意图识别结果训练得到的。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种语音交互的意图识别方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种语音交互的意图识别方法的步骤。
本发明提供的一种语音交互的意图识别方法、装置、电子设备及存储介质,对语音进行识别,获取所述语音的文字识别结果与拼音识别结果;将所述文字识别结果与拼音识别结果同步输入意图识别模型中,对所述语音的意图进行识别;通过语音识别得到文字识别结果和拼音识别结果,对文字识别结果和拼音识别结果综合进行意图识别,增加了意图识别过程中的信息量,优化了识别效果,同时大幅提高了意图识别结果的正确率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的语音交互的意图识别方法的流程示意图;
图2是本发明另一实施例提供的语音交互的意图识别装置的结构示意图;
图3是本发明提供的电子设备的实体结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
首先对现有的语音交互的意图识别方法进行说明。
传统的语义交互的方式是音频经过信道传输,送给ASR(Automatic SpeechRecognition,自动语音识别)系统将音频转化为文字,ASR系统将识别结果输出给NLP(Natural Language Processing,自然语言处理)模块,再由NLP模块进行意图判断并反馈给用户;整个过程是一个单向的、各系统模块串联的过程,系统的损失是ASR和NLP系统损失的累加;整个交互过程,影响意图识别率的因素有以下几个方面:(1)传递过程信息损失,任何系统在信息传递过程均有损失;(2)ASR与NLP模块相互独立,仅仅通过转写的文字序列进行沟通,信息量少,而且NLP模块接受ASR结果,特别是在用户口音重、环境噪声大时,ASR的性能严重影响最终结果;(3)机器人无语境,无上下文场景。这三个方面的因素导致意图识别准确率不高。
下面结合图1描述本发明提供的语音交互的意图识别方法。
图1为本发明实施例提供的一种语音交互的意图识别方法的流程示意图。参见图1,该语音交互的意图识别方法包括:
步骤201:对语音进行识别,获取所述语音的文字识别结果与拼音识别结果。
在对语音进行识别时,通过不同的语音识别模型,识别得到该语音的文字识别结果和拼音识别结果。其中,文字识别结果中可以包含有多种识别结果,不同的识别结果中存在着不同的实体词,例如同样的拼音,存在着不同的同音字或同义词,也就对应着不同的文字识别结果。
相似的,在拼音识别结果中也可以包含有多种识别结果。
步骤202:将所述文字识别结果与拼音识别结果同步输入意图识别模型中,对所述语音的意图进行识别;其中,所述意图识别模型是基于意图识别训练数据中的文字内容以及意图识别训练数据中的意图识别结果训练得到的。
在进行意图识别之前,首先通过意图识别训练数据,对意图识别模型进行训练。通过意图识别训练数据的文字内容和拼音内容对意图识别模型进行训练,使得意图识别模型能够根据输入的文字内容和拼音内容,综合确定出正确的意图结果。
本发明提供的一种语音交互的意图识别方法,对语音进行识别,获取所述语音的文字识别结果与拼音识别结果;将所述文字识别结果与拼音识别结果同步输入意图识别模型中,对所述语音的意图进行识别;通过语音识别得到文字识别结果和拼音识别结果,对文字识别结果和拼音识别结果综合进行意图识别,增加了意图识别过程中的信息量,优化了识别效果,同时大幅提高了意图识别结果的正确率。
进一步地,在上述实施例的基础上,根据本发明提供的语音交互的意图识别方法,所述将所述文字识别结果与拼音识别结果同步输入意图识别模型中之前,方法还包括:
将所述意图识别训练数据中的文字内容作为第一文字内容,并将所述第一文字内容转换为拼音形式的第一拼音内容;
获取所述第一文字内容中的实体词的同音词或相似词,并对所述第一文字内容中的实体词进行随机替换,生成至少一个第二文字内容,将所述第二文字内容转换为拼音形式的第二拼音内容;其中,所述实体词为具有实际含义的词;
通过第一文字内容、第一拼音内容,以及第二文字内容、第二拼音内容,以及所述意图识别训练数据中的意图识别结果,对所述意图识别模型进行训练。
本实施例中,意图识别模型可以对文字内容和拼音内容同时进行意图识别,即需要通过文字内容和拼音内容对意图识别模型进行训练。
具体的,意图识别模型中包含着文字内容,以及文字内容的意图识别结果。将意图识别训练数据中的文字内容作为一个第一文字内容,也可以对意图识别训练数据中的文字内容进行分组,每一组作为一个第一文字内容;将任一第一文字内容转换为拼音形式的第一拼音内容。
进一步地,对于第一文字内容中的实体词,将实体词随机使用同音词或相似词进行替换,得到至少一个第二文字内容,再将第二文字内容转换为拼音形式的第二拼音内容。由此,对于一组意图识别训练数据,可以得到多组第二文字内容和第二拼音内容,增加了对意图识别模型进行训练的数据量。其中,实体词为语句中具有实际含义的词,例如语句“我想买部手机,请问有什么新机”中,“新机”即为一个实体词。
将第一文字内容、第一拼音内容,以及第二文字内容、第二拼音内容全部输入意图识别模型中,并结合所述意图识别训练数据中的意图识别结果,对意图识别模型进行训练,实现意图识别模型对文字内容和拼音内容的同步识别。
例如,将“我想买部手机,请问有什么新机”这句话作为一组意图识别训练数据的第一文字内容,转换得到第一拼音内容为“wo xiang mai bu shou ji,qing wen you shenme xin ji”,将第一文字内容中的实体词“新机”进行替换,可以得到“我想买部手机,请问有什么心机”、“我想买部手机,请问有什么心急”等文字内容,将替换后得到的文字内容作为第二文字内容,并进行转换得到第二拼音内容。
本实施例中,通过对意图识别训练数据进行拼音转换、实体词替换,可以使得意图识别模型对文字内容和拼音内容同时进行识别,还可以增加意图识别模型训练的数据量,提高意图识别模型的识别精度。
进一步地,在上述实施例的基础上,根据本发明提供的语音交互的意图识别方法,所述对语音进行识别,获取所述语音的文字识别结果与拼音识别结果,包括:
通过第一语音识别模型,对语音进行识别,获取所述语音的文字识别结果;其中,所述文字识别结果包括最优文字结果、多候选文字结果;其中,所述第一语音识别模型是基于文字内容以及语音识别的文字结果训练得到的;
通过第二语音识别模型,对语音进行识别,获取所述语音的拼音识别结果;其中,所述拼音识别结果包括最优拼音结果、多候选拼音结果;其中,所述第二语音识别模型是基于拼音内容以及语音识别的拼音结果训练得到的。
本实施例中,在语音交互的ASR系统中,包含着两个语音识别模型T1和T2,其中T1为第一语音识别模型,即对应于文字的语音识别模型,在对语音进行识别后生成文字内容;T2为第二语音识别模型,即对应于拼音的语音识别模型,在对语音进行识别后生成拼音内容。
具体的,第一语音识别模型在对语音进行识别后,生成文字识别结果,其中文字识别结果具有多个,将多个文字识别结果作为多候选文字结果,再从多候选文字结果中确定出准确度最高的一个文字结果作为最优文字结果。
进一步地,第二语音识别模型在对语音进行识别后,生成拼音识别结果,其中拼音识别结果具有多个,将多个拼音识别结果作为多候选拼音结果,再从多候选拼音结果中确定出准确度最高的一个拼音结果作为最优拼音结果。
具体的,在意图识别模型对输入的文字内容和拼音内容进行意图识别时,对文字内容中的最优文字结果和多候选文字结果进行意图识别,得到文字内容的意图识别结果;对拼音内容中的最优拼音结果和多候选拼音结果进行意图识别,得到拼音内容的意图识别结果;将对文字内容和拼音内容进行识别得到的意图识别结果进行综合,最终得到用户语音内容的意图识别结果。
本实施例中,通过第一语音识别模型和第二识别模型对语音进行识别,得到该语音的文字识别结果和拼音识别结果,增加意图识别模型对于语音意图进行识别的数据量,提高了识别结果的准确性。
进一步地,在上述实施例的基础上,根据本发明提供的语音交互的意图识别方法,所述对语音进行识别,获取所述语音的文字识别结果与拼音识别结果之前,方法还包括:
获取目标领域的历史文字数据、不同领域共有的通用文字数据;
通过所述历史文字数据与所述通用文字数据,对所述第一语音识别模型进行训练。
在对用户的语音进行识别之前,需要对语音识别模型进行训练。对于不同的行业领域,使用该领域的历史文字数据对语音识别模型进行训练,可以进一步增加语音识别模型的识别准确度。
具体的,获取目标领域的历史文字数据,例如机器人问题话术、知识库、FAQ(Frequently Asked Questions,常见问题解答)、工单等具有强烈行业特点的历史文字数据,对历史文字数据进行清洗,以提高得到的历史文字数据的数据质量及语音识别模型的识别结果的可靠性。
进一步地,获取不同领域中共有的通用文字数据,将目标领域的历史文字数据与通用文字数据进行插值处理,再对语音识别模型进行训练。
本实施例中,通过历史文字数据与所述通用文字数据,对第一语音识别模型进行训练,可以有效提高语音识别模型对于语音的识别准确度。
进一步地,在上述实施例的基础上,根据本发明提供的语音交互的意图识别方法,所述对语音进行识别,获取所述语音的文字识别结果与拼音识别结果之前,方法还包括:
对所述历史文字数据、所述通用文字数据进行转化,生成历史拼音数据、通用拼音数据;
通过所述历史拼音数据与所述通用拼音数据,对所述第二语音识别模型进行训练。
对第一语音识别模型进行训练时,还需要对第二语音识别模型进行训练。具体的,将目标领域的历史文字数据与通用文字数据进行转化,得到历史文字数据相对应的历史拼音数据、通用文字数据相对应的通用拼音数据。同样的,将历史拼音数据与通用拼音数据进行插值处理后,对第二语音识别模型进行训练。
本实施例中,通过历史拼音数据与所述通用拼音数据,对第二语音识别模型进行训练,可以有效提高语音识别模型对于语音的识别准确度。
进一步地,在上述实施例的基础上,根据本发明提供的语音交互的意图识别方法,还包括:
基于非平滑的训练方法,对所述第一语音识别模型、第二语音识别模型进行训练。
在传统的语音识别模型的训练过程中,会使用平滑的训练方法,对训练数据中缺少的内容进行平滑处理,从而确保训练数据的完整性。由于语音识别模型的训练数据为目标领域的历史文字数据,因此在训练数据内容上会存在一些缺失;但是本实施例中,通过非平滑的训练方法,不对训练数据中缺少的内容进行平滑处理,而是将通用文字数据与历史文字数据进行插值处理,从而提高语音识别模型的训练数据的数据量,在能够提高语音识别模型对目标领域的语音内容的识别效果的基础上,也能对通用领域的语音内容进行识别。
本实施例中,通过基于非平滑的训练方法,对语音识别模型进行训练,提高了语音识别模型的训练数据的数据量,在能够提高语音识别模型对目标领域的语音内容的识别效果的基础上,也能对通用领域的语音内容进行识别。
进一步地,在上述实施例的基础上,根据本发明提供的语音交互的意图识别方法,所述对所述语音的意图进行识别之后,方法还包括:
获取对所述语音的意图识别结果;
将所述意图识别结果返回至第一语音识别模型,以作为新的历史文字数据对所述第一语音识别模型进行训练;
将所述意图识别结果返回至第二语音识别模型,以作为新的历史拼音数据对所述第二语音识别模型进行训练。
传统的意图识别方法中,ASR将语音识别出的文字传输至NLP中后,NLP根据文字内容识别语音的意图,数据的传输过程是由ASR向NLP的单向传输过程,ASR的识别性能会影响NLP的意图识别结果,而NLP的意图识别结果也无法对ASR进行进一步的训练。
本实施例中,将意图识别模型得到的意图识别结果返回至语音识别模型中,用于对语音识别模型进一步训练。具体的,将意图识别结果的文字内容返回至第一语音识别模型,将意图识别结果的拼音内容返回至第二语音识别模型。
本实施例中,将意图识别结果返回至语音识别模型中,使得语音识别与意图识别构成一个闭环,进一步提高语音识别与意图识别的正确率。
进一步地,本发明实施例提供了一种语音语义融合意图识别方法,以下对该语音语义融合意图识别方法进行说明。
该语音语义融合意图识别方法的步骤包括:
步骤S1:对机器人问题话术、知识库、FAQ、工单等具有强烈的行业特点的历史文本数据清洗;
步骤S2:基于非平滑的方案训练领域语言模型,并给与通用语言模型插值,记为语言模型LM_word;
步骤S3:将清洗后的语料与通用语料转化为音节(即拼音),分别训练语言模型,记为LM_syl1和LM_syl2,并将LM_syl1和LM_syl2插值形成LM_syllable;
步骤S4:ASR系统中的T1和T2采用语言模型LM_word和LM_syllable并结合声学模型进行识别,记T1最优识别结果以及多候选分别为R1和M1,T2最优识别结果以及多候选分别为R2和M2;
例如:用户说,我想买部手机,请问有什么新机,
得到的R1: 我想买部手机,请问有什么心机;
M1:......,请问有什么心机;
......,请问有什么心急;
......,请问有什么新机;
......;
R2: wo|xiang|mai|bu|shou|ji,qing|wen|you|shen|me|xin|ji;
M2: ......,qing|wen|you|shen|me|xin|ji;
......,qing|wen|you|shen|me|xin|ji;
......,qin|wen|you|shen|me|xin|ji;
......;
步骤S5:将意图识别训练数据M转化为音节S,并随机用同音词/相似词替换掉M中实体词,同时将替换掉后的文本记为J,将J转化为音节,记为K;
步骤S6:通过M,S,J,K训练意图模型,模型记为Model;
步骤S7:将R1、M1、R2、M2同时输入给模型Model,进行意图判断;
步骤S8:将意图输出的结果结合知识库作为行业历史数据反馈给ASR系统,进行下一轮的识别以及意图判断,使得整个系统形成闭环。
本发明实施例是在语音交互意图识别场景下,通过FAQ、知识库等历史文本数据做限制场景的识别,同时输出文字的最优结果、多候选以及音节的最优结果、多候选,NLP模块结合ASR输出的丰富的结果,提升识别意图,并将意图结合知识库内容反馈给ASR系统,使得整个系统形成闭环。
本发明实施例针对一些语音机器人意图识别场景,通过将问题话术、知识库等具有强烈的行业特点的历史数据引入识别引擎,让机器像人一样在限定场景下进行语音识别,提升识别效果,同时将语音语义融合,提高系统意图识别率。
进一步地,与现有技术相比,本发明实施例提出的技术方案不仅解决了ASR和NLP模块相互独立、信息丢失多导致的意图识别率低的问题,同时通过限制场景语音识别以及意图结果反馈给ASR系统,使得系统形成闭环,性能不断提升。
下面对本发明提供的一种语音交互的意图识别装置进行描述,下文描述的语音交互的意图识别装置与上文描述的语音交互的意图识别方法可相互对应参照。
图2为本发明提供的语音交互的意图识别装置的结构示意图,参见图2,该语音交互的意图识别装置包括:
语音识别单元201,用于对语音进行识别,获取所述语音的文字识别结果与拼音识别结果;
意图识别单元202,用于将所述文字识别结果与拼音识别结果同步输入意图识别模型中,对所述语音的意图进行识别;其中,所述意图识别模型是基于意图识别训练数据中的文字内容以及意图识别训练数据中的意图识别结果训练得到的。
本发明提供的一种语音交互的意图识别装置,对语音进行识别,获取所述语音的文字识别结果与拼音识别结果;将所述文字识别结果与拼音识别结果同步输入意图识别模型中,对所述语音的意图进行识别;通过语音识别得到文字识别结果和拼音识别结果,对文字识别结果和拼音识别结果综合进行意图识别,增加了意图识别过程中的信息量,优化了识别效果,同时大幅提高了意图识别结果的正确率。
本实施例提供的语音交互的意图识别装置适用于上述各实施例提供的语音交互的意图识别方法,在此不再赘述。
具体的,根据本发明提供的语音交互的意图识别装置,所述将所述文字识别结果与拼音识别结果同步输入意图识别模型中之前,方法还包括:
将所述意图识别训练数据中的文字内容作为第一文字内容,并将所述第一文字内容转换为拼音形式的第一拼音内容;
获取所述第一文字内容中的实体词的同音词或相似词,并对所述第一文字内容中的实体词进行随机替换,生成至少一个第二文字内容,将所述第二文字内容转换为拼音形式的第二拼音内容;其中,所述实体词为具有实际含义的词;
通过第一文字内容、第一拼音内容,以及第二文字内容、第二拼音内容,以及所述意图识别训练数据中的意图识别结果,对所述意图识别模型进行训练。
根据本发明提供的语音交互的意图识别装置,所述对语音进行识别,获取所述语音的文字识别结果与拼音识别结果,包括:
通过第一语音识别模型,对语音进行识别,获取所述语音的文字识别结果;其中,所述文字识别结果包括最优文字结果、多候选文字结果;其中,所述第一语音识别模型是基于文字内容以及语音识别的文字结果训练得到的;
通过第二语音识别模型,对语音进行识别,获取所述语音的拼音识别结果;其中,所述拼音识别结果包括最优拼音结果、多候选拼音结果;其中,所述第二语音识别模型是基于拼音内容以及语音识别的拼音结果训练得到的。
根据本发明提供的语音交互的意图识别装置,所述对语音进行识别,获取所述语音的文字识别结果与拼音识别结果之前,方法还包括:
获取目标领域的历史文字数据、不同领域共有的通用文字数据;
通过所述历史文字数据与所述通用文字数据,对所述第一语音识别模型进行训练。
根据本发明提供的语音交互的意图识别装置,所述对语音进行识别,获取所述语音的文字识别结果与拼音识别结果之前,方法还包括:
对所述历史文字数据、所述通用文字数据进行转换,生成历史拼音数据、通用拼音数据;
通过所述历史拼音数据与所述通用拼音数据,对所述第二语音识别模型进行训练。
根据本发明提供的语音交互的意图识别装置,还包括:
基于非平滑的训练方法,对所述第一语音识别模型、第二语音识别模型进行训练。
根据本发明提供的语音交互的意图识别装置,所述对所述语音的意图进行识别之后,方法还包括:
获取对所述语音的意图识别结果;
将所述意图识别结果返回至第一语音识别模型,以作为新的历史文字数据对所述第一语音识别模型进行训练;
将所述意图识别结果返回至第二语音识别模型,以作为新的历史拼音数据对所述第二语音识别模型进行训练。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行语音交互的意图识别方法,该方法包括:对语音进行识别,获取所述语音的文字识别结果与拼音识别结果;将所述文字识别结果与拼音识别结果同步输入意图识别模型中,对所述语音的意图进行识别;其中,所述意图识别模型是基于意图识别训练数据中的文字内容以及意图识别训练数据中的意图识别结果训练得到的。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的语音交互的意图识别方法,该方法包括:对语音进行识别,获取所述语音的文字识别结果与拼音识别结果;将所述文字识别结果与拼音识别结果同步输入意图识别模型中,对所述语音的意图进行识别;其中,所述意图识别模型是基于意图识别训练数据中的文字内容以及意图识别训练数据中的意图识别结果训练得到的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的语音交互的意图识别方法,该方法包括:对语音进行识别,获取所述语音的文字识别结果与拼音识别结果;将所述文字识别结果与拼音识别结果同步输入意图识别模型中,对所述语音的意图进行识别;其中,所述意图识别模型是基于意图识别训练数据中的文字内容以及意图识别训练数据中的意图识别结果训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种语音交互的意图识别方法,其特征在于,包括:
对语音进行识别,获取所述语音的文字识别结果与拼音识别结果;
将所述文字识别结果与拼音识别结果同步输入意图识别模型中,对所述语音的意图进行识别;其中,所述意图识别模型是基于意图识别训练数据中的文字内容以及意图识别训练数据中的意图识别结果训练得到的;
所述将所述文字识别结果与拼音识别结果同步输入意图识别模型中之前,方法还包括:
将所述意图识别训练数据中的文字内容作为第一文字内容,并将所述第一文字内容转换为拼音形式的第一拼音内容;
获取所述第一文字内容中的实体词的同音词或相似词,并对所述第一文字内容中的实体词进行随机替换,生成至少一个第二文字内容,将所述第二文字内容转换为拼音形式的第二拼音内容;其中,所述实体词为具有实际含义的词;
通过第一文字内容、第一拼音内容,以及第二文字内容、第二拼音内容,以及所述意图识别训练数据中的意图识别结果,对所述意图识别模型进行训练;
所述对语音进行识别,获取所述语音的文字识别结果与拼音识别结果,包括:
通过第一语音识别模型,对语音进行识别,获取所述语音的文字识别结果;其中,所述文字识别结果包括最优文字结果、多候选文字结果;其中,所述第一语音识别模型是基于文字内容以及语音识别的文字结果训练得到的;
通过第二语音识别模型,对语音进行识别,获取所述语音的拼音识别结果;其中,所述拼音识别结果包括最优拼音结果、多候选拼音结果;其中,所述第二语音识别模型是基于拼音内容以及语音识别的拼音结果训练得到的。
2.根据权利要求1所述的语音交互的意图识别方法,其特征在于,所述对语音进行识别,获取所述语音的文字识别结果与拼音识别结果之前,方法还包括:
获取目标领域的历史文字数据、不同领域共有的通用文字数据;
通过所述历史文字数据与所述通用文字数据,对所述第一语音识别模型进行训练。
3.根据权利要求2所述的语音交互的意图识别方法,其特征在于,所述对语音进行识别,获取所述语音的文字识别结果与拼音识别结果之前,方法还包括:
对所述历史文字数据、所述通用文字数据进行转换,生成历史拼音数据、通用拼音数据;
通过所述历史拼音数据与所述通用拼音数据,对所述第二语音识别模型进行训练。
4.根据权利要求2或3所述的语音交互的意图识别方法,其特征在于,还包括:
基于非平滑的训练方法,对所述第一语音识别模型、第二语音识别模型进行训练。
5.根据权利要求1所述的语音交互的意图识别方法,其特征在于,所述对所述语音的意图进行识别之后,方法还包括:
获取对所述语音的意图识别结果;
将所述意图识别结果返回至第一语音识别模型,以作为新的历史文字数据对所述第一语音识别模型进行训练;
将所述意图识别结果返回至第二语音识别模型,以作为新的历史拼音数据对所述第二语音识别模型进行训练。
6.一种语音交互的意图识别装置,其特征在于,包括:
语音识别单元,用于对语音进行识别,获取所述语音的文字识别结果与拼音识别结果;
意图识别单元,用于将所述文字识别结果与拼音识别结果同步输入意图识别模型中,对所述语音的意图进行识别;其中,所述意图识别模型是基于意图识别训练数据中的文字内容以及意图识别训练数据中的意图识别结果训练得到的;
所述装置还用于:
将所述意图识别训练数据中的文字内容作为第一文字内容,并将所述第一文字内容转换为拼音形式的第一拼音内容;
获取所述第一文字内容中的实体词的同音词或相似词,并对所述第一文字内容中的实体词进行随机替换,生成至少一个第二文字内容,将所述第二文字内容转换为拼音形式的第二拼音内容;其中,所述实体词为具有实际含义的词;
通过第一文字内容、第一拼音内容,以及第二文字内容、第二拼音内容,以及所述意图识别训练数据中的意图识别结果,对所述意图识别模型进行训练;
所述语音识别单元,具体用于:
通过第一语音识别模型,对语音进行识别,获取所述语音的文字识别结果;其中,所述文字识别结果包括最优文字结果、多候选文字结果;其中,所述第一语音识别模型是基于文字内容以及语音识别的文字结果训练得到的;
通过第二语音识别模型,对语音进行识别,获取所述语音的拼音识别结果;其中,所述拼音识别结果包括最优拼音结果、多候选拼音结果;其中,所述第二语音识别模型是基于拼音内容以及语音识别的拼音结果训练得到的。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述语音交互的意图识别方法的步骤。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述语音交互的意图识别方法的步骤。
CN202110707499.XA 2021-06-25 2021-06-25 语音交互的意图识别方法、装置、电子设备及存储介质 Active CN113257237B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110707499.XA CN113257237B (zh) 2021-06-25 2021-06-25 语音交互的意图识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110707499.XA CN113257237B (zh) 2021-06-25 2021-06-25 语音交互的意图识别方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113257237A CN113257237A (zh) 2021-08-13
CN113257237B true CN113257237B (zh) 2021-10-22

Family

ID=77189538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110707499.XA Active CN113257237B (zh) 2021-06-25 2021-06-25 语音交互的意图识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113257237B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114373448B (zh) * 2022-03-22 2022-06-14 北京沃丰时代数据科技有限公司 话题检测方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109360555A (zh) * 2017-12-29 2019-02-19 广州Tcl智能家居科技有限公司 一种物联网语音控制方法、装置及存储介质
CN109800407A (zh) * 2017-11-15 2019-05-24 腾讯科技(深圳)有限公司 意图识别方法、装置、计算机设备和存储介质
CN110544470A (zh) * 2019-09-11 2019-12-06 拉扎斯网络科技(上海)有限公司 语音识别方法、装置、可读存储介质和电子设备
CN111477216A (zh) * 2020-04-09 2020-07-31 南京硅基智能科技有限公司 一种用于对话机器人的音意理解模型的训练方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7299181B2 (en) * 2004-06-30 2007-11-20 Microsoft Corporation Homonym processing in the context of voice-activated command systems

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800407A (zh) * 2017-11-15 2019-05-24 腾讯科技(深圳)有限公司 意图识别方法、装置、计算机设备和存储介质
CN109360555A (zh) * 2017-12-29 2019-02-19 广州Tcl智能家居科技有限公司 一种物联网语音控制方法、装置及存储介质
CN110544470A (zh) * 2019-09-11 2019-12-06 拉扎斯网络科技(上海)有限公司 语音识别方法、装置、可读存储介质和电子设备
CN111477216A (zh) * 2020-04-09 2020-07-31 南京硅基智能科技有限公司 一种用于对话机器人的音意理解模型的训练方法及系统

Also Published As

Publication number Publication date
CN113257237A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN107818798A (zh) 客服服务质量评价方法、装置、设备及存储介质
US10255346B2 (en) Tagging relations with N-best
CN111739519A (zh) 基于语音识别的对话管理处理方法、装置、设备及介质
CN110610698B (zh) 一种语音标注方法及装置
CN111651497A (zh) 用户标签挖掘方法、装置、存储介质及电子设备
CN111581360A (zh) 一种辅助客服的方法、系统和设备
CN112084317A (zh) 预训练语言模型的方法和装置
CN113257237B (zh) 语音交互的意图识别方法、装置、电子设备及存储介质
CN110765776A (zh) 回访标注样本数据的生成方法及装置
CN117251547A (zh) 用户提问应答方法及其装置、设备、介质
CN116246632A (zh) 外呼话术指导方法及装置
Dominic et al. Onboarding bot for newcomers to software engineering
CN113297365B (zh) 一种用户意向判定方法、装置、设备及存储介质
CN111309882B (zh) 用于实现智能客服问答的方法和装置
CN110580899A (zh) 语音识别方法及装置、存储介质、计算设备
CN115757718A (zh) 文本生成方法及装置
CN114067842B (zh) 客户满意度鉴别方法及装置、存储介质及电子设备
CN110047473A (zh) 一种人机协作交互方法及系统
EP3962073A1 (en) Online interview method and system
CN114722164A (zh) 一种智能评论回复方法及装置
CN114202363A (zh) 基于人工智能的话术调用方法、装置、计算机设备及介质
CN114297380A (zh) 一种数据处理方法、装置、设备及存储介质
CN115114281A (zh) 查询语句的生成方法和装置,存储介质和电子设备
CN110852799A (zh) 基于意图标签的用户筛选方法、装置、电子设备及介质
JP6916110B2 (ja) 自動化された動的メッセージングの管理のためのシステム及び方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant