CN108922531B - 槽位识别方法、装置、电子设备及存储介质 - Google Patents

槽位识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN108922531B
CN108922531B CN201810838090.XA CN201810838090A CN108922531B CN 108922531 B CN108922531 B CN 108922531B CN 201810838090 A CN201810838090 A CN 201810838090A CN 108922531 B CN108922531 B CN 108922531B
Authority
CN
China
Prior art keywords
target
content
slot position
word
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810838090.XA
Other languages
English (en)
Other versions
CN108922531A (zh
Inventor
舒悦
林芬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Beijing Co Ltd
Original Assignee
Tencent Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Beijing Co Ltd filed Critical Tencent Technology Beijing Co Ltd
Priority to CN201810838090.XA priority Critical patent/CN108922531B/zh
Publication of CN108922531A publication Critical patent/CN108922531A/zh
Application granted granted Critical
Publication of CN108922531B publication Critical patent/CN108922531B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本申请公开了一种槽位识别方法、装置、电子设备及存储介质,涉及人工智能领域。该方法包括:获取目标语音内容中通过槽位识别得到的目标槽位内容;在目标语音内容中确定目标槽位内容的邻近词汇;根据目标语音内容和邻近词汇确定目标槽位内容的识别准确度;根据目标槽位内容的识别准确度确定目标语音内容的槽位内容识别结果。由于在日常表达方式中,针对某一槽位内容进行表达时,该槽位内容的邻近词汇通常是有一定特点的,本申请将日常表达方式中的特点与目标槽位内容的识别相结合,通过邻近词汇判断目标槽位内容的识别准确度,从而确定槽位识别结果,减少由于识别准确度较低的目标槽位内容被作为槽位识别结果而对目标语音内容响应错误的问题。

Description

槽位识别方法、装置、电子设备及存储介质
技术领域
本申请实施例涉及人工智能领域,特别涉及一种槽位识别方法、装置及系统。
背景技术
语音识别功能是人工智能领域中一个重要的发展方向,其中,语音识别功能包括语音槽位识别。语音槽位识别是指在垂直类对话中,用户向机器发出语音指令后,机器从语音指令中识别出目标槽位内容,并根据该目标槽位内容进行对应的操作,如:机器需要识别的目标槽位内容为歌曲信息,用户向机器发出语音指令“播放歌曲《忘情水》”,则机器通过识别得到的歌曲信息为《忘情水》,并根据该歌曲信息播放歌曲《忘情水》。
相关技术中,在对目标槽位内容进行识别时,通过预先设置的句式模板与用户发出的语音指令进行匹配。当语音指令与句式模板匹配成功后,则可以通过句式模板与语音指令识别出目标槽位内容。示意性的,句式模板为“我想听{singer}的{song}”,其中,{singer}为歌手的槽位,{song}为歌曲的槽位,当用户发出的语音指令为“我想听歌手A的忘情水”时,将该语音指令与句式模板进行匹配,得到{singer}的槽位内容为歌手A,{song}的槽位内容为忘情水。
然而,由于用户实际发出的语音指令的句式为开放性的,无法准确预测用户会使用何种句式发出语音指令,所以需要花费大量的人力撰写各种可能情况的句式模板,且无法完全穷尽地列举句式模板,易导致目标槽位内容的识别准确率较低,对用户发出的语音指令进行响应时响应错误的情况较多的问题。
发明内容
本申请实施例提供了一种槽位识别方法、装置、电子设备及存储介质,可以解决目标槽位内容的识别准确率较低,对用户发出的语音指令进行响应时响应错误的情况较多的问题。所述技术方案如下:
一方面,提供了一种槽位识别方法,所述方法包括:
获取目标语音内容中通过槽位识别得到的目标槽位内容,所述槽位识别用于对语音内容中的槽位内容进行识别;
在所述目标语音内容中确定所述目标槽位内容的邻近词汇,所述邻近词汇包括位于所述目标槽位内容之前和/或之后的词汇;
根据所述目标语音内容和所述邻近词汇确定所述目标槽位内容的识别准确度;
根据所述目标槽位内容的所述识别准确度确定所述目标语音内容的所述槽位内容识别结果。
另一方面,提供了一种槽位识别装置,所述装置包括:
获取模块,用于获取目标语音内容中通过槽位识别得到的目标槽位内容,所述槽位识别用于对语音内容中的槽位内容进行识别;
确定模块,用于在所述目标语音内容中确定所述目标槽位内容的邻近词汇,所述邻近词汇包括位于所述目标槽位内容之前和/或之后的词汇;
所述确定模块,还用于根据所述目标语音内容和所述邻近词汇确定所述目标槽位内容的识别准确度;
所述确定模块,还用于根据所述目标槽位内容的所述识别准确度确定所述目标语音内容的所述槽位内容识别结果。
另一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现本申请实施例所述的槽位识别方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现本申请实施例所述的槽位识别方法。
本发明实施例提供的技术方案带来的有益效果至少包括:
当对目标语音内容的槽位内容进行识别得到目标槽位内容后,通过该目标槽位内容的邻近词汇对该目标槽位内容的识别准确度进行确定,由于在日常表达方式中,针对某一槽位内容进行表达时,该槽位内容的邻近词汇通常是有一定特点的,本申请将日常表达方式中的特点与目标槽位内容的识别相结合,通过邻近词汇判断目标槽位内容的识别准确度,并根据该识别准确度确定槽位识别结果,减少由于识别准确度较低的目标槽位内容被作为槽位识别结果而对目标语音内容响应错误的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的槽位识别方法的应用环境的示意图;
图2是本申请另一个示例性实施例提供的槽位识别方法的应用环境的示意图;
图3是本申请一个示例性实施例提供的槽位识别方法的流程图;
图4是本申请另一个示例性实施例提供的槽位识别方法的流程图;
图5是本申请另一个示例性实施例提供的槽位识别方法的流程图;
图6是本申请另一个示例性实施例提供的槽位识别方法的流程图;
图7是本申请另一个示例性实施例提供的槽位识别方法的流程图;
图8是本申请一个示例性实施例提供的槽位识别装置的结构框图;
图9是本申请另一个示例性实施例提供的槽位识别装置的结构框图;
图10是本申请一个示例性实施例提供的终端的结构框图;
图11是本申请一个示例性实施例提供的服务器的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
首先,对本申请实施例中涉及的名词进行简单介绍:
目标语音内容:该目标语音内容是指通过槽位识别得到目标槽位内容的语音内容,可选地,该目标语音内容为对用户输入的语音进行翻译得到的文字内容,可选地,该目标语音内容通过槽位识别可以得到一个目标槽位内容,也可以得到多个目标槽位内容。
槽位识别:槽位识别是指对语音内容中的槽位内容进行识别的过程,可选地,该槽位识别的过程可以通过预先设置的句式模板进行,也可以通过预训练模型进行,本申请实施例对槽位识别的具体过程不做限定。
其中,通过预训练模型进行的槽位识别可以认为是基于序列标注的槽位解析算法,该预训练模型可以是循环神经网络模型(Recurrent Neural Network,RNN),也可以是条件随机场模型(Conditional random fields,CRF)等,本申请实施例对此不加以限定。
目标槽位内容:该目标槽位内容是对目标语音内容进行槽位识别后得到的位于目标槽位中的内容,可选地,目标语音内容通过槽位识别可以得到一个目标槽位内容,也可以得到多个目标槽位内容,示意性的,槽位识别用于对目标语音内容中的槽位{歌曲}进行识别,用户输入的语音为“我想听歌手A的忘情水”,通过槽位识别得到的目标槽位内容包括{歌曲}={歌手A的忘情水}、{歌曲}={忘情水}、{歌曲}={歌手A的}以及{歌曲}={的忘情水},即通过槽位识别对该语音进行识别后,得到4个目标槽位内容。
邻近词汇:该邻近词汇包括在目标语音内容中位于目标槽位内容之前和/或之后的词汇,可选地,该邻近词汇包括目标槽位内容的前缀词和/或后缀词。
前缀词:前缀词是指在目标语音内容中位于目标槽位内容之前的词,可选地,在确定前缀词时,可以先对目标语音内容进行分词得到至少一个分词词汇,并在该至少一个分词词汇中,将目标槽位内容对应的目标词汇之前的一个词确定为前缀词,即该前缀词为目标词汇的前一个词,或者,该前缀词也可以是目标词汇之前的任意一个词,或者,该前缀词还可以是目标词汇之前的任意一组词。其中,当前缀词是目标词汇之前的任意一组词时,该前缀词可以是目标词汇之前的所有词汇的组合,可以是在目标词汇之前随机选择的任意数量的词汇,或者是第i个目标词汇与第i-1个目标词汇之间的所有词汇。
后缀词:该后缀词是指在目标语音内容中位于目标槽位内容之后的词,可选地,结合上述前缀词的简介,在确定后缀词时,可以先对目标语音内容进行分词得到至少一个分词词汇,并在该至少一个分词词汇中,将目标槽位对应的目标词汇之后的一个词确定为后缀词,即该后缀词为目标词汇的后一个词,或者,该后缀词也可以是目标词汇之后的任意一个词,或者,该后缀词还可以是目标词汇之后的任意一组词。其中,当后缀词是目标词汇之后的任意一组词时,该后缀词可以是目标词汇之后的所有词汇的组合,可以是在目标词汇之后随机选择的任意数量的词汇,或者是第i个目标词汇与第i+1个目标词汇之间的所有词汇。
本申请可以应用在终端上,也可以应用在服务器上,其中,终端可以是台式计算机、膝上型便携计算机、手机、平板电脑、电子书阅读器、MP3(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器等等。
图1示出了本申请一个示例性实施例提供的电子设备的结构框图。该电子设备100包括:麦克风110、操作系统120和应用程序122。
操作系统120是为应用程序122提供对计算机硬件的安全访问的基础软件。
应用程序122是支持智能语音功能的应用程序。可选地,应用程序122可以是系统自带的应用程序或者第三方应用程序,可选地该应用程序122可以是即时通讯应用程序、音乐类应用程序、金融类应用程序、购物类应用程序中的任意一种。
用户在使用该应用程序122或者操作系统120时,可以调用电子设备的麦克风110进行语音输入,电子设备100对用户输入的语音指令中的槽位内容进行识别。
图2示出了本申请一个示例性实施例提供的计算机系统的结构框图。该计算机系统200包括:电子设备220、服务器240。
电子设备220安装和运行有支持智能语音功能的应用程序,或该电子设备220中安装的操作系统本身支持智能语音功能。该应用程序可以是即时通讯应用程序、音乐类应用程序、金融类应用程序、购物类应用程序中的任意一种。电子设备220是第一用户使用的设备,第一用户通过电子设备220的麦克风进行语音输入,电子设备220接收到语音指令后,将该语音指令发送至服务器240。
其中,电子设备220通过无线网络或有线网络与服务器240相连。
服务器240包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。服务器240用于对语音指令中的槽位内容进行识别后,将识别结果发送回电子设备220。
本领域技术人员可以知晓,上述电子设备的数量可以更多或更少。比如上述电子设备可以仅为一个,或者上述电子设备为几十个或几百个,或者更多数量。本申请实施例对电子设备的数量和电子设备类型不加以限定。
结合上述名词简介对本申请提供的槽位识别方法进行说明,图3是本申请一个示意性实施例提供的槽位识别方法的流程图,如图3所示,以该方法应用在终端中为例进行说明,该方法包括:
步骤301,获取目标语音内容中通过槽位识别得到的目标槽位内容。
可选地,该槽位识别用于对语音内容中的槽位内容进行识别。可选地,可以先将用户输入的语音翻译为文字内容作为上述目标语音内容,然后对该目标语音内容中的目标槽位内容进行识别。
可选地,当该槽位识别是在服务器中完成的,而本申请提供的方法是在终端中完成的时,当服务器识别得到目标槽位内容后,将该目标槽位内容以及目标语音内容发送至终端,即终端获取目标语音内容中通过槽位识别得到的目标槽位内容,反之,若槽位识别是在终端中完成的,而本申请提供的方法是在服务器中完成的时,则在终端识别得到目标槽位内容后,将该目标槽位内容以及目标语音内容发送至服务器。可选地,当槽位识别以及本申请提供的方法都是在终端或服务器中完成的时,终端或服务器直接获取目标槽位内容。
可选地,该槽位识别可以是通过预先设置的句式模板进行的,也可以是通过预训练模型进行的,当该槽位识别是通过预先设置的句式模板进行的时,在通过该句式模板识别得到目标槽位内容后,终端直接获取该目标槽位内容;当该槽位识别是通过预训练模型进行的时,终端将目标语音内容输入预训练模型后,获取预训练模型输出的目标槽位内容。
其中,通过预训练模型进行的槽位识别可以认为是基于序列标注的槽位解析算法,该预训练模型可以是循环神经网络模型(Recurrent Neural Network,RNN),也可以是条件随机场模型(Conditional random fields,CRF)等,本申请实施例对此不加以限定。
步骤302,在目标语音内容中确定目标槽位内容的邻近词汇。
可选地,该邻近词汇包括位于目标槽位内容之前和/或之后的词汇。关于邻近词汇的说明在上述名词简介中已进行了说明,此处不再赘述。
可选地,该邻近词汇包括前缀词和/或后缀词,在确定目标槽位内容的邻近词汇时,以确定目标槽位内容的前缀词为例进行说明,终端可以对目标语音内容进行分词处理,并在分词处理后得到的至少一个词汇中选取目标槽位内容的前一个词汇作为上述前缀词;或,终端也可以直接在目标语音内容中,对目标槽位内容之前的语音内容进行识别,并得到上述前缀词。
步骤303,根据目标语音内容和邻近词汇确定目标槽位内容的识别准确度。
可选地,以邻近词汇包括前缀词和/或后缀词为例进行说明,在根据目标语音内容以及邻近词汇确定目标槽位内容的识别准确度时,包括如下方式中的任意一种:
第一,将目标语音内容输入第一神经网络模型,得到第一特征向量;确定邻近词汇对应的中间特征向量;将第一特征向量与中间特征向量串连,得到目标特征向量,并将目标特征向量输入神经网络分类模型,得到目标槽位内容的识别准确度;即确定第一特征向量和中间特征向量后将两个特征向量进行串联得到目标特征向量,并通过神经网络分类模型确定目标槽位内容的识别准确度,也即,通过第一神经网络模型和神经网络分类模型至少两个模型对目标操作内容的识别准确度进行确定;
其中,当邻近词汇包括前缀词时,将前缀词对应的第二特征向量作为中间特征向量;当邻近词汇包括后缀词时,将后缀词对应的第三特征向量作为中间特征向量;当邻近词包括前缀词和后缀词时,确定前缀词对应的第二特征向量和后缀词对应的第三特征向量,并将第二特征向量和第三特征向量进行串连,得到中间特征向量。
第二,将目标语音内容和邻近词汇输入第二神经网络模型,通过第二神经网络模型直接输出得到该目标槽位内容的识别准确度。其中,该第二神经网络模型是通过以标注有目标槽位内容的语音内容作为训练集训练得到的神经网络模型,通过该第二神经网络模型,可以直接根据目标语音内容以及邻近词汇的特征得到目标槽位内容的识别准确度。
步骤304,根据目标槽位内容的识别准确度确定目标语音内容的槽位内容识别结果。
可选地,该槽位内容识别结果为对目标语音内容进行槽位识别后得到的最终结果。终端根据该槽位内容识别结果对用于输入的语音指令进行响应。
可选地,根据目标槽位内容的识别准确度确定目标语音内容的槽位内容识别结果时,包括如下情况中的任意一种:
第一,当通过槽位识别得到1个目标槽位内容时,判断该目标槽位内容的识别准确度是否不低于预设准确度;
1.1当该目标槽位内容的识别准确度不低于预设准确度时,将该目标槽位内容确定为槽位内容识别结果;
1.2当该目标槽位内容的识别准确度低于预设准确度时,将槽位内容识别结果确定为空;
第二,当通过槽位识别得到n个目标槽位内容时,判断该n个目标槽位内容的识别准确度中,最高的识别准确度是否不低于预设准确度;
2.1当该最高的识别准确度不低于预设准确度时,将该最高的识别准确度对应的目标槽位内容确定为槽位内容识别结果;
2.2当该最高的识别准确度低于预设准确度时,将槽位内容识别结果确定为空。
综上所述,本实施例提供的槽位识别方法,当对目标语音内容的槽位内容进行识别得到目标槽位内容后,通过该目标槽位内容的邻近词汇对该目标槽位内容的识别准确度进行确定,由于在日常表达方式中,针对某一槽位内容进行表达时,该槽位内容的邻近词汇通常是有一定特点的,本申请将日常表达方式中的特点与目标槽位内容的识别相结合,通过邻近词汇判断目标槽位内容的识别准确度,并根据该识别准确度确定槽位识别结果,减少由于识别准确度较低的目标槽位内容被作为槽位识别结果而对目标语音内容响应错误的问题。
在一个可选的实施例中,目标槽位内容的识别准确度是根据目标语音内容、前缀词和/或后缀词的特征向量得到的,请参考图4,图4是本申请另一个示例性的实施例提供的槽位识别方法的流程图,该方法包括:
步骤401,获取目标语音内容中通过槽位识别得到的目标槽位内容。
可选地,该槽位识别用于对语音内容中的槽位内容进行识别。可选地,可以先将用户输入的语音翻译为文字内容作为上述目标语音内容,然后对该目标语音内容中的目标槽位内容进行识别。
可选地,该槽位识别可以是通过预先设置的句式模板进行的,也可以是通过预训练模型进行的,当该槽位识别是通过预先设置的句式模板进行的时,在通过该句式模板识别得到目标槽位内容后,终端直接获取该目标槽位内容;当该槽位识别是通过预训练模型进行的时,终端将目标语音内容输入预训练模型后,获取预训练模型输出的目标槽位内容。
步骤402,将目标语音内容输入第一神经网络模型,得到第一特征向量。
可选地,将第一神经网络模型用于对该目标语音内容进行编码,得到该第一特征向量。
可选地,在通过第一神经网络模型对目标语音内容进行编码之前,可以先对该目标语音内容进行归一化,然后对归一化后的目标语音内容进行编码,具体过程如下:
首先,将目标语音内容中的目标槽位内容替换为目标词汇,得到归一化语句,其中,该目标词汇为预先设置的与目标语音内容对应的词汇。对归一化语句进行分字处理,得到至少一个单字。将该至少一个单字输入第一神经网络模型后,第一神经网络模型对该至少一个单字进行逐字编码,得到第一特征向量。
示意性的,以目标语音内容为“我想听歌手A的忘情水”,目标槽位内容为“忘情水”为例进行说明,目标词汇为song,则将目标语音内容中的目标槽位内容替换为目标词汇,得到归一化语句为“我想听歌手A的song”,对该归一化语句进行分字处理,得到8个单字“我”、“想”、“听”、“歌”、“手”、“A”、“的”、“song”,将该8个单字输入第一神经网络模型后,第一神经网络模型对该8个单字进行逐字编码,得到第一特征向量。
可选地,该第一神经网络模型将上述至少一个单字编码为100维的第一特征向量。
可选地,第一神经网络模型包括但不限于:深度神经网络(Deep Neural Network,DNN)模型、循环神经网络(Recurrent Neural Networks,RNN)模型、嵌入(embedding)模型、梯度提升决策树(Gradient Boosting Decision Tree,GBDT)模型、逻辑回归(LogisticRegression,LR)、深度适配网络(Deep Adaptation Netowrk,DAN)模型中的至少一种。
步骤403,在目标语音内容中确定目标槽位内容的前缀词。
可选地,结合上述步骤402,在确定目标槽位内容的前缀词时,可以对上述归一化语句进行分词处理,得到至少一个分词词汇,并在上述至少一个分词词汇中,将位于目标词汇之前的分词词汇确定为前缀词。其中,该前缀词可以是目标词汇的前一个分词词汇,可以是目标词汇之前的任意一个分词词汇,或者该目标词汇之前的任意一组分词词汇。其中,当前缀词是目标词汇之前的任意一组分词词汇时,该前缀词可以是目标词汇之前的所有分词词汇的组合,可以是在目标词汇之前随机选择的任意数量的分词词汇,或者是第i个目标词汇与第i-1个目标词汇之间的所有分词词汇。
示意性的,以该前缀词是目标词汇的前一个词为例进行说明,对归一化语句“我想听歌手A的song”进行分词,得到“我”、“想听”、“歌手A的”、“song”,其中,“song”为目标词汇,则该目标词汇的前一个词为“歌手A的”。
步骤404,确定前缀词对应的第二特征向量。
可选地,当邻近词汇包括该前缀词时,确定该前缀词对应的第二特征向量。也即,当目标词汇之前包括至少一个词汇作为前缀词时,确定该前缀词对应的第二特征向量。
可选地,确定前缀词对应的第二特征向量包括如下方式中的任意一种:
第一,确定前缀词与前缀表中的词汇是否匹配,当前缀词与前缀表中的词汇对应有第一匹配关系时,将第一匹配关系对应的第一向量确定为第二特征向量;当前缀词与前缀表中的词汇不匹配时,将第二向量确定为第二特征向量,该第二向量为与非匹配关系对应的特征向量;
可选地,该前缀表中存储有可能出现在槽位内容之前的词汇,当前缀词与前缀表中的词汇匹配时,即说明该前缀词符合槽位内容之前的词汇。
示意性的,当前缀词与前缀表中的词汇对应有第一匹配关系,确定该第一匹配关系对应的特征Prev_1,通过嵌入(英文:embedding)模型对该Prev_1进行编码得到第一向量,并将该第一向量作为上述第二特征向量;当前缀词与前缀表中的词汇不匹配时,确定非匹配关系对应的特征Prev_0,并通过embedding模型对该Prev_0进行编码得到第二向量,作为第二特征向量。
示意性的,前缀词为“歌手A的”,前缀表如下表一所示:
表一
序号 前缀词
1 歌手A的
2 一首
3 播放
前缀词与前缀表中的词汇1匹配,则对该词汇1对应特征Prev_1进行编码得到第一向量作为上述第二特征向量。其中,不同的前缀词可以对应不同的Prev_1的取值(即一个前缀词对应有一个独一的Prev_1的取值),或者不同的前缀词也可以对应同样的Prev_1的取值(即所有前缀词对应的Prev_1的取值是相同的)。
其中,embedding模型是基于实体和关系分布式向量表示,将每个三元组实例中的关系看作从实体头到实体尾的翻译。其中,三元组实例包括主体、关系、客体,三元组实例可以表示成(主体,关系,客体);主体为实体头,客体为实体尾。
第二,确定前缀词的词性是否与预设词性匹配,当前缀词的词性与预设词性匹配时,将该预设词性对应的特征向量作为第二特征向量,当前缀词的词性与预设词性不匹配时,将预设的与不匹配关系对应的特征向量作为第二特征向量。
示意性的,前缀词为“播放”,该前缀词的词性为动词,预设词性为动词或量词,则该前缀词的词性与预设词性匹配,将该预设词性动词对应的特征向量作为第二特征向量。
可选地,该第二特征向量为30维的向量。
步骤405,在目标语音内容中确定目标槽位内容的后缀词。
可选地,结合上述步骤402,在确定目标槽位内容的后缀词时,可以对上述归一化语句进行分词处理,得到至少一个分词词汇,并在上述至少一个分词词汇中,将位于目标词汇之后的分词词汇确定为后缀词。其中,该后缀词可以是目标词汇的后一个分词词汇,可以是目标词汇之后的任意一个分词词汇,或者该目标词汇之后的任意一组分词词汇。其中,当后缀词是目标词汇之前的任意一组分词词汇时,该后缀词可以是目标词汇之后的所有分词词汇的组合,可以是在目标词汇之后随机选择的任意数量的分词词汇,或者是第i个目标词汇与第i+1个目标词汇之间的所有分词词汇。
示意性的,以该后缀词是目标词汇的后一个词为例进行说明,对归一化语句“我想听歌手A的song”进行分词,得到“我”、“想听”、“歌手A的”、“song”,其中,“song”为目标词汇,则该目标词汇不包括后缀词。
步骤406,确定后缀词对应的第三特征向量。
可选地,当邻近词汇包括该后缀词时,确定该后缀词对应的第三特征向量。也即,当目标词汇之后包括至少一个词汇作为后缀词时,确定该后缀词对应的第三特征向量。
可选地,确定后缀词对应的第三特征向量包括如下方式中的任意一种:
第一,确定后缀词与后缀表中的词汇是否匹配,当后缀词与后缀表中的词汇对应有第二匹配关系时,将第二匹配关系对应的第三向量确定为第三特征向量;当后缀词与后缀表中的词汇不匹配时,将第四向量确定为第三特征向量,该第四向量为与非匹配关系对应的特征向量;
可选地,该后缀表中存储有出现在槽位内容之后的可能词汇,当后缀词与后缀表中的词汇匹配时,即说明该后缀词为槽位内容之后的可能词汇。
值得注意的是,当邻近词汇不包括后缀词时,可以认为该第三特征向量为空,也可以将第四向量确定为第三特征向量。
示意性的,当后缀词与后缀表中的词汇对应有第二匹配关系,确定该第二匹配关系对应的特征Post_1,通过嵌入层模型(英文:embedding)对该Post_1进行编码得到第三向量,并将该第三向量作为上述第三特征向量;当后缀词与后缀表中的词汇不匹配时,确定非匹配关系对应的特征Post_0,并通过embedding对该Post_0进行编码得到第四向量,作为第三特征向量。
第二,确定后缀词的词性是否与预设词性匹配,当后缀词的词性与预设词性匹配时,将该预设词性对应的特征向量作为第三特征向量,当后缀词的词性与预设词性不匹配时,将预设的与不匹配关系对应的特征向量作为第三特征向量。
可选地,该第三特征向量为30维的向量。
步骤407,将第一特征向量和第二特征向量串连,得到目标特征向量。
可选地,当该邻近词汇包括前缀词,并通过上述步骤404确定该前缀词对应的第二特征向量后,将第一特征向量和第二特征向量串连,得到目标特征向量。
示意性的,该第一特征向量为w1,第二特征向量为w2,将第一特征向量为w1,第二特征向量为w2串连,得到w1、w2。可选地,该目标特征向量为130维的特征向量。
步骤408,将第一特征向量和第三特征向量串连,得到目标特征向量。
可选地,当该邻近词汇包括后缀词,并通过上述步骤406确定该后缀词对应的第三特征向量后,将第一特征向量和第三特征向量串连,得到目标特征向量。
示意性的,该第一特征向量为w1,第三特征向量为w3,将第一特征向量为w1,第三特征向量为w3串连,得到w1、w3。可选地,该目标特征向量为130维的特征向量。
步骤409,将第一特征向量、第二特征向量以及第三特征向量串连,得到目标特征向量。
示意性的,该第一特征向量为w1,第二特征向量为w2,第三特征向量为w3,将第一特征向量为w1,第二特征向量为w2,第三特征向量为w3串连,得到w1、w2、w3。可选地,该目标特征向量为160维的特征向量。
步骤410,将目标特征向量输入神经网络分类模型,得到目标槽位内容的识别准确度。
可选地,该神经网络分类模型(英文:softmax)用于根据目标特征向量对目标槽位内容的识别准确度进行输出。
可选地,在将目标特征向量输入softmax之前,首先将该目标特征向量输入全连接神经网络模型,通过全连接神经网络模型对目标特征向量进行压缩,得到压缩向量,并将压缩向量输入神经网络分类模型,得到目标槽位内容的识别准确度。
可选地,全连接网络模型在对目标特征向量进行压缩时,可以压缩至固定的维数,如:目标特征向量为160维,将该目标特征向量压缩至100维得到压缩向量;也可以以固定的压缩比例对目标特征向量进行压缩,如:目标特征向量为160维,压缩比例为10:16,则将该目标特征向量压缩至100维得到压缩向量。
步骤411,根据目标槽位内容的识别准确度确定目标语音内容的槽位内容识别结果。
在一个示意性的举例中,如图5所示,以归一化语句为“我想听song”为例进行说明,将该归一化语句分字得到至少一个单字后,将该至少一个单字输入RNN,通过RNN对该至少一个单字进行逐字编码,其中,逐字编码过程为:在第0层神经网络S0中输入网络参数W以及第一个分字“我”的特征X0,输出得到隐层状态W0以及输出结果O0,在第1层神经网络S1中输入隐层状态W0以及第二个分字“想”的特征X1,输出得到隐层状态W1以及输出结果O1,在第2层神经网络S2中输入隐层状态W1以及第三个分字“听”的特征X2,输出得到隐层状态W2以及输出结果O2,在第3层神经网络S3中输入隐层状态W2以及第四个分字“Song”的特征X3,输出得到隐层状态W3以及输出结果O3,该隐层状态W3即为第一特征向量51。其中,“Song”为目标词汇。
通过embedding模型对前缀特征52进行编码,得到第二特征向量53;通过embedding模型对后缀特征54进行编码,得到第三特征向量55,将第一特征向量51、第二特征向量53以及第三特征向量55进行串连,得到目标特征向量56,并通过全连接层对目标特征向量56进行压缩得到压缩向量57,将该压缩向量57输入softmax得到目标词汇所在的目标槽位内容的识别准确度58。其中,embedding模型用于对特征进行编码,得到预设维数的特征向量。
综上所述,本实施例提供的槽位识别方法,当对目标语音内容的槽位内容进行识别得到目标槽位内容后,通过该目标槽位内容的邻近词汇对该目标槽位内容的识别准确度进行确定,由于在日常表达方式中,针对某一槽位内容进行表达时,该槽位内容的邻近词汇通常是有一定特点的,本申请将日常表达方式中的特点与目标槽位内容的识别相结合,通过邻近词汇判断目标槽位内容的识别准确度,并根据该识别准确度确定槽位识别结果,减少由于识别准确度较低的目标槽位内容被作为槽位识别结果而对目标语音内容响应错误的问题。
本实施例提供的方法,通过目标槽位内容的前缀词和/或后缀词,对目标槽位内容的识别准确度进行确定,通过将前缀词和/或后缀词对应的特征进行编码后输入softmax,并通过softmax确定目标槽位内容的识别准确度,提高了对目标槽位内容的识别准确度的判断准确度。
在一个可选的实施例中,通过槽位识别,在目标语音内容中识别得到n个目标槽位内容,对n个目标槽位内容的识别准确度进行确定后,需要从n个目标槽位内容中确定一个槽位内容作为目标语音内容的槽位内容识别结果。
图6是本申请另一个示例性实施例提供的槽位识别方法的流程图,该方法包括:
步骤601,获取目标语音内容中通过槽位识别得到的n个目标槽位内容,n≥1。
可选地,该n个目标槽位内容为对目标语音内容通过槽位识别得到的槽位内容,示意性的,以对目标语音内容进行槽位识别得到4个目标槽位内容为例进行说明,槽位识别用于对目标语音内容中的槽位{歌曲}进行识别,用户输入的语音为“我想听歌手A的忘情水”,通过槽位识别得到的目标槽位内容包括{歌曲}={歌手A的忘情水}、{歌曲}={忘情水}、{歌曲}={歌手A的}以及{歌曲}={的忘情水},即通过槽位识别对该语音进行识别后,得到4个目标槽位内容。
可选地,上述举例中以1个槽位为例进行说明,当槽位识别用于对目标语音内容中的槽位{歌曲}及{歌手}进行识别,用户输入的语音为“我想听歌手A的忘情水”,通过槽位识别得到的目标槽位内容包括{歌曲}={歌手A的忘情水}、{歌曲}={忘情水}、{歌曲}={歌手A的}、{歌曲}={的忘情水}、{歌手}={歌手A}、{歌手}={歌手A的}即通过槽位识别对该语音进行识别后,得到6个目标槽位内容,其中,4个为{歌曲}槽位的目标槽位内容,2个为{歌手}槽位的目标槽位内容。
值得注意的是,对目标语音内容进行槽位识别时的槽位可以更少或者更多,本申请实施例对此不加以限定。
步骤602,在目标语音内容中确定n个目标槽位内容对应的邻近词汇。
可选地,针对每一个目标槽位内容在目标语音内容中都有邻近词汇,该邻近词汇为目标槽位内容的前缀词和/或后缀词。
步骤603,根据目标语音内容和n个目标槽位内容对应的邻近词汇确定n个目标槽位内容对应的n个识别准确度。
可选地,上述步骤401至步骤410中对根据目标语音内容以及邻近词汇确定识别准确度的过程进行了详细说明,此处不再赘述。针对上述n个目标槽位内容,可以分别进行一次上述步骤401至步骤410以得到n个识别准确度。
步骤604,根据n个识别准确度确定目标语音内容的槽位内容识别结果。
可选地,根据n个识别准确度确定目标语音内容的槽位内容识别结果的方式包括如下方式中的任意一种:
第一,将n个识别准确度中最高的识别准确度对应的目标槽位内容确定为槽位内容识别结果;
第二,当n个识别准确度中最高的识别准确度不低于预设准确度时,将最高的识别准确度对应的目标槽位内容确定为槽位内容识别结果;当n个识别准确度中最高的识别准确度低于预设准确度时,确定目标语音内容的槽位内容识别结果为空。
示意性的,4个目标槽位内容为{歌曲}={歌手A的忘情水}、{歌曲}={忘情水}、{歌曲}={歌手A的}以及{歌曲}={的忘情水},其中,{歌曲}={歌手A的忘情水}的识别准确度为55,{歌曲}={忘情水}的识别准确度为89,{歌曲}={歌手A的}的识别准确度为45以及{歌曲}={的忘情水}的识别准确度为70,预设准确度为80,则将{歌曲}={忘情水}确定为槽位内容识别结果。
可选地,当目标语音内容的槽位内容识别结果为空时,终端向用户进行无法识别语音内容的提示,如“无法识别您想播放的歌曲”。
值得注意的是,在上述确定n个目标槽位内容对应的n个识别准确度后,可以根据交叉熵对该n个识别准确度进行调整,并将调整后的识别准确度和目标槽位内容作为训练集,对上述第一神经网络模型、全连接神经网络模型、softmax以及embedding模型进行训练。
综上所述,本实施例提供的槽位识别方法,当对目标语音内容的槽位内容进行识别得到目标槽位内容后,通过该目标槽位内容的邻近词汇对该目标槽位内容的识别准确度进行确定,由于在日常表达方式中,针对某一槽位内容进行表达时,该槽位内容的邻近词汇通常是有一定特点的,本申请将日常表达方式中的特点与目标槽位内容的识别相结合,通过邻近词汇判断目标槽位内容的识别准确度,并根据该识别准确度确定槽位识别结果,减少由于识别准确度较低的目标槽位内容被作为槽位识别结果而对目标语音内容响应错误的问题。
本实施例提供的槽位识别方法,通过对n个目标槽位内容的识别准确度进行确定,根据n个识别准确度确定槽位识别结果,提高了槽位识别结果的准确率。
本实施例提供的槽位识别方法,在确定n个目标槽位内容对应的n个识别准确度后,可以根据交叉熵对该n个识别准确度进行调整,并根据调整后的n个识别准确度以及目标槽位内容构建训练集,对本实施例涉及的神经网络模型进行训练,增加了训练集的数量,不断提高对识别准确度进行确定的精确性。
在一个示意性的实施例中,图7是本申请另一个示例性的实施例提供的槽位识别方法的示意图,如图7所示,将目标槽位内容71,即{歌手}={歌手A的忘情水},目标槽位内容72,即{歌手}={歌手A},目标槽位内容73,即{歌曲}={忘情水},以及目标槽位内容74,即{歌曲}={的忘情水}输入槽位识别模块75,输出得到槽位识别结果76,即{歌手}={歌手A},以及槽位识别结果77,即{歌曲}={忘情水}。其中,槽位识别模块75由上述实施例中所述的第一神经网络模型、embedding模型、全连接神经网络模型以及softmax组成。
图8是本申请一个示例性实施例提供的槽位识别装置的结构框图,如图8所示,该槽位识别装置包括:获取模块810以及确定模块820;
获取模块810,用于获取目标语音内容中通过槽位识别得到的目标槽位内容,所述槽位识别用于对语音内容中的槽位内容进行识别;
确定模块820,用于在所述目标语音内容中确定所述目标槽位内容的邻近词汇,所述邻近词汇包括位于所述目标槽位内容之前和/或之后的词汇;
所述确定模块820,还用于根据所述目标语音内容和所述邻近词汇确定所述目标槽位内容的识别准确度;
所述确定模块820,还用于根据所述目标槽位内容的所述识别准确度确定所述目标语音内容的所述槽位内容识别结果。
在一个可选的实施例中,如图9所示,该装置还包括输入模块830;
输入模块830,用于将所述目标语音内容输入第一神经网络模型,得到第一特征向量;
确定模块820,包括:
确定子模块821,用于确定所述邻近词汇对应的中间特征向量;
串连子模块822,用于将所述第一特征向量和所述中间特征向量串连,得到目标特征向量;
输入子模块823,用于将所述目标特征向量输入神经网络分类模型,得到所述目标槽位内容的识别准确度。
在一个可选的实施例中,所述邻近词汇包括所述目标槽位内容的前缀词;
确定子模块821,还用于确定所述前缀词对应的第二特征向量作为所述中间特征向量。
在一个可选的实施例中,所述邻近词汇包括所述目标槽位内容的后缀词;
确定子模块821,用于确定所述后缀词对应的第三特征向量作为所述中间特征向量。
在一个可选的实施例中,所述邻近词汇包括所述目标槽位内容的前缀词和后缀词;
确定子模块821,用于确定所述前缀词对应的第二特征向量和所述后缀词对应的第三特征向量;
串连子模块822,用于将所述第二特征向量和所述第三特征向量串连,得到所述中间特征向量。
在一个可选的实施例中,所述确定子模块821,还用于确定所述前缀词与前缀表中的词汇是否匹配;
所述确定子模块821,还用于当所述前缀词与所述前缀表中的词汇对应有第一匹配关系时,将所述第一匹配关系对应的第一向量确定为所述第二特征向量;
或,
所述确定子模块821,还用于当所述前缀词与所述前缀表中的词汇不匹配时,将第二向量确定为所述第二特征向量,所述第二向量为与非匹配关系对应的特征向量。
在一个可选的实施例中,所述确定子模块821,还用于确定所述后缀词与后缀表中的词汇是否匹配;
所述确定子模块821,还用于当所述后缀词与所述后缀表中的词汇对应有第二匹配关系时,将所述第二匹配关系对应的第三向量确定为所述第三特征向量;
或,
所述确定子模块821,还用于当所述后缀词与所述后缀表中的词汇不匹配时,将第四向量确定为所述第三特征向量,所述第四向量为与非匹配关系对应的特征向量。
在一个可选的实施例中,所述输入模块830,还用于将所述目标语音内容中的所述目标槽位内容替换为目标词汇,得到归一化语句,所述目标词汇为预先设置的与所述目标语音内容对应的词汇;
所述输入模块830,还用于对所述归一化语句进行分字处理,得到至少一个单字;
所述输入模块830,还用于将所述至少一个单字输入所述第一神经网络模型,得到所述第一特征向量。
在一个可选的实施例中,所述确定模块820,还用于对所述归一化语句进行分词处理,得到至少一个分词词汇;
所述确定模块820,还用于在所述至少一个分词词汇中,将位于所述目标词汇之前的分词词汇确定为前缀词;和/或,在所述至少一个分词词汇中,将位于所述目标词汇之后的分词词汇确定为后缀词。
在一个可选的实施例中,所述输入子模块823,还用于通过全连接神经网络模型对所述目标特征向量进行压缩,得到压缩向量;
所述输入子模块823,还用于将所述压缩向量输入所述神经网络分类模型,得到所述目标槽位内容的识别准确度。
在一个可选的实施例中,所述获取模块810,还用于获取所述目标语音内容中通过所述槽位识别得到的n个目标槽位内容,n≥1;
所述确定模块820,还用于根据所述目标语音内容和所述n个目标槽位内容对应的邻近词汇,确定所述n个目标槽位内容对应的n个识别准确度。
在一个可选的实施例中,所述确定模块820,还用于当所述n个识别准确度中最高的识别准确度不低于预设准确度时,将所述最高的识别准确度对应的目标槽位内容确定为所述槽位内容识别结果;
或,
所述确定模块820,还用于当所述n个识别准确度中所述最高的识别准确度低于所述预设准确度时,确定所述目标语音内容的所述槽位内容识别结果为空。
图10示出了本发明一个示例性实施例提供的终端1000的结构框图。该终端1000可以是:智能手机、平板电脑、MP3播放器(Moving Picture Experts GroupAudio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio LayerIV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1000还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端1000包括有:处理器1001和存储器1002。
处理器1001可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1001可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1001可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1001还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1002可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1002中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1001所执行以实现本申请中方法实施例提供的槽位识别方法。
在一些实施例中,终端1000还可选包括有:外围设备接口1003和至少一个外围设备。处理器1001、存储器1002和外围设备接口1003之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1003相连。具体地,外围设备包括:射频电路1004、触摸显示屏1005、摄像头1006、音频电路1007、定位组件1008和电源1009中的至少一种。
外围设备接口1003可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1001和存储器1002。在一些实施例中,处理器1001、存储器1002和外围设备接口1003被集成在同一芯片或电路板上;在一些其他实施例中,处理器1001、存储器1002和外围设备接口1003中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1004用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1004通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1004将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1004包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1004可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1004还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏1005用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1005是触摸显示屏时,显示屏1005还具有采集在显示屏1005的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1001进行处理。此时,显示屏1005还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1005可以为一个,设置终端1000的前面板;在另一些实施例中,显示屏1005可以为至少两个,分别设置在终端1000的不同表面或呈折叠设计;在再一些实施例中,显示屏1005可以是柔性显示屏,设置在终端1000的弯曲表面上或折叠面上。甚至,显示屏1005还可以设置成非矩形的不规则图形,也即异形屏。显示屏1005可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件1006用于采集图像或视频。可选地,摄像头组件1006包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1006还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1007可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1001进行处理,或者输入至射频电路1004以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1000的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1001或射频电路1004的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1007还可以包括耳机插孔。
定位组件1008用于定位终端1000的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件1008可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
电源1009用于为终端1000中的各个组件进行供电。电源1009可以是交流电、直流电、一次性电池或可充电电池。当电源1009包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端1000还包括有一个或多个传感器1010。该一个或多个传感器1010包括但不限于:加速度传感器1011、陀螺仪传感器1012、压力传感器1013、指纹传感器1014、光学传感器1015以及接近传感器1016。
加速度传感器1011可以检测以终端1000建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1011可以用于检测重力加速度在三个坐标轴上的分量。处理器1001可以根据加速度传感器1011采集的重力加速度信号,控制触摸显示屏1005以横向视图或纵向视图进行用户界面的显示。加速度传感器1011还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1012可以检测终端1000的机体方向及转动角度,陀螺仪传感器1012可以与加速度传感器1011协同采集用户对终端1000的3D动作。处理器1001根据陀螺仪传感器1012采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1013可以设置在终端1000的侧边框和/或触摸显示屏1005的下层。当压力传感器1013设置在终端1000的侧边框时,可以检测用户对终端1000的握持信号,由处理器1001根据压力传感器1013采集的握持信号进行左右手识别或快捷操作。当压力传感器1013设置在触摸显示屏1005的下层时,由处理器1001根据用户对触摸显示屏1005的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器1014用于采集用户的指纹,由处理器1001根据指纹传感器1014采集到的指纹识别用户的身份,或者,由指纹传感器1014根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1001授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1014可以被设置终端1000的正面、背面或侧面。当终端1000上设置有物理按键或厂商Logo时,指纹传感器1014可以与物理按键或厂商Logo集成在一起。
光学传感器1015用于采集环境光强度。在一个实施例中,处理器1001可以根据光学传感器1015采集的环境光强度,控制触摸显示屏1005的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏1005的显示亮度;当环境光强度较低时,调低触摸显示屏1005的显示亮度。在另一个实施例中,处理器1001还可以根据光学传感器1015采集的环境光强度,动态调整摄像头组件1006的拍摄参数。
接近传感器1016,也称距离传感器,通常设置在终端1000的前面板。接近传感器1016用于采集用户与终端1000的正面之间的距离。在一个实施例中,当接近传感器1016检测到用户与终端1000的正面之间的距离逐渐变小时,由处理器1001控制触摸显示屏1005从亮屏状态切换为息屏状态;当接近传感器1016检测到用户与终端1000的正面之间的距离逐渐变大时,由处理器1001控制触摸显示屏1005从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图10中示出的结构并不构成对终端1000的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
本申请还提供了一种服务器,该服务器包括处理器和存储器,存储器中存储有至少一条指令,至少一条指令由处理器加载并执行以实现上述各个方法实施例提供的在槽位识别方法。需要说明的是,该服务器可以是如下图11所提供的服务器。
请参考图11,其示出了本申请一个示例性实施例提供的服务器的结构示意图。具体来讲:所述服务器1100包括中央处理单元(CPU)1101、包括随机存取存储器(RAM)1102和只读存储器(ROM)1103的系统存储器1104,以及连接系统存储器1104和中央处理单元1101的系统总线1105。所述服务器1100还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1106,和用于存储操作系统1113、应用程序1114和其他程序模块1115的大容量存储设备1107。
所述基本输入/输出系统1106包括有用于显示信息的显示器1108和用于用户输入信息的诸如鼠标、键盘之类的输入设备1109。其中所述显示器1108和输入设备1109都通过连接到系统总线1105的输入输出控制器1110连接到中央处理单元1101。所述基本输入/输出系统1106还可以包括输入输出控制器1110以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1110还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1107通过连接到系统总线1105的大容量存储控制器(未示出)连接到中央处理单元1101。所述大容量存储设备1107及其相关联的计算机可读介质为服务器1100提供非易失性存储。也就是说,所述大容量存储设备1107可以包括诸如硬盘或者CD-ROI驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1107可以统称为存储器。
存储器存储有一个或多个程序,一个或多个程序被配置成由一个或多个中央处理单元1101执行,一个或多个程序包含用于实现上述槽位识别方法的指令,中央处理单元1101执行该一个或多个程序实现上述各个方法实施例提供的槽位识别方法。
根据本发明的各种实施例,所述服务器1100还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1100可以通过连接在所述系统总线1105上的网络接口单元1111连接到网络1112,或者说,也可以使用网络接口单元1111来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,所述一个或者一个以上程序包含用于进行本发明实施例提供的槽位识别方法中由服务器所执行的步骤。
本申请实施例还提供一种计算机可读存储介质,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如图3至图7任一所述的槽位识别方法。
本申请还提供了一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行上述各个方法实施例提供的槽位识别方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种槽位识别方法,其特征在于,所述方法包括:
获取目标语音内容中通过槽位识别得到的目标槽位内容,所述槽位识别用于对语音内容中的槽位内容进行识别;
在所述目标语音内容中确定所述目标槽位内容的邻近词汇,所述邻近词汇包括位于所述目标槽位内容之前和/或之后的词汇;
根据所述目标语音内容和所述邻近词汇确定所述目标槽位内容的识别准确度;
根据所述目标槽位内容的所述识别准确度确定所述目标语音内容的槽位内容识别结果。
2.根据权利要求1所述的方法,其特征在于,所述在所述目标语音内容中确定所述目标槽位内容的邻近词汇之前,还包括:
将所述目标语音内容输入第一神经网络模型,得到第一特征向量;
所述根据所述目标语音内容和所述邻近词汇确定所述目标槽位内容的识别准确度,包括:
确定所述邻近词汇对应的中间特征向量;
将所述第一特征向量和所述中间特征向量串连,得到目标特征向量;
将所述目标特征向量输入神经网络分类模型,得到所述目标槽位内容的识别准确度。
3.根据权利要求2所述的方法,其特征在于,所述邻近词汇包括所述目标槽位内容的前缀词;
所述确定所述邻近词汇对应的中间特征向量,包括:
确定所述前缀词对应的第二特征向量作为所述中间特征向量。
4.根据权利要求2所述的方法,其特征在于,所述邻近词汇包括所述目标槽位内容的后缀词;
所述确定所述邻近词汇对应的中间特征向量,包括:
确定所述后缀词对应的第三特征向量作为所述中间特征向量。
5.根据权利要求2所述的方法,其特征在于,所述邻近词汇包括所述目标槽位内容的前缀词和后缀词;
所述确定所述邻近词汇对应的中间特征向量,包括:
确定所述前缀词对应的第二特征向量和所述后缀词对应的第三特征向量;
将所述第二特征向量和所述第三特征向量串连,得到所述中间特征向量。
6.根据权利要求3所述的方法,其特征在于,所述确定所述前缀词对应的第二特征向量,包括:
确定所述前缀词与前缀表中的词汇是否匹配;
当所述前缀词与所述前缀表中的词汇对应有第一匹配关系时,将所述第一匹配关系对应的第一向量确定为所述第二特征向量;或,当所述前缀词与所述前缀表中的词汇不匹配时,将第二向量确定为所述第二特征向量,所述第二向量为与非匹配关系对应的特征向量。
7.根据权利要求4所述的方法,其特征在于,所述确定所述后缀词对应的第三特征向量,包括:
确定所述后缀词与后缀表中的词汇是否匹配;
当所述后缀词与所述后缀表中的词汇对应有第二匹配关系时,将所述第二匹配关系对应的第三向量确定为所述第三特征向量;或,当所述后缀词与所述后缀表中的词汇不匹配时,将第四向量确定为所述第三特征向量,所述第四向量为与非匹配关系对应的特征向量。
8.根据权利要求2所述的方法,其特征在于,所述将所述目标语音内容输入第一神经网络模型,得到第一特征向量,包括:
将所述目标语音内容中的所述目标槽位内容替换为目标词汇,得到归一化语句,所述目标词汇为预先设置的与所述目标语音内容对应的词汇;
对所述归一化语句进行分字处理,得到至少一个单字;
将所述至少一个单字输入所述第一神经网络模型,得到所述第一特征向量。
9.根据权利要求8所述的方法,其特征在于,所述在所述目标语音内容中确定所述目标槽位内容的邻近词汇,包括:
对所述归一化语句进行分词处理,得到至少一个分词词汇;
在所述至少一个分词词汇中,将位于所述目标词汇之前的分词词汇确定为前缀词;和/或,在所述至少一个分词词汇中,将位于所述目标词汇之后的分词词汇确定为后缀词。
10.根据权利要求2至9任一所述的方法,其特征在于,所述将所述目标特征向量输入神经网络分类模型,得到所述目标槽位内容的识别准确度,包括:
通过全连接神经网络模型对所述目标特征向量进行压缩,得到压缩向量;
将所述压缩向量输入所述神经网络分类模型,得到所述目标槽位内容的识别准确度。
11.根据权利要求1至9任一所述的方法,其特征在于,所述获取目标语音内容中通过槽位识别得到的目标槽位内容,包括:
获取所述目标语音内容中通过所述槽位识别得到的n个目标槽位内容,n≥1;
所述根据所述目标语音内容和所述邻近词汇确定所述目标槽位内容的识别准确度,包括:
根据所述目标语音内容和所述n个目标槽位内容对应的邻近词汇,确定所述n个目标槽位内容对应的n个识别准确度。
12.根据权利要求11所述的方法,其特征在于,所述根据所述目标槽位内容的所述识别准确度确定所述目标语音内容的槽位内容识别结果,包括:
当所述n个识别准确度中最高的识别准确度不低于预设准确度时,将所述最高的识别准确度对应的目标槽位内容确定为所述槽位内容识别结果;
或,
当所述n个识别准确度中所述最高的识别准确度低于所述预设准确度时,确定所述目标语音内容的所述槽位内容识别结果为空。
13.一种槽位识别装置,其特征在于,所述装置包括:
获取模块,用于获取目标语音内容中通过槽位识别得到的目标槽位内容,所述槽位识别用于对语音内容中的槽位内容进行识别;
确定模块,用于在所述目标语音内容中确定所述目标槽位内容的邻近词汇,所述邻近词汇包括位于所述目标槽位内容之前和/或之后的词汇;
所述确定模块,还用于根据所述目标语音内容和所述邻近词汇确定所述目标槽位内容的识别准确度;
所述确定模块,还用于根据所述目标槽位内容的所述识别准确度确定所述目标语音内容的槽位内容识别结果。
14.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至12任一所述的槽位识别方法。
15.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至12任一所述的槽位识别方法。
CN201810838090.XA 2018-07-26 2018-07-26 槽位识别方法、装置、电子设备及存储介质 Active CN108922531B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810838090.XA CN108922531B (zh) 2018-07-26 2018-07-26 槽位识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810838090.XA CN108922531B (zh) 2018-07-26 2018-07-26 槽位识别方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN108922531A CN108922531A (zh) 2018-11-30
CN108922531B true CN108922531B (zh) 2020-10-27

Family

ID=64417307

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810838090.XA Active CN108922531B (zh) 2018-07-26 2018-07-26 槽位识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN108922531B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109636524A (zh) * 2018-12-11 2019-04-16 优估(上海)信息科技有限公司 一种车辆信息获取方法、装置及系统
CN111694932A (zh) * 2019-03-13 2020-09-22 百度在线网络技术(北京)有限公司 对话方法和装置
CN110413250B (zh) * 2019-06-14 2021-06-01 华为技术有限公司 一种语音交互方法、装置及系统
CN110674314B (zh) * 2019-09-27 2022-06-28 北京百度网讯科技有限公司 语句识别方法及装置
CN111161707B (zh) * 2020-02-12 2020-12-22 龙马智芯(珠海横琴)科技有限公司 一种自动补充质检关键词表的方法、电子设备和存储介质

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1026997A (ja) * 1996-07-10 1998-01-27 Nec Corp 音声認識装置
EP2282308A1 (en) * 2004-07-06 2011-02-09 Voxify, Inc. Multi-slot dialog system and method
CN102194454A (zh) * 2010-03-05 2011-09-21 富士通株式会社 用于检测连续语音中的关键词的设备和方法
CN103077714A (zh) * 2013-01-29 2013-05-01 华为终端有限公司 信息的识别方法和装置
CN104464723A (zh) * 2014-12-16 2015-03-25 科大讯飞股份有限公司 一种语音交互方法及系统
CN105161095A (zh) * 2015-07-29 2015-12-16 百度在线网络技术(北京)有限公司 语音识别语法树的构图方法及装置
CN107316643A (zh) * 2017-07-04 2017-11-03 科大讯飞股份有限公司 语音交互方法及装置
CN107340991A (zh) * 2017-07-18 2017-11-10 百度在线网络技术(北京)有限公司 语音角色的切换方法、装置、设备以及存储介质
CN107369443A (zh) * 2017-06-29 2017-11-21 北京百度网讯科技有限公司 基于人工智能的对话管理方法及装置
CN107481718A (zh) * 2017-09-20 2017-12-15 广东欧珀移动通信有限公司 语音识别方法、装置、存储介质及电子设备
CN107785018A (zh) * 2016-08-31 2018-03-09 科大讯飞股份有限公司 多轮交互语义理解方法和装置
CN107799116A (zh) * 2016-08-31 2018-03-13 科大讯飞股份有限公司 多轮交互并行语义理解方法和装置
CN107886948A (zh) * 2017-11-16 2018-04-06 百度在线网络技术(北京)有限公司 语音交互方法及装置,终端,服务器及可读存储介质
CN108288467A (zh) * 2017-06-07 2018-07-17 腾讯科技(深圳)有限公司 一种语音识别方法、装置及语音识别引擎
CN108288468A (zh) * 2017-06-29 2018-07-17 腾讯科技(深圳)有限公司 语音识别方法及装置
CN108304375A (zh) * 2017-11-13 2018-07-20 广州腾讯科技有限公司 一种信息识别方法及其设备、存储介质、终端

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6865532B2 (en) * 2001-09-19 2005-03-08 Mitsubishi Electric Research Laboratories, Inc. Method for recognizing spoken identifiers having predefined grammars
US7606700B2 (en) * 2005-11-09 2009-10-20 Microsoft Corporation Adaptive task framework

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1026997A (ja) * 1996-07-10 1998-01-27 Nec Corp 音声認識装置
EP2282308A1 (en) * 2004-07-06 2011-02-09 Voxify, Inc. Multi-slot dialog system and method
CN102194454A (zh) * 2010-03-05 2011-09-21 富士通株式会社 用于检测连续语音中的关键词的设备和方法
CN103077714A (zh) * 2013-01-29 2013-05-01 华为终端有限公司 信息的识别方法和装置
CN104464723A (zh) * 2014-12-16 2015-03-25 科大讯飞股份有限公司 一种语音交互方法及系统
CN105161095A (zh) * 2015-07-29 2015-12-16 百度在线网络技术(北京)有限公司 语音识别语法树的构图方法及装置
CN107785018A (zh) * 2016-08-31 2018-03-09 科大讯飞股份有限公司 多轮交互语义理解方法和装置
CN107799116A (zh) * 2016-08-31 2018-03-13 科大讯飞股份有限公司 多轮交互并行语义理解方法和装置
CN108288467A (zh) * 2017-06-07 2018-07-17 腾讯科技(深圳)有限公司 一种语音识别方法、装置及语音识别引擎
CN107369443A (zh) * 2017-06-29 2017-11-21 北京百度网讯科技有限公司 基于人工智能的对话管理方法及装置
CN108288468A (zh) * 2017-06-29 2018-07-17 腾讯科技(深圳)有限公司 语音识别方法及装置
CN107316643A (zh) * 2017-07-04 2017-11-03 科大讯飞股份有限公司 语音交互方法及装置
CN107340991A (zh) * 2017-07-18 2017-11-10 百度在线网络技术(北京)有限公司 语音角色的切换方法、装置、设备以及存储介质
CN107481718A (zh) * 2017-09-20 2017-12-15 广东欧珀移动通信有限公司 语音识别方法、装置、存储介质及电子设备
CN108304375A (zh) * 2017-11-13 2018-07-20 广州腾讯科技有限公司 一种信息识别方法及其设备、存储介质、终端
CN107886948A (zh) * 2017-11-16 2018-04-06 百度在线网络技术(北京)有限公司 语音交互方法及装置,终端,服务器及可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于Bi-LSTM-CRF网络的语义槽识别;徐梓翔 等;《智能计算机与应用》;20171231;第7卷(第6期);第91-94页 *
基于条件随机场的自然口语语义理解方法;李成华 等;《中国民族大学学报(自然科学版)》;20170630;第36卷(第2期);第60-65页 *

Also Published As

Publication number Publication date
CN108922531A (zh) 2018-11-30

Similar Documents

Publication Publication Date Title
CN108615526B (zh) 语音信号中关键词的检测方法、装置、终端及存储介质
CN108922531B (zh) 槽位识别方法、装置、电子设备及存储介质
CN110556127B (zh) 语音识别结果的检测方法、装置、设备及介质
CN111564152B (zh) 语音转换方法、装置、电子设备及存储介质
CN110263131B (zh) 回复信息生成方法、装置及存储介质
CN110162604B (zh) 语句生成方法、装置、设备及存储介质
CN112116904B (zh) 语音转换方法、装置、设备及存储介质
CN111524501A (zh) 语音播放方法、装置、计算机设备及计算机可读存储介质
CN111581958A (zh) 对话状态确定方法、装置、计算机设备及存储介质
CN111370025A (zh) 音频识别方法、装置及计算机存储介质
CN111339737A (zh) 实体链接方法、装置、设备及存储介质
CN110503160B (zh) 图像识别方法、装置、电子设备及存储介质
CN111613213A (zh) 音频分类的方法、装置、设备以及存储介质
CN110837557B (zh) 摘要生成方法、装置、设备及介质
CN109829067B (zh) 音频数据处理方法、装置、电子设备及存储介质
CN111368136A (zh) 歌曲识别方法、装置、电子设备及存储介质
CN111341307A (zh) 语音识别方法、装置、电子设备及存储介质
CN110990549A (zh) 获取答案的方法、装置、电子设备及存储介质
CN113343709B (zh) 意图识别模型的训练方法、意图识别方法、装置及设备
CN111310701B (zh) 手势识别方法、装置、设备及存储介质
CN114925667A (zh) 内容分类方法、装置、设备及计算机可读存储介质
CN114360494A (zh) 韵律标注方法、装置、计算机设备及存储介质
CN112487162A (zh) 确定文本语义信息的方法、装置、设备以及存储介质
CN110096707B (zh) 生成自然语言的方法、装置、设备及可读存储介质
CN113744736A (zh) 命令词识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20190111

Address after: Room 1601-1608, Floor 16, Yinke Building, 38 Haidian Street, Haidian District, Beijing

Applicant after: Tencent Technology (Beijing) Co., Ltd

Address before: 518057 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 floors

Applicant before: Tencent Technology (Shenzhen) Co., Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant