CN111124350B - 技能确定方法及相关设备 - Google Patents

技能确定方法及相关设备 Download PDF

Info

Publication number
CN111124350B
CN111124350B CN201911325487.XA CN201911325487A CN111124350B CN 111124350 B CN111124350 B CN 111124350B CN 201911325487 A CN201911325487 A CN 201911325487A CN 111124350 B CN111124350 B CN 111124350B
Authority
CN
China
Prior art keywords
skill
response
user request
vector
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911325487.XA
Other languages
English (en)
Other versions
CN111124350A (zh
Inventor
洪建�
刘权
尹坤
陈志刚
王智国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201911325487.XA priority Critical patent/CN111124350B/zh
Publication of CN111124350A publication Critical patent/CN111124350A/zh
Application granted granted Critical
Publication of CN111124350B publication Critical patent/CN111124350B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本申请公开了一种技能确定方法及相关设备,应用于电子设备,方法包括:确定用户请求分别在用户请求的多个响应技能下的语义理解结果;确定所述用户请求在每个所述响应技能下的用户请求字向量,所述用户请求字向量由所述用户请求包括的字的字向量和实体标签向量组成;分别将每个所述响应技能对应的所述语义理解结果和所述用户请求字向量输入第一模型,输出每个所述响应技能的置信度;基于每个所述响应技能的置信度确定正确响应技能。采用本申请实施例可提升技能确定的准确性。

Description

技能确定方法及相关设备
技术领域
本申请涉及电子技术领域,尤其涉及一种技能确定方法及相关设备。
背景技术
近几年智能助手越来越融入人们的生活,如苹果公司的Siri,微软的Cortana,以及阿里巴巴的天猫精灵。通常,智能助手可以支持几十种甚至上百种技能,例如音乐点播、影视播放、日期查询等等。因此,如何找到最合适的技能是需要解决的技术问题。
发明内容
本申请实施例提供一种技能确定方法及相关设备,用于提升技能确定的准确性。
第一方面,本申请实施例提供一种技能确定方法,应用于电子设备,方法包括:
确定用户请求分别在所述用户请求的多个响应技能下的语义理解结果;
确定所述用户请求在每个所述响应技能下的用户请求字向量,所述用户请求字向量由所述用户请求包括的字的字向量和实体标签向量组成;
分别将每个所述响应技能对应的所述语义理解结果和所述用户请求字向量输入第一模型,输出每个所述响应技能的置信度;
基于每个所述响应技能的置信度确定正确响应技能。
第二方面,本申请实施例提供一种技能确定装置,应用于电子设备,装置包括:
语义理解模块,用于确定用户请求分别在所述用户请求的多个响应技能下的语义理解结果;
技能处理模块,用于确定所述用户请求在每个所述响应技能下的用户请求字向量,所述用户请求字向量由所述用户请求包括的字的字向量和实体标签向量组成;
模型控制模块,用于分别将每个所述响应技能对应的所述语义理解结果和所述用户请求字向量输入第一模型,输出每个所述响应技能的置信度;
技能选择模块,用于基于每个所述响应技能的置信度确定正确响应技能。
第三方面,本申请实施例提供一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行本申请实施例第一方面所述的方法中的步骤的指令。
第四方面,本申请实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面所述的方法中所描述的部分或全部步骤。
第五方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面所述的方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
可以看出,在本申请实施例中,先确定用户请求分别在用户请求的多个响应技能下的语义理解结果,然后确定所述用户请求在每个响应技能下的用户请求字向量,再然后分别将每个响应技能对应的语义理解结果和用户请求字向量输入第一模型,输出每个响应技能的置信度,最后基于每个响应技能的置信度正确响应技能,由于用户请求字向量包括实体标签向量,以实现引入实体信息确定正确响应技能,进而提升技能确定的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种电子设备的结构示意图;
图2是本申请实施例提供的一种技能确定方法的流程示意图;
图3是本申请实施例提供的一种实体库匹配结果示意图;
图4是本申请实施例提供的另一种电子设备的结构示意图;
图5是本申请实施例提供的一种技能确定装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
以下分别进行详细说明。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(UserEquipment,UE),移动台(Mobile Station,MS),终端设备(terminal device)等等。
如图1所示,图1是本申请实施例提供的一种电子设备的结构示意图。该电子设备包括处理器、存储器、显示屏、随机存取存储器(Random Access Memory,RAM)和摄像头。其中,存储器、显示屏、RAM和摄像头均与处理器连接。
进一步地,电子设备还包括信号通信接口、信号处理器、扬声器、麦克风和传感器,信号处理器、扬声器、麦克风和传感器均与处理器连接,通信接口与信号处理器连接。
其中,显示屏可以是液晶显示器(Liquid Crystal Display,LCD)、有机或无机发光二极管(Organic Light-Emitting Diode,OLED)、有源矩阵有机发光二极体面板(ActiveMatrix/Organic Light Emitting Diode,AMOLED)等。
其中,该摄像头可以是普通摄像头、也可以是红外摄像,在此不作限定。该摄像头可以是前置摄像头或后置摄像头,在此不作限定。
其中,传感器包括以下至少一种:光感传感器、陀螺仪、红外接近传感器、指纹传感器、压力传感器等等。其中,光感传感器,也称为环境光传感器,用于检测环境光亮度。光线传感器可以包括光敏元件和模数转换器。其中,光敏元件用于将采集的光信号转换为电信号,模数转换器用于将上述电信号转换为数字信号。可选的,光线传感器还可以包括信号放大器,信号放大器可以将光敏元件转换的电信号进行放大后输出至模数转换器。上述光敏元件可以包括光电二极管、光电三极管、光敏电阻、硅光电池中的至少一种。
其中,处理器是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器内的软体程序和/或模块,以及调用存储在存储器内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。
其中,处理器可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器中。
其中,存储器用于存储软体程序和/或模块,处理器通过运行存储在存储器的软件程序和/或模块,从而执行电子设备的各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的软体程序等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
下面对本申请实施例进行详细介绍。
请参见图2,图2是本申请实施例提供一种技能确定方法,应用于上述电子设备,具体包括以下步骤:
步骤201:确定用户请求分别在所述用户请求的多个响应技能下的语义理解结果。
可选地,在步骤201之前,所述方法还包括:
采集用户对所述电子设备发出的语音,以及将所述语音进行文本转换,以得到所述用户请求。
在本申请的一实现方式中,所述确定用户请求分别在所述用户请求的多个响应技能下的语义理解结果,包括:
将所述用户请求分别输入多个技能的语义理解系统,输出多个语义理解结果,所述多个语音理解结果是所述多个响应技能的所述语义理解系统输出的,所述多个技能包括所述多个响应技能,所述多个语义理解结果与所述多个响应技能一一对应。
其中,多个技能是电子设备中安装的某个应用(如智能助手应用、即时通信应用、视频播放应用、音频播放应用等)包括的多个功能技能(如音乐技能、新闻技能、天气技能、影视技能、地图技能、聊天技能等)。或者,多个技能是电子设备中安装的多个技能应用(如音乐技能应用、新闻技能应用、天气技能应用、地图技能应用、影视技能应用、即时通信技能应用等)。
其中,输出语音理解结果的技能为用户请求的响应技能。每个技能的语义理解系统均包括一个拒绝识别模块,当一个用户请求输入到技能的语义理解系统后,语义理解系统的拒绝识别模块生成该用户请求的执行度,如果生成的执行度大于或等于设定阈值,则该语义理解系统对用户请求进行理解,输出语音理解结果,如果生成的执行度小于设定阈值,则该语义理解系统拒绝理解该用户请求(无语义理解结果输出)。另外,设定阈值可以是电子设备自定义的,也可以是用户自定义的,在此不作限定。不同的技能对应的设定阈值可以是相同的,也可以是不同的,在此不作限定。
步骤202:确定所述用户请求在每个所述响应技能下的用户请求字向量,所述用户请求字向量由所述用户请求包括的字的字向量和实体标签向量组成。
在本申请的一实现方式中,所述确定所述用户请求在每个所述响应技能下的用户请求字向量,包括:
确定所述用户请求包括的每个字的字向量,以及确定在每个所述响应技能下所述每个字的实体标签向量;
将所述用户请求包括的每个字的字向量,分别与在每个所述响应技能下所述每个字的实体标签向量进行拼接,得到所述用户请求在每个所述响应技能下的用户请求字向量。
在本申请的一实现方式中,每个所述技能关联一个实体库,所述实体库包括多个实体,每个所述实体对应一个实体标签,所述实体标签用于表示实体所属的类别;所述确定在每个所述响应技能下所述每个字的实体标签向量,包括:
进行多次第一操作,所述多次第一操作与所述多个响应技能一一对应,每次所述第一操作均包括以下过程:将所述每个字与所述响应技能关联的所述实体库中包括的所述实体进行匹配;若至少一个字组与至少一个实体匹配,则在每个所述字组上标记与其匹配的所述实体的实体标签,每个所述字组包括多个相邻的字,所述至少一个字组与所述至少一个实体一一对应;若没有字组与实体匹配,则不在所述每个字上标记实体标签;
基于在每个所述响应技能下所述每个字上的实体标签,确定在每个所述响应技能下所述每个字的实体标签向量。
其中,假设用户请求为{w1,w2...wn},wi为所述用户请求中第i个字,那么可以将第i个字wi映射为字向量{E1,E2...En},字的字向量通过随机初始化得到,其最终取值通过大量数据训练得到。
其中,技能关联的实体库是预先构建的。技能关联的实体库是由与技能相关的人名、地名、影片名、歌曲名等构成的实体库。如影视技能关联的实体库,包含‘周星驰’、‘周润发’、‘英雄本色’等相关实体。又如音乐技能关联的实体库,包含‘张学友’、‘王菲’、‘义勇军进行曲’、‘忘情水’等相关实体。实体库中的每个实体都有自己的实体标签,实体标签用于表示实体所属的类别,如‘王菲’的标签‘artist’,‘义勇军进行曲’的标签‘song’,‘忘情水’的标签‘song’等。
其中,多次第一操作可以是并行执行的,也可以是串行执行的。
其中,所述将所述每个字与所述响应技能关联的所述实体库中包括的所述实体进行匹配,包括:将所述响应技能关联的所述实体库中包括的全部实体依次对所述用户请求从句首开始进行步长为1个字的词条匹配。
其中,使用BME(B-Begin(开始)、M-Middle(中间)、E-End(结束))形式对字进行标记。
举例来说,假设用户请求为‘我听忘情水’,假如用户请求的响应技能有音乐技能、新闻技能和地图技能,‘我听忘情水’与音乐技能关联的实体库、新闻技能关联的实体库、以及地图技能关联的实体库的匹配结果如图3所示,通过图3可知,音乐技能关联的实体库中的实体‘忘情水’与用户请求中的‘忘情水’全匹配,那么在用户请求‘我听忘情水’中对‘忘情水’依次标记上B-song、M-song、E-song。
在某个响应技能下,用户请求的每个字上可能会被标记上一些BME形式的实体标签。全部技能实体库中合计有x种BME形式的实体标签在每个字上生成一个x维实体标签向量,实体标签向量的每一维就对应一种BME形式的实体标签,根据用户请求每个字上被标记的标签,字上的实体标签向量的对应维度上置为1,如果字上没有标签则实体标签向量为全0向量。
如图3所示,以用户请求为‘我听忘情水’在音乐技能处理过程为例,上述匹配过程用户请求中‘忘情水’三个字上分别具有B-song、M-song、E-song的标签,图3中音乐模块‘忘’上面的黑色圆圈代表‘忘’的实体标签向量、‘情’上面的黑色圆圈代表‘情’的实体标签向量,‘水’上面的黑色圆圈代表‘水’的实体标签向量,最左边B-song、M-song、E-song、B-artist等是实体标签向量每一维对应的标签。有实体标签对应的维度置1,没有实体标签对应的维度置0,那么‘我’字的实体标签向量K1为{0,0,0,0,0,0,…},‘听’字的实体标签向量K2为{0,0,0,0,0,0,…},‘忘’字的实体标签向量K3为{1,0,0,0,0,0,…},‘情’字的实体标签向量K4为{0,1,0,0,0,0,…},‘水’字的实体标签向量K5为{0,0,1,0,0,0,…},具体如表1所示,最后将‘我’字的实体标签向量K1与E1进行拼接,‘听’字的实体标签向量K2与E2进行拼接,‘忘’字的实体标签向量K3与E3进行拼接,‘情’字的实体标签向量K4与E4进行拼接,‘水’字的实体标签向量K5与E5进行拼接,得到用户请求‘我听忘情水’的用户请求字向量为{K1+E1,K2+E2,K3+E3,K4+E4,K5+E5}。
表1
步骤203:分别将每个所述响应技能对应的所述语义理解结果和所述用户请求字向量输入第一模型,输出每个所述响应技能的置信度。
其中,所述第一模型可以是排序模型,或是其他模型。
在本申请的一实现方式中,述第一模型包括相互独立的两个卷积神经网络(Convolutional Neural Networks,CNN);所述分别将每个所述响应技能对应的所述语义理解结果和所述用户请求字向量输入第一模型,输出每个所述响应技能的置信度,包括:
进行多次第二操作,所述多次第二操作与所述多个响应技能一一对应,每次所述第二操作均包括以下过程:将所述响应技能对应的所述语义理解结果和所述用户请求字向量分别输入所述两个CNN,输出CNN编码句式信息和CNN编码信息;基于所述CNN编码句式信息、所述CNN编码信息、技能表征向量所述响应技能的用户记录编码输入所述第一模型确定所述响应技能的置信度。
进一步地,所述第一模型还包括全连接层;所述基于所述CNN编码句式信息、所述CNN编码信息、技能表征向量所述响应技能的用户记录编码输入所述第一模型确定所述响应技能的置信度,包括:
将所述CNN编码句式信息和所述CNN编码信息进行拼接得到用户请求向量;
基于所述用户请求向量和技能向量矩阵确定技能表征向量;
将所述用户请求向量、所述技能表征向量和所述响应技能的用户记录编码输入所述全连接层,输出所述响应技能的置信度。
进一步地,每个所述响应技能对应一个技能向量,所述技能向量矩阵由所述多个响应技能的所述技能向量构建的,所述技能向量矩阵的每一列对应一个所述技能向量。
其中,每个所述响应技能对应的技能向量是事先存储在电子设备中的,每个所述响应技能对应的技能向量是所述响应技能的离散表达式,每个所述响应技能对应的技能向量的初始值都是随机初始化得到,最终值是依赖大量训练数据训练得到的。假如用户请求的响应技能有音乐技能、天气技能和地图技能,假如音乐技能对应的技能向量为H1,天气技能对应的技能向量H2,地图技能对应的技能向量H3,那么技能向量矩阵为{H1,H2,H3}。
其中,多次第二操作可以是并行执行的,也可以是串行执行的。
其中,所述响应技能的用户记录编码是基于所述响应技能的历史使用信息确定的。具体地,响应技能的历史使用信息可以帮助模型学习用户喜好以及倾向,帮助模型决策用户意图。对于某个技能,获取技能在一段时间(如1天、2天、3天、1周或是其他值)内的历史使用信息。如果用户对这个技能的请求次数超过技能自己在这段时间对设备发出总请求次数的50%,则确定用户记录编码为100;如果超过30%不到50%,则确定用户记录编码为010,如果超过10%不到30%,则确定用户记录编码为001,如果低于10%,则确定用户记录编码为000。需要说明的是,上述用户记录编码的确定仅仅是举例说明,本申请不限于这些方式确定用户记录编码。
可选地,所述基于所述用户请求向量和技能向量矩阵确定技能表征向量,包括:
基于所述用户请求向量和每个所述响应技能的所述技能向量,确定所述用户请求对于每个所述响应技能的权重;
基于所述用户请求对于每个所述响应技能的权重和每个所述响应技能的所述技能向量,确定技能表征向量。
其中,所述基于所述用户请求向量和每个所述响应技能的所述技能向量,确定所述用户请求对于每个所述响应技能的权重,包括:
基于第一式、所述用户请求向量和每个所述响应技能的所述技能向量,确定所述用户请求对于每个所述响应技能的权重,其中,所述第一式为aj=hj×vT,所述aj为用户请求对于第j个技能的权重,所述hj为第j个技能的技能向量,所述vT为用户请求向量的转置。
其中,所述基于所述用户请求对于每个所述响应技能的权重和每个所述响应技能的所述技能向量,确定技能表征向量,包括:
基于第二式、所述用户请求对于每个所述响应技能的权重、每个所述响应技能的所述技能向量,确定技能表征向量,所述第二式为:S=∑hj×aj,所述S为技能表征向量。
步骤204:基于每个所述响应技能的置信度确定正确响应技能。
其中,响应技能的置信度用于评价响应技能与用户请求的匹配度。置信度的值为0~1,置信度越高表示响应技能与用户请求的匹配度越高,置信度越低表示响应技能与用户请求的匹配度越低。
其中,所述正确响应技能为所述多个响应技能中置信度最高的响应技能。
在本申请的一实现方式中,所述第一模型是基于训练数据集和粗细粒度训练方式训练第二模型得到的。
其中,假设第一模型为排序模型,第二模型为原始的排序模型。
其中,训练数据集包括多个训练数据,每个所述训练数据对应一个用户请求,每个训练数据包括其对应的用户请求的一个正例(也称为正确响应技能)和其对应的用户请求的至少一个负例(也称为错误响应技能)。
其中,所述多个训练数据是事先收集的。以一个训练数据为例,解释训练数据具体收集方式:电子设备获取用户触发的用户请求(假如用户触发的用户请求是语音,需要将语音转换成文本),然后将用户请求输入上述多个技能的语义理解系统,以确定用户请求的响应技能(有语义理解结果输出的技能为响应技能),最后对用户请求的响应技能进行人工标注,以标注用户请求的正例和负例。举例来说,假设用户请求为‘我听忘情水’,电子设备将‘我听忘情水’输入上述多个技能的语义理解系统,假如‘我听忘情水’只在Music、news、raido、weather四个技能下有语义理解结果,那么‘我听忘情水’的响应技能为Music、news、raido、weather,假如标注Music为正例,那么news、raido、weather为负例。
可选地,所述粗细粒度训练方式包括细粒度训练方式,所述细粒度训练方式为以一个正负例对为输入,输入至所述第二模型,输出一对正负例置信度,所述正负例置信度中的正例的置信度大于负例的置信度。
以一个用户请求为例,假如用户请求的响应技能为{P1,P2,P3,…,Pn},那么该用户请求的正负例对为{(P1,P2),(P1,P3),…,(P1,Pn)},在细粒度训练时,将该用户请求的多个正负例对分别输入第二模型,以输出多个正负例置信度,所述多个正负例对与所述多个正负例置信度一一对应,每个所述正负例置信度中的正例置信度大于负例置信度,损失函数为:
Loss=max(scorep--scorep+-λ,0),其中scorep-为负例的置信度,scorep+为正例的置信度,λ为超参数(一般设置为0.05)。
可选地,每个训练数据还包括其对应的用户请求的正例的用户记录编码、用户请求向量和技能表征向量,所述第二模型包括全连接层;所述粗细粒度训练方式还包括粗粒度训练方式,所述粗粒度训练方式为以正例的用户记录编码、用户请求向量和技能表征向量输入所述第二模型的全连接层,输出在所述多个技能应用上的概率分布。
其中,所述粗粒度训练方式和所述细粒度训练方式是同时执行的。
需要说明的是,训练数据包括的用户记录编码、用户请求向量和技能表征向量具体如何得到,请参见上述内容,在此不再叙述。
举例来说,假设训练数据集包括10个训练数据,将这10个训练数据分成3个簇,如簇1、簇2和簇3,簇1包括训练数据1、训练数据2和训练数据3,簇2包括训练数据4、训练数据5和训练数据6,簇3包括训练数据7、训练数据8、训练数据9和训练数据10。首先,基于簇1和粗细粒度训练方式训练第二模型得到的第三模型,然后基于簇2和粗细粒度训练方式训练第三模型得到的第四模型,最后基于簇3和粗细粒度训练方式训练第四模型得到的第一模型。
基于簇1和粗细粒度训练方式训练第二模型得到的第三模型的具体实现方式有:首先,基于训练数据1和细粒度训练方式得到正负例置信度集1,基于训练数据1和粗粒度训练方式得到在所述多个技能应用上的概率分布1;然后基于训练数据2和细粒度训练方式得到正负例置信度集2,基于训练数据2和粗粒度训练方式得到在所述多个技能应用上的概率分布2;再然后基于训练数据3和细粒度训练方式得到正负例置信度集3,基于训练数据3和粗粒度训练方式得到在所述多个技能应用上的概率分布3,每个正负例置信度集均包括多个正负例置信度(正负例置信度的确定具体参见上述内容);最后基于正负例置信度集1、正负例置信度集2、正负例置信度集3、概率分布1、概率分布2和概率分布3确定模型参数,以得到第三模型。
需要说明的是,基于簇2和粗细粒度训练方式训练第三模型得到的第四模型和基于簇3和粗细粒度训练方式训练第四模型得到的第一模型的实现方式与基于簇1和粗细粒度训练方式训练第四模型得到的第三模型的实现方式相同,在此不再叙述。
可以看出,在本申请实施例中,先确定用户请求分别在多个响应技能下的语义理解结果,然后确定所述用户请求在每个响应技能下的用户请求字向量,再然后分别将每个响应技能对应的语义理解结果和用户请求字向量输入第一模型,输出每个响应技能的置信度,最后基于每个响应技能的置信度正确响应技能,由于用户请求字向量包括实体标签向量,以实现引入实体信息确定正确响应技能,进而提升技能确定的准确性。
请参阅图4,图4是本申请实施例提供的一种电子设备的结构示意图,如图所示,该电子设备包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行以下步骤的指令:
确定用户请求分别在多个响应技能下的语义理解结果;
确定所述用户请求在每个所述响应技能下的用户请求字向量,所述用户请求字向量由所述用户请求包括的字的字向量和实体标签向量组成;
分别将每个所述响应技能对应的所述语义理解结果和所述用户请求字向量输入第一模型,输出每个所述响应技能的置信度;
基于每个所述响应技能的置信度确定正确响应技能。
需要说明的是,本实施例的具体实现过程可参见上述方法实施例所述的具体实现过程,在此不再叙述。
请参阅图5,图5是本申请实施例提供的一种技能确定装置,应用于电子设备,该装置包括:
语义理解模块501,用于确定用户请求分别在所述用户请求的多个响应技能下的语义理解结果;
技能处理模块502,用于确定所述用户请求在每个所述响应技能下的用户请求字向量,所述用户请求字向量由所述用户请求包括的字的字向量和实体标签向量组成;
模型控制模块503,用于分别将每个所述响应技能对应的所述语义理解结果和所述用户请求字向量输入第一模型,输出每个所述响应技能的置信度;
技能选择模块504,用于基于每个所述响应技能的置信度确定正确响应技能。
在本申请的一实现方式中,在确定用户请求分别在所述用户请求的多个响应技能下的语义理解结果方面,上述语义理解模块501具体用于:
将所述用户请求分别输入多个技能的语义理解系统,输出多个语义理解结果,所述多个语音理解结果是所述多个响应技能的所述语义理解系统输出的,所述多个技能包括所述多个响应技能,所述多个语义理解结果与所述多个响应技能一一对应。
在本申请的一实现方式中,在确定所述用户请求在每个所述响应技能下的用户请求字向量方面,上述技能处理模块502具体用于:
确定所述用户请求包括的每个字的字向量,以及确定在每个所述响应技能下所述每个字的实体标签向量;
将所述用户请求包括的每个字的字向量,分别与在每个所述响应技能下所述每个字的实体标签向量进行拼接,得到所述用户请求在每个所述响应技能下的用户请求字向量。
在本申请的一实现方式中,每个所述技能关联一个实体库,所述实体库包括多个实体,每个所述实体对应一个实体标签,所述实体标签用于表示实体所属的类别;在确定在每个所述响应技能下所述每个字的实体标签向量方面,上述技能处理模块502具体用于:
进行多次第一操作,所述多次第一操作与所述多个响应技能一一对应,每次所述第一操作均包括以下过程:将所述每个字与所述响应技能关联的所述实体库中包括的所述实体进行匹配;若至少一个字组与至少一个实体匹配,则在每个所述字组上标记与其匹配的所述实体的实体标签,每个所述字组包括多个相邻的字;
基于在每个所述响应技能下所述每个字上的实体标签,确定在每个所述响应技能下所述每个字的实体标签向量。
在本申请的一实现方式中,所述第一模型包括相互独立的两个卷积神经网络CNN;在分别将每个所述响应技能对应的所述语义理解结果和所述用户请求字向量输入第一模型,输出每个所述响应技能的置信度方面,上述模型控制模块503具体用于:
进行多次第二操作,所述多次第二操作与所述多个响应技能一一对应,每次所述第二操作均包括以下过程:将所述响应技能对应的所述语义理解结果和所述用户请求字向量分别输入所述两个CNN,输出CNN编码句式信息和CNN编码信息;基于所述CNN编码句式信息、所述CNN编码信息、技能表征向量所述响应技能的用户记录编码输入所述第一模型确定所述响应技能的置信度。
在本申请的一实现方式中,所述第一模型还包括全连接层;所述基于所述CNN编码句式信息、所述CNN编码信息、技能表征向量所述响应技能的用户记录编码输入所述第一模型确定所述响应技能的置信度,包括:
将所述CNN编码句式信息和所述CNN编码信息进行拼接得到用户请求向量;
基于所述用户请求向量和技能向量矩阵确定技能表征向量;
将所述用户请求向量、所述技能表征向量和所述响应技能的用户记录编码输入所述全连接层,输出所述响应技能的置信度。
在本申请的一实现方式中,每个所述响应技能对应一个技能向量,所述技能向量矩阵由所述多个响应技能的所述技能向量构建的,所述技能向量矩阵的每一列对应一个所述技能向量。
在本申请的一实现方式中,所述基于所述用户请求向量和技能向量矩阵确定技能表征向量,包括:
基于所述用户请求向量和每个所述响应技能的所述技能向量,确定所述用户请求对于每个所述响应技能的权重;
基于所述用户请求对于每个所述响应技能的权重和每个所述响应技能的所述技能向量,确定技能表征向量。
在本申请的一实现方式中,所述第一模型是基于训练数据集和粗细粒度训练方式训练第二模型得到的。
在本申请的一实现方式中,所述训练数据集包括多个训练数据,每个所述训练数据对应一个用户请求,每个所述训练数据包括其对应的用户请求的一个正例和其对应的用户请求的至少一个负例;
所述粗细粒度训练方式包括细粒度训练方式,所述细粒度训练方式为以一个正负例对为输入,输入至所述第二模型,输出一对正负例置信度,所述正负例置信度中的正例的置信度大于负例的置信度。
本申请实施例还提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如上述方法实施例中电子设备所描述的部分或全部步骤。
本申请实施例还提供了一种计算机程序产品,其中,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序可操作来使计算机执行如上述方法中电子设备所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
本申请实施例所描述的方法或者算法的步骤可以以硬件的方式来实现,也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于随机存取存储器(Random Access Memory,RAM)、闪存、只读存储器(Read OnlyMemory,ROM)、可擦除可编程只读存储器(Erasable Programmable ROM,EPROM)、电可擦可编程只读存储器(Electrically EPROM,EEPROM)、寄存器、硬盘、移动硬盘、只读光盘(CD-ROM)或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外,该ASIC可以位于接入网设备、目标网络设备或核心网设备中。当然,处理器和存储介质也可以作为分立组件存在于接入网设备、目标网络设备或核心网设备中。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本申请实施例所描述的功能可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DigitalSubscriber Line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,数字视频光盘(DigitalVideo Disc,DVD))、或者半导体介质(例如,固态硬盘(Solid State Disk,SSD))等。
以上所述的具体实施方式,对本申请实施例的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请实施例的具体实施方式而已,并不用于限定本申请实施例的保护范围,凡在本申请实施例的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本申请实施例的保护范围之内。

Claims (11)

1.一种技能确定方法,其特征在于,应用于电子设备,所述方法包括:
确定用户请求分别在所述用户请求的多个响应技能下的语义理解结果;
确定所述用户请求在每个所述响应技能下的用户请求字向量,所述用户请求字向量由所述用户请求包括的字的字向量和实体标签向量组成;
分别将每个所述响应技能对应的所述语义理解结果和所述用户请求字向量输入第一模型,输出每个所述响应技能的置信度;
基于每个所述响应技能的置信度确定正确响应技能;
所述确定所述用户请求在每个所述响应技能下的用户请求字向量,包括:确定所述用户请求包括的每个字的字向量,以及确定在每个所述响应技能下所述每个字的实体标签向量;将所述用户请求包括的每个字的字向量,分别与在每个所述响应技能下所述每个字的实体标签向量进行拼接,得到所述用户请求在每个所述响应技能下的用户请求字向量;
每个所述技能关联一个实体库,所述实体库包括多个实体,每个所述实体对应一个实体标签,所述实体标签用于表示实体所属的类别;所述确定在每个所述响应技能下所述每个字的实体标签向量,包括:
进行多次第一操作,所述多次第一操作与所述多个响应技能一一对应,每次所述第一操作均包括以下过程:将所述每个字与所述响应技能关联的所述实体库中包括的所述实体进行匹配;若至少一个字组与至少一个实体匹配,则在每个所述字组上标记与其匹配的所述实体的实体标签,每个所述字组包括多个相邻的字;
基于在每个所述响应技能下所述每个字上的实体标签,确定在每个所述响应技能下所述每个字的实体标签向量。
2.根据权利要求1所述的方法,其特征在于,所述确定用户请求分别在所述用户请求的多个响应技能下的语义理解结果,包括:
将所述用户请求分别输入多个技能的语义理解系统,输出多个语义理解结果,多个语音理解结果是所述多个响应技能的所述语义理解系统输出的,所述多个技能包括所述多个响应技能,所述多个语义理解结果与所述多个响应技能一一对应。
3.根据权利要求1或2所述的方法,其特征在于,所述第一模型包括相互独立的两个卷积神经网络CNN;所述分别将每个所述响应技能对应的所述语义理解结果和所述用户请求字向量输入第一模型,输出每个所述响应技能的置信度,包括:
进行多次第二操作,所述多次第二操作与所述多个响应技能一一对应,每次所述第二操作均包括以下过程:将所述响应技能对应的所述语义理解结果和所述用户请求字向量分别输入所述两个CNN,输出CNN编码句式信息和CNN编码信息;基于所述CNN编码句式信息、所述CNN编码信息、技能表征向量所述响应技能的用户记录编码输入所述第一模型确定所述响应技能的置信度。
4.根据权利要求3所述的方法,其特征在于,所述第一模型还包括全连接层;所述基于所述CNN编码句式信息、所述CNN编码信息、技能表征向量所述响应技能的用户记录编码输入所述第一模型确定所述响应技能的置信度,包括:
将所述CNN编码句式信息和所述CNN编码信息进行拼接得到用户请求向量;
基于所述用户请求向量和技能向量矩阵确定技能表征向量;
将所述用户请求向量、所述技能表征向量和所述响应技能的用户记录编码输入所述全连接层,输出所述响应技能的置信度。
5.根据权利要求4所述的方法,其特征在于,每个所述响应技能对应一个技能向量,所述技能向量矩阵由所述多个响应技能的所述技能向量构建的,所述技能向量矩阵的每一列对应一个所述技能向量。
6.根据权利要求5所述的方法,其特征在于,所述基于所述用户请求向量和技能向量矩阵确定技能表征向量,包括:
基于所述用户请求向量和每个所述响应技能的所述技能向量,确定所述用户请求对于每个所述响应技能的权重;
基于所述用户请求对于每个所述响应技能的权重和每个所述响应技能的所述技能向量,确定技能表征向量。
7.根据权利要求1、2、4-6任一项所述的方法,其特征在于,所述第一模型是基于训练数据集和粗细粒度训练方式训练第二模型得到的。
8.根据权利要求7所述的方法,其特征在于,所述训练数据集包括多个训练数据,每个所述训练数据对应一个用户请求,每个所述训练数据包括其对应的用户请求的一个正例和其对应的用户请求的至少一个负例;
所述粗细粒度训练方式包括细粒度训练方式,所述细粒度训练方式为以一个正负例对为输入,输入至所述第二模型,输出一对正负例置信度,所述正负例置信度中的正例的置信度大于负例的置信度。
9.一种技能确定装置,其特征在于,应用于电子设备,所述装置包括:
语义理解模块,用于确定用户请求分别在所述用户请求的多个响应技能下的语义理解结果;
技能处理模块,用于确定所述用户请求在每个所述响应技能下的用户请求字向量,所述用户请求字向量由所述用户请求包括的字的字向量和实体标签向量组成;
置信度确定模块,用于分别将每个所述响应技能对应的所述语义理解结果和所述用户请求字向量输入第一模型,输出每个所述响应技能的置信度;
技能选择模块,用于基于每个所述响应技能的置信度确定正确响应技能;
所述技能处理模块,具体用于确定所述用户请求包括的每个字的字向量,以及确定在每个所述响应技能下所述每个字的实体标签向量;将所述用户请求包括的每个字的字向量,分别与在每个所述响应技能下所述每个字的实体标签向量进行拼接,得到所述用户请求在每个所述响应技能下的用户请求字向量;
每个所述技能关联一个实体库,所述实体库包括多个实体,每个所述实体对应一个实体标签,所述实体标签用于表示实体所属的类别;在所述确定在每个所述响应技能下所述每个字的实体标签向量方面,所述技能处理模块具体用于:
进行多次第一操作,所述多次第一操作与所述多个响应技能一一对应,每次所述第一操作均包括以下过程:将所述每个字与所述响应技能关联的所述实体库中包括的所述实体进行匹配;若至少一个字组与至少一个实体匹配,则在每个所述字组上标记与其匹配的所述实体的实体标签,每个所述字组包括多个相邻的字;
基于在每个所述响应技能下所述每个字上的实体标签,确定在每个所述响应技能下所述每个字的实体标签向量。
10.一种电子设备,其特征在于,所述电子设备包括处理器、存储器、通信接口,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如权利要求1-8任一项所述的方法中的步骤的指令。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,其中,所述计算机程序被处理执行如权利要求1-8任一项所述的方法。
CN201911325487.XA 2019-12-20 2019-12-20 技能确定方法及相关设备 Active CN111124350B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911325487.XA CN111124350B (zh) 2019-12-20 2019-12-20 技能确定方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911325487.XA CN111124350B (zh) 2019-12-20 2019-12-20 技能确定方法及相关设备

Publications (2)

Publication Number Publication Date
CN111124350A CN111124350A (zh) 2020-05-08
CN111124350B true CN111124350B (zh) 2023-10-27

Family

ID=70500646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911325487.XA Active CN111124350B (zh) 2019-12-20 2019-12-20 技能确定方法及相关设备

Country Status (1)

Country Link
CN (1) CN111124350B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806467A (zh) * 2021-09-21 2021-12-17 阿里云计算有限公司 交互控制方法、对话策略调整方法、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334353A (zh) * 2017-08-31 2018-07-27 科大讯飞股份有限公司 技能开发系统及方法
EP3376400A1 (en) * 2017-03-14 2018-09-19 Fujitsu Limited Dynamic context adjustment in language models
CN108829757A (zh) * 2018-05-28 2018-11-16 广州麦优网络科技有限公司 一种聊天机器人的智能服务方法、服务器及存储介质
WO2019024704A1 (zh) * 2017-08-03 2019-02-07 阿里巴巴集团控股有限公司 实体标注方法、意图识别方法及对应装置、计算机存储介质
CN110188350A (zh) * 2019-05-22 2019-08-30 北京百度网讯科技有限公司 文本一致性计算方法及装置
CN110298019A (zh) * 2019-05-20 2019-10-01 平安科技(深圳)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN110457689A (zh) * 2019-07-26 2019-11-15 科大讯飞(苏州)科技有限公司 语义处理方法及相关装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170083849A1 (en) * 2015-09-21 2017-03-23 International Business Machines Corporation Generating a database of skills

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3376400A1 (en) * 2017-03-14 2018-09-19 Fujitsu Limited Dynamic context adjustment in language models
WO2019024704A1 (zh) * 2017-08-03 2019-02-07 阿里巴巴集团控股有限公司 实体标注方法、意图识别方法及对应装置、计算机存储介质
CN108334353A (zh) * 2017-08-31 2018-07-27 科大讯飞股份有限公司 技能开发系统及方法
CN108829757A (zh) * 2018-05-28 2018-11-16 广州麦优网络科技有限公司 一种聊天机器人的智能服务方法、服务器及存储介质
CN110298019A (zh) * 2019-05-20 2019-10-01 平安科技(深圳)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN110188350A (zh) * 2019-05-22 2019-08-30 北京百度网讯科技有限公司 文本一致性计算方法及装置
CN110457689A (zh) * 2019-07-26 2019-11-15 科大讯飞(苏州)科技有限公司 语义处理方法及相关装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Ma Jun.The Exploration of the Strategies and Skills of Effective Use of Voice Recognition Software in the Classroom for Deaf Students.《2010 Second International Conference on Future Networks》.2010,摘要. *
孙安.序列标注模型中的字粒度特征提取方案研究——以CCKS2017:Task2临床病历命名实体识别任务为例.《图书情报工作》.2018,全文. *
杨志明 ; 王来奇 ; 王泳 ; .基于双通道卷积神经网络的问句意图分类研究.中文信息学报.2019,(05),全文. *

Also Published As

Publication number Publication date
CN111124350A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN108038103B (zh) 一种对文本序列进行分词的方法、装置和电子设备
CN107210033A (zh) 基于众包来更新用于数字个人助理的语言理解分类器模型
CN110866090A (zh) 用于语音交互的方法、装置、电子设备和计算机存储介质
JP7063937B2 (ja) 音声対話するための方法、装置、電子デバイス、コンピュータ読み取り可能な記憶媒体、及びコンピュータプログラム
US20230289514A1 (en) Speech recognition text processing method and apparatus, device, storage medium, and program product
KR20200080400A (ko) 페르소나에 기반하여 문장을 제공하는 방법 및 이를 지원하는 전자 장치
CN110930969B (zh) 背景音乐的确定方法及相关设备
CN110827799B (zh) 用于处理语音信号的方法、装置、设备和介质
CN108153875B (zh) 语料处理方法、装置、智能音箱和存储介质
CN111124350B (zh) 技能确定方法及相关设备
CN113239883A (zh) 分类模型的训练方法、装置、电子设备以及存储介质
CN109543187B (zh) 电子病历特征的生成方法、装置及存储介质
WO2021098876A1 (zh) 一种基于知识图谱的问答方法及装置
CN111339770B (zh) 用于输出信息的方法和装置
CN114580790A (zh) 生命周期阶段预测和模型训练方法、装置、介质及设备
CN112257812A (zh) 一种标注样本确定方法、装置、机器可读介质及设备
CN112348045A (zh) 神经网络的训练方法、训练装置和电子设备
CN111476028A (zh) 一种汉语短语识别方法、系统、存储介质及电子设备
CN117688351B (zh) 一种基于模型处理结果的辅助甄别方法、装置及设备
CN111462759B (zh) 一种说话人标注方法、装置、设备及存储介质
WO2024031332A1 (zh) 基于机器学习的股票趋势分析方法、装置
US20220301553A1 (en) Electronic device and method for providing on-device artificial intelligence service
CN114817532A (zh) 问答对检测方法、电子设备、介质及程序产品
CN117292683A (zh) 一种语音响应方法、装置、设备和存储介质
CN114676702A (zh) 信息处理方法、装置、设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant