CN111222323B - 一种词槽抽取方法、词槽抽取装置及电子设备 - Google Patents

一种词槽抽取方法、词槽抽取装置及电子设备 Download PDF

Info

Publication number
CN111222323B
CN111222323B CN201911391069.0A CN201911391069A CN111222323B CN 111222323 B CN111222323 B CN 111222323B CN 201911391069 A CN201911391069 A CN 201911391069A CN 111222323 B CN111222323 B CN 111222323B
Authority
CN
China
Prior art keywords
word
dictionary
word slot
dictionary tree
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911391069.0A
Other languages
English (en)
Other versions
CN111222323A (zh
Inventor
何凯
熊友军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ubtech Technology Co ltd
Original Assignee
Shenzhen Ubtech Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ubtech Technology Co ltd filed Critical Shenzhen Ubtech Technology Co ltd
Priority to CN201911391069.0A priority Critical patent/CN111222323B/zh
Publication of CN111222323A publication Critical patent/CN111222323A/zh
Application granted granted Critical
Publication of CN111222323B publication Critical patent/CN111222323B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本申请公开了一种词槽抽取方法、词槽抽取装置、电子设备及计算机可读存储介质,其中,该方法应用于自然语言处理系统,该方法包括:当接收到输入语句时,确定输入语句所属的目标领域;基于目标领域所包含的一个以上实体词典,构建领域词典树;通过领域词典树对输入语句进行词槽抽取,得到第一词槽集合;通过自然语言处理系统中预加载的通用词典树对输入语句进行词槽抽取,得到第二词槽集合;基于第一词槽集合及第二词槽集合,输出该输入语句所包含的词槽。本申请方案预先构建并加载通用词典树,使得在词槽抽取时只需要加载特定领域的小语料词典树即可,这保障了自然语言处理系统的工作性能,提升了词槽抽取的速度。

Description

一种词槽抽取方法、词槽抽取装置及电子设备
技术领域
本申请属于人工智能技术领域,尤其涉及一种词槽抽取方法、词槽抽取装置、电子设备及计算机可读存储介质。
背景技术
词槽抽取是指在一定的领域中,对一句话进行词法分析和语法分析,并结合上下文判断指定的语句字符串某个片段是否是具有一定意义的符合上下文的词槽。词槽需要结合一定领域中大量的词典来进行搜索过滤,如果是小语料的词典,自然语言处理系统在载入词典时不需要太耗性能;但如果是大语料的词典,自然语言处理系统在载入词典时需要耗费大量的时间,考虑到自然语言处理系统通常在接收用户输入的交互请求后才载入词典,这会严重影响到自然语言处理系统的工作性能。
发明内容
有鉴于此,本申请提供了一种词槽抽取方法、词槽抽取装置、电子设备及计算机可读存储介质,可一定程度上保障了自然语言处理系统的工作性能,同时提升了词槽抽取的速度。
本申请的第一方面提供了一种词槽抽取方法,上述词槽抽取方法应用于自然语言处理系统,上述词槽抽取方法包括:
当接收到输入语句时,确定上述输入语句所属的目标领域;
基于上述目标领域所包含的一个以上实体词典,构建领域词典树;
通过上述领域词典树对上述输入语句进行词槽抽取,得到第一词槽集合;
通过上述自然语言处理系统中预加载的通用词典树对上述输入语句进行词槽抽取,得到第二词槽集合;
基于上述第一词槽集合及上述第二词槽集合,输出上述输入语句所包含的词槽。
本申请的第二方面提供了一种词槽抽取装置,其特征在于,上述词槽抽取装置应用于自然语言处理系统,上述词槽抽取方法包括:
目标领域确定单元,用于当接收到输入语句时,确定上述输入语句所属的目标领域;
领域词典树构建单元,用于基于上述目标领域所包含的一个以上实体词典,构建领域词典树;
第一词槽抽取单元,用于通过上述领域词典树对上述输入语句进行词槽抽取,得到第一词槽集合;
第二词槽抽取单元,用于通过上述自然语言处理系统中预加载的通用词典树对上述输入语句进行词槽抽取,得到第二词槽集合;
词槽输出单元,用于基于上述第一词槽集合及上述第二词槽集合,输出上述输入语句所包含的词槽。
本申请的第三方面提供了一种电子设备,上述电子设备包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,上述处理器执行上述计算机程序时实现如上述第一方面的方法的步骤。
本申请的第四方面提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现如上述第一方面的方法的步骤。
本申请的第五方面提供了一种计算机程序产品,上述计算机程序产品包括计算机程序,上述计算机程序被一个或多个处理器执行时实现如上述第一方面的方法的步骤。
由上可见,在本申请方案中,当接收到输入语句时,先确定上述输入语句所属的目标领域,随后基于上述目标领域所包含的一个以上实体词典,构建领域词典树,接着通过上述领域词典树对上述输入语句进行词槽抽取,得到第一词槽集合,再通过上述自然语言处理系统中预加载的通用词典树对上述输入语句进行词槽抽取,得到第二词槽集合,最后基于上述第一词槽集合及上述第二词槽集合,输出上述输入语句所包含的词槽。通过本申请方案,预先构建并加载通用词典树,使得在词槽抽取时只需要加载特定领域的小语料词典即可,这保障了自然语言处理系统的工作性能,提升了词槽抽取的速度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的词槽抽取方法的实现流程示意图;
图2是本申请实施例提供的词槽抽取方法中的领域的示意图;
图3是本申请实施例提供的词槽抽取方法中的意图的示意图;
图4是本申请实施例提供的词槽抽取装置的结构框图;
图5是本申请实施例提供的电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
为了说明本申请上述的技术方案,下面通过具体实施例来进行说明。
实施例一
下面对本申请实施例提供的一种词槽抽取方法进行描述,该词槽抽取方法应用于自然语言处理系统,请参阅图1,本申请实施例中的词槽抽取方法包括:
步骤101,当接收到输入语句时,确定上述输入语句所属的目标领域;
在本申请实施例中,上述自然语言处理系统可以接收用户通过客户端所发送的输入语句。具体地,可以认为上述自然语言处理系统为各个不同类型的客户端提供了接口,则各个不同类型的客户端可以通过该接口实现与上述自然语言处理系统进行交互。当接收到客户端所传送过来的输入语句时,上述客户端的类型即可作为输入语句的输入渠道;而上述客户端的类型具体可通过应用程序来进行区分。也即,一个应用程序对应一种客户端的类型,一种客户端的类型对应一个输入渠道。例如,用户USER1可以在其移动终端上安装应用程序A的客户端,则用户USER1在该应用程序A的客户端写入上述输入语句,随后该客户端可以将上述输入语句传送到上述自然语言处理系统中,自然语言处理系统即可知道上述输入语句是通过应用程序A所接收的。可选地,可以基于上述输入语句的输入渠道确定上述输入语句所属的目标领域,具体包括:
A1、若接收到包含有上述输入语句的交互请求,则基于上述交互请求所携带的应用程序ID确定上述输入语句所属的应用程序,作为目标应用程序;
其中,客户端在向自然语言处理系统传送输入语句时,往往是将该输入语句包装为一交互请求,上述交互请求中不仅携带有输入语句,还携带有应用程序ID(ApplicationID)。基于此,上述自然语言处理系统在解析上述交互请求获得输入语句后,还可以解析所得的上述应用程序ID获得输入语句所属的应用程序(也即输入语句的输入渠道),该应用程序即可被确定为目标应用程序。
A2、将与上述目标应用程序相关联的领域确定为上述输入语句所属的目标领域。
其中,每一能够与上述自然语言处理系统交互的应用程序都已经预先设定好相关联的领域,以下先对领域做出介绍:本申请实施例中,设定一个领域由与该领域相关的一个以上意图以及一个以上实体词典构成,而每一个意图又由一个以上意图表达式以及一个意图词槽列表构成。
下面先对领域的结构做出说明:如图2所示,领域A中包含有意图A1及意图A2,同时包含有实体词典a1及实体词典a2;类似地,领域B中包含有意图B1、意图B2及意图B3,同时包含有实体词典b1及实体词典b2。需要注意的是,一个领域往往仅对应一个应用程序,而一个应用程序可以对应多个领域;一般来说,应用程序与领域的对应关系往往由该应用程序的开发人员根据其实际需求而设定,此处不作限定。也即,在本申请实施例中,输入语句所属的应用程序所关联的领域即可作为上述输入语句所属的目标领域。考虑到一个应用程序可以对应一个或多个领域,因而,此处也不对上述输入语句所属的目标领域的数量作出限定。
下面再对意图的结构做出说明:如图3所示,意图A中包含有意图表达式A1、意图表达式A2至意图表达式An,n为大于1的正整数,同时还包含有一意图词槽列表。其中,对上述意图表达式及意图词槽列表有如下限定:在一个意图表达式中,不能出现重复的词槽;同时,每一个意图表达式的词槽都有其对应的一个实体词典;并且,在一个意图下,所有意图表达式的词槽均需要包含在该意图的意图词槽列表中,以下通过实例进行说明:假定意图A为“去城市”,则意图表达式A1可以是“我想从北京出发去上海”,这其中,“北京”及“上海”均可以被抽取为词槽,且其均属于“城市city”这一实体词典,但考虑到同一意图表达式中不能出现重复的词槽,因而,语料人员可以将“北京”所对应的词槽设定为“from_city”,“上海”所对应的词槽设定为“to_city”;上述词槽“from_city”及“to_city”均属于“城市city”这一实体词典;同时,上述“from_city”及“to_city”将被存放于“去城市”这一意图的意图词槽列表中。又假定还有一意图表达式A2为“我坐飞机从深圳飞到杭州”,这其中“深圳”及“杭州”也可以被抽取为词槽,则相应地,语料人员可以将“深圳”所对应的词槽设定为“from_city”,“杭州”所对应的词槽设定为“to_city”,也即,不同意图表达式中可以有重复的词槽(意图表达式A1及意图表达式A2均有词槽“from_city”及词槽“to_city”),而同一意图表达式中不能出现重复的词槽(意图表达式A1中的“北京”及“上海”所对应的词槽不能均为“city”,其词槽需要有所区分)。
步骤102,基于上述目标领域所包含的一个以上实体词典,构建领域词典树;
在本申请实施例中,已知领域由一个或多个意图,以及一个或多个实体词典所构成;因而,在得到了上述输入语句所属的目标领域之后,可获取目标领域所包含的一个以上实体词典,并基于这些实体词典构建领域词典树。具体地,在构建领域词典树时,其构建手段可以为:根据预设的多模匹配算法以及预设的双数组字典树(Double Array Trie)算法,为上述目标领域所包含的一个以上实体词典构建领域词典树,其中,上述预设的多模匹配算法为基于Aho Corasick自动机。
步骤103,通过上述领域词典树对上述输入语句进行词槽抽取,得到第一词槽集合;
在本申请实施例中,在构建得到领域词典树之后,可以通过该领域词典树对上述输入语句进行词槽抽取,得到第一词槽集合;也即,上述第一词槽组合中保存的是通过领域词典树所抽取到的上述输入语句的词槽。
步骤104,通过上述自然语言处理系统中预加载的通用词典树对上述输入语句进行词槽抽取,得到第二词槽集合;
在本申请实施例中,除了通过领域词典树进行词槽抽取之外,还可以通过上述自然语言处理系统中预加载的通用词典树对上述输入语句进行词槽抽取,得到第二词槽集合;也即,上述第二词槽组合中保存的是通过预设的通用词典树所抽取到的上述输入语句的词槽。需要说明的是,不管是否能够通过上述领域词典树抽取到输入语句的词槽,也即,不管上述第一词槽集合是否为空,上述自然语言处理系统都会通过预加载的通用词典树再进行一次输入语句的词槽的抽取。
可选地,为了提升词槽抽取的效率,上述步骤104具体包括:
B1、在上述输入语句中,屏蔽上述第一词槽集合中的词槽所对应的词语;
其中,可以首先检测上述第一词槽集合是否为空,若不为空,则可以在输入语句中查找出上述第一词槽集合中的词槽所对应的词语,并将这些词语进行屏蔽。
B2、通过上述自然语言处理系统中预加载的通用词典树对屏蔽词语后的上述输入语句进行词槽抽取,得到第二词槽集合。
其中,若上述第一词槽集合不为空,则需要等待对上述输入语句进行屏蔽后,再通过上述自然语言处理系统中预加载的通用词典树对屏蔽词语后的上述输入语句进行词槽抽取,得到第二词槽集合。通过这种方式,可以保障输入语句中的同一个词语只能被抽取出一次词槽,且通过领域词典树抽取词槽的优先级要高于通过通用词典树抽取词槽的优先级;也即,若一个词语先被领域词典树抽取为一词槽,则该词语将不会再被通用词典树抽取得到词槽。
当然,除了通过上述步骤B1及B2的方式保障领域词典树抽取词槽的优先级之外,还可以通过其它方式领域词典树抽取词槽的优先级,此处不作限定。例如,可以同时或先后通过领域词典树及通用词典树对上述输入语句进行词槽抽取,仍将通过领域词典树抽取得到的词槽存放于第一词槽集合中,将通过通用词典树抽取得到的词槽存放于第二词槽集合中,然后检测是否存在重复词语,其中,上述重复词语指的是输入语句中,在第一词槽集合及第二词槽集合均存在对应词槽的词语;若存在重复词语,则可知该重复词语被多次抽取词槽,此时可以将该重复词语在上述第二词槽集合中的所对应的词槽删除。
步骤105,基于上述第一词槽集合及上述第二词槽集合,输出上述输入语句所包含的词槽。
在本申请实施例中,在经过了两次词槽抽取操作,得到对应的第一词槽集合及第二词槽集合后,可以基于上述第一词槽集合及上述第二词槽集合,输出上述输入语句所包含的词槽。进一步地,上述自然语言处理系统还可以预测出上述输入语句的意图,此处不再赘述。在预测得到输入语句的意图以及抽取得到输入语句的词槽后,可以查找最为匹配的回复语句,并向用户的客户端反馈该回复语句。需要注意的是,上述回复语句是可配置的,语料人员可在自然语言处理系统进行优化时对存在优化需求的回复语句作出修改。
可选地,上述词槽抽取方法还包括:
在预设的实体词典库中,通过大数据分析确定一个以上目标实体词典;
在上述自然语言处理系统初始化时,为上述一个以上目标实体词典构建通用词典树,并预加载上述通用词典树。
在本申请实施例中,语料人员可以通过穷举的方式,尽可能多的创建实体词典,例如,可以创建有“城市city”、“歌曲song”、“歌手singer”、“星座constellation”、“天气weather”及“药剂drug”等实体词典,并将这些实体词典存放于预设的实体词典库中。随后,通过对一个以上样本用户进行大数据分析,在上述实体词典库所包含的实体词典中确定一个以上目标实体词典,其中,上述目标实体词典为满足预设的使用频率条件的实体词典。也即,通过这种方式,找到人们使用较多或较为常见的实体词典作为目标实体词典。在上述自然语言处理系统初始化时,即可以为上述一个以上目标实体词典构建通用词典树,并预加载上述通用词典树,其中,上述通用词典树的构建方式与上述领域词典树相同,也是根据预设的多模匹配算法以及预设的双数组字典树算法,为上述一个以上目标实体词典构建通用词典树。具体地,上述通过大数据分析确定一个以上目标实体词典的步骤包括:获取一个以上样本用户在预设时间段内所输入的所有语句,作为样本语句;通过分析上述样本语句确定一个以上目标实体词典,其中,上述目标实体词典中的词语在上述样本语句中的使用频率高于预设的使用频率阈值。也即,通过预设时间段内多个样本用户对实体词典的使用情况确定目标实体词典,这样一来,“城市city”、“歌曲song”、“歌手singer”及“天气weather”等人们日常生活中经常用到的实体词典即可以被确定目标实体词典,并以此构建并预加载通用词典树。可选地,当上述通用词典(也即目标实体词典)中的数据出现修改时,上述自然语言处理系统可以在后台自动重构新的通用词典树,该重构过程对用户来说是透明的。
由上可见,通过本申请方案,首先基于大数据分析得到用户使用频率较高的通用词典,并基于这些通用词典构建通用词典树,该通用词典树在自然语言处理系统初始化时就已经加载完成,后续在处理输入数据时,只需要构建并加载该输入语句所对应的领域词典树即可。由于上述通用词典树是大语料的词典树,而领域词典树是小语料的词典树,因而,通过这种通用词典提前加载的方式,可以保障自然语言处理系统的稳定运行,避免在每次交互请求时都载入一次大语料的数据,节省了每次交互请求的反馈时间。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
实施例二
本申请实施例二提供了一种词槽抽取装置,上述词槽抽取装置可集成于电子设备中,如图4所示,本申请实施例中的词槽抽取装置400包括:
目标领域确定单元401,用于当接收到输入语句时,确定上述输入语句所属的目标领域;
领域词典树构建单元402,用于基于上述目标领域所包含的一个以上实体词典,构建领域词典树;
第一词槽抽取单元403,用于通过上述领域词典树对上述输入语句进行词槽抽取,得到第一词槽集合;
第二词槽抽取单元404,用于通过上述自然语言处理系统中预加载的通用词典树对上述输入语句进行词槽抽取,得到第二词槽集合;
词槽输出单元405,用于基于上述第一词槽集合及上述第二词槽集合,输出上述输入语句所包含的词槽。
可选地,上述目标领域确定单元401,包括:
目标应用程序确定子单元,用于若接收到包含有上述输入语句的交互请求,则基于上述交互请求所携带的应用程序ID确定上述输入语句所属的应用程序,作为目标应用程序;
目标领域确定子单元,用于将与上述目标应用程序相关联的领域确定为上述输入语句所属的目标领域。
可选地,上述领域词典树构建单元402,具体用于根据预设的多模匹配算法以及预设的双数组字典树算法,为上述目标领域所包含的一个以上实体词典构建领域词典树。
可选地,上述第二词槽抽取单元404,包括:
词语屏蔽子单元,用于在上述输入语句中,屏蔽上述第一词槽集合中的词槽所对应的词语;
词槽抽取子单元,用于通过上述自然语言处理系统中预加载的通用词典树对屏蔽词语后的上述输入语句进行词槽抽取,得到第二词槽集合。
可选地,上述词槽抽取装置400还包括:
目标实体词典确定单元,用于在预设的实体词典库中,通过大数据分析确定一个以上目标实体词典,其中,上述目标实体词典为满足预设的使用频率条件的实体词典;
通用词典树构建单元,用于在上述自然语言处理系统初始化时,为上述一个以上目标实体词典构建通用词典树;
通用词典树预加载单元,用于在上述通用词典树构建完毕后,预加载上述通用词典树。
可选地,上述目标实体词典确定子单元,包括:
样本语句获取子单元,用于获取一个以上样本用户在预设时间段内所输入的所有语句,作为样本语句;
目标实体词典确定子单元,用于通过分析上述样本语句确定一个以上目标实体词典,其中,上述目标实体词典中的词语在上述样本语句中的使用频率高于预设的使用频率阈值。
由上可见,通过本申请方案,词槽抽取装置首先基于大数据分析得到用户使用频率较高的通用词典,并基于这些通用词典构建通用词典树,该通用词典树在自然语言处理系统初始化时就已经加载完成,后续在处理输入数据时,只需要构建并加载该输入语句所对应的领域词典树即可。由于上述通用词典树是大语料的词典树,而领域词典树是小语料的词典树,因而,通过这种通用词典提前加载的方式,可以保障自然语言处理系统的稳定运行,避免在每次交互请求时都载入一次大语料的数据,节省了每次交互请求的反馈时间。
实施例三
本申请实施例三提供了一种电子设备,上述电子设备运行有自然语言处理系统,请参阅图5,本申请实施例中的电子设备5包括:存储器501,一个或多个处理器502(图5中仅示出一个)及存储在存储器501上并可在处理器上运行的计算机程序。其中:存储器501用于存储软件程序以及模块,处理器502通过运行存储在存储器501的软件程序以及单元,从而执行各种功能应用以及数据处理,以获取上述预设事件对应的资源。具体地,处理器502通过运行存储在存储器501的上述计算机程序时实现以下步骤:
当接收到输入语句时,确定上述输入语句所属的目标领域;
基于上述目标领域所包含的一个以上实体词典,构建领域词典树;
通过上述领域词典树对上述输入语句进行词槽抽取,得到第一词槽集合;
通过上述自然语言处理系统中预加载的通用词典树对上述输入语句进行词槽抽取,得到第二词槽集合;
基于上述第一词槽集合及上述第二词槽集合,输出上述输入语句所包含的词槽。
假设上述为第一种可能的实施方式,则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中,上述当接收到输入语句时,确定上述输入语句所属的目标领域,包括:
若接收到包含有上述输入语句的交互请求,则基于上述交互请求所携带的应用程序ID确定上述输入语句所属的应用程序,作为目标应用程序;
将与上述目标应用程序相关联的领域确定为上述输入语句所属的目标领域。
在上述第一种可能的实施方式作为基础而提供的第三种可能的实施方式中,上述基于上述目标领域所包含的一个以上实体词典,构建领域词典树,包括:
根据预设的多模匹配算法以及预设的双数组字典树算法,为上述目标领域所包含的一个以上实体词典构建领域词典树。
在上述一种可能的实施方式作为基础而提供的第四种可能的实施方式中,上述通过上述自然语言处理系统中预加载的通用词典树对上述输入语句进行词槽抽取,得到第二词槽集合,包括:
在上述输入语句中,屏蔽上述第一词槽集合中的词槽所对应的词语;
通过上述自然语言处理系统中预加载的通用词典树对屏蔽词语后的上述输入语句进行词槽抽取,得到第二词槽集合。
在上述第一种可能的实施方式作为基础,或者上述第二种可能的实施方式作为基础,或者上述第三种可能的实施方式作为基础,或者上述第四种可能的实施方式作为基础而提供的第五种可能的实施方式中,处理器502通过运行存储在存储器501的上述计算机程序时还实现以下步骤:
在预设的实体词典库中,通过大数据分析确定一个以上目标实体词典,其中,上述目标实体词典为满足预设的使用频率条件的实体词典;
在上述自然语言处理系统初始化时,为上述一个以上目标实体词典构建通用词典树,并预加载上述通用词典树。
在上述第五种可能的实施方式作为基础而提供的第六种可能的实施方式中,上述在预设的实体词典库中,通过大数据分析确定一个以上目标实体词典,包括:
获取一个以上样本用户在预设时间段内所输入的所有语句,作为样本语句;
通过分析上述样本语句确定一个以上目标实体词典,其中,上述目标实体词典中的词语在上述样本语句中的使用频率高于预设的使用频率阈值。
应当理解,在本申请实施例中,所称处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Arra5,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器501可以包括只读存储器和随机存取存储器,并向处理器502提供指令和数据。存储器501的一部分或全部还可以包括非易失性随机存取存储器。例如,存储器501还可以存储设备类别的信息。
由上可见,通过本申请方案,电子设备首先基于大数据分析得到用户使用频率较高的通用词典,并基于这些通用词典构建通用词典树,该通用词典树在自然语言处理系统初始化时就已经加载完成,后续在处理输入数据时,只需要构建并加载该输入语句所对应的领域词典树即可。由于上述通用词典树是大语料的词典树,而领域词典树是小语料的词典树,因而,通过这种通用词典提前加载的方式,可以保障自然语言处理系统的稳定运行,避免在每次交互请求时都载入一次大语料的数据,节省了每次交互请求的反馈时间。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将上述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者外部设备软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,上述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关联的硬件来完成,上述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,上述计算机程序包括计算机程序代码,上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读存储介质可以包括:能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机可读存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括是电载波信号和电信信号。
以上上述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (5)

1.一种词槽抽取方法,其特征在于,所述词槽抽取方法应用于自然语言处理系统,所述词槽抽取方法包括:
获取一个以上样本用户在预设时间段内所输入的所有语句,作为样本语句;
通过分析所述样本语句确定一个以上目标实体词典,其中,所述目标实体词典中的词语在所述样本语句中的使用频率高于预设的使用频率阈值;
在所述自然语言处理系统初始化时,为所述一个以上目标实体词典构建通用词典树,并预加载所述通用词典树;
若接收到包含有输入语句的交互请求,则基于所述交互请求所携带的应用程序ID确定所述输入语句所属的应用程序,作为目标应用程序;
将与所述目标应用程序相关联的领域确定为所述输入语句所属的目标领域;
根据预设的多模匹配算法以及预设的双数组字典树算法,为所述目标领域所包含的一个以上实体词典构建领域词典树;
通过所述领域词典树对所述输入语句进行词槽抽取,得到第一词槽集合;
通过所述自然语言处理系统中预加载的通用词典树对所述输入语句进行词槽抽取,得到第二词槽集合;
基于所述第一词槽集合及所述第二词槽集合,输出所述输入语句所包含的词槽;
其中, 通过所述领域词典树抽取词槽的优先级高于通过所述通用词典树抽取词槽的优先级。
2.如权利要求1所述的词槽抽取方法,其特征在于,所述通过所述自然语言处理系统中预加载的通用词典树对所述输入语句进行词槽抽取,得到第二词槽集合,包括:
在所述输入语句中,屏蔽所述第一词槽集合中的词槽所对应的词语;
通过所述自然语言处理系统中预加载的通用词典树对屏蔽词语后的所述输入语句进行词槽抽取,得到第二词槽集合。
3.一种词槽抽取装置,其特征在于,所述词槽抽取装置应用于自然语言处理系统,所述词槽抽取装置包括:
目标实体词典确定单元,用于在预设的实体词典库中,通过大数据分析确定一个以上目标实体词典,其中,所述目标实体词典为满足预设的使用频率条件的实体词典;
通用词典树构建单元,用于在所述自然语言处理系统初始化时,为所述一个以上目标实体词典构建通用词典树;
通用词典树预加载单元,用于在所述通用词典树构建完毕后,预加载所述通用词典树;
目标领域确定单元,用于当接收到输入语句时,基于所述输入语句所属的应用程序确定所述输入语句所属的目标领域;
领域词典树构建单元,用于基于所述目标领域所包含的一个以上实体词典,构建领域词典树;
第一词槽抽取单元,用于通过所述领域词典树对所述输入语句进行词槽抽取,得到第一词槽集合;
第二词槽抽取单元,用于通过所述自然语言处理系统中预加载的通用词典树对所述输入语句进行词槽抽取,得到第二词槽集合;
词槽输出单元,用于基于所述第一词槽集合及所述第二词槽集合,输出所述输入语句所包含的词槽;
其中,所述目标实体词典确定单元,包括:
样本语句获取子单元,用于获取一个以上样本用户在预设时间段内所输入的所有语句,作为样本语句;
目标实体词典确定子单元,用于通过分析所述样本语句确定一个以上目标实体词典,其中,所述目标实体词典中的词语在所述样本语句中的使用频率高于预设的使用频率阈值;
其中,所述目标领域确定单元,包括:
目标应用程序确定子单元,用于若接收到包含有所述输入语句的交互请求,则基于所述交互请求所携带的应用程序ID确定所述输入语句所属的应用程序,作为目标应用程序;
目标领域确定子单元,用于将与所述目标应用程序相关联的领域确定为所述输入语句所属的目标领域;
其中,所述领域词典树构建单元,具体用于根据预设的多模匹配算法以及预设的双数组字典树算法,为所述目标领域所包含的一个以上实体词典构建领域词典树;
其中,通过所述领域词典树抽取词槽的优先级高于通过所述通用词典树抽取词槽的优先级。
4.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至2任一项所述方法的步骤。
5.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至2任一项所述方法的步骤。
CN201911391069.0A 2019-12-30 2019-12-30 一种词槽抽取方法、词槽抽取装置及电子设备 Active CN111222323B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911391069.0A CN111222323B (zh) 2019-12-30 2019-12-30 一种词槽抽取方法、词槽抽取装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911391069.0A CN111222323B (zh) 2019-12-30 2019-12-30 一种词槽抽取方法、词槽抽取装置及电子设备

Publications (2)

Publication Number Publication Date
CN111222323A CN111222323A (zh) 2020-06-02
CN111222323B true CN111222323B (zh) 2024-05-03

Family

ID=70811170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911391069.0A Active CN111222323B (zh) 2019-12-30 2019-12-30 一种词槽抽取方法、词槽抽取装置及电子设备

Country Status (1)

Country Link
CN (1) CN111222323B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111681647B (zh) * 2020-06-10 2023-09-05 北京百度网讯科技有限公司 用于识别词槽的方法、装置、设备以及存储介质
CN113869046B (zh) * 2021-09-29 2022-10-04 阿波罗智联(北京)科技有限公司 一种自然语言文本的处理方法、装置、设备及存储介质
CN114595696A (zh) * 2022-03-03 2022-06-07 Oppo广东移动通信有限公司 实体消歧方法、实体消歧装置、存储介质与电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391485A (zh) * 2017-07-18 2017-11-24 中译语通科技(北京)有限公司 基于最大熵和神经网络模型的韩语命名实体识别方法
CN107818781A (zh) * 2017-09-11 2018-03-20 远光软件股份有限公司 智能交互方法、设备及存储介质
CN107832286A (zh) * 2017-09-11 2018-03-23 远光软件股份有限公司 智能交互方法、设备及存储介质
CN108446286A (zh) * 2017-02-16 2018-08-24 阿里巴巴集团控股有限公司 一种自然语言问句答案的生成方法、装置及服务器
CN109616108A (zh) * 2018-11-29 2019-04-12 北京羽扇智信息科技有限公司 多轮对话交互处理方法、装置、电子设备及存储介质
CN109740165A (zh) * 2019-01-09 2019-05-10 网易(杭州)网络有限公司 字典树构建方法、语句搜索方法、装置、设备及存储介质
CN110457689A (zh) * 2019-07-26 2019-11-15 科大讯飞(苏州)科技有限公司 语义处理方法及相关装置
CN110532355A (zh) * 2019-08-27 2019-12-03 华侨大学 一种基于多任务学习的意图与槽位联合识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4701292B2 (ja) * 2009-01-05 2011-06-15 インターナショナル・ビジネス・マシーンズ・コーポレーション テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446286A (zh) * 2017-02-16 2018-08-24 阿里巴巴集团控股有限公司 一种自然语言问句答案的生成方法、装置及服务器
CN107391485A (zh) * 2017-07-18 2017-11-24 中译语通科技(北京)有限公司 基于最大熵和神经网络模型的韩语命名实体识别方法
CN107818781A (zh) * 2017-09-11 2018-03-20 远光软件股份有限公司 智能交互方法、设备及存储介质
CN107832286A (zh) * 2017-09-11 2018-03-23 远光软件股份有限公司 智能交互方法、设备及存储介质
CN109616108A (zh) * 2018-11-29 2019-04-12 北京羽扇智信息科技有限公司 多轮对话交互处理方法、装置、电子设备及存储介质
CN109740165A (zh) * 2019-01-09 2019-05-10 网易(杭州)网络有限公司 字典树构建方法、语句搜索方法、装置、设备及存储介质
CN110457689A (zh) * 2019-07-26 2019-11-15 科大讯飞(苏州)科技有限公司 语义处理方法及相关装置
CN110532355A (zh) * 2019-08-27 2019-12-03 华侨大学 一种基于多任务学习的意图与槽位联合识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
胡婕 等.基于深度学习的领域问答系统的设计与实现.《成都信息工程大学学报》.2019,第34卷(第34期),232-237. *

Also Published As

Publication number Publication date
CN111222323A (zh) 2020-06-02

Similar Documents

Publication Publication Date Title
US11221832B2 (en) Pruning engine
CN111222323B (zh) 一种词槽抽取方法、词槽抽取装置及电子设备
US11269965B2 (en) Extractive query-focused multi-document summarization
US10558757B2 (en) Symbol management
CN110020422B (zh) 特征词的确定方法、装置和服务器
US10943071B2 (en) Statistical preparation of data using semantic clustering
US10002128B2 (en) System for tokenizing text in languages without inter-word separation
CN108572990B (zh) 信息推送方法和装置
US20190042559A1 (en) Anaphora resolution for medical text with machine learning and relevance feedback
US20190243912A1 (en) Rapid design, development, and reuse of blockchain environment and smart contracts
US20220004642A1 (en) Vulnerability analysis using contextual embeddings
US11151180B2 (en) Messaging digest
CN112836057B (zh) 知识图谱的生成方法、装置、终端以及存储介质
CN110795069A (zh) 代码分析方法、智能终端及计算机可读存储介质
US9916375B2 (en) Extraction of concept-based summaries from documents
JP2022116231A (ja) 生体検出モデルのトレーニング方法、装置、電子機器および記憶媒体
CN111401034B (zh) 文本的语义分析方法、语义分析装置及终端
CN112231444A (zh) 结合rpa和ai的语料数据的处理方法、装置和电子设备
CN110069691B (zh) 用于处理点击行为数据的方法和装置
CN107798091B (zh) 一种数据爬取的方法及其相关设备
CN116306672A (zh) 一种数据处理方法及其装置
US11822892B2 (en) Automated natural language splitting for generation of knowledge graphs
CN114089960B (zh) 对象处理方法以及装置
US20240305656A1 (en) Extracting device, extracting method, and extracting program
CN115422907A (zh) 一种多维度科技项目立项查重的方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant