CN111339760A - 词法分析模型的训练方法、装置、电子设备、存储介质 - Google Patents

词法分析模型的训练方法、装置、电子设备、存储介质 Download PDF

Info

Publication number
CN111339760A
CN111339760A CN201811559376.0A CN201811559376A CN111339760A CN 111339760 A CN111339760 A CN 111339760A CN 201811559376 A CN201811559376 A CN 201811559376A CN 111339760 A CN111339760 A CN 111339760A
Authority
CN
China
Prior art keywords
analysis model
lexical analysis
chinese lexical
training
slot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811559376.0A
Other languages
English (en)
Inventor
王颖帅
李晓霞
苗诗雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201811559376.0A priority Critical patent/CN111339760A/zh
Publication of CN111339760A publication Critical patent/CN111339760A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种中文词法分析模型的训练方法、装置、电子设备、存储介质,中文词法分析模型的训练方法包括:提供训练语料集;对所述训练语料集进行标注;对训练语料集中的各训练语料作为所述中文词法分析模型的输入,所述中文词法分析模型在输入层及输出层之间依次包括嵌入层、第一双向门控循环单元层、第二双向门控循环单元层、全连接层及条件随机场层;至少将所述人工标注作为所述中文词法分析模型的输出,以对所述中文词法分析模型进行训练。本发明可以通过中文词法分析模型的训练,利用经训练的中文词法分析模型进行中文词法分析,并可应用于分词、词性标注、槽位预测及用户意图预测中,以减少人力成本。

Description

词法分析模型的训练方法、装置、电子设备、存储介质
技术领域
本发明涉及计算机应用技术领域,尤其涉及一种中文词法分析模型的训 练方法、预测方法、训练装置、电子设备、存储介质。
背景技术
随着大数据和互联网技术的发展,人工智能产品越来越多地进入普通人 的生活中,比如智能手机上的语音助手,可以帮助用户更快地找到自己感兴 趣的商品,语音助手和人进行交流的核心技术是自然语言处理,分词、词性 标注、命名实体识别这些基础的底层模型,直接影响NLP(Natural Language Processing,NLP多数情况下指的是计算机上各种大同小异的语言处理应用, 以及用NLP技术所构建的实际应用程序,比如分词、词性标注、命名实体识 别、句法分析、语法依存等)技术的精确度,工业界现有的分词技术是双向最大匹配算法,词性标注和命名实体识别是依靠大量人工标注,结合条件随 机场等传统机器学习方法进行预测,如何能构建一套通用的NLP底层算法, 是一个很有意义的工作。
现有分词技术采用双向最大匹配方法,需要构建比较完善的词库,而且 对新登录词不能识别;现有词性标注技术和命名实体识别技术采用大量人工 标注语料作为训练集,作为条件随机场模型的输入,需要自定义特征模板, 只能挖掘语料中的线性特征,而且人工标注成本较大。
由此可见,现有技术具有分词不够灵活准确,词性标注和命名实体识别 人力成本高特征提取不充分等缺点。
发明内容
本发明为了克服上述相关技术存在的缺陷,提供一种中文词法分析模型 的训练方法、装置、电子设备、存储介质,进而至少在一定程度上克服由于 相关技术的限制和缺陷而导致的一个或者多个问题。
根据本发明的一个方面,提供一种中文词法分析模型的训练方法,包括:
提供训练语料集;
对所述训练语料集进行标注;
对训练语料集中的各训练语料作为所述中文词法分析模型的输入,所述 中文词法分析模型在输入层及输出层之间依次包括嵌入层、第一双向门控循 环单元层、第二双向门控循环单元层、全连接层及条件随机场层;
至少将所述人工标注作为所述中文词法分析模型的输出,以对所述中文 词法分析模型进行训练,其中,
所述中文词法分析模型至少应用于分词、词性标注、槽位预测及用户意 图预测中的一项或多项。
可选地,所述中文词法分析模型的输出用于该中文词法分析模型或另一 中文词法分析模型的训练。
可选地,所述对所述训练语料集进行标注还包括:
利用映射表验证方式或多模型交叉验证方式对所述训练语料集的标注 进行验证。
可选地,所述标注的内容至少包括:用户首句输入、业务场景及槽位槽 值标注中的一项或多项。
可选地,所述嵌入层用于提取各训练语料的特征向量,以输入所述第一 双向门控循环单元层,其中,所提取的特征向量包括字符特征向量、词语特 征向量、上下文特征向量及槽位标记向量中的一项或多项。
可选地,所述槽位标记向量包括:标识槽位起始的向量、标识槽位中间 的向量、标识除了槽位起始和槽位中间的向量。
可选地,所述槽位标记向量包括:标识槽位起始的向量、标识槽位中间 的向量、标识槽位终止的向量、标识单字槽位的向量及标识除了槽位起始、 槽位中间、槽位终止及单字槽位的向量。
根据本发明又一方面,还提供一种中文词法分析模型的预测方法,包括:
获取待预测语料;
将所述待预测语料输入经由上述的中文词法分析模型的训练方法训练 的中文词法分析模型;
将所述中文词法分析模型作为所述待预测语料的预测结果。
根据本发明又一方面,还提供一种中文词法分析模型的训练装置,其特 征在于,包括:
提供模块,用于提供训练语料集;
标注模块,用于对所述训练语料集进行标注;
输入模块,用于对训练语料集中的各训练语料作为所述中文词法分析模 型的输入,所述中文词法分析模型在输入层及输出层之间依次包括嵌入层、 第一双向门控循环单元层、第二双向门控循环单元层、全连接层及条件随机 场层;
训练模块,用于至少将所述人工标注作为所述中文词法分析模型的输出, 以对所述中文词法分析模型进行训练,其中,
所述中文词法分析模型至少应用于分词、词性标注、槽位预测及用户意 图预测中的一项或多项。
根据本发明的又一方面,还提供一种电子设备,所述电子设备包括:处 理器;存储介质,其上存储有计算机程序,所述计算机程序被所述处理器运 行时执行如上所述的步骤。
根据本发明的又一方面,还提供一种存储介质,所述存储介质上存储有 计算机程序,所述计算机程序被处理器运行时执行如上所述的步骤。
相比现有技术,本发明的优势在于:
本发明通过在输入层及输出层之间依次包括嵌入层、第一双向门控循环 单元层、第二双向门控循环单元层、全连接层及条件随机场层的中文词法分 析模型,并应用在分词、词性标注、槽位预测及用户意图预测中的一项或多 项中,深度学习网络结构自动学习语料特征,提取更抽象的语义特征,减少 了人工成本,训练准确率较高的模型可以应用在标注校验和预标注中,提升 了标注效率。同时,应用于槽位预测及用户意图预测时,还可以进一步提升 了用户体验。
附图说明
通过参照附图详细描述其示例实施方式,本发明的上述和其它特征及优 点将变得更加明显。
图1示出了根据本发明实施例的中文词法分析模型的训练方法的流程图。
图2示出了根据本发明具体实施例的的中文词法分析模型的示意图。
图3示出了根据本发明实施例的基于中文词法分析模型的预测方法的流 程图。
图4示出了根据本发明实施例的中文词法分析模型的训练装置的模块图。
图5示意性示出本发明示例性实施例中一种计算机可读存储介质示意图。
图6示意性示出本发明示例性实施例中一种电子设备示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够 以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实 施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达 给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结 合在一个或更多实施方式中。
此外,附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相 同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图 中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相 对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或 集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制 器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的步骤。例如, 有的步骤还可以分解,而有的步骤可以合并或部分合并,因此,实际执行的 顺序有可能根据实际情况改变。
图1示出了根据本发明实施例的中文词法分析模型的训练方法的流程图。 参考图1,所述中文词法分析模型的训练方法包括如下步骤:
步骤S110:提供训练语料集;
步骤S120:对所述训练语料集进行标注;
步骤S130:对训练语料集中的各训练语料作为所述中文词法分析模型的 输入,所述中文词法分析模型在输入层及输出层之间依次包括嵌入层、第一 双向门控循环单元层、第二双向门控循环单元层、全连接层及条件随机场层;
步骤S140:至少将所述人工标注作为所述中文词法分析模型的输出,以 对所述中文词法分析模型进行训练,其中,
所述中文词法分析模型至少应用于分词、词性标注、槽位预测及用户意 图预测中的一项或多项。
在本发明的示例性实施方式的中文词法分析模型的训练方法中,本发明 通过在输入层及输出层之间依次包括嵌入层、第一双向门控循环单元层、第 二双向门控循环单元层、全连接层及条件随机场层的中文词法分析模型,并 应用在分词、词性标注、槽位预测及用户意图预测中的一项或多项中,深度 学习网络结构自动学习语料特征,提取更抽象的语义特征,减少了人工成本, 训练准确率较高的模型可以应用在标注校验和预标注中,提升了标注效率。 同时,应用于槽位预测及用户意图预测时,还可以进一步提升了用户体验。
具体而言,当应用到智能助理(移动终端、智能音响等智能设备搭载的 智能助理)的场景下,上述步骤S110提供训练语料集中,所述的训练语料 集还可以包括智能助理用户输入的原始数据。当这些原始数据用作训练语料 集时,需要对这些原始数据进行文本过滤,以清洗掉没有信息含量的文本, (比如“哈哈。”、“好的”)、敏感词语及配置文件中的特殊表情符号。
进一步地,上述步骤S110中的训练语料集可以根据用户提供的技能字 典和自定义话术来生成。具体而言,技能字典中,每一个技能由技能包 (skillWrap)、意图包列表(intentWrap_list)和槽位包列表(slotWrap_list) 三个部分组成。技能包(skillWrap)包括技能id和技能编码(code)两个属 性;意图包列表(intentWrap_list)中每个元素包括技能的意图id,意图的编 码(code),意图的句子键(sentenceKey)三个属性;槽位包列表(slotWrap_list) 中每个元素有技能的槽位id,槽位编码(code),槽位字典键(dicKey)三个属性。
以上仅仅是示意性起见,描述本发明的语料集,本发明并非以此为限。
在一个具体实施例中,上述步骤S120对所述训练语料集进行标注可以 由人工标注,也可由另一中文词法分析模型进行标注,本发明并非以此为限。
所述标注的内容至少包括:用户首句输入、业务场景及槽位槽值标注中 的一项或多项。
具体而言,以应用到智能助理的场景为例,用户与智能助理的对话,最 需要识别的是用户对话的首句,所以程序可以筛选用户每次会话的第一句并 进行标注。
具体而言,同样以应用到智能助理的场景为例,可以识别用户属于智能 助理业务中的哪一个场景。例如,在一些具体实施例中业务场景可以包括7 个,分别是:
ACT_COMMODITY,表示特定商品查询业务场景;
ACT_ORDER,表示订单查询业务场景;
ACT_DISCOUNT,表示模糊优惠查询业务场景;
ACT_SPECIFY_DISCOUNT,表示特定优惠查询业务场景;
ACT_AFTER_SALES,表示售后服务的业务场景;
ACT_SHORTCUT,表示全站直达的业务场景;
ACT_UNKNOWN,表示未知;
由此,可以通过上述业务场景对语料进行人工/自动标注。
具体而言,本发明为了更好地理解用户语义,还可以对用户输入(语料) 做槽位槽值的提取,包括产品词、品牌词、修饰词、性别槽位、价格槽位等, 本发明并非以此为限。
在一个具体实施例中,上述步骤S120对所述训练语料集还可以包括如 下步骤:利用映射表验证方式或多模型交叉验证方式对所述训练语料集的标 注进行验证,以检验标注的质量。
具体而言,对于人工标注的低级错误或手误可以采用程序映射表校验。 例如,在槽位标注的任务中,需要标注人员标注产品词、品牌词、修饰词等 槽位,标注人员粗心经常会带来一些低级错误,比如产品词串行(把下一行 的产品词标到了上一行)、粘贴错别字(比如用户输入“小茗同学”,标注 人员不小心把品牌词标注成了“小明同学”)等,针对这种手误,可以利用 程序一个位置映射表(用以映射槽位标注和标注位置),以进行有效校验。
具体而言,对于标注人员认知错误(理解错误)产生错误的情况,可以 采用多模型交叉校验。例如,在意图分类任务中,用户输入“秒杀的电脑今 天抢购”本来是属于全站直达的“秒杀”频道,标注人员标注到了“商品查 询”类别,本发明可以利用准确率在0.9以上的多个模型融合对标注数据预 测,如果多模型预测与标注结果一致,则认为标注正确,否则重新标注。所 训练的中文词法分析模型也可以用于标注的检验。
以上仅仅是示意性起见,描述本发明的语料集标注方式,本发明并非以 此为限。
进一步地,在上述步骤S130中,中文词法分析模型的嵌入层用于提取 各训练语料的特征向量,以输入所述第一双向门控循环单元层,其中,所提 取的特征向量包括字符特征向量、词语特征向量、上下文特征向量及槽位标 记向量中的一项或多项。
具体而言,以应用到智能助理的场景为例,对于字符特征向量,可以首 先建立中文汉字的高频字典5000字,对于用户输入智能助理的信息(或语料), 对字典里的每个字都映射到一个向量,向量可以是提前采用word2Vector算 法训练好的,新登录词统一映射到<UNK>,常用标点符号也有可以具有对应 的向量。例如,当语料为:我想买件连衣裙,其字符特征向量为char_inputs= [[3,14,6,121,444,45,272,2]]。
具体而言,以应用到智能助理的场景为例,对于词语特征向量,可以首 先通过jieba或standardCoreNLP等分词工具进行分词。分词的规则可以是: 若是单字对应0,若是短语:首字对于1,中间汉字对于2,结尾字符对于3, 示例:例如,当语料为:我想去西单购物中心买连衣裙,其词语特征向量为 word_inputs=[[0,0,0,1,2,1,2,1,2,0,1,2,3,0]]。
具体而言,以应用到智能助理的场景为例,对于上下文特征向量,将用 户输入(或语料)转换为上下文格式,并在上下文字典中映射为特征id。例 如,context_windows=5(上下文窗口为5时),语料:我想买件连衣裙,首 先将其处理成上下文格式:模板说明w[x]=”其中x为相对位置.
我:['w[-2]=</s>','w[-1]=</s>','w[0]=我','w[1]=想','w[2]=买']
想:['w[-2]=</s>','w[-1]=我','w[0]=想','w[1]=买','w[2]=件']
买:['w[-2]=我','w[-1]=想','w[0]=买','w[1]=件','w[2]=连']
件:['w[-2]=想','w[-1]=买','w[0]=件','w[1]=连','w[2]=衣']
连:['w[-2]=买','w[-1]=件','w[0]=连','w[1]=衣','w[2]=裙']衣:['w[-2]=件', 'w[-1]=连','w[0]=衣','w[1]=裙','w[2]=.']
裙:['w[-2]=连','w[-1]=衣','w[0]=裙','w[1]=.','w[2]=</s>']
:['w[-2]=衣','w[-1]=裙','w[0]=.','w[1]=</s>','w[2]=</s>']
然后,根据上下文字典映射成特征id(上下文字典文件格式:上下文特 征id),例如前述上下文格式中部分映射为:
w[2]=连850
w[1]=连851
w[2]=衣852
w[0]=连853
w[1]=衣854
w[2]=裙855
w[-1]=连856
w[0]=衣857
由此,该语料的上下文特征向量为context_inputs=[[[1,2,62,204,172], [1,65,205,174,207],[68,206,177,209,850],[208,181,211,851,852],[185, 214,853,854,855],[215,856,857,858,5296],[859,860,861,4600,44],[862, 863,4601,48,44]]]。
具体而言,对于槽位标记向量,在一个具体实施例中,所述槽位标记向 量包括:标识槽位起始的向量、标识槽位中间的向量、标识除了槽位起始和 槽位中间的向量。在另一个具体实施例中,所述槽位标记向量包括:标识槽 位起始的向量、标识槽位中间的向量、标识槽位终止的向量、标识单字槽位 的向量及标识除了槽位起始、槽位中间、槽位终止及单字槽位的向量。
以上仅仅是示意性起见,描述本发明的语料特征提取方式,本发明并非 以此为限。
具体而言,循环神经网络在NLP的序列标注任务中有比较成功的应用, 不像前向传播网络,循环神经网络可以捕获句子序列的依存关系,GRU(Gated Recurrent Unit,门控循环单元,将LSTM中的忘记门和输入门合成了一个更 新门,同样还混合了细胞状态和隐层状态,构造简单,训练模型节省时间) 和LSTM(Long short term memory,是长短记忆网络,一种时间递归神经网 络,适合处理序列问题)是两种重要的循环神经网络,在应用到智能助理的 数据集上,GRU更适合短文本,效果更好。
参见图2,图2示出了根据本发明具体实施例的中文词法分析模型的示 意图。如前述的步骤S130中所述中文词法分析模型在输入层及输出层之间 依次包括嵌入层210、第一双向门控循环单元层220、第二双向门控循环单元 层230、全连接层240及条件随机场层250。
嵌入层210也可以理解为分布式向量表示层,包括字符特征向量、词语 特征向量、上下文特征向量及槽位标记向量中的一项或多项。
第一双向门控循环单元层220是单向门控循环单元单元的延伸,在语义 分析中有较好的表现,输入是用户的句子,两个门控循环单元层221和222 分别接收相同的文本输入,但是沿着不同的方向训练模型,然后将各自的结 果拼接以输入到第二双向门控循环单元层230。
第二双向门控循环单元层230可以具有与第一双向门控循环单元层220 相同的结构,第二双向门控循环单元层230用来进一步学习嵌入层210的语 义特征,更新门机制和激活函数控制着网络的隐状态,堆叠的门控循环单元 层相互补充信息,输出到全连接层240。
全连接层240接收第二双向门控循环单元层230的输出作为输入,将其 映射到多维度的隐空间。当应用于槽位预测时,全连接层240接收第二双向 门控循环单元层230的输出作为输入,将其映射到槽位标记向量个数的多维 度的隐空间。
条件随机场层250作为中文词法分析模型的最上面一层,通过维特比算 法预测应用到不同场景下的输出。例如,当应用于槽位预测时,条件随机场 层250预测槽位标记向量的最优路径。
进一步地,本发明提供的所述中文词法分析模型至少应用于分词、词性 标注、槽位预测及用户意图预测中的一项或多项。
具体而言,分词是中文词法分析的最基础部分,在智能助理的场景分类 任务、槽位预测任务、多轮会话任务和知识图谱等多个任务中都需用到分词, 本发明基于中文词法分析模型改进的中文词法分析算法,可以通过加入了智 能助理特色词库,以使分词效果更适合电商情景;
具体而言,词性标注是经典的序列标注任务,准确的词性可以作为其它 任务的特征,比如槽位预测模型其中有一个特征就是词性,本发明的基于中 文词法分析模型改进的中文词法分析算法,提取了电商常用词在智能助理语 境中的词性,作为NLP的底层特征建设。
具体而言,命名实体识别在智能助理中直接的应用是槽位预测,预测用 户输入语料的产品词、品牌词、修饰词、性别、价格,本发明提出的算法支 持槽位的预测,同时也可以作为其它命名实体识别任务的算法。
具体而言,本发明支持用户意图识别和用户文本槽位提取,构建多轮会 话的场景,以应用于智能助理的购物业务,提升用户体验。
在上述各个实施例中,本发明还可以包括评估中文词法分析模型的步骤。 例如,可以采用F1值(F1值(F1Score),是统计学中用来衡量二分类模型 精确度的一种指标。)来对中文词法分析模型进行评估,F1值是评估序列标 注和分类结果常用的指标,本发明当应用在智能助理场景下时,其F1值在 分类任务上可达到0.94,在槽位预测任务上可达到0.91。又例如,可以采用 业务评估指标评估中文词法分析模型。业务评估指标是指评测人员每隔一段 时间会对模型的预测结果进行人工分析,找出badcase和待改进点,本发明 的模型人工评测指标也可以在0.9以上。再例如,本发明可以通过迭代更新 提升模型性能。具体而言,模型每个一段时间可以进行迭代更新,一方面解 决测评人员提出的badcase,另一方面算法会跟进最前沿的论文,加入最新的 模型技巧,使模型不断提升效果。
进一步地,在中文词法分析模型上线应用前,可以使智能助理的算法端、 服务端、客户端会进行多方联调,确保业务逻辑正确,程序性能良好。
由次,本发明提供的中文词法分析模型训练方法具有良好的评测结果, 且可以提升NLP底层算法能力,同时提高用户体验。
以上仅仅是示意性地示出本发明的多个实施例,在不违背本发明构思的 前提下,步骤的合并、拆分、并行执行、交换顺序等变化都在本发明的保护 范围之内。
下面结合图4描述本发明提供的基于中文词法分析模型的预测方法。如 图4所示,中文词法分析模型的预测方法包括如下步骤:
步骤S310获取待预测语料;
步骤S320将所述待预测语料输入经由上述的中文词法分析模型的训练 方法(如图1所示的步骤)训练的中文词法分析模型;
步骤S330将所述中文词法分析模型作为所述待预测语料的预测结果。
在本发明的示例性实施方式的基于中文词法分析模型的预测方法中,本 发明通过在输入层及输出层之间依次包括嵌入层、第一双向门控循环单元层、 第二双向门控循环单元层、全连接层及条件随机场层的中文词法分析模型, 并应用在分词、词性标注、槽位预测及用户意图预测中的一项或多项中,深 度学习网络结构自动学习语料特征,提取更抽象的语义特征,减少了人工成 本,训练准确率较高的模型可以应用在标注校验和预标注中,提升了标注效 率。同时,应用于槽位预测及用户意图预测时,还可以进一步提升了用户体验。
下面结合图4描述本发明提供的中文词法分析模型的训练装置。图4示 出了根据本发明实施例的中文词法分析模型的训练装置的模块图。中文词法 分析模型的训练装置400包括提供模块410、标注模块420、输入模块430、 训练模块440。
提供模块410用于提供训练语料集;
标注模块420用于对所述训练语料集进行标注;
输入模块430用于对训练语料集中的各训练语料作为所述中文词法分析 模型的输入,所述中文词法分析模型在输入层及输出层之间依次包括嵌入层、 第一双向门控循环单元层、第二双向门控循环单元层、全连接层及条件随机 场层;
训练模块440用于至少将所述人工标注作为所述中文词法分析模型的输 出,以对所述中文词法分析模型进行训练,其中,
所述中文词法分析模型至少应用于分词、词性标注、槽位预测及用户意 图预测中的一项或多项。
在本发明的示例性实施方式的中文词法分析模型的训练装置中,本发明 通过在输入层及输出层之间依次包括嵌入层、第一双向门控循环单元层、第 二双向门控循环单元层、全连接层及条件随机场层的中文词法分析模型,并 应用在分词、词性标注、槽位预测及用户意图预测中的一项或多项中,深度 学习网络结构自动学习语料特征,提取更抽象的语义特征,减少了人工成本, 训练准确率较高的模型可以应用在标注校验和预标注中,提升了标注效率。 同时,应用于槽位预测及用户意图预测时,还可以进一步提升了用户体验。
在本发明的示例性实施例中,还提供了一种计算机可读存储介质,其上 存储有计算机程序,该程序被例如处理器执行时可以实现上述任意一个实施 例中所述中文词法分析模型的训练方法或基于中文词法分析模型的预测方法 的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程 序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所 述程序代码用于使所述终端设备执行本说明书上述中文词法分析模型的训练 方法或基于中文词法分析模型的预测方法部分中描述的根据本发明各种示例 性实施方式的步骤。
参考图5所示,描述了根据本发明的实施方式的用于实现上述方法的程 序产品500,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码, 并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于 此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该 程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以 是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、 磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组 合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个 导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、 可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播 的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种 形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储 介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传 播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程 序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不 限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操 作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、 C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计 语言。程序代码可以完全地在租户计算设备上执行、部分地在租户设备上执 行、作为一个独立的软件包执行、部分在租户计算设备上部分在远程计算设 备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备 的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或 广域网(WAN),连接到租户计算设备,或者,可以连接到外部计算设备(例 如利用因特网服务提供商来通过因特网连接)。
在本发明的示例性实施例中,还提供一种电子设备,该电子设备可以包 括处理器,以及用于存储所述处理器的可执行指令的存储器。其中,所述处 理器配置为经由执行所述可执行指令来执行上述任意一个实施例中所述中文 词法分析模型的训练方法或基于中文词法分析模型的预测方法的步骤。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、 方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即: 完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬 件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图6来描述根据本发明的这种实施方式的电子设备600。图6 显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范 围带来任何限制。
如图6所示,电子设备600以通用计算设备的形式表现。电子设备600 的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、 连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单 元640等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单 元610执行,使得所述处理单元610执行本说明书上述中文词法分析模型的 训练方法或基于中文词法分析模型的预测方法部分中描述的根据本发明各种 示例性实施方式的步骤。例如,所述处理单元610可以执行如图1或图3所 示的步骤。
所述存储单元620可以包括易失性存储单元形式的可读介质,例如随机 存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包 括只读存储单元(ROM)6203。
所述存储单元620还可以包括具有一组(至少一个)程序模块6205的 程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个 或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某 种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线 或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总 线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、 蓝牙设备等)通信,还可与一个或者多个使得租户能与该电子设备600交互 的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行 通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过 输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配 器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或 公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设 备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备900 使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处 理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系 统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的 示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来 实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出 来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘, 移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人 计算机、服务器、或者网络设备等)执行根据本发明实施方式的上述中文词 法分析模型的训练方法或基于中文词法分析模型的预测方法。
相比现有技术,本发明的优势在于:
本发明通过在输入层及输出层之间依次包括嵌入层、第一双向门控循环 单元层、第二双向门控循环单元层、全连接层及条件随机场层的中文词法分 析模型,并应用在分词、词性标注、槽位预测及用户意图预测中的一项或多 项中,深度学习网络结构自动学习语料特征,提取更抽象的语义特征,减少 了人工成本,训练准确率较高的模型可以应用在标注校验和预标注中,提升 了标注效率。同时,应用于槽位预测及用户意图预测时,还可以进一步提升 了用户体验。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本 发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性 变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发 明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被 视为示例性的,本发明的真正范围和精神由所附的权利要求指出。

Claims (11)

1.一种中文词法分析模型的训练方法,其特征在于,包括:
提供训练语料集;
对所述训练语料集进行标注;
对训练语料集中的各训练语料作为所述中文词法分析模型的输入,所述中文词法分析模型在输入层及输出层之间依次包括嵌入层、第一双向门控循环单元层、第二双向门控循环单元层、全连接层及条件随机场层;
至少将所述人工标注作为所述中文词法分析模型的输出,以对所述中文词法分析模型进行训练,其中,
所述中文词法分析模型至少应用于分词、词性标注、槽位预测及用户意图预测中的一项或多项。
2.如权利要求1所述的中文词法分析模型的训练方法,其特征在于,所述中文词法分析模型的输出用于该中文词法分析模型或另一中文词法分析模型的训练。
3.如权利要求1或2所述的中文词法分析模型的训练方法,其特征在于,所述对所述训练语料集进行标注还包括:
利用映射表验证方式或多模型交叉验证方式对所述训练语料集的标注进行验证。
4.如权利要求1或2所述的中文词法分析模型的训练方法,其特征在于,所述标注的内容至少包括:用户首句输入、业务场景及槽位槽值标注中的一项或多项。
5.如权利要求1或2所述的中文词法分析模型的训练方法,其特征在于,所述嵌入层用于提取各训练语料的特征向量,以输入所述第一双向门控循环单元层,其中,所提取的特征向量包括字符特征向量、词语特征向量、上下文特征向量及槽位标记向量中的一项或多项。
6.如权利要求5所述的中文词法分析模型的训练方法,其特征在于,所述槽位标记向量包括:标识槽位起始的向量、标识槽位中间的向量、标识除了槽位起始和槽位中间的向量。
7.如权利要求5所述的中文词法分析模型的训练方法,其特征在于,所述槽位标记向量包括:标识槽位起始的向量、标识槽位中间的向量、标识槽位终止的向量、标识单字槽位的向量及标识除了槽位起始、槽位中间、槽位终止及单字槽位的向量。
8.一种基于中文词法分析模型的预测方法,其特征在于,包括:
获取待预测语料;
将所述待预测语料输入经由权利要求1至7任一项所述的中文词法分析模型的训练方法训练的中文词法分析模型;
将所述中文词法分析模型作为所述待预测语料的预测结果。
9.一种中文词法分析模型的训练装置,其特征在于,包括:
提供模块,用于提供训练语料集;
标注模块,用于对所述训练语料集进行标注;
输入模块,用于对训练语料集中的各训练语料作为所述中文词法分析模型的输入,所述中文词法分析模型在输入层及输出层之间依次包括嵌入层、第一双向门控循环单元层、第二双向门控循环单元层、全连接层及条件随机场层;
训练模块,用于至少将所述人工标注作为所述中文词法分析模型的输出,以对所述中文词法分析模型进行训练,其中,
所述中文词法分析模型至少应用于分词、词性标注、槽位预测及用户意图预测中的一项或多项。
10.一种电子设备,其特征在于,所述电子设备包括:
处理器;
存储器,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如权利要求1至7任一项所述的步骤或者如权利要求8所述的步骤。
11.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7任一项所述的步骤或者如权利要求8所述的步骤。
CN201811559376.0A 2018-12-18 2018-12-18 词法分析模型的训练方法、装置、电子设备、存储介质 Pending CN111339760A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811559376.0A CN111339760A (zh) 2018-12-18 2018-12-18 词法分析模型的训练方法、装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811559376.0A CN111339760A (zh) 2018-12-18 2018-12-18 词法分析模型的训练方法、装置、电子设备、存储介质

Publications (1)

Publication Number Publication Date
CN111339760A true CN111339760A (zh) 2020-06-26

Family

ID=71185368

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811559376.0A Pending CN111339760A (zh) 2018-12-18 2018-12-18 词法分析模型的训练方法、装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN111339760A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021151333A1 (zh) * 2020-09-07 2021-08-05 平安科技(深圳)有限公司 基于人工智能的敏感词识别方法、装置及计算机设备
CN113723975A (zh) * 2021-09-13 2021-11-30 国泰君安证券股份有限公司 智能回访业务中实现智能质检处理的系统、方法、装置、处理器及其计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268442A (zh) * 2017-12-19 2018-07-10 芋头科技(杭州)有限公司 一种语句意图预测方法及系统
CN108536679A (zh) * 2018-04-13 2018-09-14 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN108563790A (zh) * 2018-04-28 2018-09-21 科大讯飞股份有限公司 一种语义理解方法及装置、设备、计算机可读介质
CN108717409A (zh) * 2018-05-16 2018-10-30 联动优势科技有限公司 一种序列标注方法及装置
CN108962224A (zh) * 2018-07-19 2018-12-07 苏州思必驰信息科技有限公司 口语理解和语言模型联合建模方法、对话方法及系统
CN108959252A (zh) * 2018-06-28 2018-12-07 中国人民解放军国防科技大学 基于深度学习的半监督中文命名实体识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268442A (zh) * 2017-12-19 2018-07-10 芋头科技(杭州)有限公司 一种语句意图预测方法及系统
CN108536679A (zh) * 2018-04-13 2018-09-14 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN108563790A (zh) * 2018-04-28 2018-09-21 科大讯飞股份有限公司 一种语义理解方法及装置、设备、计算机可读介质
CN108717409A (zh) * 2018-05-16 2018-10-30 联动优势科技有限公司 一种序列标注方法及装置
CN108959252A (zh) * 2018-06-28 2018-12-07 中国人民解放军国防科技大学 基于深度学习的半监督中文命名实体识别方法
CN108962224A (zh) * 2018-07-19 2018-12-07 苏州思必驰信息科技有限公司 口语理解和语言模型联合建模方法、对话方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
华冰涛;袁志祥;肖维民;郑啸;: "基于BLSTM-CNN-CRF模型的槽填充与意图识别", 计算机工程与应用, no. 09, 22 June 2018 (2018-06-22) *
徐梓翔;车万翔;刘挺;: "基于Bi-LSTM-CRF网络的语义槽识别", 智能计算机与应用, no. 06, 26 December 2017 (2017-12-26) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021151333A1 (zh) * 2020-09-07 2021-08-05 平安科技(深圳)有限公司 基于人工智能的敏感词识别方法、装置及计算机设备
CN113723975A (zh) * 2021-09-13 2021-11-30 国泰君安证券股份有限公司 智能回访业务中实现智能质检处理的系统、方法、装置、处理器及其计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN112685565B (zh) 基于多模态信息融合的文本分类方法、及其相关设备
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN109145294B (zh) 文本实体识别方法及装置、电子设备、存储介质
CN111191428B (zh) 评论信息处理方法、装置、计算机设备和介质
US20180267956A1 (en) Identification of reading order text segments with a probabilistic language model
CN110245348A (zh) 一种意图识别方法及系统
CN110569332B (zh) 一种语句特征的提取处理方法及装置
CN110555205B (zh) 否定语义识别方法及装置、电子设备、存储介质
CN111079432B (zh) 文本检测方法、装置、电子设备及存储介质
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN113486178B (zh) 文本识别模型训练方法、文本识别方法、装置以及介质
CN111666766A (zh) 数据处理方法、装置和设备
CN116661805B (zh) 代码表示的生成方法和装置、存储介质及电子设备
CN112613306A (zh) 抽取实体关系的方法、装置、电子设备、及存储介质
CN111739520A (zh) 一种语音识别模型训练方法、语音识别方法、装置
CN115688920A (zh) 知识抽取方法、模型的训练方法、装置、设备和介质
CN116070632A (zh) 一种非正式文本实体标签识别方法和装置
CN116245097A (zh) 训练实体识别模型的方法、实体识别方法及对应装置
CN113947086A (zh) 样本数据生成方法、训练方法、语料生成方法和装置
CN117436438A (zh) 情感分析方法、大语言模型的训练方法及装置
CN113569578B (zh) 一种用户意图识别方法、装置和计算机设备
CN111339760A (zh) 词法分析模型的训练方法、装置、电子设备、存储介质
CN112036186A (zh) 语料标注方法、装置、计算机存储介质及电子设备
CN116798417B (zh) 语音意图识别方法、装置、电子设备及存储介质
CN113705207A (zh) 语法错误识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination