CN108415896A - 深度学习模型训练方法、分词方法、训练系统和分词系统 - Google Patents

深度学习模型训练方法、分词方法、训练系统和分词系统 Download PDF

Info

Publication number
CN108415896A
CN108415896A CN201710071445.2A CN201710071445A CN108415896A CN 108415896 A CN108415896 A CN 108415896A CN 201710071445 A CN201710071445 A CN 201710071445A CN 108415896 A CN108415896 A CN 108415896A
Authority
CN
China
Prior art keywords
word
paragraph
training
deep learning
converted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710071445.2A
Other languages
English (en)
Other versions
CN108415896B (zh
Inventor
车天博
陈海勇
高维国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201710071445.2A priority Critical patent/CN108415896B/zh
Publication of CN108415896A publication Critical patent/CN108415896A/zh
Application granted granted Critical
Publication of CN108415896B publication Critical patent/CN108415896B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种深度学习模型训练方法,所述训练方法使用自然语言的训练语料对深度学习模型进行训练,所述深度学习模型用于对自然语言的语段进行分词,所述训练方法包括:将所述训练语料的语段中的字转换为字向量,同一个字在属于不同类别的词时被转换为不同的字向量;以及使用所述训练语料的语段的分词结果和所述字向量训练所述深度学习模型。本发明还提供了一种使用所述深度学习模型对自然语言的语段进行分词的分词方法,包括:以与所述训练方法中相同的转换方式,将所述语段中的字转换为字向量,同一个字在属于不同类别的词时被转换为不同的字向量;以及使用字向量作为所述深度学习模型的输入,对所述语段进行分词。

Description

深度学习模型训练方法、分词方法、训练系统和分词系统
技术领域
本发明涉及自然语言分词技术领域,特别是涉及一种深度学习模型训练方法、分词方法、训练系统和分词系统。
背景技术
随着移动互联网的快速发展,人们的日常生活与互联网紧密相连,互联网信息成为信息获取的主要来源,已经广泛渗透到各个领域。分词技术是自然语言处理的基本问题之一,有着广泛的应用领域。对于一段话,人们阅读后很快就可以理解划分词语,而对于计算机而言,却并不能直接理解这段话的意思,而必须通过分词的过程。分词指的是将一个字序列切分成一个个单独的词,将连续的字序列按照一定的规范重新组合成词序列的过程。
发明内容
本发明提供了一种深度学习模型训练方法,所述训练方法使用自然语言的训练语料对深度学习模型进行训练,所述深度学习模型用于对自然语言的语段进行分词,所述方法包括:将所述训练语料的语段中的字转换为字向量,同一个字在属于不同类别的词时被转换为不同的字向量;以及使用所述训练语料的语段的分词结果和所述字向量训练所述深度学习模型。
本发明另一个方面提供了一种使用所述的训练方法训练得到的深度学习模型来对自然语言的语段进行分词的方法,包括:以与所述训练方法中相同的转换方式,将所述语段中的字转换为字向量,同一个字在属于不同类别的词时被转换为不同的字向量;以及使用所述字向量作为所述深度学习模型的输入,对所述语段进行分词。
本发明另一个方面提供了一种深度学习模型训练系统,所述训练系统使用自然语言的训练语料对深度学习模型进行训练,所述深度学习模型用于对自然语言的语段进行分词,所述系统包括:第一转换单元,将所述训练语料的语段中的字转换为字向量,同一个字在属于不同类别的词时被转换为不同的字向量;以及训练单元,使用所述训练语料的语段的分词结果和所述字向量训练所述深度学习模型。
本发明另一个方面提供了一种使用所述的训练系统训练得到的深度学习模型来对自然语言的语段进行分词的分词系统,包括:第二转换单元,以与所述训练系统中相同的转换方式,将所述语段中的字转换为字向量,同一个字在属于不同类别的词时被转换为不同的字向量;以及分词单元,使用字向量作为所述深度学习模型的输入,对所述语段进行分词。
本发明另一个方面提供了一种深度学习模型分词系统,所述深度学习模型用于对自然语言的语段进行分词,所述系统包括:处理器;以及存储器,存储有计算机可读指令,所述指令在被处理器执行时,使得处理器执行:将训练语料的语段中的字转换为字向量,同一个字在属于不同类别的词时被转换为不同的字向量,以及使用所述训练语料的语段的分词结果和所述字向量训练所述深度学习模型;或者,以与所述训练系统中相同的转换方式,将所述语段中的字转换为字向量,同一个字在属于不同类别的词时被转换为不同的字向量,以及使用字向量作为所述深度学习模型的输入,对所述语段进行分词。
本发明另一个方面提供了一种非易失性计算机可读存储介质,存储有计算机可读指令,所述指令在被处理器执行时,使得处理器执行:将训练语料的语段中的字转换为字向量,同一个字在属于不同类别的词时被转换为不同的字向量,以及使用所述训练语料的语段的分词结果和所述字向量训练所述深度学习模型;或者,以与所述训练系统中相同的转换方式,将所述语段中的字转换为字向量,同一个字在属于不同类别的词时被转换为不同的字向量,以及使用字向量作为所述深度学习模型的输入,对所述语段进行分词。
附图说明
为了更完整地理解本发明及其优势,现在将参考结合附图的以下描述,其中:
图1示意性示出了根据本发明实施例的深度学习模型训练方法的流程图。
图2示意性示出了根据本发明实施例的将语段中的字转换成字向量的方法流程图。
图3示意性示出了根据本发明实施例使用训练得到的深度学习模型来对自然语言的语段进行分词的方法的流程图。
图4示意性示出了根据本发明实施例的深度学习模型训练系统的结构框图。
图5示意性示出了根据本发明实施例的第一转换单元的结构框图。
图6示意性示出了根据本发明实施例的使用训练得到的深度学习模型来对自然语言的语段进行分词的分词系统的结构框图。
图7示意性示出了根据本发明实施例的深度学习模型训练系统的结构框图。
图8示意性示出了根据本发明实施例使用训练得到的深度学习模型来对自然语言的语段进行分词的分词系统的结构框图。
具体实施方式
根据结合附图对本发明示例性实施例的以下详细描述,本发明的其它方面、优势和突出特征对于本领域技术人员将变得显而易见。
在本发明中,术语“包括”和“含有”及其派生词意为包括而非限制;术语“或”是包含性的,意为和/或。
在本说明书中,下述用于描述本发明原理的各种实施例只是说明,不应该以任何方式解释为限制发明的范围。参照附图的下述描述用于帮助全面理解由权利要求及其等同物限定的本发明的示例性实施例。下述描述包括多种具体细节来帮助理解,但这些细节应认为仅仅是示例性的。因此,本领域普通技术人员应认识到,在不背离本发明的范围和精神的情况下,可以对本文中描述的实施例进行多种改变和修改。此外,为了清楚和简洁起见,省略了公知功能和结构的描述。此外,贯穿附图,相同参考数字用于相似功能和操作。
附图中示出了一些方框图和/或流程图。应理解,方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。
因此,本申请公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外,本申请公开的技术可以采取存储有指令的计算机可读介质上的计算机程序产品的形式,该计算机程序产品可供指令执行系统使用。在本申请公开的上下文中,计算机可读介质可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,计算机可读介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。计算机可读介质的具体示例包括:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;和/或有线/无线通信链路。
在进行自然语言处理时,可以通过基于机器学习的方法实现分词,首先使用训练语料对模型进行训练,然后使用训练好的模型进行分词。在通过机器学习进行分词时可能会出现歧义问题,即,同一个字在属于不同词时可能具有不同的含义,如果不能考虑到这一点,则无法获得准确的分词结果。
图1示意性示出了根据本发明实施例的深度学习模型训练方法的流程图。训练好的深度学习模型可以用于对自然语言的语段进行分词。
如图1所示,该方法开始于步骤S10。
在步骤S11,将训练语料的语段中的字转换为字向量,同一个字在属于不同类别的词时被转换为不同的字向量。
所述语段可以是由完整的句子组成,也可以是多个词语的序列。例如,根据本发明实施例的语段可以是电商标题“红米3S全网通2GB内存16GB ROM红色移动联通电信4G手机双卡双待”。
一般地,训练语料的领域与分词对象接近或者相同时,可以取得更好的分词效果。例如,如果待分词的语段是电商标题,那么可以使用包含多个电商标题的训练语料来训练深度学习模型。根据本发明的实施例,深度学习模型可以是RNNs(Recurrent NeuralNetworks)模型,但不限于此。
根据本发明实施例,获得训练语料的方式可以是,选用多个高精度模型对包含多个语段的同一份语料进行分词,最后投票表决得到预测结果。例如,可以选用斯坦福开源分词工具和哈工大开源分词工具对同一份语料进行分词,选取分词结果相同的语段作为训练语料。此方法节省了大量的人力成本,并且准确率高。
分词的结果可以是分词标签形式。例如,为每一个字标注上“B”、“M”、“E”、“S”四种标签中的一种,其中:
“B”表示该字是一个词的开始;
“M”表示该字位于一个词的中间部分;
“E”表示该字是一个词的结束;
“S”表示该字是一个单字。
图2示意性示出了根据本发明实施例将语段中的字转换成字向量的方法流程图。
如图2所示,该方法开始于步骤S110。
在步骤S111,识别语段中词的类别。
在步骤S112,对于属于预定类别的词,在该词的字后面添加与该类别相对应的标记,生成消歧义字。
在步骤S113,把用消歧义字替换相应字后的所述语段中的字和消歧义字转换为字向量;
该方法在步骤S114结束。
例如,在电商领域中,可以按划分好的品类,对语段中的词进行分类,如手机类、服装类、食品类等。识别每个词具体属于哪一类,并在该词的字后面添加与该类别相对应的标记。不同类别的标记是不同的,这样,就可以将不同类别的相同字区分开。
更近一步,发明人发现,电商标题中包含三种词:品牌词、产品词、修饰词。通过观察数据发现,品牌词、产品词中的字具有歧义,例如,品牌词“红米”的红与修饰词“红色”的红含义不同,产品词中的“苹果”即可以指代水果,也可以指代苹果手机。相反,修饰词中的字通常是通用含义,没有歧义。因此,只需要对品牌词和产品词中的字生成消歧义字。
具体地,根据本发明的实施例,可以先确定语段中的词属于品牌词、产品词、还是修饰词,仅对品牌词和产品词确定其类别并添加标签生成消歧义字。这样,可以减小数据处理量,提高处理速度。
例如,可以利用品牌词词表和产品词词表对语段进行匹配,识别语段中存在的品牌词或产品词,及其所属类别,在品牌词或产品词的字后增加类别标记,生成消歧义字。其中,匹配的方式可以是前向最大匹配、后向最大匹配或前后向最大匹配等。
例如,对语段“红米3S全网通2GB内存16GB ROM红色移动联通电信4G手机双卡双待”,利用品牌词词表和产品词词表进行前向最大匹配,识别出品牌词“红米”、“移动”、“联通”、“电信”和产品词“手机”属于“手机”类别,并在这几个词的每个字后面添加对应于“手机”类别的标记。
根据本发明的实施例,上述标记可以为‘@#@’+类别代码。例如,设定手机的类别代码为‘9987’,当识别出“红米”是手机类别的品牌词时,将其处理为“红@#@9987米@#@9987”。此时,“红@#@9987”和“米@#@9987”是两个消歧义字,用这两个消歧义字,替换语段中的“红米”二字。
下一步骤,把用消歧义字替换相应字后的所述语段中的字和消歧义字转换为字向量。在转换成字向量的过程中,每个消歧义字分别转换成一个字向量。采用这种方式,就把带有歧义的品牌词“红米”中的字,与普通含义的“红”、“米”区分开来,转换成不同的字向量,解决了歧义字转换成同一个字向量,而导致分词准确性不足的问题。可以通过某种算法进行该转换,例如可以是CBOW(Continuous Bag-of-word Model),也可以是其他的算法。通过这种方式,不同的字被转换成不同的字向量,而且语义相近的字,其转化后的字向量具有相似性。深度学习模型可以利用字向量的相似性,判断两个字的语义是否相近。
返回参考图1。在步骤S12,使用所述训练语料的语段的分词结果和所述字向量训练所述深度学习模型。
根据本发明的实施例,深度学习模型可以是递归神经网络模型(RNNs,RecurrentNeural Networks)。RNNs是文本领域最有效的深度学习模型之一。RNNs在前向传播的每个步骤中进行的是完全相同的计算步骤,只是改变了输入,因此大大减少了需要学习的参数。此外,RNNs在计算当前步骤的输出时,和以前的计算也有关,因此RNNs依赖于过去抓取的特征,能学习到单词前后之间的序列的关联性。
根据本发明的实施例,模型训练的硬件可以采用图形处理器(GPU)。GPU在浮点运算、并行计算等部分计算方面,可以提供数十倍乃至于上百倍于CPU的性能。
该方法在步骤S13结束。
图3示意性示出了根据本发明实施例使用上述训练方法训练得到的深度学习模型来对自然语言的语段进行分词的方法的流程图。
如图3所示,该方法开始于步骤S30。
在步骤S31,以与所述训练方法中相同的转换方式,将所述语段中的字转换为字向量,同一个字在属于不同类别时被转换为不同的字向量。
在步骤S32,使用字向量作为深度学习模型的输入,对语段进行分词。
该方法在步骤S33结束。
根据本发明实施例,由于对歧义字依据不同类别添加了标记,并且转换成了不同的字向量,因此该歧义字在属于不同类别时的特征不同,进而所训练的模型在不同类别的权重也不同,使得各个类别间的词不会相互影响造成歧义。并且,一部分权重在所有类别间共享,不需要维护多个模型。
图4示意性示出了根据本发明实施例的深度学习模型训练系统的结构框图。
如图4所示,该训练系统包括第一转换单元410和训练单元420。
第一转换单元410例如执行上文参考图1描述的步骤S11的操作,将训练语料的语段中的字转换为字向量,同一个字在属于不同类别的词时被转换为不同的字向量。
训练单元420例如执行上文参考图1描述的步骤S12的操作,使用所述训练语料的语段的分词结果和所述字向量训练所述深度学习模型。
图5示意性示出了根据本发明实施例的第一转换单元的结构框图。
其中,如图5所示,第一转换单元410还可以包括识别子单元411、生成子单元412和转换子单元413。
识别子单元411例如执行上文参考图2描述的步骤S111的操作,识别所述语段中的词的类别。
生成子单元412例如执行上文参考图2描述的步骤S112的操作,对于属于预定类别的词,在该词的字后面添加与该类别相对应的标记,生成消歧义字。
转换子单元413例如执行上文参考图2描述的步骤S113的操作,把用消歧义字替换相应字后的所述语段中的字和消歧义字转换为字向量。
图6示意性示出了根据本发明实施例的使用训练得到的深度学习模型来对自然语言的语段进行分词的分词系统的结构框图。
如图6所示,该分词系统包括第二转换单元610和分词单元620。
第二转换单元610例如执行上文参考图3描述的步骤S31的操作,以与所述训练系统中相同的转换方式,将所述语段中的字转换为字向量,同一个字在属于不同类别的词时被转换为不同的字向量。
分词单元620例如执行上文参考图3描述的步骤S32的操作,使用字向量作为所述深度学习模型的输入,对所述语段进行分词。
图7示意性示出了根据本发明实施例的深度学习模型训练系统的结构框图。
如图7所示,深度学习模型训练系统700包括处理器710,例如通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器710还可以包括用于缓存用途的板载存储器。处理器710可以是用于执行参考图1描述的根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
深度学习模型训练系统700还可以包括具有非易失性或易失性存储器形式的至少一个可读存储介质720,例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;和/或有线/无线通信链路。
可读存储介质720包括计算机程序721,该计算机程序721包括代码/计算机可读指令,其在由处理器710执行时使得处理器710可以执行例如上面结合图1所描述的方法流程及其任何变形。
计算机程序721可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序721中的代码可以包括一个或多个程序模块,例如包括模块721A、模块721B、……。本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器710执行时,使得处理器710可以执行例如上面结合图1所描述的方法流程及其任何变形。
根据本发明的实施例,深度学习模型训练系统700还可以包括用于从其他实体接收信号的输入单元730、以及用于向其他实体提供信号的输出单元740。输入单元730和输出单元740可以被布置为单一实体或者是分离的实体。输入单元730和输出单元740可以在处理器710的控制下,用于训练系统700与外界的交互。
结合图4和图5所示,根据本发明的实施例,第一转换单元410、识别子单元411、生成子单元412、转换子单元413、以及训练单元420,可以实现为参考图7描述的计算机程序模块,其在被处理器710执行时,可以实现上面描述的相应操作。
图8示意性示出了根据本发明实施例使用训练得到的深度学习模型来对自然语言的语段进行分词的分词系统的结构框图。
如图8所示,使用所述训练系统训练得到的深度学习模型来对自然语言的语段进行分词的分词系统800包括处理器810,例如通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器810还可以包括用于缓存用途的板载存储器。处理器810可以是用于执行参考图3描述的根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
使用训练得到的深度学习模型来对自然语言的语段进行分词的分词系统800还可以包括具有非易失性或易失性存储器形式的至少一个可读存储介质820,例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;和/或有线/无线通信链路。
可读存储介质820包括计算机程序821,该计算机程序821包括代码/计算机可读指令,其在由处理器810执行时使得处理器810可以执行例如上面结合图3所描述的方法流程及其任何变形。
计算机程序821可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序821中的代码可以包括一个或多个程序模块,例如包括模块821A、模块821B、……。本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器810执行时,使得处理器810可以执行例如上面结合图3所描述的方法流程及其任何变形。
根据本发明的实施例,一种使用所述训练系统训练得到的深度学习模型来对自然语言的语段进行分词的分词系统800还可以包括用于从其他实体接收信号的输入单元830、以及用于向其他实体提供信号的输出单元840。输入单元830和输出单元840可以被布置为单一实体或者是分离的实体。输入单元830和输出单元840可以在处理器810的控制下,用于分词系统800与外界的交互。
结合图6所示,根据本发明的实施例,第二转换单元610、分词单元620,可以实现为参考图8描述的计算机程序模块,其在被处理器810执行时,可以实现上面描述的相应操作。
根据本发明实施例,采用如上所述的深度学习模型训练方法和/或系统,以及使用训练得到的深度学习模型对自然语言的语段进行分词的分词方法和/或系统,选取一份语料进行分词预测,部分分词的结果如表1所示,对比不加入歧义字处理的分词模型,其验证准确率结果见表2:
语段编号 分词结果
1 华硕英寸笔记本电脑独显白色
2 水草人春晓系列彩绘手机壳外壳保护套硬壳适用于锤子蝴蝶结
3 插画彩绘定制手机壳适用于背影
4 英雄联盟彩绘定制手机壳适用于华为i享爱享荣耀四核皇子
5 奥图码商用教育型投影机
6 弘毅轻薄磨砂手机壳保护套适用三星手机深咖啡
7 水草人春晓系列彩绘手机壳外壳保护套硬壳适用于三星艾菲铁塔
8 威仕滕不透明系列耳体蓝色左耳耳体
表1
方法 验证准确率
本技术方案 ≥98%
不加入歧义字处理的技术方案 ≤96%
表2
本发明的一个或多个实施例具有以下至少一个优点:
(1)解决了分词中字向量存在歧义的问题,分词精度更高;
(2)能够用一个分词工具对所有类别进行分词,分词模型在不同的类别下权重不同,并且一部分权重在所有类别间共享,不需要维护多个模型;
(3)深度学习技术和GPU提速使运算效率提高。
当然,本发明的任一实施方式不一定需要同时达到以上所述的所有优点。
尽管已经参照本发明的特定示例性实施例示出并描述了本发明,但是本领域技术人员应该理解,在不背离所附权利要求及其等同物限定的本发明的精神和范围的情况下,可以对本发明进行形式和细节上的多种改变。因此,本发明的范围不应该限于上述实施例,而是应该不仅由所附权利要求来进行确定,还由所附权利要求的等同物来进行限定。

Claims (14)

1.一种深度学习模型训练方法,所述训练方法使用自然语言的训练语料对深度学习模型进行训练,所述深度学习模型用于对自然语言的语段进行分词,所述方法包括:
将所述训练语料的语段中的字转换为字向量,同一个字在属于不同类别的词时被转换为不同的字向量;以及
使用所述训练语料的语段的分词结果和所述字向量训练所述深度学习模型。
2.根据权利要求1所述的训练方法,其中,所述将训练语料的语段中的字转换为字向量包括:
识别所述语段中的词的类别;
对于属于预定类别的词,在所述词的字后面添加与所述类别相对应的标记,生成消歧义字;以及
把用所述消歧义字替换相应字后的所述语段中的字和所述消歧义字转换为字向量。
3.根据权利要求1所述的训练方法,其中,通过下述方法获得所述训练语料:
采用多个分词模型对同一份语料进行分词,取预测相同的结果作为所述训练语料。
4.根据权利要求1所述的训练方法,其中,所述自然语言的语段和所述训练语料的语段为电商标题,所述电商标题中的词包括品牌词、产品词和/或修饰词。
5.根据权利要求4所述的训练方法,其中,所述将字转换为字向量包括:
利用品牌词词表和产品词词表对字所在的语段进行匹配,识别语段中存在的品牌词和/或产品词,及其所属类别;
在品牌词和/或产品词的字后增加类别标记,生成消歧义字;以及
把用所述消歧义字替换相应字后的语段中的字和所述消歧义字转换为字向量。
6.一种使用根据权利要求1~5中任一项所述的训练方法训练得到的深度学习模型来对自然语言的语段进行分词的方法,包括:
以与所述训练方法中相同的转换方式,将所述语段中的字转换为字向量,同一个字在属于不同类别的词时被转换为不同的字向量;以及
使用字向量作为所述深度学习模型的输入,对所述语段进行分词。
7.一种深度学习模型训练系统,所述训练系统使用自然语言的训练语料对深度学习模型进行训练,所述深度学习模型用于对自然语言的语段进行分词,所述系统包括:
第一转换单元,将所述训练语料的语段中的字转换为字向量,同一个字在属于不同类别的词时被转换为不同的字向量;以及
训练单元,使用所述训练语料的语段的分词结果和所述字向量训练所述深度学习模型。
8.根据权利要求7所述的训练系统,其中,所述第一转换单元包括:
识别子单元,识别所述语段中的词的类别;
生成子单元,对于属于预定类别的词,在所述词的字后面添加与所述类别相对应的标记,生成消歧义字;以及
转换子单元,把用所述消歧义字替换相应字后的所述语段中的字和消歧义字转换为字向量。
9.根据权利要求7所述的训练系统,其中,通过下述系统获得所述训练语料:
采用多个分词模型对同一份语料进行分词,取预测相同的结果作为训练语料。
10.根据权利要求7所述的训练系统,其中,所述自然语言的语段和所述训练语料的语段为电商标题,所述电商标题中的词包括品牌词、产品词和/或修饰词。
11.根据权利要求10所述的训练系统,其中,所述第一转换单元包括:
识别子单元,利用品牌词词表和产品词词表对字所在的语段进行匹配,识别语段中存在的品牌词和/或产品词,及其所属的类别;
生成子单元,在品牌词和/或产品词的字后添加与所述类别相对应的标记,生成消歧义字;以及
转换子单元,把用所述消歧义字替换相应字后的语段中的字和所述消歧义字转换为字向量。
12.一种使用由根据权利要求7~11中任一项所述的训练系统训练得到的深度学习模型来对自然语言的语段进行分词的分词系统,包括:
第二转换单元,以与所述训练系统中相同的转换方式,将所述语段中的字转换为字向量,同一个字在属于不同类别的词时被转换为不同的字向量;以及
分词单元,使用字向量作为所述深度学习模型的输入,对所述语段进行分词。
13.一种深度学习模型分词系统,所述深度学习模型用于对自然语言的语段进行分词,所述系统包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行根据权利要求1-6中任一项所述的方法。
14.一种可读存储介质,所述可读存储介质存储计算机指令,所述计算机指令用于执行根据权利要求1-6中任一项所述的方法。
CN201710071445.2A 2017-02-09 2017-02-09 深度学习模型训练方法、分词方法、训练系统和分词系统 Active CN108415896B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710071445.2A CN108415896B (zh) 2017-02-09 2017-02-09 深度学习模型训练方法、分词方法、训练系统和分词系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710071445.2A CN108415896B (zh) 2017-02-09 2017-02-09 深度学习模型训练方法、分词方法、训练系统和分词系统

Publications (2)

Publication Number Publication Date
CN108415896A true CN108415896A (zh) 2018-08-17
CN108415896B CN108415896B (zh) 2022-03-04

Family

ID=63125009

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710071445.2A Active CN108415896B (zh) 2017-02-09 2017-02-09 深度学习模型训练方法、分词方法、训练系统和分词系统

Country Status (1)

Country Link
CN (1) CN108415896B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110489555A (zh) * 2019-08-21 2019-11-22 创新工场(广州)人工智能研究有限公司 一种结合类词信息的语言模型预训练方法
CN112767942A (zh) * 2020-12-31 2021-05-07 北京云迹科技有限公司 语音识别引擎适配方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268200A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种基于深度学习的非监督命名实体语义消歧方法
US20160027433A1 (en) * 2014-07-24 2016-01-28 Intrnational Business Machines Corporation Method of selecting training text for language model, and method of training language model using the training text, and computer and computer program for executing the methods
CN105630768A (zh) * 2015-12-23 2016-06-01 北京理工大学 一种基于层叠条件随机场的产品名识别方法及装置
CN105760363A (zh) * 2016-02-17 2016-07-13 腾讯科技(深圳)有限公司 文本文件的词义消歧方法及装置
CN106202044A (zh) * 2016-07-07 2016-12-07 武汉理工大学 一种基于深度神经网络的实体关系抽取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268200A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种基于深度学习的非监督命名实体语义消歧方法
US20160027433A1 (en) * 2014-07-24 2016-01-28 Intrnational Business Machines Corporation Method of selecting training text for language model, and method of training language model using the training text, and computer and computer program for executing the methods
CN105630768A (zh) * 2015-12-23 2016-06-01 北京理工大学 一种基于层叠条件随机场的产品名识别方法及装置
CN105760363A (zh) * 2016-02-17 2016-07-13 腾讯科技(深圳)有限公司 文本文件的词义消歧方法及装置
CN106202044A (zh) * 2016-07-07 2016-12-07 武汉理工大学 一种基于深度神经网络的实体关系抽取方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110489555A (zh) * 2019-08-21 2019-11-22 创新工场(广州)人工智能研究有限公司 一种结合类词信息的语言模型预训练方法
CN110489555B (zh) * 2019-08-21 2022-03-08 创新工场(广州)人工智能研究有限公司 一种结合类词信息的语言模型预训练方法
CN112767942A (zh) * 2020-12-31 2021-05-07 北京云迹科技有限公司 语音识别引擎适配方法、装置、电子设备及存储介质
CN112767942B (zh) * 2020-12-31 2023-04-07 北京云迹科技股份有限公司 语音识别引擎适配方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN108415896B (zh) 2022-03-04

Similar Documents

Publication Publication Date Title
Barhom et al. Revisiting joint modeling of cross-document entity and event coreference resolution
Yu et al. Entity-sensitive attention and fusion network for entity-level multimodal sentiment classification
US11645517B2 (en) Information processing method and terminal, and computer storage medium
CN104699763B (zh) 多特征融合的文本相似性度量系统
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN108984530A (zh) 一种网络敏感内容的检测方法及检测系统
CN110245229A (zh) 一种基于数据增强的深度学习主题情感分类方法
Yang et al. A position encoding convolutional neural network based on dependency tree for relation classification
CN110874439B (zh) 一种基于评论信息的推荐方法
CN109598517B (zh) 商品通关处理、对象的处理及其类别预测方法和装置
CN111241232B (zh) 业务服务的处理方法、装置、服务平台及存储介质
CN108228576B (zh) 文本翻译方法及装置
CN109635105A (zh) 一种中文文本多意图识别方法及系统
CN113590810B (zh) 摘要生成模型训练方法、摘要生成方法、装置及电子设备
CN107357785A (zh) 主题特征词抽取方法及系统、情感极性判断方法及系统
CN106649250A (zh) 一种情感新词的识别方法及装置
CN115392237B (zh) 情感分析模型训练方法、装置、设备及存储介质
CN105869058B (zh) 一种多层潜变量模型用户画像提取的方法
CN110096572A (zh) 一种样本生成方法、装置及计算机可读介质
CN110032736A (zh) 一种文本分析方法、装置及存储介质
CN113722441B (zh) 一种相似文本的生成方法、装置、设备及存储介质
CN116029305A (zh) 一种基于多任务学习的中文属性级情感分析方法、系统、设备及介质
CN108415896A (zh) 深度学习模型训练方法、分词方法、训练系统和分词系统
CN108052501A (zh) 一种基于人工智能的实体关系对识别方法及系统
Samuel et al. The dark side of sentiment analysis: An exploratory review using lexicons, dictionaries, and a statistical monkey and chimp

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant