CN107291692B - 基于人工智能的分词模型的定制方法、装置、设备和介质 - Google Patents

基于人工智能的分词模型的定制方法、装置、设备和介质 Download PDF

Info

Publication number
CN107291692B
CN107291692B CN201710448262.8A CN201710448262A CN107291692B CN 107291692 B CN107291692 B CN 107291692B CN 201710448262 A CN201710448262 A CN 201710448262A CN 107291692 B CN107291692 B CN 107291692B
Authority
CN
China
Prior art keywords
word segmentation
customized
model
participle
training corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710448262.8A
Other languages
English (en)
Other versions
CN107291692A (zh
Inventor
郑利群
詹金波
肖求根
付志宏
何径舟
周古月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710448262.8A priority Critical patent/CN107291692B/zh
Publication of CN107291692A publication Critical patent/CN107291692A/zh
Priority to US15/941,065 priority patent/US10643033B2/en
Application granted granted Critical
Publication of CN107291692B publication Critical patent/CN107291692B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种基于人工智能的分词模型的定制方法、装置、设备和介质。所述方法包括:获取定制分词训练语料;根据定制分词训练语料,使用增量训练法或权值干预法修正第一设定分词模型,得到与定制分词训练语料对应的定制分词模型。本发明实施例的技术方案解决了现有技术中通过对现有分词模型进行重新训练以获得针对专业领域或特定场景的分词模型费时费力的技术缺陷,实现了快速、简单地依据用户的实际分词需求对现有分词模型进行修正,获得满足用户特定分词需求的分词模型。

Description

基于人工智能的分词模型的定制方法、装置、设备和介质
技术领域
本发明实施例涉及分词模型处理技术领域,尤其涉及一种基于人工智能的分词模型的定制方法、装置、设备和介质。
背景技术
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
中文分词指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。
现有的中文分词模型一般都是通用分词模型,无法针对专业领域或特定场景对文本进行准确的分词。现有技术中一般是通过使用专业领域或特定场景的分词训练语料重新训练现有的通用分词模型,得到专业领域或特定场景对应的分词模型。
上述获取专业领域或特定场景对应的分词模型的方法,费时费力,且难以保证分词质量。
发明内容
有鉴于此,本发明实施例提供了一种基于人工智能的分词模型的定制方法、装置、设备和介质,以解决现有技术中通过对现有分词模型进行重新训练以获得针对专业领域或特定场景的分词模型费时费力的技术缺陷。
在第一方面,本发明实施例提供了一种基于人工智能的分词模型的定制方法,包括:
获取定制分词训练语料;
根据所述定制分词训练语料,使用增量训练法或权值干预法修正第一设定分词模型,得到与所述定制分词训练语料对应的定制分词模型。
在第二方面,本发明实施例提供了一种基于人工智能的分词模型的定制装置,包括:
训练语料获取模块,用于获取定制分词训练语料;
分词模型修正模块,用于根据所述定制分词训练语料,使用增量训练法或权值干预法修正第一设定分词模型,得到与所述定制分词训练语料对应的定制分词模型。
在第三方面,本发明实施例提供了一种设备,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例所述的基于人工智能的分词模型的定制方法。
在第四方面,本发明实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行本发明实施例所述的基于人工智能的分词模型的定制方法。
本发明实施例提供了一种基于人工智能的分词模型的定制方法、装置、设备和介质,通过先获取定制分词训练语料,然后根据定制分词训练语料,使用增量训练法或权值干预法修正第一设定分词模型,得到与定制分词训练语料对应的定制分词模型,解决了现有技术中通过对现有分词模型进行重新训练以获得针对专业领域或特定场景的分词模型费时费力的技术缺陷,实现了快速、简单地依据用户的实际分词需求对现有分词模型进行修正,获得满足用户特定分词需求的分词模型。
附图说明
图1是本发明实施例一提供的一种基于人工智能的分词模型的定制方法的流程图;
图2是本发明实施例二提供的一种基于人工智能的分词模型的定制方法的流程图;
图3是本发明实施例三提供的一种基于人工智能的分词模型的定制方法的流程图;
图4是本发明实施例四提供的一种基于人工智能的分词模型的定制装置的结构图;
图5是本发明实施例五中的一种设备的结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。
另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1为本发明实施例一提供的一种基于人工智能的分词模型的定制法的流程图,本实施例的方法可以由基于人工智能的分词模型的定制装置来执行,该装置可通过硬件和/或软件的方式实现,并一般可集成于提供分词模型定制的服务器中。本实施例的方法具体包括:
110、获取定制分词训练语料。
在本实施例中,定制分词训练语料具体是指分词方法符合专业领域要求、符合特定场景要求或是满足用户的特殊需求的已分词语料。定制分词训练语料的获取方式具体可以是用户直接输入,也可以是从用户输入的链接地址下载,还可以是从内部存储的分词语料中提取等,本实施例对此不进行限制。
120、根据定制分词训练语料,使用增量训练法或权值干预法修正第一设定分词模型,得到与定制分词训练语料对应的定制分词模型。
在本实施例中,第一设定分词模型具体可以是通用分词模型、也可以是专用分词模型,本实施例对此不进行限制,当然,第一设定分词模型也可以是经过本实施例的步骤110和步骤120生成的定制分词模型,也就是说,可以对定制分词模型再次进行定制。
进一步地,在本实施例中,第一设定分词模型的获取方式具体可以是用户输入,也可以是从用户输入的链接地址下载,还可以是从内部存储的分词模型中选取等,本实施例对此不进行限制。
本领域技术人员可以理解的是,现有的分词模型一般都是通用分词模型,通用分词模型对日常用语,常用词组等内容的分词结果较为准确,但是,对于专业领域的专业词组以及某些特定场景下的特有分词难以进行准确地划分,因此,本实施例中使用定制分词训练语料对第一设定分词模型进行修正,以使修正后的分词模型可以依据定制分词训练语料中的分词方式对文本进行正确的分词处理。
在本实施例中,使用增量训练法修正第一设定分词模型的过程具体可以是:使用第一设定分词模型对定制分词训练语料进行分词处理,得到分词结果;比较分词结果和定制分词训练语料,根据设定规则获取更新参数;根据更新参数,更新第一设定分词模型,得到与定制分词训练语料对应的定制分词模型。
在本实施例中,使用权值干预法修正第一设定分词模型的过程具体可以是:根据定制分词训练语料,生成分词模型修正参数;根据分词模型修正参数和第一设定分词模型的模型参数,生成与定制分词训练语料对应的定制分词模型。
在本实施例中,在得到与定制分词训练语料对应的定制分词模型之后,可以将定制分词模型存储在设定存储区域中,也可以将定制分词模型输出给用户,还可以依据用户的需求将定制分词模型存储在设定服务器中,上述三种方式也可以同时实施,也可以任选其中两种方法同时实施。
进一步地,在本实施例中,在得到与定制分词训练语料对应的定制分词模型之后,还可以将定制分词训练语料存储在设定存储区域中,进一步地,还可以在设定的时间点或接收到操作指令之后,对存储的所有定制分词训练语料进行统计分析,然后根据统计分析的结果对第一设定分词模型或其他分词模型进行修正,修正的方法具体可以是增量训练法等。
本发明实施例一提供了一种基于人工智能的分词模型的定制方法,通过先获取定制分词训练语料,然后根据定制分词训练语料,使用增量训练法或权值干预法修正第一设定分词模型,得到与定制分词训练语料对应的定制分词模型,解决了现有技术中通过对现有分词模型进行重新训练以获得针对专业领域或特定场景的分词模型费时费力的技术缺陷,实现了快速、简单地依据用户的实际分词需求对现有分词模型进行修正,获得满足用户特定分词需求的分词模型。
实施例二
图2是本发明实施例二提供的一种基于人工智能的分词模型的定制方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,将根据定制分词训练语料,使用增量训练法或权值干预法修正第一设定分词模型,得到与定制分词训练语料对应的定制分词模型,具体化为:使用第一设定分词模型对定制分词训练语料进行分词处理,得到分词结果;根据设定规则比较分词结果和定制分词训练语料,获取更新参数;根据更新参数,更新第一设定分词模型,得到与定制分词训练语料对应的定制分词模型。
进一步地,还具体包括:存储定制分词训练语料以及定制分词模型。
进一步地,还具体包括:依据设定时间周期或获取的修正指令,获取存储的所有定制分词训练语料,生成标准分词训练语料;根据标准分词训练语料,使用增量训练法修正第二设定分词模型。
相应的,本实施例的方法具体包括:
210、获取定制分词训练语料。
220、使用第一设定分词模型对定制分词训练语料进行分词处理,得到分词结果。
在本实施例中,在获取定制分词训练语料之后,会依据用户的操作指令获取第一设定分词模型,然后使用第一设定分词模型对定制分词训练语料进行分词处理。
在本实施例中,使用第一设定分词模型对定制分词训练语料进行分词处理的方法可以是:首先根据第一设定分词模型获取转移矩阵并根据第一设定分词模型和定制分词训练语料获取发射矩阵,然后,对发射矩阵和转移矩阵进行马尔可夫解码,进而获得分词结果。
230、根据设定规则比较分词结果和定制分词训练语料,获取更新参数。
在本实施例中,设定规则具体可以是随机梯度下降法等。更新参数具体是指第一设定分词模型的各个模型参数需要更正的数值。
240、根据更新参数,更新第一设定分词模型,得到与定制分词训练语料对应的定制分词模型。
在本实施例中,在获取更新参数之后,会根据更新参数对第一设定分词模型的模型参数进行修正,得到与定制分词训练语料对应的定制分词模型,修正后的第一设定分词模型不但可以实现原有分词效果,同时还可以实现对定制分词需训练语料中的词组的准确分词。
250、存储定制分词训练语料以及定制分词模型。
在本实施例中,在得到与定制分词训练语料对应的定制分词模型之后,会将该定制分词模型存储在设定存储区域中或根据用户的指令存储在设定的服务器中。另外,定制分词训练语料和定制分词模型可以存储在相同的设定存储区域中,也可以存储在不同的设定存储区域中,本实施例对此不进行限制。
进一步地,当将定制分词模型根据用户的指令存储在设定的服务器中时,会将存储地址以链接的形式告知用户,以便用户之后进行下载等操作,其中,设定的服务器具体可以是云服务器等。
260、依据设定时间周期或获取的修正指令,获取存储的所有定制分词训练语料,生成标准分词训练语料。
本实施例的步骤260和步骤270给出了对第二设定分词进行修正的过程,也就是说,在本实施例中,在获取定制分词模型之后,还会对第二设定分词模型进行修正,其中,第二设定分词模型具体可以是步骤240中得到的定制分词模型,也可以是第一设定分词模型。
在本实施例中,会依据设定的时间周期或在获取用户输入的修正指令后,首先会获取存储的所有定制分词训练语料,然后对获取的所有定制分词训练语料进行统计分析,最后根据统计分析的结果生成标准分词训练语料。
270、根据标准分词训练语料,使用增量训练法修正第二设定分词模型。
在本实施例中,使用增量训练法修正第二设定分词模型的方法具体可以是:使用第二设定分词模型对标准分词训练语料进行分词处理,得到分词结果;根据设定规则比较分词结果和标准分词训练语料,获取更新参数;根据更新参数,更新第二设定分词模型,得到与标准分词训练语料对应的定制分词模型。
本发明实施例二提供了一种基于人工智能的分词模型的定制方法,具体化了第一设定分词模型的修正方法,可以简便、快速地获得定制分词模型,还优化增加了对定制分词训练语料和定制分词模型的存储,进一步地,优化增加了根据存储的定制分词训练语料对第二设定分词模型进行修正,对第二设定分词模型进行了优化。利用该方法可以无需对第一设定分词模型进行重新训练,即可简便、快速地获得与定制分词训练语料对应的定制分词模型,同时,还可以根据存储的定制分词训练语料不断地对分词模型进行优化,提升分词效果,从而形成一个良好的循环,同时节省了收集语料和标注语料的时间和成本。
实施例三
图3是本发明实施例三提供的一种基于人工智能的分词模型的定制方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,将根据定制分词训练语料,使用增量训练法或权值干预法修正第一设定分词模型,得到与定制分词训练语料对应的定制分词模型,具体化为:根据定制分词训练语料,生成分词模型修正参数;根据分词模型修正参数和第一设定分词模型的模型参数,生成与定制分词训练语料对应的定制分词模型。
进一步地,将存储定制分词训练语料以及定制分词模型,具体化为:将定制分词模型存储在自身的设定存储区域;依据存储规则,输出定制分词模型至客户端,和/或将定制分词模型存储至外部设定服务器。
相应的,本实施例的方法具体包括:
310、获取定制分词训练语料。
320、根据定制分词训练语料,生成分词模型修正参数。
在本实施例中,分词模型修正参数的获取方法具体可以是将定制分词训练语料的特征权值作为分词模型修正参数等。其中,定制分词训练语料的特征权值可以通过神经网络获取。
330、根据分词模型修正参数和第一设定分词模型的模型参数,生成与定制分词训练语料对应的定制分词模型。
在本实施例中,生成与定制分词训练语料对应的定制分词模型的方法具体可以是将分词模型修正参数与第一设定分词模型的模型参数合并,但是各自的数值不做任何改变,由此获得与定制分词训练语料对应的定制分词模型的模型参数,根据该模型参数可进而获得与定制分词训练语料对应的定制分词模型。
在一个具体的例子中,分词模型修正参数用矩阵
Figure BDA0001321779250000101
表示,第一设定分词模型的模型参数用矩阵
Figure BDA0001321779250000102
表示,那么,与定制分词训练语料对应的定制分词模型的模型参数为
Figure BDA0001321779250000103
340、将定制分词模型存储在自身的设定存储区域。
在本实施例中,在生成定制分词模型之后,会将定制分词模型存储在自身的设定存储区域中。
350、依据存储规则,输出定制分词模型至客户端,和/或将定制分词模型存储至外部设定服务器。
在本实施例中,存储规则具体是指用户输入的对定制分词模型存储方式的操作指令。具体来说,上述操作指令具体可以有三种:第一种是仅将定制分词模型输出至客户端;第二种是仅将定制分词模型存储至外部设定服务器中;第三种是不但要将定制分词模型输出至客户端,同时也要讲定制分词模型存储至外部设定服务器中。其中,外部设定服务器具体可以是云服务器。当将定制分词模型存储至外部设定服务器中时,存储完成之后,会将存储地址以链接的形式告知用户,以便用户之后进行下载等操作。
本发明实施例三提供了一种基于人工智能的分词模型的定制方法,具体化了第一设定分词模型的修正方法,简单、快速地获得与定制分词训练语料对应的定制分词模型,同时,还具体化了定制分词模型的存储方式,增加了定制分词模型存储的灵活性。利用该方法可以无需对第一设定分词模型进行重新训练,即可简单、快速地获得与定制分词训练语料对应的定制分词模型,同时,还可以给用户提供多种定制分词模型的存储方式,以便用户以后对定制分词模型进行使用和修正。
实施例四
图4是本发明实施例四提供的一种基于人工智能的分词模型的定制装置的结构图。如图4所示,所述装置包括:训练语料获取模块401以及分词模型修正模块402,其中:
训练语料获取模块401,用于获取定制分词训练语料;
分词模型修正模块402,用于根据定制分词训练语料,使用增量训练法或权值干预法修正第一设定分词模型,得到与定制分词训练语料对应的定制分词模型。
本发明实施例四提供了一种基于人工智能的分词模型的定制装置,通过先获取定制分词训练语料,然后根据定制分词训练语料,使用增量训练法或权值干预法修正第一设定分词模型,得到与定制分词训练语料对应的定制分词模型,解决了现有技术中通过对现有分词模型进行重新训练以获得针对专业领域或特定场景的分词模型费时费力的技术缺陷,实现了快速、简单地依据用户的实际分词需求对现有分词模型进行修正,获得满足用户特定分词需求的分词模型。
在上述各实施例的基础上,分词模型修正模块可以包括:
分词处理单元,用于使用第一设定分词模型对定制分词训练语料进行分词处理,得到分词结果;
更新参数获取单元,用于比较分词结果和定制分词训练语料,根据设定规则获取更新参数;
模型更新单元,用于根据更新参数,更新第一设定分词模型,得到与定制分词训练语料对应的定制分词模型。
在上述各实施例的基础上,分词模型修正模块可以包括:
修正参数生成单元,用于根据定制分词训练语料,生成分词模型修正参数;
第一模型修正单元,用于根据所词模型修正参数和第一设定分词模型的模型参数,生成与定制分词训练语料对应的定制分词模型。
在上述各实施例的基础上,还可以包括:
语料存储模块,用于存储定制分词训练语料以及定制分词模型。
在上述各实施例的基础上,还可以包括:
标准分词训练语料生成单元,用于依据设定时间周期或获取的修正指令,获取存储的所有定制分词训练语料,生成标准分词训练语料;
第二模型修正单元,用于根据标准分词训练语料,使用增量训练法修正第二设定分词模型。
在上述各实施例的基础上,语料存储模块可以包括:
模型存储单元,用于将定制分词模型存储在自身的设定存储区域;
模型输出单元,用于依据存储规则,输出定制分词模型至客户端,和/或将定制分词模型存储至外部设定服务器。
本发明实施例所提供的基于人工智能的分词模型的定制装置可用于执行本发明任意实施例提供的基于人工智能的分词模型的定制方法,具备相应的功能模块,实现相同的有益效果。
实施例五
图5为本发明实施例五提供的一种设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性设备12的框图。图5显示的设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,设备12以通用计算设备的形式表现。设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图C未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该设备12交互的设备通信,和/或与使得该设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与设备12的其它模块通信。应当明白,尽管图中未示出,可以结合设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的基于人工智能的分词模型的定制方法,所述基于人工智能的分词模型的定制方法包括:
获取定制分词训练语料;
根据所述定制分词训练语料,使用增量训练法或权值干预法修正第一设定分词模型,得到与所述定制分词训练语料对应的定制分词模型。
实施例六
本发明实施例六还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本发明实施例所述的基于人工智能的分词模型的定制方法,所述基于人工智能的分词模型的定制方法包括:
获取定制分词训练语料;
根据所述定制分词训练语料,使用增量训练法或权值干预法修正第一设定分词模型,得到与所述定制分词训练语料对应的定制分词模型。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (8)

1.一种基于人工智能的分词模型的定制方法,其特征在于,包括:
获取定制分词训练语料;
根据所述定制分词训练语料,使用增量训练法或权值干预法修正第一设定分词模型,得到与所述定制分词训练语料对应的定制分词模型,作为第二设定分词模型;
存储所述定制分词训练语料以及所述第二设定分词模型;
依据设定时间周期或获取的修正指令,获取存储的所有所述定制分词训练语料,生成标准分词训练语料;
根据所述标准分词训练语料,使用所述增量训练法修正第二设定分词模型;
其中,所述使用所述增量训练法修正第二设定分词模型,包括:
使用第二设定分词模型对所述标准分词训练语料进行分词处理,得到分词结果;根据设定规则比较所述分词结果和所述标准分词训练语料,获取更新参数;根据所述更新参数,更新第二设定分词模型,得到与所述标准分词训练语料对应的定制分词模型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述定制分词训练语料,使用增量训练法或权值干预法修正第一设定分词模型,得到与所述定制分词训练语料对应的定制分词模型,包括:
使用所述第一设定分词模型对所述定制分词训练语料进行分词处理,得到分词结果;
根据设定规则比较所述分词结果和所述定制分词训练语料,获取更新参数;
根据所述更新参数,更新所述第一设定分词模型,得到与所述定制分词训练语料对应的定制分词模型。
3.根据权利要求1所述的方法,其特征在于,所述根据所述定制分词训练语料,使用增量训练法或权值干预法修正第一设定分词模型,得到与所述定制分词训练语料对应的定制分词模型,还包括:
根据所述定制分词训练语料,生成分词模型修正参数;
根据所述分词模型修正参数和所述第一设定分词模型的模型参数,生成与所述定制分词训练语料对应的定制分词模型。
4.根据权利要求1所述的方法,其特征在于,所述存储所述定制分词训练语料以及所述定制分词模型,包括:
将所述定制分词模型存储在自身的设定存储区域;
依据存储规则,输出所述定制分词模型至客户端,和/或将所述定制分词模型存储至外部设定服务器。
5.一种基于人工智能的分词模型的定制装置,其特征在于,包括:
训练语料获取模块,用于获取定制分词训练语料;
分词模型修正模块,用于根据所述定制分词训练语料,使用增量训练法或权值干预法修正第一设定分词模型,得到与所述定制分词训练语料对应的定制分词模型,作为第二设定分词模型;
语料存储模块,用于存储定制分词训练语料以及第二设定分词模型;
标准分词训练语料生成单元,用于依据设定时间周期或获取的修正指令,获取存储的所有定制分词训练语料,生成标准分词训练语料;
第二模型修正单元,用于根据标准分词训练语料,使用第二设定分词模型对所述标准分词训练语料进行分词处理,得到分词结果;根据设定规则比较所述分词结果和所述标准分词训练语料,获取更新参数;根据所述更新参数,更新第二设定分词模型,得到与所述标准分词训练语料对应的定制分词模型。
6.根据权利要求5所述的装置,其特征在于,所述分词模型修正模块包括:
分词处理单元,用于使用所述第一设定分词模型对所述定制分词训练语料进行分词处理,得到分词结果;
更新参数获取单元,用于根据设定规则比较所述分词结果和所述定制分词训练语料,获取更新参数;
模型更新单元,用于根据所述更新参数,更新所述第一设定分词模型,得到与所述定制分词训练语料对应的定制分词模型。
7.一种基于人工智能的分词模型的定制设备,其特征在于,所述基于人工智能的分词模型的定制设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一所述的基于人工智能的分词模型的定制方法。
8.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-4中任一所述的基于人工智能的分词模型的定制方法。
CN201710448262.8A 2017-06-14 2017-06-14 基于人工智能的分词模型的定制方法、装置、设备和介质 Active CN107291692B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710448262.8A CN107291692B (zh) 2017-06-14 2017-06-14 基于人工智能的分词模型的定制方法、装置、设备和介质
US15/941,065 US10643033B2 (en) 2017-06-14 2018-03-30 Method and apparatus for customizing word segmentation model based on artificial intelligence, device and medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710448262.8A CN107291692B (zh) 2017-06-14 2017-06-14 基于人工智能的分词模型的定制方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN107291692A CN107291692A (zh) 2017-10-24
CN107291692B true CN107291692B (zh) 2020-12-18

Family

ID=60096558

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710448262.8A Active CN107291692B (zh) 2017-06-14 2017-06-14 基于人工智能的分词模型的定制方法、装置、设备和介质

Country Status (2)

Country Link
US (1) US10643033B2 (zh)
CN (1) CN107291692B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038108B (zh) * 2017-12-27 2021-12-10 东软集团股份有限公司 分词模型训练方法和装置、及存储介质
CN110134766B (zh) * 2019-05-09 2021-06-25 北京科技大学 一种面向中医古籍文献的分词方法和装置
CN112052671B (zh) * 2019-06-06 2023-10-27 阿里巴巴集团控股有限公司 负样本采样方法、文本处理方法、装置、设备及介质
CN110349569B (zh) * 2019-07-02 2022-04-15 思必驰科技股份有限公司 定制化产品语言模型的训练和识别方法及装置
CN114548080B (zh) * 2022-04-24 2022-07-15 长沙市智为信息技术有限公司 一种基于分词增强的中文错字校正方法及系统
CN115146630B (zh) * 2022-06-08 2023-05-30 平安科技(深圳)有限公司 基于专业领域知识的分词方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184172A (zh) * 2011-05-10 2011-09-14 中国科学院计算技术研究所 一种用于盲人读取汉字的系统和方法
CN102929870A (zh) * 2011-08-05 2013-02-13 北京百度网讯科技有限公司 一种建立分词模型的方法、分词的方法及其装置
CN103049501A (zh) * 2012-12-11 2013-04-17 上海大学 基于互信息和条件随机场模型的中文领域术语识别方法
CN103631938A (zh) * 2013-12-10 2014-03-12 江苏金智教育信息技术有限公司 一种分词词典自动扩展的方法和装置
CN105068996A (zh) * 2015-09-21 2015-11-18 哈尔滨工业大学 一种中文分词增量学习方法
CN106227719A (zh) * 2016-07-26 2016-12-14 北京智能管家科技有限公司 中文分词歧义消除方法和系统
CN106484670A (zh) * 2015-08-25 2017-03-08 北京中搜网络技术股份有限公司 一种中文分词纠错方法、离线训练装置及在线处理装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7478033B2 (en) * 2004-03-16 2009-01-13 Google Inc. Systems and methods for translating Chinese pinyin to Chinese characters
US20090326916A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Unsupervised chinese word segmentation for statistical machine translation
US8965776B2 (en) * 2012-03-30 2015-02-24 Infinera Corporation Iterative forward error correction (FEC) on segmented words using a soft-metric arithmetic scheme
TW201403354A (zh) * 2012-07-03 2014-01-16 Univ Nat Taiwan Normal 以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法
GB201321927D0 (en) * 2013-12-11 2014-01-22 Touchtype Ltd System and method for inputting text into electronic devices
US9959271B1 (en) * 2015-09-28 2018-05-01 Amazon Technologies, Inc. Optimized statistical machine translation system with rapid adaptation capability

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184172A (zh) * 2011-05-10 2011-09-14 中国科学院计算技术研究所 一种用于盲人读取汉字的系统和方法
CN102929870A (zh) * 2011-08-05 2013-02-13 北京百度网讯科技有限公司 一种建立分词模型的方法、分词的方法及其装置
CN103049501A (zh) * 2012-12-11 2013-04-17 上海大学 基于互信息和条件随机场模型的中文领域术语识别方法
CN103631938A (zh) * 2013-12-10 2014-03-12 江苏金智教育信息技术有限公司 一种分词词典自动扩展的方法和装置
CN106484670A (zh) * 2015-08-25 2017-03-08 北京中搜网络技术股份有限公司 一种中文分词纠错方法、离线训练装置及在线处理装置
CN105068996A (zh) * 2015-09-21 2015-11-18 哈尔滨工业大学 一种中文分词增量学习方法
CN106227719A (zh) * 2016-07-26 2016-12-14 北京智能管家科技有限公司 中文分词歧义消除方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Research on the Chinese Word Segmentation System Based on Incremental Learning;Fanjin Mai 等;《Applied Mechanics and Materials》;20140811;摘要,图1 *
基于感知器的中文分词增量训练方法研究;韩冰 等;《中文信息学报》;20150915;第29卷(第5期);引言,第2、4节 *

Also Published As

Publication number Publication date
CN107291692A (zh) 2017-10-24
US10643033B2 (en) 2020-05-05
US20180365227A1 (en) 2018-12-20

Similar Documents

Publication Publication Date Title
CN107291692B (zh) 基于人工智能的分词模型的定制方法、装置、设备和介质
CN107273356B (zh) 基于人工智能的分词方法、装置、服务器和存储介质
CN107103903B (zh) 基于人工智能的声学模型训练方法、装置及存储介质
US10698932B2 (en) Method and apparatus for parsing query based on artificial intelligence, and storage medium
US11783227B2 (en) Method, apparatus, device and readable medium for transfer learning in machine learning
US20230025317A1 (en) Text classification model training method, text classification method, apparatus, device, storage medium and computer program product
US10796700B2 (en) Artificial intelligence-based cross-language speech transcription method and apparatus, device and readable medium using Fbank40 acoustic feature format
US20240054767A1 (en) Multi-modal Model Training Method, Apparatus and Device, and Storage Medium
CN107861954B (zh) 基于人工智能的信息输出方法和装置
CN110795938B (zh) 文本序列分词方法、装置及存储介质
CN111523640B (zh) 神经网络模型的训练方法和装置
CN107273357B (zh) 基于人工智能的分词模型的修正方法、装置、设备和介质
CN111310440A (zh) 文本的纠错方法、装置和系统
CN108415939B (zh) 基于人工智能的对话处理方法、装置、设备及计算机可读存储介质
CN110826345B (zh) 一种机器翻译方法和装置
CN112308077A (zh) 样本数据获取方法、图像分割方法、装置、设备和介质
CN112860919A (zh) 基于生成模型的数据标注方法、装置、设备及存储介质
CN109753976B (zh) 语料标注装置和方法
CN112188311B (zh) 用于确定新闻的视频素材的方法和装置
CN116912187A (zh) 图像生成模型训练及图像生成方法、装置、设备和介质
CN111260756B (zh) 用于发送信息的方法和装置
CN112799658B (zh) 模型训练方法、模型训练平台、电子设备和存储介质
CN109800438B (zh) 用于生成信息的方法和装置
CN107220045B (zh) 基于人工智能的建站方法、装置、设备及存储介质
CN113496256B (zh) 一种图像标注模型训练方法、标注方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant