CN107273356B - 基于人工智能的分词方法、装置、服务器和存储介质 - Google Patents

基于人工智能的分词方法、装置、服务器和存储介质 Download PDF

Info

Publication number
CN107273356B
CN107273356B CN201710448749.6A CN201710448749A CN107273356B CN 107273356 B CN107273356 B CN 107273356B CN 201710448749 A CN201710448749 A CN 201710448749A CN 107273356 B CN107273356 B CN 107273356B
Authority
CN
China
Prior art keywords
word segmentation
segmented
model
linguistic data
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710448749.6A
Other languages
English (en)
Other versions
CN107273356A (zh
Inventor
郑利群
詹金波
肖求根
付志宏
何径舟
周古月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710448749.6A priority Critical patent/CN107273356B/zh
Publication of CN107273356A publication Critical patent/CN107273356A/zh
Priority to US15/934,410 priority patent/US10650096B2/en
Application granted granted Critical
Publication of CN107273356B publication Critical patent/CN107273356B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种基于人工智能的分词方法、装置、服务器和存储介质。所述方法包括:获取待分词语料以及与设定分词模板对应的分词模型;根据设定匹配算法,匹配待分词语料与分词模型,获取待分词语料中满足第一设定规则的目标词组;根据目标词组修正与分词模型和待分词语料对应的发射矩阵;根据修正后的发射矩阵对待分词语料进行分词处理,得到第一分词结果。本发明实施例的技术方案解决了现有技术中针对专业领域或特定场景,对文本进行分词的过程繁琐以及准确度低的技术缺陷,实现了快速、简单以及准确地针对专业领域或特定场景对文本进行分词。

Description

基于人工智能的分词方法、装置、服务器和存储介质
技术领域
本发明实施例涉及分词技术领域,尤其涉及一种基于人工智能的分词方法、装置、服务器和存储介质。
背景技术
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
中文分词指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。
现有的中文分词模型一般都是通用分词模型,无法针对专业领域或特定场景对文本进行准确的分词。现有技术中一般通过对通用分词模型的分词结果进行后处理来实现针对专业领域或特定场景对文本进行准确分词,或者是通过使用专业领域或特定场景的分词训练语料重新训练现有的通用分词模型,得到专业领域或特定场景对应的分词模型。
上述两种方法中,对于第一种方法来说,由于词组之间存在交叠现象,因此会导致分词结果错误,对于第二种方法来说,重新训练分词模型费时费力,且难易保证分词质量。
发明内容
有鉴于此,本发明实施例提供了一种基于人工智能的分词方法、装置、服务器和存储介质,以解决现有技术中针对专业领域或特定场景,对文本进行分词的过程繁琐以及准确度低的技术缺陷。
在第一方面,本发明实施例提供了一种基于人工智能的分词方法,包括:
获取待分词语料以及与设定分词模板对应的分词模型;
根据设定匹配算法,匹配所述待分词语料与所述分词模型,获取所述待分词语料中满足第一设定规则的目标词组;
根据所述目标词组修正与所述分词模型和所述待分词语料对应的发射矩阵;
根据修正后的发射矩阵对所述待分词语料进行分词处理,得到第一分词结果。
在第二方面,本发明实施例提供了一种基于人工智能的分词装置,包括:
模型获取模块,用于获取待分词语料以及与设定分词模板对应的分词模型;
词组获取模块,用于根据设定匹配算法,匹配所述待分词语料与所述分词模型,获取所述待分词语料中满足第一设定规则的目标词组;
矩阵修正模块,用于根据所述目标词组修正与所述分词模型和所述待分词语料对应的发射矩阵;
分词处理模块,用于根据修正后的发射矩阵对所述待分词语料进行分词处理,得到第一分词结果。
在第三方面,本发明实施例提供了一种服务器,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例所述的基于人工智能的分词方法。
在第四方面,本发明实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行本发明实施例所述的基于人工智能的分词方法。
本发明实施例提供了一种基于人工智能的分词方法、装置、服务器和存储介质,通过先获取待分词语料以及与设定分词模板对应的分词模型,然后根据设定匹配算法,匹配待分词语料与分词模型,获取待分词语料中满足第一设定规则的目标词组,再根据目标词组修正与分词模型和待分词语料对应的发射矩阵,最后根据修正后的发射矩阵对待分词语料进行分词处理,得到第一分词结果,解决了现有技术中针对专业领域或特定场景,对文本进行分词的过程繁琐以及准确度低的技术缺陷,实现了快速、简单以及准确地针对专业领域或特定场景对文本进行分词。
附图说明
图1是本发明实施例一提供的一种基于人工智能的分词方法的流程图;
图2是本发明实施例二提供的一种基于人工智能的分词方法的流程图;
图3是本发明实施例三提供的一种基于人工智能的分词方法的流程图;
图4是本发明实施例四提供的一种基于人工智能的分词装置的结构图;
图5是本发明实施例五中的一种服务器的结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。
另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1为本发明实施例一提供的一种基于人工智能的分词方法的流程图,本实施例的方法可以由基于人工智能的分词装置来执行,该装置可通过硬件和/或软件的方式实现,并一般可集成于提供分词服务的服务器中。本实施例的方法具体包括:
110、获取待分词语料以及与设定分词模板对应的分词模型。
在本实施例中,设定分词模板具体是指分词方法符合专业领域要求或是特定场景要求的已分词语料。
本领域技术人员可以理解的是,现有的分词模型一般都是通用分词模型,通用分词模型对日常用语,常用词组等内容的分词结果较为准确,但是,对于专业领域的专业词组以及某些特定场景下的特有分词难以进行准确地划分,因此,本实施例中使用了与设定分词模板对应的分词模型对待分词语料进行分词处理,以使分词结果与设定分词模板一致。
在本实施例中,设定分词模板对应的分词模型具体是指根据设定分词模板的分词方法对现有分词模型的模型参数进行修正后得到的分词模型,其中,分词模型的模型参数的修正方法典型的可以是:增量训练法等修正方法。
在本实施例中,待分词语料具体可以是演讲稿、论文或会议资料等,本实施例对此不进行限制。获取待分词语料的方法具体可以是用户直接输入待分词语料,还可以是根据用户输入的链接地址从相应的服务器中下载待分词语料等,本实施例对此不进行限制。
120、根据设定匹配算法,匹配待分词语料与分词模型,获取待分词语料中满足第一设定规则的目标词组。
在本实施例中,匹配待分词语料与分词模型实际上是将待分词语料与设定分词模板进行匹配,由于分词模型的模型参数中体现了设定分词模板的全部分词方法,所以,可以通过匹配待分词语料与分词模型,实现待分词语料与设定分词模板的匹配。
在本实施例中,设定匹配算法具体可以是正向最大匹配算法、逆向最大匹配算法或双向匹配算法等,本实施例对此不进行限制。第一设定规则具体是指目标词组包含汉字的个数的取值范围,典型的可以是:包含的汉字个数应大于等于4等。
本领域技术人员可以理解的是,一般来说,针对专业领域或特定场景的分词方式与常用的分词方式的区别主要体现在一些多字词组的划分上,因此,在本实施例中,并不获取待分词语料中所有与设定分词模版相匹配的词组,而是只获取待分词语料中与设定分词模版相匹配的,且满足第一设定规则的词组,即目标词组。
在一个具体的例子中,设定分词模板为生物词典,分词模型为与生物词典对应的分词模型,待分词语料为一份与生物演化相关的演讲稿,根据正向最大匹配算法,将该演讲稿与分词模型进行匹配,获取该演讲稿中与生物词典中的词组一致的,且包含的字数大于4的词组。
另外,当第一设定规则为目标词组为所包含的汉字个数最多的词组,也就是说,根据设定匹配算法匹配待分词语料和设定分词模板所获得的匹配结果中,选取包含汉字个数最多的词组作为目标词组。一般来说,词组与词组之间存在有交叠现象,因此,在分词过程中会存在分词冲突的问题,如果将第一设定规则设置为目标词组为所包含的汉字个数最多的词组,则在对待分词语料进行分词时,所使用的马尔可夫解码的过程可以根据矩阵权值解出最优序列,从而解决冲突问题。
130、根据目标词组修正与分词模型和待分词语料对应的发射矩阵。
在本实施例中,在获取待分词语料和分词模型之后,首先会生成一个与待分词语料和分词模型对应的发射矩阵,然后,对目标词组在发射矩阵中的对应权值进行修正。
一般来说,使用与设定分词模板对应的分词模型进行分词处理后,所得到的分词结果与设定分词模板具有较高的一致性,但是对于包含字数较多的词组也可能出现分词错误的现象,因此,在本实施例中,根据目标词组对发射矩阵进行修正,以提高分词结果的准确度。
本领域技术人员可以理解的是,在使用分词模型对待分词语句进行分词处理的过程中,所生成的发射矩阵的行数一般为4行,分别对应字的4个标签,即开头、中间、结尾和单字词,列数一般为待分词语句所包含的汉字的个数,在本实施例中,发射矩阵的属性与此相同。
在本实施例中,根据目标词组修正发射矩阵的具体过程可以是:确定目标词组中各汉字的标签,即判断各汉字是目标词组的开头字、中间字、结束字还是其本身就是一个词组,然后将发射矩阵中与各汉字的标签对应的权值进行修改。
进一步地,一般来说,为了获取更加准确的分词结果,对发射矩阵中的权值进行修正时,单次修正的数值一般不会很大,一般为1、2或3,但是,在本实施例中,为了对包含字数较多的词组进行准确的分词,可以加大权值的单次修正数值,可以是50、100等。
在一个具体的例子中,待分词语句为“一心一意做事”,那么,发射矩阵具体为如下形式:
Figure BDA0001321908780000071
如果“一心一意”为目标词组,那么修正后的发射矩阵为:
Figure BDA0001321908780000072
即“一心一意”中每个汉字对应标签的权值均增加了100。
140、根据修正后的发射矩阵对待分词语料进行分词处理,得到第一分词结果。
在本实施例中,对发射矩阵修正后,会根据分词模型的模型参数得到该分词模型的转移矩阵,然后根据修正后的发射矩阵和转移矩阵对待分词语料进行分词处理,得到第一分词结果。具体而言,可以是对修正后的发射矩阵和转移矩阵进行马尔可夫操作,并使用维特比算法对操作结果进行处理,得到第一分词结果。
本发明实施例一提供了一种基于人工智能的分词方法,通过先获取待分词语料以及与设定分词模板对应的分词模型,然后根据设定匹配算法,匹配待分词语料与分词模型,获取待分词语料中满足第一设定规则的目标词组,再根据目标词组修正与分词模型和待分词语料对应的发射矩阵,最后根据修正后的发射矩阵对待分词语料进行分词处理,得到第一分词结果,解决了现有技术中针对专业领域或特定场景,对文本进行分词的过程繁琐以及准确度低的技术缺陷,实现了快速、简单以及准确地针对专业领域或特定场景对文本进行分词。
实施例二
图2是本发明实施例二提供的一种基于人工智能的分词方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,将根据目标词组修正与分词模型和待分词语料对应的发射矩阵,具体化为:获取与分词模型和待分词语料对应的发射矩阵;确定目标词组中各汉字对应的修正参数;根据修正参数修正发射矩阵中各汉字对应的权值。
进一步地,将确定目标词组中各汉字对应的修正参数,具体化为:根据目标词组中各汉字在目标词组中的位置,确定各汉字对应的修正参数的标签,其中,标签包括开头、中间、结尾和单字词组;根据设定数值确定各汉字对应的修正参数的数值。
进一步地,将根据修正参数修正发射矩阵中与各汉字对应的权值,具体化为:根据标签确定发射矩阵中各汉字的待修正权值;根据修正参数的数值修正待修正权值。
进一步地,将根据修正参数的数值修正待修正权值,具体化为:对修正参数的数值与待修正权值的数值求和,将求和结果作为待修正权值修正后的数值。
相应的,本实施例的方法具体包括:
210、获取待分词语料以及与设定分词模板对应的分词模型。
220、根据设定匹配算法,匹配待分词语料与分词模型,获取待分词语料中满足第一设定规则的目标词组。
230、获取与分词模型和待分词语料对应的发射矩阵。
在本实施例中,发射矩阵的行数为4行,分别对应字的4个标签,即开头、中间、结尾和单字词,列数为待分词语料中的语句(不是全部的待分词语料)所包含的汉字的个数。
一般来说,分词模型在对待分词语料进行分词的过程中,不是一次将所有内容进行分词处理的,而是分多次进行分词处理的,这样可以减少分词过程中发射矩阵包含的数据量,进而减少内存的占用空间,比如每一次可以对待分词语料中的一行文字或多行文字进行分词处理。
240、根据目标词组中各汉字在目标词组中的位置,确定各汉字对应的修正参数的标签。
在本实施例中,各汉字在目标词组中的位置具体是指字的标签,即开头、中间、结尾或单字词,可以理解的是,当汉字是单字成词时,那么,该汉字在词组中的位置又是开头,又是中间同时也是结尾,因此,将此种情况进行了单独处理,增加了“单字词”标签。
在本实施例中,修正参数具体是指用于对各汉字在发射矩阵中对应的权值进行修正的数据。修正参数的标签具体可以是开头、中间、结尾或单字词,其与待修正汉字的标签一致,
250、根据设定数值确定各汉字对应的修正参数的数值。
在本实施例中,设定数值具体可以是50、80或100等,对于权值的修正数值来说,应是一个较大的数值,以确保目标词组被准确进行分词。
260、根据标签确定发射矩阵中各汉字的待修正权值。
在本实施例中,各汉字的待修正权值具体是指发射矩阵中,各汉字所在列中,属性与该汉字的标签一致的数据。
270、对修正参数的数值与待修正权值的数值求和,将求和结果作为待修正权值修正后的数值。
在本实施例中,在确定发射矩阵中各汉字的待修正权值,将修正参数的数值与待修正权值的数值相加,将求和结果作为待修正权值的数值。
280、根据修正后的发射矩阵对待分词语料进行分词处理,得到第一分词结果。
本发明实施例二提供了一种基于人工智能的分词方法,具体化了发射矩阵的修正方法,将发射矩阵中与目标词组中各汉字的标签对应的权值进行大幅度的增加,得到了分词准确度更高的发射矩阵。利用该方法可以得到权值能够显著反应汉字及其所在词组与设定分词模型的相关性的发射矩阵,由此,使得分词结果与设定分词模板高度一致,提高了专业领域或特定场景下分词的准确度,另外,由于是通过干预发射矩阵的权值影响分词结果,而不是通过对分词结果进行后处理,所以大部分的分词边界和分词结果不受影响,提高了分词的稳定性。
实施例三
图3是本发明实施例三提供的一种基于人工智能的分词方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,在获取待分词语料以及与设定分词模板对应的分词模型之前,具体化为:使用分词模型对设定分词模板进行分词处理,得到第二分词结果;根据第二设定规则比较第二分词结果和设定分词模板,获取更新参数;根据更新参数,修正分词模型;根据修正后的分词模型和设定分词模板生成与设定分词模板对应的分词模型。
进一步地,将根据修正后的发射矩阵对待分词语料进行分词处理,得到第一分词结果,具体化为:获取分词模型对应的转移矩阵;对转移矩阵和修正后的发射矩阵进行马尔可夫解码,得到第一分词结果。
相应的,本实施例的方法具体包括:
310、使用分词模型对设定分词模板进行分词处理,得到第二分词结果。
在本实施例中,与设定分词模板对应的分词模型的获取方式为,首先,使用原有的分词模型对设定分词模型进行分词处理,进而得到第二分词结果。
在本实施例中,使用分词模型对设定分词模板进行分词处理的方法可以是:首先根据分词模型和设定分词模板获取发射矩阵和转移矩阵,然后,对发射矩阵和转移矩阵进行马尔可夫解码,进而获得第二分词结果。
320、根据第二设定规则比较第二分词结果和设定分词模板,获取更新参数。
在本实施例中,第二设定规则具体可以是随机梯度下降法等。更新参数具体是指分词模型的各个模型参数需要更正的数值。
330、根据更新参数,修正分词模型。
在本实施例中,在获取更新参数之后,会根据更新参数对分词模型的模型参数进行修正,实现对分词模型的修正,修正后的分词模型不但可以实现原有分词模型的分词效果,同时还可以实现对设定分词模板中的词组的准确分词。
340、根据修正后的分词模型和设定分词模板生成与设定分词模板对应的分词模型。
在本实施例中,生成与设定分词模板对应的分词模型的方法具体可以是将设定分词模板的特征权值与修正后的分词模板的模型参数合并,但是各自的数值不做任何改变,由此获得与设定分词模板对应的分词模型的模型参数,根据该模型参数可进而获得与设定分词模板对应的分词模型。
其中,设定分词模板的特征权值具体可以是在步骤310中获取的,当需要根据分词模型和设定分词模板获取发射矩阵和转移矩阵时,首先需要获取设定分词模板的特征权值,根据设定分词模板的特征权值才可生成发射矩阵。
在一个具体的例子中,设定分词模板的特征权值用矩阵
Figure BDA0001321908780000121
表示,修正后的分词模型的模型参数用矩阵
Figure BDA0001321908780000122
表示,那么,与设定分词模板对应的分词模型的模型参数为
Figure BDA0001321908780000123
350、获取待分词语料以及与设定分词模板对应的分词模型。
360、根据设定匹配算法,匹配待分词语料与分词模型,获取待分词语料中满足第一设定规则的目标词组。
370、根据目标词组修正与分词模型和待分词语料对应的发射矩阵。
380、获取分词模型对应的转移矩阵。
在本实施例中,转移矩阵具体是指根据分词模型的模型参数得到的,用于与发射矩阵共同对待分词语料进行分词处理的概率矩阵。转移矩阵表示了各个汉字的标签转化概率以及各个汉字的标签概率,具体而言,各个汉字的标签转化概率具体是指汉字的标签从开头转化为中间的概率、从中间转化为结尾的概率、从结尾转化为中间的概率以及从开头转化为单字词的概率等,各个汉字的标签概率具体是指各汉字的标签为开头的概率、标签为中间的概率、标签为结尾份概率以及标签为单字词的概率。
390、对转移矩阵和修正后的发射矩阵进行马尔可夫解码,得到第一分词结果。
在本实施例中,对转移矩阵和修正后的发射矩阵进行马尔可夫解码具体可以是利用维特比解码算法,从发射矩阵和转移矩阵中解码出汉字的最优序列,得到第一分词结果。
本发明实施例三提供了一种基于人工智能的分词方法,具体化了与设定分词模板对应的分词模型的获取方法,利用增量训练的方法增加了分词模型中与设定分词模板一致的词组的泛化能力,快速、简便地得到了与设定分词模板对应的分词模型,同时,还具体化了第一分词结果的获取方法,使用马尔可夫解码可以准确地获取分词结果。利用该方法无需使用大量训练语料对通用分词模型进行重新训练,而是通过增量训练即可快速地得到符合专业领域或特定场景的分词需求的通用分词模型,且后续配合使用对发射矩阵的权值干预,因此分词结果的准确度还会高于通过重新训练得到的分词模型的分词准确度。
实施例四
图4是本发明实施例四提供的一种基于人工智能的分词装置的结构图。如图4所示,所述装置包括:模型获取模块401、词组获取模块402、矩阵修正模块403和分词处理模块404。其中:
模型获取模块401,用于获取待分词语料以及与设定分词模板对应的分词模型;
词组获取模块402,用于根据设定匹配算法,匹配待分词语料与分词模型,获取待分词语料中满足第一设定规则的目标词组;
矩阵修正模块403,用于根据目标词组修正与分词模型和待分词语料对应的发射矩阵;
分词处理模块404,用于根据修正后的发射矩阵对待分词语料进行分词处理,得到第一分词结果。
本发明实施例四提供了一种基于人工智能的分词装置,通过先获取待分词语料以及与设定分词模板对应的分词模型,然后根据设定匹配算法,匹配待分词语料与分词模型,获取待分词语料中满足第一设定规则的目标词组,再根据目标词组修正与分词模型和待分词语料对应的发射矩阵,最后根据修正后的发射矩阵对待分词语料进行分词处理,得到第一分词结果,解决了现有技术中针对专业领域或特定场景,对文本进行分词的过程繁琐以及准确度低的技术缺陷,实现了快速、简单以及准确地针对专业领域或特定场景对文本进行分词。
在上述各实施例的基础上,矩阵修正模块可以包括:
发射矩阵获取单元,用于获取与分词模型和待分词语料对应的发射矩阵;
修正参数确定单元,用于确定目标词组中各汉字对应的修正参数;
权值修正单元,用于根据修正参数修正发射矩阵中各汉字对应的权值。
在上述各实施例的基础上,修正参数确定单元可以包括:
标签确定子单元,用于根据目标词组中各汉字在目标词组中的位置,确定各汉字对应的修正参数的标签,其中,标签包括开头、中间、结尾和单字词组;
数值确定子单元,用于根据设定数值确定各汉字对应的修正参数的数值。
在上述各实施例的基础上,权值修正单元可以包括:
待修正权值确定子单元,用于根据标签确定发射矩阵中各汉字的待修正权值;
修正权值子单元,用于根据修正参数的数值修正待修正权值。
在上述各实施例的基础上,修正权值子单元具体可以用于:
对修正参数的数值与待修正权值的数值求和,将求和结果作为待修正权值修正后的数值。
在上述各实施例的基础上,还可以包括:
第二分词结果获取模块,用于在获取待分词语料以及与设定分词模板对应的分词模型之前,使用分词模型对设定分词模板进行分词处理,得到第二分词结果;
更新参数获取模块,用于根据第二设定规则比较第二分词结果和设定分词模板,获取更新参数;
模型更新模块,用于根据更新参数,修正分词模型;
分词模型生成模块,用于根据修正后的分词模型和设定分词模板生成与设定分词模板对应的分词模型。
在上述各实施例的基础上,分词处理模块可以包括:
转移矩阵获取单元,用于获取分词模型对应的转移矩阵;
第一分词结果获取单元,用于对转移矩阵和修正后的发射矩阵进行马尔可夫解码,得到第一分词结果。
本发明实施例所提供的基于人工智能的分词装置可用于执行本发明任意实施例提供的基于人工智能的分词方法,具备相应的功能模块,实现相同的有益效果。
实施例五
图5为本发明实施例五提供的一种服务器的结构示意图。图5示出了适于用来实现本发明实施方式的示例性服务器12的框图。图5显示的服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,服务器12以通用计算设备的形式表现。服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该服务器12交互的设备通信,和/或与使得该服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的基于人工智能的分词方法,所述基于人工智能的分词方法包括:
获取待分词语料以及与设定分词模板对应的分词模型;
根据设定匹配算法,匹配所述待分词语料与所述分词模型,获取所述待分词语料中满足第一设定规则的目标词组;
根据所述目标词组修正与所述分词模型和所述待分词语料对应的发射矩阵;
根据修正后的发射矩阵对所述待分词语料进行分词处理,得到第一分词结果。
实施例六
本发明实施例六还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行本发明实施例所述的基于人工智能的分词方法,所述基于人工智能的分词方法包括:
获取待分词语料以及与设定分词模板对应的分词模型;
根据设定匹配算法,匹配所述待分词语料与所述分词模型,获取所述待分词语料中满足第一设定规则的目标词组;
根据所述目标词组修正与所述分词模型和所述待分词语料对应的发射矩阵;
根据修正后的发射矩阵对所述待分词语料进行分词处理,得到第一分词结果。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种基于人工智能的分词方法,其特征在于,包括:
获取待分词语料以及与设定分词模板对应的分词模型;
根据设定匹配算法,匹配所述待分词语料与所述分词模型,获取所述待分词语料中满足第一设定规则的目标词组;所述第一设定规则为目标词组包含汉字的个数的取值范围;
根据所述目标词组修正与所述分词模型和所述待分词语料对应的发射矩阵;
根据修正后的发射矩阵对所述待分词语料进行分词处理,得到第一分词结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标词组修正与所述分词模型和所述待分词语料对应的发射矩阵,包括:
获取与所述分词模型和所述待分词语料对应的发射矩阵;
确定所述目标词组中各汉字对应的修正参数;
根据所述修正参数修正所述发射矩阵中所述各汉字对应的权值。
3.根据权利要求2所述的方法,其特征在于,所述确定所述目标词组中各汉字对应的修正参数,包括:
根据所述目标词组中各汉字在所述目标词组中的位置,确定所述各汉字对应的修正参数的标签,其中,所述标签包括开头、中间、结尾和单字词组;
根据设定数值确定所述各汉字对应的修正参数的数值。
4.根据权利要求3所述的方法,其特征在于,所述根据所述修正参数修正所述发射矩阵中与所述各汉字对应的权值,包括:
根据所述标签确定所述发射矩阵中所述各汉字的待修正权值;
根据所述修正参数的数值修正所述待修正权值。
5.根据权利要求4所述的方法,其特征在于,所述根据所述修正参数的数值修正所述待修正权值,包括:
对所述修正参数的数值与所述待修正权值的数值求和,将求和结果作为所述待修正权值修正后的数值。
6.根据权利要求1所述的方法,其特征在于,在所述获取待分词语料以及与设定分词模板对应的分词模型之前,还包括:
使用所述分词模型对所述设定分词模板进行分词处理,得到第二分词结果;
根据第二设定规则比较所述第二分词结果和所述设定分词模板,获取更新参数;
根据所述更新参数,修正所述分词模型;
根据修正后的分词模型和所述设定分词模板生成与所述设定分词模板对应的分词模型。
7.根据权利要求1所述的方法,其特征在于,所述根据修正后的发射矩阵对所述待分词语料进行分词处理,得到第一分词结果,包括:
获取所述分词模型对应的转移矩阵;
对所述转移矩阵和修正后的发射矩阵进行马尔可夫解码,得到第一分词结果。
8.一种基于人工智能的分词装置,其特征在于,包括:
模型获取模块,用于获取待分词语料以及与设定分词模板对应的分词模型;
词组获取模块,用于根据设定匹配算法,匹配所述待分词语料与所述分词模型,获取所述待分词语料中满足第一设定规则的目标词组;所述第一设定规则为目标词组包含汉字的个数的取值范围;
矩阵修正模块,用于根据所述目标词组修正与所述分词模型和所述待分词语料对应的发射矩阵;
分词处理模块,用于根据修正后的发射矩阵对所述待分词语料进行分词处理,得到第一分词结果。
9.一种服务器,其特征在于,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的基于人工智能的分词方法。
10.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的基于人工智能的分词方法。
CN201710448749.6A 2017-06-14 2017-06-14 基于人工智能的分词方法、装置、服务器和存储介质 Active CN107273356B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710448749.6A CN107273356B (zh) 2017-06-14 2017-06-14 基于人工智能的分词方法、装置、服务器和存储介质
US15/934,410 US10650096B2 (en) 2017-06-14 2018-03-23 Word segmentation method based on artificial intelligence, server and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710448749.6A CN107273356B (zh) 2017-06-14 2017-06-14 基于人工智能的分词方法、装置、服务器和存储介质

Publications (2)

Publication Number Publication Date
CN107273356A CN107273356A (zh) 2017-10-20
CN107273356B true CN107273356B (zh) 2020-08-11

Family

ID=60067157

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710448749.6A Active CN107273356B (zh) 2017-06-14 2017-06-14 基于人工智能的分词方法、装置、服务器和存储介质

Country Status (2)

Country Link
US (1) US10650096B2 (zh)
CN (1) CN107273356B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832301B (zh) * 2017-11-22 2021-09-17 北京百度网讯科技有限公司 分词处理方法、装置、移动终端及计算机可读存储介质
CN108491373B (zh) * 2018-02-01 2022-05-27 北京百度网讯科技有限公司 一种实体识别方法及系统
CN111353308A (zh) * 2018-12-20 2020-06-30 北京深知无限人工智能研究院有限公司 命名实体识别方法、装置、服务器及存储介质
CN109858025B (zh) * 2019-01-07 2023-06-13 鼎富智能科技有限公司 一种地址标准化语料的分词方法及系统
CN112579869B (zh) * 2019-09-29 2022-02-01 北京星选科技有限公司 对象提取方法、装置、电子设备及存储介质
CN111079421B (zh) * 2019-11-25 2023-09-26 北京小米智能科技有限公司 一种文本信息分词处理的方法、装置、终端及存储介质
CN111177402B (zh) * 2019-12-13 2023-09-22 中移(杭州)信息技术有限公司 基于分词处理的评价方法、装置、计算机设备及存储介质
CN111353309A (zh) * 2019-12-25 2020-06-30 北京合力亿捷科技股份有限公司 基于文本分析处理通信质量投诉地址的方法及系统
CN112560912B (zh) * 2020-12-03 2023-09-26 北京百度网讯科技有限公司 分类模型的训练方法、装置、电子设备和存储介质
CN112199952B (zh) * 2020-12-04 2021-03-23 支付宝(杭州)信息技术有限公司 一种分词方法、多模式分词模型和系统
CN112818031B (zh) * 2021-01-26 2023-10-27 国网江苏省电力有限公司营销服务中心 基于nlp中文分词技术的潜在高耗能企业挖掘方法、系统及存储介质
CN114936554B (zh) * 2022-05-12 2024-08-16 深圳市普渡科技有限公司 分词方法、系统及装置
CN115146630B (zh) * 2022-06-08 2023-05-30 平安科技(深圳)有限公司 基于专业领域知识的分词方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101118538A (zh) * 2007-09-17 2008-02-06 中国科学院计算技术研究所 中文命名实体中特征词项的识别方法和系统
CN103678318A (zh) * 2012-08-31 2014-03-26 富士通株式会社 多词单元提取方法和设备及人工神经网络训练方法和设备
CN104462758A (zh) * 2014-11-03 2015-03-25 百度在线网络技术(北京)有限公司 观测字符串的标注序列生成方法及装置
CN105068999A (zh) * 2015-08-14 2015-11-18 浪潮集团有限公司 一种修正实体词识别的方法和装置
CN105373529A (zh) * 2015-10-28 2016-03-02 甘肃智呈网络科技有限公司 一种基于隐马尔科夫模型的智能分词方法
CN105912524A (zh) * 2016-04-09 2016-08-31 北京交通大学 基于低秩矩阵分解的文章话题关键词提取方法和装置
CN105931271A (zh) * 2016-05-05 2016-09-07 华东师范大学 一种基于变分bp-hmm的人的行为轨迹识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5822731A (en) * 1995-09-15 1998-10-13 Infonautics Corporation Adjusting a hidden Markov model tagger for sentence fragments
US5873076A (en) * 1995-09-15 1999-02-16 Infonautics Corporation Architecture for processing search queries, retrieving documents identified thereby, and method for using same
TW201403354A (zh) * 2012-07-03 2014-01-16 Univ Nat Taiwan Normal 以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法
US20160125439A1 (en) * 2014-10-31 2016-05-05 The Nielsen Company (Us), Llc Methods and apparatus to correct segmentation errors
US10402734B2 (en) * 2015-08-26 2019-09-03 Google Llc Temporal based word segmentation

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101118538A (zh) * 2007-09-17 2008-02-06 中国科学院计算技术研究所 中文命名实体中特征词项的识别方法和系统
CN103678318A (zh) * 2012-08-31 2014-03-26 富士通株式会社 多词单元提取方法和设备及人工神经网络训练方法和设备
CN104462758A (zh) * 2014-11-03 2015-03-25 百度在线网络技术(北京)有限公司 观测字符串的标注序列生成方法及装置
CN105068999A (zh) * 2015-08-14 2015-11-18 浪潮集团有限公司 一种修正实体词识别的方法和装置
CN105373529A (zh) * 2015-10-28 2016-03-02 甘肃智呈网络科技有限公司 一种基于隐马尔科夫模型的智能分词方法
CN105912524A (zh) * 2016-04-09 2016-08-31 北京交通大学 基于低秩矩阵分解的文章话题关键词提取方法和装置
CN105931271A (zh) * 2016-05-05 2016-09-07 华东师范大学 一种基于变分bp-hmm的人的行为轨迹识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A cascaded linear model for joint chinese word segmentation and part-of-speech tagging;Jiang Wenbin 等;《Proceedings of ACL-08: HLT》;20080630;第897-904页 *
Automatic segmentation of text into structured records;Borkar Vinayak 等;《ACM SIGMOD Record》;20010524;第30卷;第175-186页 *
乔永波.规则与统计相结合的中文命名实体识别.《中国优秀硕士学位论文全文数据库 信息科技辑》.2007,(第03期), *
基于VSM的文本分类系统的设计和实现;孔振;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150215(第02期);第I138-1509页 *
规则与统计相结合的中文命名实体识别;乔永波;《中国优秀硕士学位论文全文数据库 信息科技辑》;20070915(第03期);正文第16-31页第3章及图3-3 *

Also Published As

Publication number Publication date
US10650096B2 (en) 2020-05-12
US20180365217A1 (en) 2018-12-20
CN107273356A (zh) 2017-10-20

Similar Documents

Publication Publication Date Title
CN107273356B (zh) 基于人工智能的分词方法、装置、服务器和存储介质
US20240054767A1 (en) Multi-modal Model Training Method, Apparatus and Device, and Storage Medium
CN110717039B (zh) 文本分类方法和装置、电子设备、计算机可读存储介质
US10664666B2 (en) Language conversion method and device based on artificial intelligence and terminal
CN110795938B (zh) 文本序列分词方法、装置及存储介质
CN107291692B (zh) 基于人工智能的分词模型的定制方法、装置、设备和介质
CN107273357B (zh) 基于人工智能的分词模型的修正方法、装置、设备和介质
CN108090043B (zh) 基于人工智能的纠错举报处理方法、装置及可读介质
CN107221328B (zh) 修改源的定位方法及装置、计算机设备及可读介质
CN109710951B (zh) 基于翻译历史的辅助翻译方法、装置、设备及存储介质
CN109858045B (zh) 机器翻译方法和装置
US11126797B2 (en) Toxic vector mapping across languages
WO2022174496A1 (zh) 基于生成模型的数据标注方法、装置、设备及存储介质
CN110826345B (zh) 一种机器翻译方法和装置
CN113743101B (zh) 文本纠错方法、装置、电子设备和计算机存储介质
EP4060526A1 (en) Text processing method and device
RU2712101C2 (ru) Предсказание вероятности появления строки с использованием последовательности векторов
CN111597807B (zh) 分词数据集生成方法、装置、设备及其存储介质
CN109657127B (zh) 一种答案获取方法、装置、服务器及存储介质
CN111274793B (zh) 一种文本处理方法、装置以及计算设备
CN109753976B (zh) 语料标注装置和方法
WO2020052060A1 (zh) 用于生成修正语句的方法和装置
CN115169330B (zh) 中文文本纠错及验证方法、装置、设备及存储介质
CN115906854A (zh) 一种基于多级对抗的跨语言命名实体识别模型训练方法
CN114372467A (zh) 命名实体抽取方法及装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant