CN113378562B - 分词处理方法、装置、计算设备及存储介质 - Google Patents

分词处理方法、装置、计算设备及存储介质 Download PDF

Info

Publication number
CN113378562B
CN113378562B CN202010163540.7A CN202010163540A CN113378562B CN 113378562 B CN113378562 B CN 113378562B CN 202010163540 A CN202010163540 A CN 202010163540A CN 113378562 B CN113378562 B CN 113378562B
Authority
CN
China
Prior art keywords
word
word segmentation
segmentation
statistical model
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010163540.7A
Other languages
English (en)
Other versions
CN113378562A (zh
Inventor
姜荣鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Liaoning Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Liaoning Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Liaoning Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202010163540.7A priority Critical patent/CN113378562B/zh
Publication of CN113378562A publication Critical patent/CN113378562A/zh
Application granted granted Critical
Publication of CN113378562B publication Critical patent/CN113378562B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/387Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Library & Information Science (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种分词处理方法、装置、计算设备及存储介质,方法包括:基于平均感知器算法对语料库中的语料样本进行训练,得到第一分词统计模型;其中,将每一次训练后得到的参数权值求平均值,将平均值作为第一分词统计模型中的参数权值;统计第一分词统计模型中各个特征的权重,根据统计结果确定权重阈值,将权重小于权重阈值的特征从第一分词统计模型中删除,得到第二分词统计模型;当接收到待分词文件数据时,利用第二分词统计模型对待分词文件数据完成分词匹配处理。通过上述方式,本发明能够节省训练模型的时间和资源,同时在不影响模型的性能的情况下减小了模型文件的大小。

Description

分词处理方法、装置、计算设备及存储介质
技术领域
本发明涉及数据处理技术领域,具体涉及一种分词处理方法、装置、计算设备及存储介质。
背景技术
分词是将连续的字序列按照一定的规范重新组合成词序列的过程,与英文不同的是,在中文中词和词之间没有明显的分隔符,但是在文本的处理中,计算机处理的最小单元一般是词语,因此中文分词成为了中文搜索的基础工作,中文分词结果的好坏将直接影响到后续相关任务的最终效果。
现有技术中,中文分词方法可大体分为以下三类:
第一类:基于词典的中文分词的方法。基于词典的中文分词的方法需要构建一个词典,其中包含常用的词语。对文本分词时根据不同的匹配规则将文本与词典内容进行匹配,然后对文本进行切分完成分词操作。其中比较有代表性的基于词典的分词方法有正向最大匹配、逆向最大匹配、双向匹配算法以及N-最短路径分词算法等。
第二类:基于规则的中文分词方法。基于规则的方法从语言学角度出发,通过分析句子的语义来实现对文本的切分,具体实现则利用专家系统,专家系统主要有两部分构成,一部分是独立的知识库,另一部分是一个推理机。系统将分词的过程转变为知识的推理过程,也就是所谓的句子“分词树”的生长过程。
第三类:基于统计的中文分词方法。基于统计的分词法的基本原理是根据字符串在语料库中出现的统计频率来决定其是否构成词。词是字的组合,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映它们成为词的可信度。基于大规模语料库的统计学习方法已经成为中文分词的主流方法,常用的统计机器模型包括隐马尔可夫模型、最大熵模型、条件随机场模型等。隐马尔可夫模型使用的语料集需要进行预处理,将句子中的词与词用空格符切分开来。
对于一个中文字符串S,它的切分方式为:w1,w2,w3,……,wn,隐马尔可夫模型计算的就是字符串S被切分为w1,w2,w3,……,wn的概率P(S)=P(w1,w2,w3,……,wn),对于句子中词语每个词语wi,隐马尔科夫模型假定wi出现的概率与其前i-1个词语有关,并且概率值使用条件概率公式:
更进一步地,将上述公示演变为如下的形式:
每一个词语wi出现的概率由该词语前面的第i-1个词语的概率决定的,这是隐马尔可夫模型的核心思想,即用已知的条件来推测未知的,最终选择概率最大的一种组合作为最终的分词结果。
但是,发明人在实现本发明的过程中发现现有技术至少存在以下不足:
第一,基于词典的中文分词方法是一种“机械的”分词方法,只是单纯地在词典中进行中文字符串的匹配工作,某个字符串在词典中如果匹配到了,可确定它是一个词语;如果匹配不到,便认为它不是一个词语,过于依赖词典;并且,没有考虑词语与词语之间的关系,也没有进行语法方面的匹配,很容易出现导致分词的结果存在较大的歧义。
第二,基于规则的中文分词方法首先需要构建一个规模巨大的知识库,而这是一个非常耗时、非常困难的任务。此外,推理的过程涉及到人工智能中的很多技术,要实现完全的自动推理面临很多目前无法解决的困难。
第三,基于统计的中文分词方法使用到了大规模语料库,但信息的膨胀给相关的语料的处理技术提出了新的挑战,初次使用原始预料完成统计模型的训练后,再使用新的训练语料改进原有模型将会非常困难,解决这一问题的方法就是使用所有语料重新训练模型。但是随着信息的规模极速扩大、信息量急速增加,使用所有语料完全重新训练模型将会浪费大量的资源和时间。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的分词处理方法、装置、计算设备及存储介质。
根据本发明的一个方面,提供了一种分词处理方法,包括:
基于平均感知器算法对语料库中的语料样本进行训练,得到第一分词统计模型;其中,将每一次训练后得到的参数权值求平均值,将平均值作为第一分词统计模型中的参数权值;
统计第一分词统计模型中各个特征的权重,根据统计结果确定权重阈值,将权重小于权重阈值的特征从第一分词统计模型中删除,得到第二分词统计模型;
当接收到待分词文件数据时,利用第二分词统计模型对待分词文件数据完成分词匹配处理。
可选地,方法进一步包括:
当存在增量语料时,基于平均感知器算法对增量语料进行训练,得到增量分词统计模型;
将增量分词统计模型与第二分词统计模型进行融合,得到第三分词统计模型;
则当接收到待分词文件数据时,利用第二分词统计模型对待分词文件数据完成分词匹配处理进一步包括:
当接收到待分词文件数据时,利用第三分词统计模型对待分词文件数据完成分词匹配处理。
可选地,基于平均感知器算法对语料库中的语料样本进行训练进一步包括:
将语料样本划分为各个互不相交的样本子集,在各个样本子集上并行训练得到多个子模型;
每一轮迭代结束之后,根据融合系数对多个子模型的参数进行融合,并利用融合后的参数对多个子模型的参数进行更新,以便多个子模型使用更新后的参数进行下一次迭代。
可选地,利用第二分词统计模型对待分词文件数据完成分词匹配处理之前,方法进一步包括:
对待分词文件数据进行文档解析处理以及进行格式转换处理;
其中,文档解析处理包括以下中的一种或多种:非空检验处理、有效性校验处理、不合规数据的剔除处理。
可选地,利用第二分词统计模型对待分词文件数据完成分词匹配处理具体包括:
对待分词文件数据所包含的文本进行原子切分,得到各个原子切分词;
按照预设的合并处理规则各个原子切分词进行合并,得到分词匹配结果。
可选地,按照预设的合并处理规则各个原子切分词完成合并进一步包括:
根据各个原子切分词在核心词库的状态以及预设的词关联表对各个原子切分词进行词语的合并处理;和/或
根据预设的词库对各个原子切分词进行词语的合并处理;其中,预设的词库包括以下中的一个或多个:英文词库、繁简词库、数字词库、人名词库。
可选地,利用第二分词统计模型对待分词文件数据完成分词匹配处理进一步包括:
分别基于词典的正向最长逐字匹配算法和逆向最长逐字匹配算法将待分词文件数据所包含的文本切分为多个字串;
则方法进一步包括:
将正向最长逐字匹配算法切分的字串及其数量,以及逆向最长逐字匹配算法切分的字串及其数量进行比对,根据比对结果确定是否存在歧义字段;
若是,则根据歧义字段的链长采取相应的方式切分歧义词串,确定歧义字段的分词结果。
根据本发明的另一方面,提供了一种分词处理装置,包括:
感知器训练模块,适于基于平均感知器算法对语料库中的语料样本进行训练,得到第一分词统计模型;其中,将每一次训练后得到的参数权值求平均值,将平均值作为第一分词统计模型中的参数权值;
统计第一分词统计模型中各个特征的权重,根据统计结果确定权重阈值,将权重小于权重阈值的特征从第一分词统计模型中删除,得到第二分词统计模型;
分词匹配模块,适于当接收到待分词文件数据时,利用第二分词统计模型对待分词文件数据完成分词匹配处理。
可选地,感知器训练模块进一步适于:
当存在增量语料时,基于平均感知器算法对增量语料进行训练,得到增量分词统计模型;将增量分词统计模型与第二分词统计模型进行融合,得到第三分词统计模型;
则分词匹配模块进一步适于:当接收到待分词文件数据时,利用第三分词统计模型对待分词文件数据完成分词匹配处理。
可选地,感知器训练模块进一步适于:将语料样本划分为各个互不相交的样本子集,在各个样本子集上并行训练得到多个子模型;
每一轮迭代结束之后,根据融合系数对多个子模型的参数进行融合,并利用融合后的参数对多个子模型的参数进行更新,以便多个子模型使用更新后的参数进行下一次迭代。
可选地,装置进一步包括:
预处理模块,适于对待分词文件数据进行文档解析处理以及进行格式转换处理;其中,文档解析处理包括以下中的一种或多种:非空检验处理、有效性校验处理、不合规数据的剔除处理。
可选地,分词匹配模块进一步适于:对待分词文件数据所包含的文本进行原子切分,得到各个原子切分词;
按照预设的合并处理规则各个原子切分词进行合并,得到分词匹配结果。
可选地,分词匹配模块进一步适于:根据各个原子切分词在核心词库的状态以及预设的词关联表对各个原子切分词进行词语的合并处理;和/或
根据预设的词库对各个原子切分词进行词语的合并处理;其中,预设的词库包括以下中的一个或多个:英文词库、繁简词库、数字词库、人名词库。
可选地,分词匹配模块进一步适于:分别基于词典的正向最长逐字匹配算法和逆向最长逐字匹配算法将待分词文件数据所包含的文本切分为多个字串;
装置进一步包括:歧义处理模块,适于将正向最长逐字匹配算法切分的字串及其数量,以及逆向最长逐字匹配算法切分的字串及其数量进行比对,根据比对结果确定是否存在歧义字段;若是,则根据歧义字段的链长采取相应的方式切分歧义词串,确定歧义字段的分词结果。
根据本发明的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述分词处理方法对应的操作。
根据本发明的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述分词处理方法对应的操作。
根据本发明公开的一种分词处理方法、装置、计算设备及存储介质,方法包括:基于平均感知器算法对语料库中的语料样本进行训练,得到第一分词统计模型;其中,将每一次训练后得到的参数权值求平均值,将平均值作为第一分词统计模型中的参数权值;统计第一分词统计模型中各个特征的权重,根据统计结果确定权重阈值,将权重小于权重阈值的特征从第一分词统计模型中删除,得到第二分词统计模型;当接收到待分词文件数据时,利用第二分词统计模型对待分词文件数据完成分词匹配处理。通过上述方式,由于采用的是在线算法,能够根据新增预料和原有模型进行增量训练就可得到性能更好的模型,节省训练模型的时间和资源,同时在不影响模型的性能的情况下减小了模型文件的大小,降低了对内存的需求,减少了运行时的内存需求和时间,同时能够克服由于学习频率过快所引起的训练过程中出现的震荡现象。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的分词处理方法流程图;
图2示出了本发明另一实施例提供的分词处理方法的流程图;
图3示出了本发明另一实施例提供的分词处理方法的流程图;
图4示出了本发明一个实施例中POI搜索处理的时序图;
图5示出了增量模型训练的流程示意图;
图6示出了本发明实施例提供的分词处理装置的结构示意图;
图7示出了本发明实施例提供的分词处理装置的结构示意图;
图8示出了本发明实施例提供的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1示出了本发明实施例提供的分词处理方法流程图,如图1所示,该方法包括以下步骤:
步骤S110,基于平均感知器算法对语料库中的语料样本进行训练,得到第一分词统计模型,其中,将每一次训练后得到的参数权值求平均值,将平均值作为第一分词统计模型中的参数权值。
本实施例的方法平均感知器算法来训练用于分词匹配的分词统计模型,平均感知器算法属于在线算法,在线算法的特点是更新参数时不需要一次使用所有训练数据,而是每次使用一个训练示例对参数进行更新,当存在增量语料时,根据增量语料和初始模型进行增量运算,就可以得到性能更优的模型。因此在面对大规模训练数据时有巨大的优势。
平均感知器算法和感知器算法的训练方法一样,不同的是每次训练样本后,保留每次训练后的参数权值,训练结束后对每次训练后的参数权值求平均值,用平均参数权值作为最终判别准则的权值,参数平均化可以克服由于学习频率过快所引起的训练过程中出现的震荡现象。
步骤S120,统计第一分词统计模型中各个特征的权重,根据统计结果确定权重阈值,将权重小于权重阈值的特征从第一分词统计模型中删除,得到第二分词统计模型。
在训练得到的第一分词统计模型中,有部分特征的权重较小,对计算结果的影响较小,基于此,本实施例的方法中采用删除特征的方式来压缩模型。具体地,设定压缩比例,然后统计第一分词统计模型的特征权重,根据设定的压缩比例确定一个权重阈值,将权重绝对值小于该权重阈值的特征从第一分词统计模型中删除。
本实施例的方法中,通过统计特征的权重进行压缩,将对计算结果影响较小的特征从模型中删除,在不显著影响性能的前提下,既可以减小模型文件的大小,还可以降低对内存的需求,减少运行时的内存需求和时间需求。
步骤S130,当接收到待分词文件数据时,利用第二分词统计模型对待分词文件数据完成分词匹配处理。
其中,待分词文件数据可以是文本文件等等,当接收到待分词文件数据时,利用第二分词统计模型对待分词文件数据完成分词匹配处理。
根据本发明实施例所提供的分词处理方法,该方式利用平均感知器算法对语料库中的预料样本训练分词统计模型,能够克服由于学习频率过快所引起的训练过程中出现的震荡现象,并且,由于平均感知器算法是在线算法,无需使用所有的预料样本,根据新增预料和原有模型进行增量训练就可得到性能更好的模型,节省训练模型的时间和资源。同时,通过删除分词统计模型中对计算结果影响较小的特征,能够在不影响性能的前提下,既减小了模型文件的大小,还降低了对内存的需求,减少了运行时的内存需求和时间。
图2示出了本发明另一实施例提供的分词处理方法的流程图,如图2所示,该方法包括以下步骤:
步骤S210,基于平均感知器算法对语料库中的语料样本进行训练,得到第一分词统计模型;其中,将每一次训练后得到的参数权值求平均值,将平均值作为第一分词统计模型中的参数权值。
首先介绍感知器算法,感知器算法是在线学习二分类算法,算法目标是学习得到一个线性分类面f(x)=wTX。对于新的样本,用f(x)的正负来判定它的类别标记。当f(x)>0时将x判定为正类,否则将x判定为负类。假设在t时刻,获取到新到达的训练样本及其标记(xi,yi),这里xi∈Rn,yi∈{±1}。yi=1表示xi属于正类,yi=-1表示xi属于负类。当前分类模型记为ft,模型参数记作wt。显然,当说明ft可以正确判定当前样本xt的类别;否则说明ft判定失败。
感知器算法如下:
(1)算法初始化:令w1=0
(2)For i=1,2,……n
(3)收到当前的训练样本(xi,yi)
(4)if
(5)wi+1=wi
(6)Else
(7)wi+1=wi+yixi
(8)End if
(9)End For
(10)算法输出:wi+1
平均感知器算法和感知器算法的训练方法一样,不同的是每次训练样本xi之后,保留先前训练权值{w1,w2,……wn},训练结束后平均所有权值,最终用平均权值作为最终判别准则的权值。参数平均化可以克服由于学习频率过快所引起的训练过程中出现的震荡现象。
平均感知器算法如下:
可选地,将语料样本划分为各个互不相交的样本子集,在各个样本子集上并行训练得到多个子模型,然后,将多个子模型进行融合。
例如,当语料库数据的规模较大时,将语料库数据划分为N个不相交的子集,并在N个不相交子集上并行训练多个子模型,最后对多个子模型进行融合得到最终的模型。基本思想是将训练集T划分为N个不相交的子集,即T={T1,T2,T3,……,TN},然后在每一个子集上使用感知器算法训练一个模型,最后对N个模型参数权重根据融合系数μ={μ123,……μN}进行加权求和得到最终的模型。
在本发明一种可选的实施方式中,可以根据融合系数直接进行参数融合,这种方式能够解决训练效率的问题。
在本发明另一种可选的实时方式中,可以在上述方式的基础上进行迭代参数融合,每一轮迭代结束之后,根据融合系数对多个子模型的参数进行融合,并利用融合后的参数对多个子模型的参数进行更新,以便多个子模型使用更新后的参数进行下一次迭代。这种方式能够保证得到一个对训练数据可分的模型,保证最终模型的性能。具体的算法如下:
For n……N
W(i,n)=OneEpochPerceptron(Ti,W)
步骤S220,统计第一分词统计模型中各个特征的权重,根据统计结果确定权重阈值,将权重小于权重阈值的特征从第一分词统计模型中删除,得到第二分词统计模型。
在训练得到的第一分词统计模型中,有部分特征的权重较小,对计算结果的影响较小,基于此,本实施例的方法中采用删除特征的方式来压缩模型。具体地,设定压缩比例,然后统计第一分词统计模型的特征权重,根据设定的压缩比例确定一个权重阈值,将权重绝对值小于该权重阈值的特征从第一分词统计模型中删除。
步骤S230,当存在增量语料时,基于平均感知器算法对增量语料进行训练,得到增量分词统计模型。
当存在增量语料时,再基于增量语料训练一个增量分词统计模型,具体的训练方式参见上述步骤S210-步骤S220,在此不进行赘述。
步骤S240,将增量分词统计模型与第二分词统计模型进行融合,得到第三分词统计模型。
然后,将增量分词统计模型与上述第二分词统计模型进行融合,得到一个性能更优的第三分词统计模型。
图5示出了增量模型训练的流程示意图,如图5所示,使用初始语料训练一个初始分词统计模型M1(相当于上述第二分词统计模型),当存在增量语料时,然后根据增量语料继续训练一个增量分词统计模型M,然后将增量统计分词模型M2和初始分词统计模型M1进行融合得到最终模型M(相当于第三分词统计模型)。
在对增量分词统计模型和初始分词统计模型进行融合时,采用下述参数融合方法:
其中,wi表示模型M中第i个特征fi的权重,w1,i表示特征fi在模型M1中的权重,w2,i表示特征fi在模型M2中的权重,p1表示模型M1在开发集上的性能,p2表示模型M2在开发集上的性能。
步骤S250,当接收到待分词文件数据时,对待分词文件数据进行文档解析处理以及进行格式转换处理,得到待分词文本文件。
接收到待分词文件数据文件之后,在分词处理之前对待分词文件数据文件进行预处理,具体包括文档解析处理和格式转换处理。其中,文档解析主要是对文档中各字段,如名称、分类、地址、行政区划、别名等,进行非空检验、有效性校验,将不符合规范的数据剔除;文档解析处理之后,再对处理后的待分词数据文件进行格式转换处理,例如将.csv文件、.xml文件,进行格式转换为.txt文件,为后续的分词匹配处理做准备。
步骤S260,利用第三分词统计模型,分别基于词典的正向最长逐字匹配算法和逆向最长逐字匹配算法将待分词文本文件中的文本切分为多个字串。
基于词典的正向最长逐字匹配算法和逆向最长逐字匹配算法分别对待分词文本文件中的文本进行处理,处理单元为句子,从而得到正向分词切分的多个字串,以及反向分词切分的多个字串。
步骤S270,将正向最长逐字匹配算法切分的字串及其数量,以及逆向最长逐字匹配算法切分的字串及其数量进行比对,根据比对结果确定是否存在歧义字段。
在按照正向和反向对待分词的文本完成切分之后,则进行歧义消除处理。首先需要识别出歧义字段,然后,对歧义字段重新进行切分以消除歧义。将正向最长逐字匹配算法切分的字串及其数量以及逆向最长逐字匹配算法切分的字串及其数量进行比对,根据比对结果确定是否存在歧义字段。
具体地,若正向最长逐字匹配算法和逆向最长逐字匹配算法切分出的字串的个数不同,直接确定字串个数较少的切分结果为最终的分词结果。
若正向最长逐字匹配算法和逆向最长逐字匹配算法切分出的字串的个数相同并且对应的字串也相同,表明没有歧义字段,则将正向最长逐字匹配算法的切分结果或者逆向最长逐字匹配算法的切分结果确定为最终的分词结果。
若正向最长逐字匹配算法和逆向最长逐字匹配算法切分出的字串的个数相同但对应的字串有不同,则表明存在歧义字段。
步骤S280,若存在歧义字段,则根据歧义字段的链长采取相应的方式切分歧义字段,确定歧义字段的分词结果。
如果判断出存在歧义字段,则判断歧义字段的链长,根据链长采取相应的方式切分歧义字段,从而得到歧义字段的分词结果。
歧义字段的切分处理遵循以下原则:
(1)词长与词所含的信息量成正比,字段的词长比较长,信息量就越大,字段切分的个数越少,切分正确的可能性也就越大,所以要尽量优先考虑词长较长的词,尽量不切分长词。
(2)对于链长为2的交集型字段如ABCD,其中AB、BC、CD∈W,W为词表,机械的将字段ABCD切分AB/CD。正向分词切分结果和逆向分词切分结果都是AB/CD,则采用逆向分词结果。
(3)对于链长为3的交集型歧义字段如ABCDE,其中AB,BC,CD,DE∈W,W为词表。E一般与后面的词没有关系,否则歧义字段的链长也就不会是3,并且如果我们切分为…D/E,那么E的信息量将会降低有可能无任何意义。因此对于链长大于2的字段,就直接采用逆向最大匹配的切分结果基于此,本实施例的歧义字段的切分具体实施方式如下:
若歧义字段链长为1,根据歧义字段中各个字之间的互信息值,来确定歧义字段的切分结果。以歧义字段ABC为例,两个字A和B的互信息为:
其中,/>
其中,P(A,B)为字A和B相邻出现的概率,P(A)、P(B)分别是字A和字B在语料中分别出现的概率,nA,B是在语料中字A和B相邻出现的次数,nA和nB分别是A和B在语料库中出现的次数,N为统计语料库中的词频总数。互信息体现了字之间结合关系的紧密程度。
若I(A,B)-I(B,C)>i,则采用AB/C的切分;若I(A,B)-I(B,C)<=i,则采用A/BC的切分,其中i为阈值。
若歧义字段的链长大于或等于2,则将该歧义字段进行最长逐字匹配算法进行切分,得到歧义字段的切分结果。
根据本发明实施例所提供的分词处理方法,该方式采用平均感知器算法,在不需要使用原有训练语料的前提下,根据现有新增语料和原有模型进行增量训练,得到一个性能更好的模型,这样既可以避免对原有语料资源的需求,同时可以节约使用所有语料重新训练模型所需时间和资源;同时,通过删除分词统计模型中对计算结果影响较小的特征,能够在不影响性能的前提下,既减小了模型文件的大小,还降低了对内存的需求,减少了运行时的内存需求和时间;另外,结合歧义消除算法,能够提升分词处理结果的效果。并且,该方式将基于统计、词典以及规则的分词方法结合起来,能够提升分词的效果。
图3示出了本发明另一实施例提供的分词处理方法的流程图,如图3所示,该方法包括以下步骤:
步骤S310,基于平均感知器算法对语料库中的语料样本进行训练,得到第一分词统计模型;其中,将每一次训练后得到的参数权值求平均值,将平均值作为第一分词统计模型中的参数权值。
步骤S320,统计第一分词统计模型中各个特征的权重,根据统计结果确定权重阈值,将权重小于权重阈值的特征从第一分词统计模型中删除,得到第二分词统计模型。
步骤S330,当接收到待分词文件数据时,利用第二分词统计模型,对待分词文件数据所包含的文本进行原子切分,得到各个原子切分词;按照预设的合并处理规则各个原子切分词进行合并,得到分词匹配结果。
该方式中,首先把待分词文件数据中包含的文本进行原子切分,原子切分也就是按照字符切分,实现最小粒度的分词,例如将“辽宁省沈阳市大东区草仓路22号”,切分为“辽、宁、省、沈、阳、市、大、东、区、草、仓、路、22、号”。然后,将根据合并规则,对原子切分后的各个字进行合并,从而得到匹配结果。
可选地,按照预设的合并处理规则各个原子切分词进行合并的具体实施方式包括:
方式一:根据各个原子切分词在核心词库的状态以及预设的词关联表对各个原子切分词进行词语的合并处理。
其中,核心词库中存储的是常用词及其状态,可根据标注的标准数据采取机器学习的方式而得到的,同时,核心词库中存储的词还具有权重,权重表示词的常用性,越常用则权重越高。
实际应用中,由于词语会不断的更新,一些新的词语被创造出来,核心词库通常难以涵盖所有的词语,因此还需要对核心词库进行更新。具体地,将自定义词库与核心词库中的词进行比对,将存在于自定义词库中而不存在与核心词库中的词添加到核心词库中,以完成核心词库的更新。
如果字符在核心词库中的状态为1,表明不是词,该字符可以继续与其他相邻字符形成词组;如果字符在核心词库中的状态为2,表明是词,但仍可以继续与其他字符形成词组;如果字符在核心词库中的状态为3,表明是词,停止将该字符与其他字符合并形成词组。具体地,在合并成词时,利用词关联表来合并字符,词关联表记录的是词典中词与词的关联数据,包括起始词、终止词、词频等等。例如商品和服务,对其分词可以得到“商品、和、服务”,“商品、和服、务”两种组合,
方式二:根据预设的词库对各个原子切分词进行词语的合并处理;其中,预设的词库包括以下中的一个或多个:英文词库、繁简词库、数字词库、人名词库。
下面以一个示例来说明分词的具体过程:
步骤一,对待分词文本完成原子切分;
步骤二,初步合并,包括以下子步骤:
子步骤(1),判断每个词在核心词库中的状态,若为1,认为不是词,可以继续与其他相邻字符形成词组;若为2,认为是词,但仍可以继续与其他字符形成词组;若为3,认为是词,立即停止与其他字符形成词组。子步骤(2),利用词关联表,选择最优的分词组合。子步骤(3),利用英文词库进行英文单词合并;子步骤(4),利用简繁词库进行汉字简繁体标注。
步骤三,精准分词,包括以下子步骤:
子步骤(1),利用数字词库进行数字合并;
子步骤(2),利用人名词库进行人名识别及分词合并,包括亚洲人名识别、世界人名识别、人名歧义处理;
子步骤(3),将自定义词库与核心词库内容进行比对,如果核心词库中不存在该词,则将该词加载到核心词库中;如果存在该词,则使用新词的词性和词频替换原有的词性和词频,然后,利用更新后的核心词库,再执行步骤二中的子步骤(1)(2)。
根据本发明实施例的分词处理方法,该方式采用平均感知器算法训练模型,能够避免对原有语料资源的需求,同时可以节约使用所有语料重新训练模型所需时间和资源;其次,通过删除分词统计模型中对计算结果影响较小的特征,能够在不影响性能的前提下,既减小了模型文件的大小,还降低了对内存的需求,减少了运行时的内存需求和时间;同时,该方式将基于词典、规则和统计三种方式结合起来进行中文分词,能够提升分词的效果。
需要说明的是,上述第二个实施例和第三个实施例中的利用分词统计模型对待分词文件数据进行分词匹配的方式可以用单独实施,也可以根据实际需要结合起来实施,本发明对此不做限定。
POI(Point of Interest)可以直译为“兴趣点”或“位置信息点”,包含名称、地址、电话、坐标、分类等基础信息;同时,POI也包括评价、消费水平、特色推荐、是否有停车位、是否能刷卡等增值信息。对于POI数据的搜索作为位置服务的核心能力,广泛应用于手机地图APP、地图网站、车载导航软件等领域,目前已经成为人们日常生活不可分割的组成部分。在用户进行POI搜索的场景中,主要针对的就是POI名称、门牌地址的检索,位置服务中心的POI搜索系统主要是面向中文POI提供服务的。
中文分词成为了POI搜索必不可少的技术,是POI搜索中的重要处理流程。中文分词对于搜索引擎来说,最重要的作用是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。从定性分析来说,搜索引擎的分词算法不同,词库的不同都会影响页面的返回结果。
图4示出了本发明一个实施例中POI搜索处理的时序图,在POI搜索中运用了本发明的分词处理方式。如图4所示,POI搜索的时序流程如下:
步骤1,用户打开地图APP,设置搜索查询条件
步骤2,用户搜索POI,地图APP请求POI搜索引擎;
步骤3,搜索引擎进行参数校验,判断搜索期望结果所在城市;
步骤4,搜索引擎请求索引模块,传入参数包括用户输入词、所在城市;
步骤5,索引模块调用POI数据预处理模块,进行数据文件预处理,以便生成索引文件;
步骤6,POI数据预处理模块对POI数据文件进行解析并参数校验,过滤掉非空字段有误的记录、过滤掉属性字段不合规的记录;
步骤7,POI数据预处理模块转换数据格式,从csv转换为txt文本;
步骤8,调用感知器训练模块,训练分词统计模型;
步骤9,将语料库数据划分为N个不相交的子集,并在N个不相交子集上并行训练多个子模型,最后对多个子模型进行融合得到最终的模型;
步骤10,通过统计特征的权重对模型进行压缩,将对计算分数结果影响较小的特征从模型中删除;
步骤11,使用初始语料训练一个初始模型M1,;
步骤12,然后根据增量语料继续训练一个子模型M2,然后将子模型M2和初始模型M1进行融合得到最终模型M;
步骤13,调用分词匹配模块,对POI名称、POI地址等字段进行分词
步骤14,利用统计模型M进行分词,新疆维吾尔自治区阿拉尔市花桥路199的分词结果为新疆+维吾尔+自治区+阿拉尔+市花+桥路+199;
步骤15:调用歧义处理模块进行歧义词消除;
步骤16:利用歧义消除算法对分词结果进行纠正,结果为新疆+维吾尔+自治区+阿拉尔+市+花桥路+199;
步骤17:返回中文分词结果给索引模块;
步骤18:根据中文分词结果建立索引数据;
步骤19:返回索引查询结果给POI搜索查询模块;
步骤20:返回排序后的POI结果给地图APP;
步骤21:地图APP在地图上展现POI。
本发明实施例还提供了一种与上述POI搜索流程相应的系统,该系统中主要包括地图APP应用、分词系统。地图APP应用中包括手机地图、车载导航以及POI搜索系统,分词系统中又包括分词匹配模块、歧义处理模块、预处理模块以及感知器训练模块,各个系统及各个模块的工作原理参见上述实施例中的描述,在此不进行赘述。运行时,地图APP应用内部调用分词系统,以完成POI搜索。
图6示出了本发明实施例提供的分词处理装置的结构示意图,如图6所示,该装置包括:
感知器训练模块61,适于基于平均感知器算法对语料库中的语料样本进行训练,得到第一分词统计模型;其中,将每一次训练后得到的参数权值求平均值,将平均值作为第一分词统计模型中的参数权值;以及
统计第一分词统计模型中各个特征的权重,根据统计结果确定权重阈值,将权重小于权重阈值的特征从第一分词统计模型中删除,得到第二分词统计模型;
分词匹配模块62,适于当接收到待分词文件数据时,利用第二分词统计模型对待分词文件数据完成分词匹配处理。
图7示出了本发明实施例提供的分词处理装置的结构示意图,如图7所示,该装置包括:感知器训练模块71、分词匹配模块72、预处理模块73、歧义处理模块74。
其中,感知器训练模块71,适于将语料样本划分为各个互不相交的样本子集,在各个样本子集上并行训练得到多个子模型;
每一轮迭代结束之后,根据融合系数对多个子模型的参数进行融合,并利用融合后的参数对多个子模型的参数进行更新,以便多个子模型使用更新后的参数进行下一次迭代。以及
统计第一分词统计模型中各个特征的权重,根据统计结果确定权重阈值,将权重小于权重阈值的特征从第一分词统计模型中删除,得到第二分词统计模型;以及
当存在增量语料时,基于平均感知器算法对增量语料进行训练,得到增量分词统计模型;
将增量分词统计模型与第二分词统计模型进行融合,得到第三分词统计模型。
分词匹配模块72,适于对待分词文件数据所包含的文本进行原子切分,得到各个原子切分词;按照预设的合并处理规则各个原子切分词进行合并,得到分词匹配结果。以及
根据各个原子切分词在核心词库的状态以及预设的词关联表对各个原子切分词进行词语的合并处理;和/或根据预设的词库对各个原子切分词进行词语的合并处理;其中,预设的词库包括以下中的一个或多个:英文词库、繁简词库、数字词库、人名词库。
预处理模块73,适于对待分词文件数据进行文档解析处理以及进行格式转换处理;
其中,文档解析处理包括以下中的一种或多种:非空检验处理、有效性校验处理、不合规数据的剔除处理。
分词匹配模块72进一步适于:分别基于词典的正向最长逐字匹配算法和逆向最长逐字匹配算法将待分词文件数据所包含的文本切分为多个字串;
歧义处理模块74适于:将正向最长逐字匹配算法切分的字串及其数量,以及逆向最长逐字匹配算法切分的字串及其数量进行比对,根据比对结果确定是否存在歧义字段;
若是,则根据歧义字段的链长采取相应的方式切分歧义词串,确定歧义字段的分词结果。
本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的分词处理方法。
可执行指令具体可以用于使得处理器执行以下操作:基于平均感知器算法对语料库中的语料样本进行训练,得到第一分词统计模型;其中,将每一次训练后得到的参数权值求平均值,将平均值作为第一分词统计模型中的参数权值;统计第一分词统计模型中各个特征的权重,根据统计结果确定权重阈值,将权重小于权重阈值的特征从第一分词统计模型中删除,得到第二分词统计模型;当接收到待分词文件数据时,利用第二分词统计模型对待分词文件数据完成分词匹配处理。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:当存在增量语料时,基于平均感知器算法对增量语料进行训练,得到增量分词统计模型;将增量分词统计模型与第二分词统计模型进行融合,得到第三分词统计模型;当接收到待分词文件数据时,利用第三分词统计模型对待分词文件数据完成分词匹配处理。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:将语料样本划分为各个互不相交的样本子集,在各个样本子集上并行训练得到多个子模型;每一轮迭代结束之后,根据融合系数对多个子模型的参数进行融合,并利用融合后的参数对多个子模型的参数进行更新,以便多个子模型使用更新后的参数进行下一次迭代。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:利用第二分词统计模型对待分词文件数据完成分词匹配处理之前,对待分词文件数据进行文档解析处理以及进行格式转换处理;其中,文档解析处理包括以下中的一种或多种:非空检验处理、有效性校验处理、不合规数据的剔除处理。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:对待分词文件数据所包含的文本进行原子切分,得到各个原子切分词;按照预设的合并处理规则各个原子切分词进行合并,得到分词匹配结果。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:根据各个原子切分词在核心词库的状态以及预设的词关联表对各个原子切分词进行词语的合并处理;和/或根据预设的词库对各个原子切分词进行词语的合并处理;其中,预设的词库包括以下中的一个或多个:英文词库、繁简词库、数字词库、人名词库。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:分别基于词典的正向最长逐字匹配算法和逆向最长逐字匹配算法将待分词文件数据所包含的文本切分为多个字串;将正向最长逐字匹配算法切分的字串及其数量,以及逆向最长逐字匹配算法切分的字串及其数量进行比对,根据比对结果确定是否存在歧义字段;若是,则根据歧义字段的链长采取相应的方式切分歧义词串,确定歧义字段的分词结果。
图8示出了本发明实施例提供的计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
如图8所示,该计算设备可以包括:处理器(processor)802、通信接口(Communications Interface)804、存储器(memory)806、以及通信总线808。
其中:处理器802、通信接口804、以及存储器806通过通信总线808完成相互间的通信。通信接口804,用于与其它设备比如客户端或其它服务器等的网元通信。处理器802,用于执行程序810,具体可以执行上述用于计算设备的分词处理方法实施例中的相关步骤。
具体地,程序810可以包括程序代码,该程序代码包括计算机操作指令。
处理器802可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器806,用于存放程序810。存储器806可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序810具体可以用于使得处理器802执行以下操作:
基于平均感知器算法对语料库中的语料样本进行训练,得到第一分词统计模型;其中,将每一次训练后得到的参数权值求平均值,将平均值作为第一分词统计模型中的参数权值;统计第一分词统计模型中各个特征的权重,根据统计结果确定权重阈值,将权重小于权重阈值的特征从第一分词统计模型中删除,得到第二分词统计模型;当接收到待分词文件数据时,利用第二分词统计模型对待分词文件数据完成分词匹配处理。
在一种可选的方式中,所述程序810使所述处理器802执行以下操作:当存在增量语料时,基于平均感知器算法对增量语料进行训练,得到增量分词统计模型;将增量分词统计模型与第二分词统计模型进行融合,得到第三分词统计模型;当接收到待分词文件数据时,利用第三分词统计模型对待分词文件数据完成分词匹配处理。
在一种可选的方式中,所述程序810使所述处理器802执行以下操作:将语料样本划分为各个互不相交的样本子集,在各个样本子集上并行训练得到多个子模型;每一轮迭代结束之后,根据融合系数对多个子模型的参数进行融合,并利用融合后的参数对多个子模型的参数进行更新,以便多个子模型使用更新后的参数进行下一次迭代。
在一种可选的方式中,所述程序810使所述处理器802执行以下操作:利用第二分词统计模型对待分词文件数据完成分词匹配处理之前,对待分词文件数据进行文档解析处理以及进行格式转换处理;其中,文档解析处理包括以下中的一种或多种:非空检验处理、有效性校验处理、不合规数据的剔除处理。
在一种可选的方式中,所述程序810使所述处理器802执行以下操作:待分词文件数据所包含的文本进行原子切分,得到各个原子切分词;按照预设的合并处理规则各个原子切分词进行合并,得到分词匹配结果。
在一种可选的方式中,所述程序810使所述处理器802执行以下操作:据各个原子切分词在核心词库的状态以及预设的词关联表对各个原子切分词进行词语的合并处理;和/或根据预设的词库对各个原子切分词进行词语的合并处理;其中,预设的词库包括以下中的一个或多个:英文词库、繁简词库、数字词库、人名词库。
在一种可选的方式中,所述程序810使所述处理器802执行以下操作:别基于词典的正向最长逐字匹配算法和逆向最长逐字匹配算法将待分词文件数据所包含的文本切分为多个字串;将正向最长逐字匹配算法切分的字串及其数量,以及逆向最长逐字匹配算法切分的字串及其数量进行比对,根据比对结果确定是否存在歧义字段;若是,则根据歧义字段的链长采取相应的方式切分歧义词串,确定歧义字段的分词结果。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

Claims (9)

1.一种分词处理方法,包括:
基于平均感知器算法对语料库中的语料样本进行训练,得到第一分词统计模型;其中,将每一次训练后得到的参数权值求平均值,将平均值作为第一分词统计模型中的参数权值;
统计所述第一分词统计模型中各个特征的权重,根据统计结果确定权重阈值,将权重小于所述权重阈值的特征从所述第一分词统计模型中删除,得到第二分词统计模型;
当存在增量语料时,基于平均感知器算法对所述增量语料进行训练,得到增量分词统计模型;
将所述增量分词统计模型与所述第二分词统计模型进行融合,得到第三分词统计模型;融合时,参数融合如下:
其中,wi表示第三分词统计模型M中第i个特征fi的权重,w1,i表示特征fi在第二分词统计模型M1中的权重,w2,i表示特征fi在增量统计分词模型M2中的权重,p1表示第二分词统计模型M1在开发集上的性能,p2表示增量统计分词模型M2在开发集上的性能;
当接收到待分词文件数据时,利用所述第三分词统计模型对所述待分词文件数据完成分词匹配处理。
2.根据权利要求1所述的方法,其特征在于,所述基于平均感知器算法对语料库中的语料样本进行训练进一步包括:
将所述语料样本划分为各个互不相交的样本子集,在各个样本子集上并行训练得到多个子模型;
每一轮迭代结束之后,根据融合系数对所述多个子模型的参数进行融合,并利用融合后的参数对所述多个子模型的参数进行更新,以便所述多个子模型使用更新后的参数进行下一次迭代。
3.根据权利要求1所述的方法,其特征在于,所述利用所述第二分词统计模型对所述待分词文件数据完成分词匹配处理之前,所述方法进一步包括:
对所述待分词文件数据进行文档解析处理以及进行格式转换处理;
其中,所述文档解析处理包括以下中的一种或多种:非空检验处理、有效性校验处理、不合规数据的剔除处理。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述利用所述第二分词统计模型对所述待分词文件数据完成分词匹配处理具体包括:
对待分词文件数据所包含的文本进行原子切分,得到各个原子切分词;
按照预设的合并处理规则所述各个原子切分词进行合并,得到分词匹配结果。
5.根据权利要求4所述的方法,其特征在于,所述按照预设的合并处理规则所述各个原子切分词进行合并进一步包括:
根据各个原子切分词在核心词库的状态以及预设的词关联表对所述各个原子切分词进行词语的合并处理;和/或
根据预设的词库对所述各个原子切分词进行词语的合并处理;其中,所述预设的词库包括以下中的一个或多个:英文词库、繁简词库、数字词库、人名词库。
6.根据权利要求1-3中任一项所述的方法,其特征在于,所述利用所述第二分词统计模型对所述待分词文件数据完成分词匹配处理进一步包括:
分别基于词典的正向最长逐字匹配算法和逆向最长逐字匹配算法将所述待分词文件数据所包含的文本切分为多个字串;
则所述方法进一步包括:
将正向最长逐字匹配算法切分的字串及其数量,以及逆向最长逐字匹配算法切分的字串及其数量进行比对,根据比对结果确定是否存在歧义字段;
若是,则根据歧义字段的链长采取相应的方式切分歧义词串,确定歧义字段的分词结果。
7.一种分词处理装置,包括:
感知器训练模块,适于基于平均感知器算法对语料库中的语料样本进行训练,得到第一分词统计模型;其中,将每一次训练后得到的参数权值求平均值,将平均值作为第一分词统计模型中的参数权值;以及
统计所述第一分词统计模型中各个特征的权重,根据统计结果确定权重阈值,将权重小于所述权重阈值的特征从所述第一分词统计模型中删除,得到第二分词统计模型;
当存在增量语料时,基于平均感知器算法对所述增量语料进行训练,得到增量分词统计模型;
将所述增量分词统计模型与所述第二分词统计模型进行融合,得到第三分词统计模型;融合时,参数融合如下:
其中,wi表示第三分词统计模型M中第i个特征fi的权重,w1,i表示特征fi在第二分词统计模型M1中的权重,w2,i表示特征fi在增量统计分词模型M2中的权重,p1表示第二分词统计模型M1在开发集上的性能,p2表示增量统计分词模型M2在开发集上的性能;
分词匹配模块,适于当接收到待分词文件数据时,利用所述第三分词统计模型对所述待分词文件数据完成分词匹配处理。
8.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-6中任一项所述的分词处理方法对应的操作。
9.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-6中任一项所述的分词处理方法对应的操作。
CN202010163540.7A 2020-03-10 2020-03-10 分词处理方法、装置、计算设备及存储介质 Active CN113378562B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010163540.7A CN113378562B (zh) 2020-03-10 2020-03-10 分词处理方法、装置、计算设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010163540.7A CN113378562B (zh) 2020-03-10 2020-03-10 分词处理方法、装置、计算设备及存储介质

Publications (2)

Publication Number Publication Date
CN113378562A CN113378562A (zh) 2021-09-10
CN113378562B true CN113378562B (zh) 2023-09-19

Family

ID=77569501

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010163540.7A Active CN113378562B (zh) 2020-03-10 2020-03-10 分词处理方法、装置、计算设备及存储介质

Country Status (1)

Country Link
CN (1) CN113378562B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572614A (zh) * 2014-12-03 2015-04-29 北京捷通华声语音技术有限公司 一种语言模型的训练方法及系统
CN107273357A (zh) * 2017-06-14 2017-10-20 北京百度网讯科技有限公司 基于人工智能的分词模型的修正方法、装置、设备和介质
CN108038108A (zh) * 2017-12-27 2018-05-15 东软集团股份有限公司 分词模型训练方法和装置、及存储介质
CN109033085A (zh) * 2018-08-02 2018-12-18 北京神州泰岳软件股份有限公司 中文分词系统及中文文本的分词方法
CN109658928A (zh) * 2018-12-06 2019-04-19 山东大学 一种家庭服务机器人云端多模态对话方法、装置及系统
CN110287477A (zh) * 2018-03-16 2019-09-27 北京国双科技有限公司 实体情感分析方法及相关装置
CN110853625A (zh) * 2019-09-18 2020-02-28 厦门快商通科技股份有限公司 语音识别模型分词训练方法、系统、移动终端及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572614A (zh) * 2014-12-03 2015-04-29 北京捷通华声语音技术有限公司 一种语言模型的训练方法及系统
CN107273357A (zh) * 2017-06-14 2017-10-20 北京百度网讯科技有限公司 基于人工智能的分词模型的修正方法、装置、设备和介质
CN108038108A (zh) * 2017-12-27 2018-05-15 东软集团股份有限公司 分词模型训练方法和装置、及存储介质
CN110287477A (zh) * 2018-03-16 2019-09-27 北京国双科技有限公司 实体情感分析方法及相关装置
CN109033085A (zh) * 2018-08-02 2018-12-18 北京神州泰岳软件股份有限公司 中文分词系统及中文文本的分词方法
CN109658928A (zh) * 2018-12-06 2019-04-19 山东大学 一种家庭服务机器人云端多模态对话方法、装置及系统
CN110853625A (zh) * 2019-09-18 2020-02-28 厦门快商通科技股份有限公司 语音识别模型分词训练方法、系统、移动终端及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Chinese segmentation with a word-based perceptron algorithm;Yue Zhang 等;《Proceedings of the 45th annual meeting of the association of computation linguistics》;840-847 *
基于感知器算法的中文分词增量系统设计与实现;韩冰;《中国优秀硕士学位论文全文数据库信息科技辑》(第2期);I138-2099,1-50 *
韩冰.基于感知器算法的中文分词增量系统设计与实现.《中国优秀硕士学位论文全文数据库信息科技辑》.2016,(第2期),I138-2099,1-50. *

Also Published As

Publication number Publication date
CN113378562A (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN109918673B (zh) 语义仲裁方法、装置、电子设备和计算机可读存储介质
CN111414479B (zh) 基于短文本聚类技术的标签抽取方法
CN111914551B (zh) 自然语言处理方法、装置、电子设备及存储介质
WO2022142041A1 (zh) 意图识别模型的训练方法、装置、计算机设备和存储介质
CN108228704A (zh) 识别风险内容的方法及装置、设备
CN111832290B (zh) 用于确定文本相关度的模型训练方法、装置、电子设备及可读存储介质
CN110147421B (zh) 一种目标实体链接方法、装置、设备及存储介质
CN111914085A (zh) 文本细粒度情感分类方法、系统、装置及存储介质
CN110232112A (zh) 文章中关键词提取方法及装置
CN112613293B (zh) 摘要生成方法、装置、电子设备及存储介质
CN111274822A (zh) 语义匹配方法、装置、设备及存储介质
CN108287848B (zh) 用于语义解析的方法和系统
CN110147494A (zh) 信息搜索方法、装置,存储介质及电子设备
CN113449084A (zh) 基于图卷积的关系抽取方法
CN113032525A (zh) 虚假新闻检测方法、装置、电子设备以及存储介质
CN116226785A (zh) 目标对象识别方法、多模态识别模型的训练方法和装置
CN112650833A (zh) Api匹配模型建立方法及跨城市政务api匹配方法
CN111368066B (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN116681056B (zh) 基于价值量表的文本价值计算方法及装置
CN116522905B (zh) 文本纠错方法、装置、设备、可读存储介质及程序产品
CN113127607A (zh) 文本数据标注方法、装置、电子设备及可读存储介质
CN112925912A (zh) 文本处理方法、同义文本召回方法及装置
CN113378562B (zh) 分词处理方法、装置、计算设备及存储介质
CN116561320A (zh) 一种汽车评论的分类方法、装置、设备及介质
CN115017987A (zh) 语言模型微调方法、文本分类方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant