CN110969016B - 分词处理方法及装置 - Google Patents

分词处理方法及装置 Download PDF

Info

Publication number
CN110969016B
CN110969016B CN201811129922.7A CN201811129922A CN110969016B CN 110969016 B CN110969016 B CN 110969016B CN 201811129922 A CN201811129922 A CN 201811129922A CN 110969016 B CN110969016 B CN 110969016B
Authority
CN
China
Prior art keywords
word
word segmentation
probability
information value
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811129922.7A
Other languages
English (en)
Other versions
CN110969016A (zh
Inventor
张鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Potevio Information Technology Co Ltd
Original Assignee
Potevio Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Potevio Information Technology Co Ltd filed Critical Potevio Information Technology Co Ltd
Priority to CN201811129922.7A priority Critical patent/CN110969016B/zh
Publication of CN110969016A publication Critical patent/CN110969016A/zh
Application granted granted Critical
Publication of CN110969016B publication Critical patent/CN110969016B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明实施例提供一种分词处理方法及装置。所述方法包括:获取待处理语句的预分词结果以及所述预分词结果中的分词的标签参数,其中,所述预分词结果中包括依次排列的至少两个所述分词;根据所述分词的排列次序,依次将所述标签组成原始路径;其中,所述原始路径中包括每个所述分词的一个标签;根据预设算法,确定所述原始路径中综合点互信息值最大的目标路径,将所述目标路径对应的标签内容作为分词结果;其中,所述综合点互信息值为所述原始路径中的标签概率与点互信息值的乘积。本发明实施例解决了现有技术中,分词过程中对依赖于语料库的依赖程度较高的问题。

Description

分词处理方法及装置
技术领域
本发明实施例涉及移动通信技术领域,尤其涉及一种分词处理方法及装置。
背景技术
分词技术是搜索引擎中,针对用户提交查询的关键词串进行处理,将关键词串进行分词的一种技术;随着深度学习的兴起,基于统计的分词方法已被各大公司采用。具体地,基于统计的分词方法的整体框架依次包括:卷积神经网络(Convolutional NeuralNetwork,CNN)层、双向长短时记忆网络(Bidirectional Long Short-Term Memory,BLSTM)层以及预测层(Softmax)。
在CNN层,向其中输入单个汉字时,通过工具将每个字转换为一个字向量,比如“我”对应向量v1;这样,将一句话转换为一串可识别的字向量。
然后将字向量以句子为单位得到句向量,输入到CNN进行特征提取;其中,卷积神经网络被广泛应用于人脸识别、语音识别、自然语言处理等方向的特征提取工作。典型的卷积神经网络主要包含输入层、卷积层、池化(Pool)层、全连接层以及输出层。
首先将句向量输入至输入层,经由卷积层进行卷积操作;卷积层包含可学习的卷积核和激活函数,输入的句向量与卷积核进行卷积运算,再将卷积结果输入至激活函数,输出卷积结果。
卷积层输出的卷积结果进入池化层,池化层采用最大值池化来消除信号的偏移和扭曲,最终结果输出到全连接层;全连接层将多层卷积池化运算后的多组特征依次组合为一组向量;该向量经由输出层输出到BLSTM层中进行学习。
在BLSTM层,BLSTM包括一系列门单元,BLSTM主要由两个LSTM网络堆叠起来,一个从正向读取文本,另一个反向获取文本,这样可同时获取文本的前后文信息。BLSTM接受CNN特征提取层的向量输入,并主动学习长程依赖信息并抛弃冗余信息,将处理后的信息输入至Softmax层。
在Softmax层,Softmax层将BLSTM层的输入信息转化为归一化的概率形式,得到输入信息对应的各个标签的概率,然后选取概率最高的标签作为最终标记结果;其中,标签为该分词在一句话中的位置标识,比如孤立的分词、中间位置、句首以及句尾等;这样,在给每个分词打上标签后,就得到了分词结果,后续根据分词结果进行搜索或其他处理。
然而,现有技术中,分词过程中,依赖于语料库的依赖程度较高,若遇到未登录词,则分割几乎无法完成,对分词精度造成一定的损失。
发明内容
本发明实施例提供一种分词处理方法及装置,用以解决现有技术中,分词过程中对依赖于语料库的依赖程度较高的问题。
一方面,本发明实施例提供一种分词处理方法,所述方法包括:
获取待处理语句的预分词结果以及所述预分词结果中的分词的标签参数,其中,所述预分词结果中包括依次排列的至少两个所述分词;所述标签参数包括所述分词对应的各个标签的概率,所述标签用于指示所述分词的位置属性;
根据所述分词的排列次序,依次将所述标签组成原始路径;其中,所述原始路径中包括每个所述分词的一个标签;
根据预设算法,确定所述原始路径中综合点互信息值最大的目标路径,将所述目标路径对应的标签内容作为分词结果;其中,所述综合点互信息值为所述原始路径中的标签概率与点互信息值的乘积。
另一方面,本发明实施例提供一种分词处理装置,所述分词处理装置包括:
获取模块,用于获取待处理语句的预分词结果以及所述预分词结果中的分词的标签参数,其中,所述预分词结果中包括依次排列的至少两个所述分词;所述标签参数包括所述分词对应的各个标签的概率,所述标签用于指示所述分词的位置属性;
组成模块,用于根据所述分词的排列次序,依次将所述标签组成原始路径;其中,所述原始路径中包括每个所述分词的一个标签;
确定模块,用于根据预设算法,确定所述原始路径中综合点互信息值最大的目标路径,将所述目标路径对应的标签内容作为分词结果;其中,所述综合点互信息值为所述原始路径中的标签概率与点互信息值的乘积。
另一方面,本发明实施例还提供了一种电子设备,包括存储器、处理器、总线以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述分词处理方法中的步骤。
再一方面,本发明实施例还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述分词处理方法中的步骤。
本发明实施例提供的分词处理方法及装置,通过获取待处理语句的预分词结果以及所述预分词结果中的分词的标签参数;根据所述分词的排列次序,依次将所述标签参数中的标签组成原始路径,在分词过程中,选择每个分词的多个标签,分别组成多条原始路径,增加分词的可能性;并根据预设算法,确定所述原始路径中综合点互信息值最大的目标路径,将所述目标路径对应的标签内容作为分词结果;综合点互信息值根据点互信息值以及标签概率确定,提升分词过程的准确率;且本发明实施例可应用于未登录词,对语料库的依赖程度较低,提升了分词处理过程的分词能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的分词处理方法的流程示意图;
图2为本发明实施例提供的分词模型的示意图;
图3为本发明实施例提供的分词处理装置的结构示意图;
图4为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。在下面的描述中,提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本发明的实施例。因此,本领域技术人员应该清楚,可以对这里描述的实施例进行各种改变和修改而不脱离本发明的范围和精神。另外,为了清楚和简洁,省略了对已知功能和构造的描述。
应理解,说明书通篇中提到的“实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
在本发明的各种实施例中,应理解,下述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在本申请所提供的实施例中,应理解,“与A相应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。
图1示出了本发明实施例提供的一种分词处理方法的流程示意图。
如图1所示,本发明实施例提供的分词处理方法,所述方法具体包括以下步骤:
步骤101,获取待处理语句的预分词结果以及所述预分词结果中的分词的标签参数,其中,所述预分词结果中包括依次排列的至少两个所述分词;所述标签参数包括所述分词对应的各个标签的概率,所述标签用于指示所述分词的位置属性。
其中,可将待处理语句输入预设的分词模型中得到一个预分词结果,预分词结果中包括依次排列的至少两个分词,可选地,每个所述分词可以是一个字符或至少两个字符。标签参数中包括该分词对应的标签以及每个标签的概率,比如,标签包括S、B、I、E一共4个标签,分词“我”的每个标签的概率分别为:0.9,0.03,0.03,0.04;则分词“我”的标签参数如下所示:
S:0.9;B:0.03;I:0.03;E:0.04。
标签用于指示所述分词的位置属性,比如,S表示孤立的分词,B表示开始位置,I表示中间位置,E表示结尾位置。
步骤102,根据所述分词的排列次序,依次将所述标签组成原始路径;其中,所述原始路径中包括每个所述分词的一个标签。
其中,根据每个分词在所述预分词结果中的排列次序,依次选择每个分词的一个标签,组成一条原始路径,比如,预分词结果中的分词分别为“我”“爱”“工”“作”时,各个分词的标签参数如以下表1所示:
表1:
Figure BDA0001813231200000051
为了使计算简便,在此分别筛选得到各个分词的前两个概率较大的标签,则有如下结果:
我[S1,E1][0.9,0.04];
爱[S2,B2][0.48,0.49];
工[B3,I3][0.47,0.52];
作[B4,E4][0.23,0.6];
根据上述筛选结果,得到如下所示16条原始路径:
S1→S2→B3→B4;S1→S2→B3→E4;S1→S2→I3→B4;S1→S2→I3→E4;
S1→B2→B3→B4;S1→B2→B3→E4;S1→B2→I3→B4;S1→B2→I3→E4;
E1→S2→B3→B4;E1→S2→B3→E4;E1→S2→I3→B4;E1→S2→I3→E4;
E1→B2→B3→B4;E1→B2→B3→E4;E1→B2→I3→B4;E1→B2→I3→E4。
步骤103,根据预设算法,确定所述原始路径中综合点互信息值最大的目标路径,将所述目标路径对应的标签内容作为分词结果;其中,所述综合点互信息值为所述原始路径中的标签概率与点互信息值的乘积。
其中,点互信息值越大代表组成该词后信息熵降低的越多。
综合点互信息值为点互信息值与标签概率的乘积,而标签概率为所述预选路径中的每个标签的概率的连乘积,比如,对于路径S1→S2→B3→E4,其标签概率P=0.9*0.48*0.47*0.6=0.121824;根据预设算法,确定其点互信息值,最终将筛选出原始路径中综合点互信息值最大的路径作为目标路径,根据该目标路径的标签内容得到最终分词结果。
本发明的上述实施例中,通过获取待处理语句的预分词结果以及所述预分词结果中的分词的标签参数;根据所述分词的排列次序,依次将所述标签参数中的标签组成原始路径,在分词过程中,选择每个分词的多个标签,分别组成多条原始路径,增加分词的可能性;并根据预设算法,确定所述原始路径中综合点互信息值最大的目标路径,将所述目标路径对应的标签内容作为分词结果;综合点互信息值根据点互信息值以及标签概率确定,提升分词过程的准确率;且本发明实施例可应用于未登录词,对语料库的依赖程度较低,提升了分词处理过程的分词能力。本发明实施例解决了现有技术中,分词过程中对依赖于语料库的依赖程度较高的问题。
可选地,本发明实施例中,所述根据所述分词的排列次序,依次将所述标签组成原始路径的步骤,包括:
针对每个所述分词,分别选择概率满足预设概率要求的预选标签;
根据所述分词的排列次序,依次将所述预选标签组成原始路径。
其中,在组成原始路径的过程中,为了减少计算量同时提升计算的准确率,在生成原始路径的时候,首先对每个分词的标签进行一下筛选,选择概率满足预设概率要求的预选标签;预设概率要求可以按照概率大小由高到低排序得到的前预设数目个概率对应的标签,而剔除不满足预设概率要求的其他标签。
比如“我”这个分词在上述表1中的概率输出为S:0.9;B:0.03;I:0.03;E:0.04,即在[S,B,I,E]几个标签中S标签的概率最高,现有技术中,通常直接选取S最为最终的结果;对于像‘我’这种常见分词,可以见到其预测S的概率与其他三个概率相差较大,因此结果准确度较高;但以表1中的“爱”为例,该分词的标签对应的概率分别为[0.48,0.49,0.01,0.02],此时若选取概率最高的标记B,将导致与之概率非常接近的S标签被剔除,而剔除S标签有可能导致最终识别错误;因此,本发明实施例中,基于概率对标签进行进一步筛选,以提高分词处理的准确率。
可选地,本发明实施例中,所述获取待处理语句的预分词结果以及所述预分词结果中的分词的标签参数的步骤,包括:
将待处理语句输入至预设的分词模型中,得到预分词结果以及所述预分词结果中的分词的标签参数。
其中,预设的分词模型可以是基于统计的分词模型,整体框架如图2所示,依次包括:CNN层、BLSTM层的前向LSTM层以及后向LSTM层、Softmax层以及解码层。
在CNN层,向其中输入单个汉字时,通过工具将每个字转换为一个字向量,比如“我”对应向量v1;这样,将一句话转换为一串可识别的字向量。
然后将字向量以句子为单位得到句向量,输入到CNN进行特征提取。
在BLSTM层,BLSTM包括一系列门单元,BLSTM主要由两个LSTM网络堆叠起来,即前向LSTM层以及后向LSTM层,一个从正向读取文本,另一个反向获取文本,这样可同时获取文本的前后文信息。BLSTM接受CNN特征提取层的向量输入,并主动学习长程依赖信息并抛弃冗余信息,将处理后的信息输入至Softmax层。
Softmax层对BLSTM层的输出进行概率归一化以后,得到每个分词的标签,以及每个标签对应的概率;解码层执行如步骤102所示的过程,最终得到目标路径以及分词结果。
可选地,本发明实施例中,所述根据预设算法,确定所述原始路径中综合点互信息值最大的目标路径的步骤,包括:
从所述原始路径中,选择满足预设路径规则的预选路径;
根据预设算法,确定所述预选路径的点互信息值;
根据所述预选路径中的标签概率以及所述点互信息值,确定综合点互信息值;所述标签概率为所述预选路径中的每个标签的概率的连乘积;
选择所述综合点互信息值最大的预选路径作为目标路径,生成所述目标路径的分词结果。
其中,预设路径规则即针对标签设定的规则,比如,以B开头的标签必须含有一个E标签,或者E标签不能作为开头,B开头、I标签不能做结尾等。
如上述步骤102中所示的16条路径,根据预设路径规则剔除掉不符合路径要求的一些原始路径之后,筛选得到预选路径1:S1→S2→B3→E4,以及预选路径2:S1→B2→I3→E4。
确定预选路径之后,确定所述预选路径的点互信息值;再根据预选路径中的标签概率以及所述点互信息值,确定综合点互信息值;最后选择所述综合点互信息值最大的预选路径作为目标路径,生成所述目标路径的分词结果。
具体地,所述根据预设算法,确定所述预选路径的点互信息值的步骤,包括:
根据以下公式,确定所述预选路径的点互信息值:
Figure BDA0001813231200000081
其中,F为所述点互信息值;
A1,A2,…,An分别表示所述预选路径中的分词,比如待处理语句“我爱工作”包括4个分词,A1为“我”,A2为“爱”,A3为“工”,A4为“作”;
PA1,A2,…,An表示A1,A2,…,An在所述待处理语句中同时出现的概率,即“我爱工作”在所述待处理语句中同时出现的概率;
PA1表示A1在所述待处理语句中出现的概率,即“我”在所述待处理语句中出现的概率;
PA2表示A2在所述待处理语句中出现的概率,…,PAn表示An在所述待处理语句中出现的概率。
而综合点互信息值为所述原始路径中的标签概率与点互信息值的乘积,对于预选路径1:S1→S2→B3→E4,其标签概率P1=0.9*0.48*0.47*0.6=0.121824;
以及预选路径2:S1→B2→I3→E4,其标签概率P2=0.9*0.49*0.52*0.6=0.137592;
若预选路径1的点互信息值为F1,则其综合点互信息值为F1*P1;
若预选路径2的点互信息值为F2,则其综合点互信息值为F2*P2。
进一步地,为了使得分词模型在BLSTM层就具备一定的预测功能,提升解码端的基于规则的预测准确率,本发明实施例中,所述分词模型中的损失函数为:
L=Lc+(-F);
其中,L为所述损失函数的值;Lc为原始损失函数,且
LC(W,b)=-Σi,x∈Clog p(y|x;W,b);
其中,W为所述分词模型中的预设权重;x为所述分词模型中的输入分词,C为输入分词的组合;y为所述输入分词的标签;b为所述x的前一个输入分词的损失函数;
p(y|x;W,b)为所述y的概率,表示在给定输入序列x和权重W,b的前提下输出标签y的概率;Lc越小表示分词结果越准确,本发明实施例中的损失函数在原始损失函数基础上增加了点信息,即点互信息值的相反数。
可选地,可通过Adam优化算法根据新的损失函数对CNN网络进行更新,使CNN网络从根本上对点互信息值进行学习,提升网络的无监督分词能力。CNN网络分为训练和使用两个阶段,在训练阶段,网络接受输入的字向量,经由CNN、BLSTM、Softmax层等得到分词结果;然后根据该分词结果计算损失函数,通过Adam算法反向优化更新网络参数,提高预测准确率。如此循环,直至损失函数收敛或准确率达到预设要求即可停止训练。
在使用阶段则无需计算损失函数,解码得到分词结果即可。
本发明的上述实施例中,通过获取待处理语句的预分词结果以及所述预分词结果中的分词的标签参数;根据所述分词的排列次序,依次将所述标签参数中的标签组成原始路径,在分词过程中,选择每个分词的多个标签,分别组成多条原始路径,增加分词的可能性;并根据预设算法,确定所述原始路径中综合点互信息值最大的目标路径,将所述目标路径对应的标签内容作为分词结果;综合点互信息值根据点互信息值以及标签概率确定,提升分词过程的准确率;且本发明实施例可应用于未登录词,对语料库的依赖程度较低,提升了分词处理过程的分词能力。
以上介绍了本发明实施例提供的分词处理方法,下面将结合附图介绍本发明实施例提供的分词处理装置。
参见图3,本发明实施例提供了一种分词处理装置,包括:
获取模块301,用于获取待处理语句的预分词结果以及所述预分词结果中的分词的标签参数,其中,所述预分词结果中包括依次排列的至少两个所述分词;所述标签参数包括所述分词对应的各个标签的概率,所述标签用于指示所述分词的位置属性。
其中,可将待处理语句输入预设的分词模型中得到一个预分词结果,预分词结果中包括依次排列的至少两个分词,可选地,每个所述分词可以是一个字符或至少两个字符。标签参数中包括该分词对应的标签以及每个标签的概率,比如,标签包括S、B、I、E一共4个标签,分词“我”的每个标签的概率分别为:0.9,0.03,0.03,0.04;则分词“我”的标签参数如下所示:
S:0.9;B:0.03;I:0.03;E:0.04。
标签用于指示所述分词的位置属性,比如,S表示孤立的分词,B表示开始位置,I表示中间位置,E表示结尾位置。
组成模块302,用于根据所述分词的排列次序,依次将所述标签组成原始路径;其中,所述原始路径中包括每个所述分词的一个标签。
其中,根据每个分词在所述预分词结果中的排列次序,依次选择每个分词的一个标签,组成一条原始路径,比如,预分词结果中的分词分别为“我”“爱”“工”“作”时,各个分词的标签参数如以下表2所示:
表2:
Figure BDA0001813231200000111
为了使计算简便,在此分别筛选得到各个分词的前两个概率较大的标签,则有如下结果:
我[S1,E1][0.9,0.04];
爱[S2,B2][0.48,0.49];
工[B3,I3][0.47,0.52];
作[B4,E4][0.23,0.6];
根据上述筛选结果,得到如下所示16条原始路径:
S1→S2→B3→B4;S1→S2→B3→E4;S1→S2→I3→B4;S1→S2→I3→E4;
S1→B2→B3→B4;S1→B2→B3→E4;S1→B2→I3→B4;S1→B2→I3→E4;
E1→S2→B3→B4;E1→S2→B3→E4;E1→S2→I3→B4;E1→S2→I3→E4;
E1→B2→B3→B4;E1→B2→B3→E4;E1→B2→I3→B4;E1→B2→I3→E4。
确定模块303,用于根据预设算法,确定所述原始路径中综合点互信息值最大的目标路径,将所述目标路径对应的标签内容作为分词结果;其中,所述综合点互信息值为所述原始路径中的标签概率与点互信息值的乘积。
其中,综合点互信息值为点互信息值与标签概率的乘积,而标签概率为所述预选路径中的每个标签的概率的连乘积,比如,对于路径S1→S2→B3→E4,其标签概率P=0.9*0.48*0.47*0.6=0.121824;根据预设算法,确定其点互信息值,最终将筛选出原始路径中综合点互信息值最大的路径作为目标路径,根据该目标路径的标签内容得到最终分词结果。
可选地,本发明实施例中,所述组成模块302用于:
针对每个所述分词,分别选择概率满足预设概率要求的预选标签;
根据所述分词的排列次序,依次将所述预选标签组成原始路径。
可选地,本发明实施例中,所述获取模块301用于:
将待处理语句输入至预设的分词模型中,得到预分词结果以及所述预分词结果中的分词的标签参数。
可选地,本发明实施例中,所述确定模块303包括:
第一选择子模块,用于从所述原始路径中,选择满足预设路径规则的预选路径;
第一确定子模块,用于根据预设算法,确定所述预选路径的点互信息值;
第二确定子模块,用于根据所述预选路径中的标签概率以及所述点互信息值,确定综合点互信息值;所述标签概率为所述预选路径中的每个标签的概率的连乘积;
第二选择子模块,用于选择所述综合点互信息值最大的预选路径作为目标路径,生成所述目标路径的分词结果。
可选地,本发明实施例中,所述第一确定子模块用于:
根据以下公式,确定所述预选路径的点互信息值:
Figure BDA0001813231200000131
其中,F为所述点互信息值;
A1,A2,…,An分别表示所述预选路径中的分词;
PA1,A2,…,An表示A1,A2,…,An在所述待处理语句中同时出现的概率;
PA1表示A1在所述待处理语句中出现的概率;
PA2表示A2在所述待处理语句中出现的概率,…,PAn表示An在所述待处理语句中出现的概率。
可选地,本发明实施例中,所述分词模型中的损失函数为:
L=Lc+(-F);
其中,L为所述损失函数的值;Lc为原始损失函数,且
LC(W,b)=-Σi,x∈Clog p(y|x;W,b);
其中,W为所述分词模型中的预设权重;x为所述分词模型中的输入分词;y为所述输入分词的标签;b为所述x的前一个输入分词的损失函数;
p(y|x;W,b)为所述y的概率。
本发明上述实施例中,通过获取模块301获取待处理语句的预分词结果以及所述预分词结果中的分词的标签参数;组成模块302根据所述分词的排列次序,依次将所述标签参数中的标签组成原始路径,在分词过程中,选择每个分词的多个标签,分别组成多条原始路径,增加分词的可能性;确定模块303根据预设算法,确定所述原始路径中综合点互信息值最大的目标路径,将所述目标路径对应的标签内容作为分词结果;综合点互信息值根据点互信息值以及标签概率确定,提升分词过程的准确率;且本发明实施例可应用于未登录词,对语料库的依赖程度较低,提升了分词处理过程的分词能力。
图4示出了本发明又一实施例提供的一种电子设备的结构示意图。
参见图4,本发明实施例提供的电子设备,所述电子设备包括存储器(memory)41、处理器(processor)42、总线43以及存储在存储器41上并可在处理器上运行的计算机程序。其中,所述存储器41、处理器42通过所述总线43完成相互间的通信。
所述处理器42用于调用所述存储器41中的程序指令,以执行所述程序时实现如本发明上述实施例中提供的方法。
在另一种实施方式中,所述处理器执行所述程序时实现如下方法:
获取待处理语句的预分词结果以及所述预分词结果中的分词的标签参数,其中,所述预分词结果中包括依次排列的至少两个所述分词;所述标签参数包括所述分词对应的各个标签的概率,所述标签用于指示所述分词的位置属性;
根据所述分词的排列次序,依次将所述标签组成原始路径;其中,所述原始路径中包括每个所述分词的一个标签;
根据预设算法,确定所述原始路径中综合点互信息值最大的目标路径,将所述目标路径对应的标签内容作为分词结果;其中,所述综合点互信息值为所述原始路径中的标签概率与点互信息值的乘积。
本发明实施例提供的电子设备,可用于执行上述方法实施例的方法对应的程序,本实施不再赘述。
本发明实施例提供的电子设备,通过获取待处理语句的预分词结果以及所述预分词结果中的分词的标签参数;根据所述分词的排列次序,依次将所述标签参数中的标签组成原始路径,在分词过程中,选择每个分词的多个标签,分别组成多条原始路径,增加分词的可能性;并根据预设算法,确定所述原始路径中综合点互信息值最大的目标路径,将所述目标路径对应的标签内容作为分词结果;综合点互信息值根据点互信息值以及标签概率确定,提升分词过程的准确率;且本发明实施例可应用于未登录词,对语料库的依赖程度较低,提升了分词处理过程的分词能力。
本发明又一实施例提供的一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质上存储有计算机程序,所述程序被处理器执行时实现如本发明上述实施例中提供的方法中的步骤。
在另一种实施方式中,所述程序被处理器执行时实现如下方法:
获取待处理语句的预分词结果以及所述预分词结果中的分词的标签参数,其中,所述预分词结果中包括依次排列的至少两个所述分词;所述标签参数包括所述分词对应的各个标签的概率,所述标签用于指示所述分词的位置属性;
根据所述分词的排列次序,依次将所述标签组成原始路径;其中,所述原始路径中包括每个所述分词的一个标签;
根据预设算法,确定所述原始路径中综合点互信息值最大的目标路径,将所述目标路径对应的标签内容作为分词结果;其中,所述综合点互信息值为所述原始路径中的标签概率与点互信息值的乘积。
本发明实施例提供的非暂态计算机可读存储介质,所述程序被处理器执行时实现上述方法实施例的方法,本实施不再赘述。
本发明实施例提供的非暂态计算机可读存储介质,通过获取待处理语句的预分词结果以及所述预分词结果中的分词的标签参数;根据所述分词的排列次序,依次将所述标签参数中的标签组成原始路径,在分词过程中,选择每个分词的多个标签,分别组成多条原始路径,增加分词的可能性;并根据预设算法,确定所述原始路径中综合点互信息值最大的目标路径,将所述目标路径对应的标签内容作为分词结果;综合点互信息值根据点互信息值以及标签概率确定,提升分词过程的准确率;且本发明实施例可应用于未登录词,对语料库的依赖程度较低,提升了分词处理过程的分词能力。
本发明又一实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:
获取待处理语句的预分词结果以及所述预分词结果中的分词的标签参数,其中,所述预分词结果中包括依次排列的至少两个所述分词;所述标签参数包括所述分词对应的各个标签的概率,所述标签用于指示所述分词的位置属性;
根据所述分词的排列次序,依次将所述标签组成原始路径;其中,所述原始路径中包括每个所述分词的一个标签;
根据预设算法,确定所述原始路径中综合点互信息值最大的目标路径,将所述目标路径对应的标签内容作为分词结果;其中,所述综合点互信息值为所述原始路径中的标签概率与点互信息值的乘积。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种分词处理方法,其特征在于,包括:
获取待处理语句的预分词结果以及所述预分词结果中的分词的标签参数,其中,所述预分词结果中包括依次排列的至少两个所述分词;所述标签参数包括所述分词对应的各个标签的概率,所述标签用于指示所述分词的位置属性;
根据所述分词的排列次序,依次将所述标签组成原始路径;其中,所述原始路径中包括每个所述分词的一个标签;
根据预设算法,确定所述原始路径中综合点互信息值最大的目标路径,将所述目标路径对应的标签内容作为分词结果;其中,所述综合点互信息值为所述原始路径中的标签概率与点互信息值的乘积。
2.根据权利要求1所述的方法,其特征在于,所述根据所述分词的排列次序,依次将所述标签组成原始路径的步骤,包括:
针对每个所述分词,分别选择概率满足预设概率要求的预选标签;
根据所述分词的排列次序,依次将所述预选标签组成原始路径。
3.根据权利要求1所述的方法,其特征在于,所述获取待处理语句的预分词结果以及所述预分词结果中的分词的标签参数的步骤,包括:
将待处理语句输入至预设的分词模型中,得到预分词结果以及所述预分词结果中的分词的标签参数。
4.根据权利要求3所述的方法,其特征在于,所述根据预设算法,确定所述原始路径中综合点互信息值最大的目标路径的步骤,包括:
从所述原始路径中,选择满足预设路径规则的预选路径;
根据预设算法,确定所述预选路径的点互信息值;
根据所述预选路径中的标签概率以及所述点互信息值,确定综合点互信息值;所述标签概率为所述预选路径中的每个标签的概率的连乘积;
选择所述综合点互信息值最大的预选路径作为目标路径,生成所述目标路径的分词结果。
5.根据权利要求4所述的方法,其特征在于,所述根据预设算法,确定所述预选路径的点互信息值的步骤,包括:
根据以下公式,确定所述预选路径的点互信息值:
Figure FDA0001813231190000021
其中,F为所述点互信息值;
A1,A2,…,An分别表示所述预选路径中的分词;
PA1,A2,…,An表示A1,A2,…,An在所述待处理语句中同时出现的概率;
PA1表示A1在所述待处理语句中出现的概率;
PA2表示A2在所述待处理语句中出现的概率,…,PAn表示An在所述待处理语句中出现的概率。
6.根据权利要求5所述的方法,其特征在于,所述分词模型中的损失函数为:
L=Lc+(-F);
其中,L为所述损失函数的值;Lc为原始损失函数,且
LC(W,b)=-Σi,x∈Clogp(y|x;W,b);
其中,W为所述分词模型中的预设权重;x为所述分词模型中的输入分词;y为所述输入分词的标签;b为所述x的前一个输入分词的损失函数;
p(y|x;W,b)为所述y的概率。
7.一种分词处理装置,其特征在于,包括:
获取模块,用于获取待处理语句的预分词结果以及所述预分词结果中的分词的标签参数,其中,所述预分词结果中包括依次排列的至少两个所述分词;所述标签参数包括所述分词对应的各个标签的概率,所述标签用于指示所述分词的位置属性;
组成模块,用于根据所述分词的排列次序,依次将所述标签组成原始路径;其中,所述原始路径中包括每个所述分词的一个标签;
确定模块,用于根据预设算法,确定所述原始路径中综合点互信息值最大的目标路径,将所述目标路径对应的标签内容作为分词结果;其中,所述综合点互信息值为所述原始路径中的标签概率与点互信息值的乘积。
8.根据权利要求7所述的装置,其特征在于,所述组成模块用于:
针对每个所述分词,分别选择概率满足预设概率要求的预选标签;
根据所述分词的排列次序,依次将所述预选标签组成原始路径。
9.一种电子设备,其特征在于,包括存储器、处理器、总线以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至6中任一项所述的分词处理方法中的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于:所述程序被处理器执行时实现如权利要求1至6中任一项所述的分词处理方法中的步骤。
CN201811129922.7A 2018-09-27 2018-09-27 分词处理方法及装置 Active CN110969016B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811129922.7A CN110969016B (zh) 2018-09-27 2018-09-27 分词处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811129922.7A CN110969016B (zh) 2018-09-27 2018-09-27 分词处理方法及装置

Publications (2)

Publication Number Publication Date
CN110969016A CN110969016A (zh) 2020-04-07
CN110969016B true CN110969016B (zh) 2023-06-23

Family

ID=70026592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811129922.7A Active CN110969016B (zh) 2018-09-27 2018-09-27 分词处理方法及装置

Country Status (1)

Country Link
CN (1) CN110969016B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177102B (zh) * 2021-06-30 2021-08-24 智者四海(北京)技术有限公司 文本分类方法、装置、计算设备和计算机可读介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317882A (zh) * 2014-10-21 2015-01-28 北京理工大学 一种决策级中文分词融合方法
CN106528524A (zh) * 2016-09-22 2017-03-22 中山大学 一种基于MMseg算法与逐点互信息算法的分词方法
WO2017071474A1 (zh) * 2015-10-27 2017-05-04 中兴通讯股份有限公司 一种语料处理方法和装置及语料分析方法和装置
CN107391574A (zh) * 2017-06-19 2017-11-24 福建工程学院 一种基于本体和群智能算法的中文歧义切分方法
CN108121700A (zh) * 2017-12-21 2018-06-05 北京奇艺世纪科技有限公司 一种关键词提取方法、装置及电子设备
CN108334492A (zh) * 2017-12-05 2018-07-27 腾讯科技(深圳)有限公司 文本分词、即时消息处理方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317882A (zh) * 2014-10-21 2015-01-28 北京理工大学 一种决策级中文分词融合方法
WO2017071474A1 (zh) * 2015-10-27 2017-05-04 中兴通讯股份有限公司 一种语料处理方法和装置及语料分析方法和装置
CN106528524A (zh) * 2016-09-22 2017-03-22 中山大学 一种基于MMseg算法与逐点互信息算法的分词方法
CN107391574A (zh) * 2017-06-19 2017-11-24 福建工程学院 一种基于本体和群智能算法的中文歧义切分方法
CN108334492A (zh) * 2017-12-05 2018-07-27 腾讯科技(深圳)有限公司 文本分词、即时消息处理方法和装置
CN108121700A (zh) * 2017-12-21 2018-06-05 北京奇艺世纪科技有限公司 一种关键词提取方法、装置及电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Bo Zheng等.Enhancing LSTM-based Word Segmentation Using Unlabeled Data.NLP-NABD2017, CCL 2017:Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data.2017,第10565卷全文. *
刘春丽 ; 李晓戈 ; 刘睿 ; 范贤 ; 杜丽萍 ; .基于表示学习的中文分词.计算机应用.2016,第36卷(第10期),全文. *
张婧 ; 黄德根 ; 黄锴宇 ; 刘壮 ; 孟祥主 ; .基于λ-主动学习方法的中文微博分词.清华大学学报(自然科学版).2018,第58卷(第03期),全文. *

Also Published As

Publication number Publication date
CN110969016A (zh) 2020-04-07

Similar Documents

Publication Publication Date Title
EP3660733B1 (en) Method and system for information extraction from document images using conversational interface and database querying
CN109840287B (zh) 一种基于神经网络的跨模态信息检索方法和装置
CN109960726B (zh) 文本分类模型构建方法、装置、终端及存储介质
CN110516247B (zh) 基于神经网络的命名实体识别方法及计算机存储介质
CN112148877B (zh) 语料文本的处理方法、装置及电子设备
CN110263325B (zh) 中文分词系统
CN110321566B (zh) 中文命名实体识别方法、装置、计算机设备和存储介质
CN111914085A (zh) 文本细粒度情感分类方法、系统、装置及存储介质
CN110969020A (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
WO2020143320A1 (zh) 文本词向量获取方法、装置、计算机设备及存储介质
CN110188195B (zh) 一种基于深度学习的文本意图识别方法、装置及设备
CN111985228B (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN111310441A (zh) 基于bert的语音识别后文本修正方法、装置、终端及介质
CN111460170B (zh) 一种词语识别方法、装置、终端设备及存储介质
CN111259144A (zh) 多模型融合文本匹配方法、装置、设备和存储介质
CN111159485A (zh) 尾实体链接方法、装置、服务器及存储介质
CN110188827B (zh) 一种基于卷积神经网络和递归自动编码器模型的场景识别方法
CN113836992B (zh) 识别标签的方法、训练标签识别模型的方法、装置及设备
CN112101031B (zh) 一种实体识别方法、终端设备及存储介质
US20200364216A1 (en) Method, apparatus and storage medium for updating model parameter
CN113326702B (zh) 语义识别方法、装置、电子设备及存储介质
CN111858984A (zh) 一种基于注意力机制哈希检索的图像匹配方法
CN110969016B (zh) 分词处理方法及装置
CN115130475A (zh) 一种可扩展的通用端到端命名实体识别方法
CN111428475B (zh) 分词词库的构建方法、分词方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant