CN112069812B - 一种分词方法、装置、设备及计算机存储介质 - Google Patents
一种分词方法、装置、设备及计算机存储介质 Download PDFInfo
- Publication number
- CN112069812B CN112069812B CN202010887529.5A CN202010887529A CN112069812B CN 112069812 B CN112069812 B CN 112069812B CN 202010887529 A CN202010887529 A CN 202010887529A CN 112069812 B CN112069812 B CN 112069812B
- Authority
- CN
- China
- Prior art keywords
- candidate
- word segmentation
- segmentation result
- slice
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 191
- 238000000034 method Methods 0.000 title claims abstract description 42
- 239000006185 dispersion Substances 0.000 claims description 59
- 238000013138 pruning Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 4
- 241000209094 Oryza Species 0.000 description 3
- 235000007164 Oryza sativa Nutrition 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 235000009566 rice Nutrition 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种分词方法、装置、设备及计算机存储介质。该方法包括:划分获取的中文文本,得到以每个字符为起点并且可以成词的候选切片集合;循环遍历各所述候选切片集合,得到候选分词结果;确定所述候选分词结果中各候选切片长度的乘积值,并将乘积值最大的候选分词结果作为所述中文文本的目标分词结果。上述方案选取分词结果中长度乘积值最大的作为中文文本的目标分词结果,实现了分词结果的全局最优,提高了分词结果的准确度。
Description
技术领域
本发明实施例涉及信息检索技术领域,尤其涉及一种分词方法、装置、设备及计算机存储介质。
背景技术
中文是通过字组合为词来表达意思,词与词之间没有空格或其他分隔,理解一段中文文本需要将该文本的词划分出来,即将连续的汉字分割成具有意义的词,这个过程叫做中文分词。中文分词是中文信息处理问题的基础,是汉语文本自动标注、信息检索、文本挖掘等工作中的关键步骤。
以信息检索领域为例,目前常用的分词方法主要是前向(后向)最大匹配法,这种分词方法的使用成本低,但只能得到局部最优解。
发明内容
本发明实施例提供一种分词方法、装置、设备及计算机存储介质,提高分词结果的准确度。
第一方面,本发明实施例提供了一种分词方法,包括:
划分获取的中文文本,得到以每个字符为起点并且可以成词的候选切片集合;
循环遍历各所述候选切片集合,得到候选分词结果;
确定所述候选分词结果中各候选切片长度的乘积值,并将乘积值最大的候选分词结果作为所述中文文本的目标分词结果。
第二方面,本发明实施例还提供了一种分词装置,包括:
划分模块,用于划分获取的中文文本,得到以每个字符为起点并且可以成词的候选切片集合;
候选分词结果确定模块,用于循环遍历各所述候选切片集合,得到候选分词结果;
目标分词结果确定模块,用于确定所述候选分词结果中各候选切片长度的乘积值,并将乘积值最大的候选分词结果作为所述中文文本的目标分词结果。
第三方面,本发明实施例还提供了一种计算机设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述处理器执行时,使得所述处理器实现如第一方面所述的分词方法。
第四方面,本发明实施例还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的分词方法。
本发明实施例提供了一种分词方法、装置、设备及计算机存储介质,通过划分获取的中文文本,得到以每个字符为起点并且可以成词的候选切片集合;循环遍历各所述候选切片集合,得到候选分词结果;确定所述候选分词结果中各候选切片长度的乘积值,并将乘积值最大的候选分词结果作为所述中文文本的目标分词结果。上述方案选取分词结果中长度乘积值最大的作为中文文本的目标分词结果,实现了分词结果的全局最优,提高了分词结果的准确度。
附图说明
图1为本发明实施例一提供的一种分词方法的流程图;
图2为本发明实施例二提供的一种分词方法的流程图;
图3为本发明实施例三提供的一种分词装置的结构图;
图4为本发明实施例四提供的一种计算机设备的结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。此外,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
图1为本发明实施例一提供的一种分词方法的流程图,本实施例可适用于信息检索领域中需要分词的情况,例如可以应用在构建索引、中心词提取等场景中,将连续的中文文本分割成有意义的词,该方法可以由分词装置来执行,该装置可以采用硬件和/或软件的方式实现,并可集成在手机、电脑等计算机设备中,参考图1,该方法可以包括如下步骤:
S110、划分获取的中文文本,得到以每个字符为起点并且可以成词的候选切片集合。
本实施例的中文文本是一段字与字之间没有空格或其他分隔的文本,对中文文本的获取方式不进行限定,例如可以由用户输入,也可以通过网页等方式获取,还可以通过识别用户的语音数据获取。候选切片集合是以某个字符为起点可以成词的候选切片形成的集合,该候选切片集合中可以包含一个候选切片也可以包含多个候选切片,候选切片集合的数量与该中文文本包含的字符数量一致。划分中文文本的方式可以根据实际需要确定,例如可以通过AC自动机(Aho-Corasick automaton)划分中文文本。
示例性的,中文文本为“米小圈上学记的最新更新”,通过划分可以得到第一个字符对应的候选切片集合可以包括“米、米小圈、米小圈上学和米小圈上学记”,第二个字符对应的候选切片集合可以包括“小”,第三个字符对应的候选切片集合可以包括“圈”,第四个字符对应的候选切片集合可以包括“上、上学、上学记、上学记的最新更新”,第五个字符对应的候选切片集合可以包括“学”,第六个字符对应的候选切片集合可以包括“记”,第七个字符对应的候选切片集合可以包括“的”,第八个字符对应的候选切片集合可以包括“最、最新、最新更新”,第九个字符对应的候选切片集合可以包括“新”,第十个字符对应的候选切片集合可以包括“更、更新”。
S120、循环遍历各所述候选切片集合,得到候选分词结果。
可选的,可以用begin表示字符的起始位置,end表示当前候选切片所对应字符的终点位置。例如begin=0表示第一个字符,begin=1表示第二个字符,依次类推,begin=9表示第十个字符;end=1表示候选切片所对应字符的终点位置为1,如果中文文本为“米小圈上学记的最新更新”,则end=1对应的是“米”,end=3对应的是“米小圈”。候选切片的长度可以根据begin代表的位置和end所对应字符的终点位置确定,例如end=1、begin=0对应的候选切片的长度为1,end=3、begin=0对应的候选切片的长度为3。
候选分词结果所包含的候选切片可以通过遍历候选切片集合得到,例如在一种实现方式中,可以从第一个字符开始,并从对应的候选切片集合中选取一个候选切片作为当前候选切片,然后遍历下一个字符对应的候选切片集合,直至当前候选切片遍历结束,得到分词结果,然后从第一个字符所对应候选切片集合中选取另一个候选切片作为当前候选切片,重复执行上述过程,直至第一个字符所对应候选切片集合中的候选切片遍历结束。其中,下一个字符可以是与第一个字符相邻的字符,也可以是不相邻的字符。
S130、确定所述候选分词结果中各候选切片长度的乘积值,并将乘积值最大的候选分词结果作为所述中文文本的目标分词结果。
各候选分词结果对应的候选切片确定后,本实施例选取候选切片长度的乘积值最大的分词结果作为该中文文本的目标分词结果,保证了分词结果的全局最优。示例性的,分词结果1对应的各候选切片的长度分别为1、1、8,分词结果2对应的各候选切片的长度分别为1、9,分词结果3对应的各候选切片的长度分别为2、3、5,则将分词结果3作为该中文文本的目标分词结果,相应的,分词结果3对应的各候选切片为目标切片。
本发明实施例一提供一种分词方法,通过划分获取的中文文本,得到以每个字符为起点并且可以成词的候选切片集合;循环遍历各所述候选切片集合,得到候选分词结果;确定所述候选分词结果中各候选切片长度的乘积值,并将乘积值最大的候选分词结果作为所述中文文本的目标分词结果。上述方案选取分词结果中长度乘积值最大的作为中文文本的目标分词结果,实现了分词结果的全局最优,提高了分词结果的准确度。
实施例二
图2为本发明实施例二提供的一种分词方法的流程图,本实施例是在上述实施例的基础上进行优化,参考图2,该方法可以包括如下步骤:
S210、划分获取的中文文本,得到以每个字符为起点并且可以成词的候选切片集合。
S220、确定各所述候选切片集合中候选切片的优先级顺序,形成对应的优先级序列。
优先级序列可以是按照优先级顺序排列形成的集合,本实施例的优先级序列是将各候选切片集合中的候选切片按照其优先级顺序由高到低排列形成。同一候选切片集合中候选切片的优先级顺序可以根据候选切片的长度与设定值的靠拢程度确定,候选切片的长度越向设定值靠拢,表示其优先级越高。具体的,可以通过如下方式确定各候选切片集合中候选切片的优先级顺序:
确定各所述候选切片集合中候选切片的长度;
将所述长度与设定值作差再取绝对值,按照由小到大的顺序排列形成对应的优先级序列。
仍以“米小圈上学记的最新更新”为例,对其进行划分得到的候选集合以及候选集合包含的候选切片如下:
begin=0—end:1(米)、end:3(米小圈)、end:5(米小圈上学)、end:6(米小圈上学记);
begin=1—end:2(小);
begin=2—end:3(圈);
begin=3—end:4(上)、end:5(上学)、end:6(上学记)、end:11(上学记的最新更新);
begin=4—end:5(学);
begin=5—end:6(记);
begin=6—end:7(的);
begin=7—end:8(最)、end:9(最新)、end:11(最新更新);
begin=8—end:9(新);
begin=9—end:10(更)、end:11(更新);
begin=10—end:11(新)。
每一个begin对应一个候选切片集合,候选切片集合中候选切片的长度可以根据end和begin确定,例如begin=7对应的候选切片集合中,候选切片“最新更新”的长度为11(end)-7(begin)=4。本实施例的设定值为3,可以保证最终得到的分词结果中各候选切片长度的乘积值最大,从而提高分词结果的准确性。具体的,各候选切片集合中候选切片的长度确定以后,将其与3作差再取绝对值,绝对值越小,表示该候选切片的长度越向3靠拢,对应的优先级越高。将绝对值按照由小到大的顺序排列即可得到优先级序列,将绝对值按照由小到大的顺序排列可以提高分词结果的确定效率。需要说明的是,当两个候选切片对应的绝对值相等时,将长度较大的候选切片排在前面;由于1对乘积值没有贡献,因此本实施例将长度为1的候选切片排在最后。
示例性的,上述候选切片集合对应的优先级序列分别为:
begin=0—end:3(米小圈)、end:5(米小圈上学)、end:6(米小圈上学记)、end:1(米);
begin=1—end:2(小);
begin=2—end:3(圈);
begin=3—end:6(上学记)、end:5(上学)、end:11(上学记的最新更新)、end:4(上);
begin=4—end:5(学);
begin=5—end:6(记);
begin=6—end:7(的);
begin=7—end:11(最新更新)、end:9(最新)、end:8(最);
begin=8—end:9(新);
begin=9—end:11(更新)、end:10(更);
begin=10—end:11(新)。
S230、遍历所述优先级序列,得到候选分词结果。
可选的,可以从第一个字符的第一个元素开始按照遍历规则遍历其他字符所对应优先级序列的第一个元素,直至返回至第一个字符,然后从第一个字符的第二个元素开始执行同样的过程,直至第一个字符对应的所有元素遍历结束。具体的,S230可以包括:
将所述中文文本的初始字符作为当前字符以及将所述当前字符所对应优先级序列的首个候选切片作为当前候选切片;
根据所述当前候选切片的长度遍历对应字符优先级序列的候选切片,直至得到初始分词结果,并确定所述初始分词结果的离散度;
递归遍历对应字符优先级序列的其他候选切片,如果所述初始字符到当前遍历到的其他候选切片所对应终点字符的离散度大于历史离散度;或者所述初始字符到当前遍历到的其他候选切片所对应终点字符的离散度等于历史离散度且所述其他候选切片所对应的终点字符为所述中文文本的非终点字符,确定遍历到的所述其他候选切片满足剪枝条件,则删除所述其他候选切片,否则保留所述其他候选切片,直至返回所述当前字符;
将所述当前字符所对应优先级序列的下一个候选切片作为新的当前候选切片,重复执行上述操作,直至所述当前字符所对应优先级序列的候选切片遍历结束;
根据保留的候选切片生成候选分词结果。
候选切片的离散度可以理解为候选切片的长度与设定值的接近程度,离散度越小,表示该候选切片的长度越接近设定值,候选切片的长度与设定值的接近程度可以通过公式disp=|lengthi-k|确定,其中,disp表示候选切片的离散度,lengthi表示候选切片i的长度,k为设定值,本实施例的k=3。剪枝条件用于快速过滤掉离散度大于历史离散度的候选切片,提高分词效率。在一种情况下,剪枝条件可以是disp_history<disp,即所述初始字符到当前遍历到的其他候选切片所对应终点字符的离散度大于历史离散度,这种剪枝条件可以保留与历史离散度相同的候选切片,实际应用时基于工程需要,用户有可能希望将与历史离散度相同的候选切片减掉,这种情况下剪枝条件还可以是disp_history=disp且m-end>0,即所述初始字符到当前遍历到的其他候选切片所对应终点字符的离散度等于历史离散度且所述其他候选切片所对应的终点字符为所述中文文本的非终点字符,其中,m为中文文本的长度。本实施例的剪枝条件以disp_history<disp或disp_history=disp且m-end>0为例。
以上述优先级序列为例,可以将begin=0的第一个元素end:3(米小圈)作为当前候选切片,在一种实现方式中,在未得到分词结果之前,可以令begin=end,例如首次遍历过程为:begin=0的end:3(米小圈),未得到初始分词结果,令begin=3,则遍历begin=3的第一个元素end:6(上学记),未得到初始分词结果,另begin=6,则遍历begin=6的第一个元素end:7(的),未得到初始分词结果,另begin=7,则遍历begin=7的第一个元素end:11(最新更新),由此得到初始分词结果,即米小圈、上学记、的、最新更新,并将该初始分词结果中各候选切片的乘积值作为历史最优解,然后确定该初始分词结果的离散度,其中,初始分词结果的离散度为初始分词结果所包含的各候选切片的离散度之和,历史离散度可以认为是历史最优解对应的离散度,例如“米小圈、上学记、的、最新更新”为历史最优解,则历史离散度可以是3。
然后递归遍历对应优先级序列的其他候选切片,例如遍历begin=7的第二个元素end:9(最新),初始字符“米”到end=9的离散度为3等于历史离散度3,且end=9<11,则将begin=7的第二个元素end:9(最新)减掉,继续判断begin=7的第三个元素end:8(最),初始字符“米”到end=8的离散度为3等于历史离散度3,且end=8<11,则将该候选切片减掉,继续向上返回至begin=6,该优先级序列的元素只有一个,继续向上返回至begin=3的第二个元素end:5(上学),初始字符“米”到end=5的离散度为1,小于历史离散度3,则保留该候选切片,然后遍历begin=3的第三个元素end:11(上学记的最新更新),初始字符“米”到end=5的离散度为5大于历史离散度3,将该候选切片减掉,然后遍历begin=3的第四个元素end:4(上),初始字符“米”到end=4的离散度为2,小于历史离散度3,保留该候选切片;然后向上返回至第一个字符,从第一个字符的第二个元素开始重复执行上述操作,直至第一个字符的所有元素遍历结束,得到候选分词结果。
S240、确定所述候选分词结果中各候选切片长度的乘积值,并将乘积值最大的候选分词结果作为所述中文文本的目标分词结果。
各候选切片长度的确定过程可以参考上述实施例,此处不再赘述。各候选切片的长度确定之后,可以进一步确定各候选分词结果所包含的候选切片的长度乘积值,并从中选取乘积值最大的候选分词结果,作为目标分词结果。候选分词结果中各候选切片长度的乘积值越大,表示各候选切片的离散度越小,对应的离散度之和也越小。本实施例将乘积值最大的候选分词结果作为目标分词结果可以保证分词结果全局最优。例如分词结果1的各候选切片的长度分别为1、1、8,对应的离散度分别为2、2、5,分词结果2的各候选切片的长度分别为1、9,对应的离散度分别为2、6,分词结果3的各候选切片的长度分别为2、3、5,对应的离散度分别为1、0、2,可以看出分词结果3的各候选切片的乘积值>分词结果2>分词结果1,相应的,分词结果3的离散度之和<分词结果2<分词结果1。
仍以“米小圈上学记的最新更新”为例,假定最终确定的乘积值最大的候选切片为“米小圈”、“上学记”、“的”、“最新更新”,则该中文文本对应的目标分词结果为米小圈/上学记/的/最新更新。
本发明实施例二提供一种分词方法,在上述实施例的基础上,对候选切片集合中的候选切片按照优先级顺序排列,形成优先级序列,然后遍历优先级序列,提高了分词效率,而且遍历过程中引入剪枝条件,快速过滤掉不符合条件的候选切片,进一步提升了分词效率,当分词结果有多个时,将候选切片长度的乘积值最大的分词结果作为该中文文本的最终分词结果,保证了分词结果的全局最优,提高了分词结果的准确度。
实施例三
图3为本发明实施例三提供的一种分词装置的结构图,该装置可以执行上述实施例所述的分词方法,参考图3,该装置可以包括:
划分模块31,用于划分获取的中文文本,得到以每个字符为起点并且可以成词的候选切片集合;
候选分词结果确定模块32,用于循环遍历各所述候选切片集合,得到候选分词结果;
目标分词结果确定模块33,用于确定所述候选分词结果中各候选切片长度的乘积值,并将乘积值最大的候选分词结果作为所述中文文本的目标分词结果。
本发明实施例三提供一种分词装置,通过划分获取的中文文本,得到以每个字符为起点并且可以成词的候选切片集合;循环遍历各所述候选切片集合,得到候选分词结果;确定所述候选分词结果中各候选切片长度的乘积值,并将乘积值最大的候选分词结果作为所述中文文本的目标分词结果。上述方案选取分词结果中长度乘积值最大的作为中文文本的目标分词结果,实现了分词结果的全局最优,提高了分词结果的准确度。
在上述实施例的基础上,候选分词结果确定模块32,包括:
优先级序列确定单元,用于确定各所述候选切片集合中候选切片的优先级顺序,形成对应的优先级序列;
候选分词结果确定单元,用于遍历所述优先级序列,得到候选分词结果。
在上述实施例的基础上,所述优先级序列确定单元,具体用于:
确定各所述候选切片集合中候选切片的长度;
将所述长度与设定值作差再取绝对值,按照由小到大的顺序排列形成对应的优先级序列;
其中,当绝对值相等时,长度大的候选切片位于长度小的候选切片之前,长度为1的候选切片位于对应优先级序列的最后。
在上述实施例的基础上,所述候选分词结果确定单元,具体用于:
将所述中文文本的初始字符作为当前字符以及将所述当前字符所对应优先级序列的首个候选切片作为当前候选切片;
根据所述当前候选切片的长度遍历对应字符优先级序列的候选切片,直至得到初始分词结果,并确定所述初始分词结果的离散度;
递归遍历对应字符优先级序列的其他候选切片,如果所述初始字符到当前遍历到的其他候选切片所对应终点字符的离散度大于历史离散度;或者所述初始字符到当前遍历到的其他候选切片所对应终点字符的离散度等于历史离散度且所述其他候选切片所对应的终点字符为所述中文文本的非终点字符,确定遍历到的所述其他候选切片满足剪枝条件,则删除所述其他候选切片,否则保留所述其他候选切片,直至返回所述当前字符;
将所述当前字符所对应优先级序列的下一个候选切片作为新的当前候选切片,重复执行上述操作,直至所述当前字符所对应优先级序列的候选切片遍历结束;
根据保留的候选切片生成候选分词结果。
在上述实施例的基础上,所述确定所述初始分词结果的离散度,包括:
确定所述初始分词结果中各候选切片的长度;
将各所述候选切片的长度与设定值之差的绝对值之和,确定为所述初始分词结果的离散度。
本发明实施例提供的分词装置可执行上述实施例中的分词方法,具备执行方法相应的功能模块和有益效果。
实施例四
图4为本发明实施例四提供的一种计算机设备的结构图,参考图4,该计算机设备可以包括处理器41、存储器42、输入装置43和输出装置44,处理器41的数量可以是一个或多个,图4以一个处理器41为例。计算机设备中处理器41、存储器42、输入装置43和输出装置44可以通过总线或其他方式连接,图4以通过总线为例。
存储器42作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的分词方法对应的程序指令/模块。处理器41通过运行存储在存储器42中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述实施例的分词方法。
存储器42主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器42可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器42可进一步包括相对于处理器41远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置43可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置44可包括显示屏等显示设备、扬声器以及蜂鸣器等音频设备。
本发明实施例提供的计算机设备与上述实施例提供的分词方法属于同一构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且本实施例具备执行分词方法相同的有益效果。
实施例五
本发明实施例五提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时用于执行分词方法,该方法包括:
划分获取的中文文本,得到以每个字符为起点并且可以成词的候选切片集合;
循环遍历各所述候选切片集合,得到候选分词结果;
确定所述候选分词结果中各候选切片长度的乘积值,并将乘积值最大的候选分词结果作为所述中文文本的目标分词结果。
本发明实施例的存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(Random Access Memory,RAM)、只读存储器(Read Only Memory,ROM)、可擦式可编程只读存储器(Erasable ProgrammableRead Only Memory,EPROM)、闪存、光纤、便携式CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于:电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、无线电频率(Radio Frequency,RF)等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (4)
1.一种分词方法,其特征在于,包括:
划分获取的中文文本,得到以每个字符为起点并且可以成词的候选切片集合;
循环遍历各所述候选切片集合,得到候选分词结果;
确定所述候选分词结果中各候选切片长度的乘积值,并将乘积值最大的候选分词结果作为所述中文文本的目标分词结果;
所述循环遍历各所述候选切片集合,得到候选分词结果,包括:
确定各所述候选切片集合中候选切片的优先级顺序,形成对应的优先级序列;
遍历所述优先级序列,得到候选分词结果;
所述确定各所述候选切片集合中候选切片的优先级顺序,形成对应的优先级序列,包括:
确定各所述候选切片集合中候选切片的长度;
将所述长度与设定值作差再取绝对值,按照由小到大的顺序排列形成对应的优先级序列;
其中,当绝对值相等时,长度大的候选切片位于长度小的候选切片之前,长度为1的候选切片位于对应优先级序列的最后;
所述遍历所述优先级序列,得到候选分词结果,包括:
将所述中文文本的初始字符作为当前字符以及将所述当前字符所对应优先级序列的首个候选切片作为当前候选切片;
根据所述当前候选切片的长度遍历对应字符优先级序列的候选切片,直至得到初始分词结果,并确定所述初始分词结果的离散度;
递归遍历对应字符优先级序列的其他候选切片,如果所述初始字符到当前遍历到的其他候选切片所对应终点字符的离散度大于历史离散度;或者所述初始字符到当前遍历到的其他候选切片所对应终点字符的离散度等于历史离散度且所述其他候选切片所对应的终点字符为所述中文文本的非终点字符,确定遍历到的所述其他候选切片满足剪枝条件,则删除所述其他候选切片,否则保留所述其他候选切片,直至返回所述当前字符;
将所述当前字符所对应优先级序列的下一个候选切片作为新的当前候选切片,重复执行上述操作,直至所述当前字符所对应优先级序列的候选切片遍历结束;
根据保留的候选切片生成候选分词结果;
所述确定所述初始分词结果的离散度,包括:
确定所述初始分词结果中各候选切片的长度;
将各所述候选切片的长度与设定值之差的绝对值之和,确定为所述初始分词结果的离散度。
2.一种分词装置,其特征在于,包括:
划分模块,用于划分获取的中文文本,得到以每个字符为起点并且可以成词的候选切片集合;
候选分词结果确定模块,用于循环遍历各所述候选切片集合,得到候选分词结果;
目标分词结果确定模块,用于确定所述候选分词结果中各候选切片长度的乘积值,并将乘积值最大的候选分词结果作为所述中文文本的目标分词结果;
所述候选分词结果确定模块,包括:
优先级序列确定单元,用于确定各所述候选切片集合中候选切片的优先级顺序,形成对应的优先级序列;
候选分词结果确定单元,用于遍历所述优先级序列,得到候选分词结果;
所述优先级序列确定单元,具体用于:
确定各所述候选切片集合中候选切片的长度;
将所述长度与设定值作差再取绝对值,按照由小到大的顺序排列形成对应的优先级序列;
其中,当绝对值相等时,长度大的候选切片位于长度小的候选切片之前,长度为1的候选切片位于对应优先级序列的最后;
所述候选分词结果确定单元,具体用于:
将所述中文文本的初始字符作为当前字符以及将所述当前字符所对应优先级序列的首个候选切片作为当前候选切片;
根据所述当前候选切片的长度遍历对应字符优先级序列的候选切片,直至得到初始分词结果,并确定所述初始分词结果的离散度;
递归遍历对应字符优先级序列的其他候选切片,如果所述初始字符到当前遍历到的其他候选切片所对应终点字符的离散度大于历史离散度;或者所述初始字符到当前遍历到的其他候选切片所对应终点字符的离散度等于历史离散度且所述其他候选切片所对应的终点字符为所述中文文本的非终点字符,确定遍历到的所述其他候选切片满足剪枝条件,则删除所述其他候选切片,否则保留所述其他候选切片,直至返回所述当前字符;
将所述当前字符所对应优先级序列的下一个候选切片作为新的当前候选切片,重复执行上述操作,直至所述当前字符所对应优先级序列的候选切片遍历结束;
根据保留的候选切片生成候选分词结果;
所述确定所述初始分词结果的离散度,包括:
确定所述初始分词结果中各候选切片的长度;
将各所述候选切片的长度与设定值之差的绝对值之和,确定为所述初始分词结果的离散度。
3.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述处理器执行时,使得所述处理器实现如权利要求1所述的分词方法。
4.一种计算机存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1所述的分词方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010887529.5A CN112069812B (zh) | 2020-08-28 | 2020-08-28 | 一种分词方法、装置、设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010887529.5A CN112069812B (zh) | 2020-08-28 | 2020-08-28 | 一种分词方法、装置、设备及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112069812A CN112069812A (zh) | 2020-12-11 |
CN112069812B true CN112069812B (zh) | 2024-05-03 |
Family
ID=73660150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010887529.5A Active CN112069812B (zh) | 2020-08-28 | 2020-08-28 | 一种分词方法、装置、设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112069812B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113468878B (zh) * | 2021-07-13 | 2024-09-06 | 腾讯科技(深圳)有限公司 | 词性标注方法、装置、电子设备及存储介质 |
CN114692630A (zh) * | 2022-04-18 | 2022-07-01 | 上海喜马拉雅科技有限公司 | 分词方法、装置、电子设备及可读存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0425291A2 (en) * | 1989-10-25 | 1991-05-02 | Xerox Corporation | Word recognition process and apparatus |
JP2001051996A (ja) * | 1999-08-04 | 2001-02-23 | Nippon Telegr & Teleph Corp <Ntt> | 形態素解析方法及び装置及び形態素解析プログラムを格納した記憶媒体 |
US6879951B1 (en) * | 1999-07-29 | 2005-04-12 | Matsushita Electric Industrial Co., Ltd. | Chinese word segmentation apparatus |
CN102375863A (zh) * | 2010-08-27 | 2012-03-14 | 北京四维图新科技股份有限公司 | 一种地理信息领域的关键字提取的方法及装置 |
CN107145555A (zh) * | 2017-04-28 | 2017-09-08 | 北京安数云信息技术有限公司 | 一种基于分词的模糊语句搜索方法 |
CN108197116A (zh) * | 2018-01-31 | 2018-06-22 | 天闻数媒科技(北京)有限公司 | 一种中文文本分词的方法、装置、分词设备及存储介质 |
CN109255117A (zh) * | 2017-07-13 | 2019-01-22 | 普天信息技术有限公司 | 中文分词方法及装置 |
CN110232923A (zh) * | 2019-05-09 | 2019-09-13 | 青岛海信电器股份有限公司 | 一种语音控制指令生成方法、装置及电子设备 |
JP2020064624A (ja) * | 2018-10-16 | 2020-04-23 | 株式会社リコー | サブワード単位の分割方法、装置及びコンピュータ読み取り可能な記憶媒体 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232183B (zh) * | 2018-12-07 | 2022-05-27 | 腾讯科技(深圳)有限公司 | 关键词提取模型训练方法、关键词提取方法、装置及存储介质 |
-
2020
- 2020-08-28 CN CN202010887529.5A patent/CN112069812B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0425291A2 (en) * | 1989-10-25 | 1991-05-02 | Xerox Corporation | Word recognition process and apparatus |
US6879951B1 (en) * | 1999-07-29 | 2005-04-12 | Matsushita Electric Industrial Co., Ltd. | Chinese word segmentation apparatus |
JP2001051996A (ja) * | 1999-08-04 | 2001-02-23 | Nippon Telegr & Teleph Corp <Ntt> | 形態素解析方法及び装置及び形態素解析プログラムを格納した記憶媒体 |
CN102375863A (zh) * | 2010-08-27 | 2012-03-14 | 北京四维图新科技股份有限公司 | 一种地理信息领域的关键字提取的方法及装置 |
CN107145555A (zh) * | 2017-04-28 | 2017-09-08 | 北京安数云信息技术有限公司 | 一种基于分词的模糊语句搜索方法 |
CN109255117A (zh) * | 2017-07-13 | 2019-01-22 | 普天信息技术有限公司 | 中文分词方法及装置 |
CN108197116A (zh) * | 2018-01-31 | 2018-06-22 | 天闻数媒科技(北京)有限公司 | 一种中文文本分词的方法、装置、分词设备及存储介质 |
JP2020064624A (ja) * | 2018-10-16 | 2020-04-23 | 株式会社リコー | サブワード単位の分割方法、装置及びコンピュータ読み取り可能な記憶媒体 |
CN110232923A (zh) * | 2019-05-09 | 2019-09-13 | 青岛海信电器股份有限公司 | 一种语音控制指令生成方法、装置及电子设备 |
Non-Patent Citations (1)
Title |
---|
无人机信息领域智能问答系统的研究与实现;蒋成伟;《中国优秀硕士学位论文全文数据库-信息科技辑》(第10期);I138-983 * |
Also Published As
Publication number | Publication date |
---|---|
CN112069812A (zh) | 2020-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112069812B (zh) | 一种分词方法、装置、设备及计算机存储介质 | |
EP3358474B1 (en) | Route search method, device and apparatus, and non-volatile computer storage medium | |
CN105300399A (zh) | 路径导航方法及装置 | |
CN113986933A (zh) | 物化视图的创建方法、装置、存储介质及电子设备 | |
CN110554877A (zh) | 一种json数据解析方法、装置、设备及储存介质 | |
CN110413367B (zh) | 任务创建方法、装置、存储介质及电子设备 | |
CN114861059A (zh) | 资源推荐方法、装置、电子设备及存储介质 | |
CN113742332B (zh) | 数据存储方法、装置、设备及存储介质 | |
EP4231173A1 (en) | Webpage history display method and apparatus, device, and storage medium | |
CN115328992B (zh) | 事件分析方法、装置、介质及电子设备 | |
CN116108233A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN115983244A (zh) | 信息处理方法、装置、电子设备和存储介质 | |
CN115794742A (zh) | 文件路径数据处理方法、装置、设备及存储介质 | |
CN116127154A (zh) | 知识标签推荐方法、装置、电子设备及存储介质 | |
CN115329150A (zh) | 生成搜索条件树的方法、装置、电子设备及存储介质 | |
CN112115720B (zh) | 一种实体间关联关系的确定方法、装置、终端设备及介质 | |
CN112000667B (zh) | 用于检索树形数据的方法、装置、服务器和介质 | |
CN111238510B (zh) | 一种专用道路类型的确定、引导方法、装置及相关设备 | |
CN118427186B (zh) | 数据血缘追溯方法、装置、设备和介质 | |
CN110908867B (zh) | 任务完成的判定方法、装置、存储介质及电子设备 | |
CN114997118B (zh) | 一种文档处理方法、装置、设备和介质 | |
CN111238508B (zh) | 一种专用道路类型的确定、引导方法、装置及相关设备 | |
CN113641731B (zh) | 模糊搜索优化方法、装置、电子设备和可读存储介质 | |
CN113254993B (zh) | 数据保护方法、装置、设备、存储介质和程序产品 | |
CN114880411B (zh) | 车辆轨迹集合优化方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |