CN110969009A - 一种汉语自然语言文本的词语切分方法 - Google Patents

一种汉语自然语言文本的词语切分方法 Download PDF

Info

Publication number
CN110969009A
CN110969009A CN201911223545.8A CN201911223545A CN110969009A CN 110969009 A CN110969009 A CN 110969009A CN 201911223545 A CN201911223545 A CN 201911223545A CN 110969009 A CN110969009 A CN 110969009A
Authority
CN
China
Prior art keywords
word
words
keyword
character
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911223545.8A
Other languages
English (en)
Other versions
CN110969009B (zh
Inventor
黄少滨
张幻
程序
严江
申林山
李熔盛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201911223545.8A priority Critical patent/CN110969009B/zh
Publication of CN110969009A publication Critical patent/CN110969009A/zh
Application granted granted Critical
Publication of CN110969009B publication Critical patent/CN110969009B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明属于自然语言文本处理技术领域,具体涉及一种汉语自然语言文本的词语切分方法。本发明基于无监督学习中的基于良好度量的方法设计,在其中加入了少量工作量的人工的步骤,即需要人工整理中心词,人工整理中心词的优点是使词表的质量和词语类别更加可控,进一步地,可以降低对语料词语分布特征的需求,特别适用于语料的词语分布不理想以及领域合成词的中心词数量较少的情况。本发明的词语切分方法适用于领域的自然语言文本,特别地,最适用于在领域合成词和非标准词较多的领域,其分词效果好于通用的开放域分词工具的效果,结果有益于进一步在相关领域自然语言处理的后续步骤,特别是在知识抽取或知识图谱中的应用中。

Description

一种汉语自然语言文本的词语切分方法
技术领域
本发明属于自然语言文本处理技术领域,具体涉及一种汉语自然语言文本的词语切分方法。
背景技术
汉语分词,即汉语词语切分,是对汉语文本中的汉字序列按分词单位切分成词语序列的过程。汉语分词主要有三种思路,一是基于规则的分词,例如字符串匹配分词,若字符串存在于词表中,则将字符串分割,这种方法本质上利用了字符级别的特征,字符串的匹配需要满足某个字符或字符组合的某种条件;二是基于序列分类的分词,这种方法把分词认为是一个字符序列标记任务,即将字符标记为一个词的开头、中间、结尾、独字词,这种方法是现在的主流方法,因为序列分类是一个经典任务,该任务的传统方法和最新进展都可以用于分词,这种方法本质上利用了词语级别的特征,即匹配需要满足某几个字符组合起来像是一个词的条件;三是基于路径的方法,考察字符串的多种分割,找到最有可能的分割,这种方法本质上利用了句子级别的信息,即分割需要整个句子满足某种条件。
利用大规模的标注语料可以实现基于神经网络的分词方法,但大规模标注语料不易取得,所以也有许多使用大规模原始语料的分词方法,即无监督学习的方法,无监督的方法基本围绕着数量的统计,例如,在基于分支熵的方法(《Unsupervised segmentation ofChinese text by use of branching entropy》)中,统计一个字符串两边字符的各类,数量很多则说明这个字符串和那一边的字符没有关联(熵值较高),反之则说明字符串和该字符有组织一个词的可能。
一直以来,汉语分词面临的最大的难点是歧义消解和未登陆词识别问题,歧义消解处理的同一个字符串在不同语境下可以有不同的分词方式的情况,未登陆词识别处理的是没有出现在词表中,但在文本中表示一个固定意义的词语或分词单位的情况;另外,分词粒度也是一个尚未解决的问题,分词粒度问题指是分词单位的范围如何界定的问题,一方面,不同研究者的判断不同,另一方面,从定义和应用等不同角度出发,会有不同的想法。
目前,有许多常用的开放域分词工具,例如,Jieba是一个用于开放域分词的工具,分词时使用基于路径的方法,同时有用于自动发崛新词的Viterbi算法。LTP是一个有分词、命名实体识别等多种功能的开放域自然语言处理服务平台,分词使用了比较先进的基于神经网络的技术。但是,这些开放域的分词工具并不适用于领域文本,有些领域中的领域合成词、非标准词的数量很多,同时也存在许多普通词。
发明内容
本发明的目的在于提供一种汉语自然语言文本的词语切分方法。
本发明的目的通过如下技术方案来实现:包括以下步骤:
步骤1:输入待切分的汉语自然语言文本,判定文本所属的领域,设定期望提取的领域合成词的中心词的集合;所述的领域合成词指由多于一个的基本词连接起来而组成的词;所述的中心词指合成词中在最后位置的基本词,领域合成词中其它部分是中心词的定语;
步骤2:从中心词集合中,选择一个中心词,将此中心词定义为以下步骤3到步骤6的关键词。另外,若中心词集合已经全部被选择过,则执行步骤8;
步骤3:为关键词建立排除词表;
若关键词长度为1,在语料中找出所有关键词和“与关键词左右邻接的两个字符分别组成的两个双字符子字符串”,如果该字符串是一个有意义的词语,但关键词的对应字符在词语中的语法或语义角色和所期望的不同,则将此字符串加入此关键词的排除表;若关键词长度大于或等于2,则该关键词对应的排除表为空列表;
步骤4:按顺序地获取语料中关键词出现的一个位置index,并根据此位置,获取关于此关键词的一个子字符串;其中,子字符串的开头位置应该在期望的合成词的开头位置之前,位置为index-n,n大于最长领域合成词长度;子字符串的结尾为关键词的结尾,位置为index+m,m为关键词长度;如果关键词的长度为1,需要验证包括此位置字符的前后两个双字符子字符串不在排除表中,另外,若语料中所有关键词的出现的位置已经全部被获取过,执行步骤2;
步骤5:计数步骤4获取的子字符串在语料中的所有出现,将出现的数量及(从第2条记录开始)此记录与此次循环内上条记录之间的数量的比值记入此子字符串的记录列表,将子字符串的以第2个字符开始的字符串切片设为新的子字符串;
步骤6:若子字符串的长度等于关键词长度加1,则执行步骤7,否则返回步骤5;
步骤7:从步骤5的记录列表中选择比值、数量最大的一条或多条记录,加入此关键词的备选字符串列表,重新执行步骤4;
步骤8:根据此领域合成词的文本特点设定筛选条件,对备选字符串列表中的每个字符串,将满足条件的字符串加入合成词词表;
步骤9:删除或替换待切分的汉语自然语言文本中的无效字符;
步骤10:匹配预先定义的正则表达式,将匹配成功的字符串标记为词;
步骤11:匹配合成词表中的词。将匹配成功的字符串标记为词;
步骤12:对于字符串未能划分为词的部分,使用一般的开放域分词工具分词;
步骤13:输出待切分的汉语自然语言文本的分词结果。
本发明的有益效果在于:
本发明基于无监督学习中的基于良好度量的方法设计,在其中加入了少量工作量的人工的步骤,即需要人工整理中心词,人工整理中心词的优点是使词表的质量和词语类别更加可控,进一步地,可以降低对语料词语分布特征的需求,特别适用于语料的词语分布不理想以及领域合成词的中心词数量较少的情况。本发明的词语切分方法适用于领域的自然语言文本,特别地,最适用于在领域合成词和非标准词较多的领域,其分词效果好于通用的开放域分词工具的效果,结果有益于进一步在相关领域自然语言处理的后续步骤,特别是在知识抽取或知识图谱中的应用中。
附图说明
图1为本发明的生成合成词表的流程图。
图2为本发明的分词方法流程图。
图3为本发明实施例中一些常用的中文分词模块或系统对一个例句的分词结果。
图4为本发明实施例中原始语料中的一个文件的内容。
图5为本发明实施例中合成词词表生成结果示例。
图6为本发明实施例中本发明和开放域分词工具Jieba处理同一段文本的结果对比。
具体实施方式
下面结合附图对本发明做进一步描述。
本发明提供一种汉语自然语言文本的词语切分方法。本发明主要使用基于规则的分词方式,依据领域合成词词表和正则表达式分词,其中领域合成词由“词表生成算法”生成,该算法使用了无监督的方法,并需要少量人工参与。总体上,本发明仅需要少量人工参与,但能较好地实现分词,且结果有益于后续的应用
一种汉语自然语言文本的词语切分方法,包括以下步骤:
步骤1:输入待切分的汉语自然语言文本,判定文本所属的领域,设定期望提取的领域合成词的中心词的集合;所述的领域合成词指由多于一个的基本词连接起来而组成的词;所述的中心词指合成词中在最后位置的基本词,领域合成词中其它部分是中心词的定语;
步骤2:从中心词集合中,选择一个中心词,将此中心词定义为以下步骤3到步骤6的关键词。另外,若中心词集合已经全部被选择过,则执行步骤8;
步骤3:为关键词建立排除词表;
若关键词长度为1,在语料中找出所有关键词和“与关键词左右邻接的两个字符分别组成的两个双字符子字符串”,如果该字符串是一个有意义的词语,但关键词的对应字符在词语中的语法或语义角色和所期望的不同,则将此字符串加入此关键词的排除表;若关键词长度大于或等于2,则该关键词对应的排除表为空列表;
步骤4:按顺序地获取语料中关键词出现的一个位置index,并根据此位置,获取关于此关键词的一个子字符串;其中,子字符串的开头位置应该在期望的合成词的开头位置之前,位置为index-n,n大于最长领域合成词长度;子字符串的结尾为关键词的结尾,位置为index+m,m为关键词长度;如果关键词的长度为1,需要验证包括此位置字符的前后两个双字符子字符串不在排除表中,另外,若语料中所有关键词的出现的位置已经全部被获取过,执行步骤2;
步骤5:计数步骤4获取的子字符串在语料中的所有出现,将出现的数量及(从第2条记录开始)此记录与此次循环内上条记录之间的数量的比值记入此子字符串的记录列表,将子字符串的以第2个字符开始的字符串切片设为新的子字符串;
步骤6:若子字符串的长度等于关键词长度加1,则执行步骤7,否则返回步骤5;
步骤7:从步骤5的记录列表中选择比值、数量最大的一条或多条记录,加入此关键词的备选字符串列表,重新执行步骤4;
步骤8:根据此领域合成词的文本特点设定筛选条件,对备选字符串列表中的每个字符串,将满足条件的字符串加入合成词词表;
步骤9:删除或替换待切分的汉语自然语言文本中的无效字符;
步骤10:匹配预先定义的正则表达式,将匹配成功的字符串标记为词;
步骤11:匹配合成词表中的词。将匹配成功的字符串标记为词;
步骤12:对于字符串未能划分为词的部分,使用一般的开放域分词工具分词;
步骤13:输出待切分的汉语自然语言文本的分词结果。
实施例1:
一种以中心词为线索的面向领域的从大规模自然语言文本中生成领域合成词词表的生成算法,其中,领域合成词指由多于一个的基本词连接起来而组成的词;中心词指合成词中在最后位置的基本词,领域合成词中其它部分是中心词的定语;词表指词语列表,在用于分词系统时特指用于支持自动分词的分词单位集合,有以下步骤:
步骤1:定义领域的大规模自然语言文本(在本方法中称为语料),定义希望提取的领域合成词的中心词的集合。
步骤2:从中心词集合中,选择一个中心词,将此中心词定义为以下步骤3到步骤6的关键词。另外,若中心词集合已经全部被选择过,则执行步骤7;
步骤3:为关键词建立排除词表,方法如下,如果关键词长度为1,需要在语料中找出所有关键词和“与关键词左右邻接的两个字符分别组成的两个双字符子字符串”(此步骤中简称字符串),依据后述原则,可以全部甄别或统计字符串数量后仅对统计结果中数量相对较大的字符串进行甄别:原则是,如果该字符串是一个有意义的词语,但关键词的对应字符在词语中的语法或语义角色和所期望的不同,则将此字符串加入此关键词的排除表,此外,若关键词长度大于或等于2,在此步骤中无需进行上述处理,该关键词对应的排除表为空列表;
步骤4:按顺序地获取语料中关键词出现的一个位置index,并根据此位置,获取关于此关键词的一个子字符串,其中子字符串的开头位置应该在期望的合成词的开头位置之前(位置为index-n,n应大于最长领域合成词长度),子字符串的结尾为关键词的结尾(位置为index+m,m为关键词长度),如果关键词的长度为1,需要验证包括此位置字符的前后两个双字符子字符串不在排除表中,另外,若语料中所有关键词的出现的位置已经全部被获取过,执行步骤2;
步骤5:循环执行此步骤,计数步骤4获取的子字符串在语料中的所有出现,将出现的数量及(从第2条记录开始)此记录与此次循环内上条记录之间的数量的比值记入此子字符串的记录列表,将子字符串的以第2个字符开始的字符串切片设为新的子字符串,如果子字符串的长度等于关键词长度加1,结束循环。
步骤6:从步骤5的记录列表中选择比值、数量较大的一条或多条记录,加入此关键词的备选字符串列表,重新执行步骤4;
步骤7:根据此领域合成词的文本特点设定筛选条件,对备选字符串列表中的每个字符串,将满足条件的字符串加入合成词词表。
本发明得到下述结果:一个合成词词表,理想情况下,词表的每一个词都是合成词且以中心词集合中的词为中心词。
本发明基于无监督学习中的基于良好度量的方法设计,在其中加入了少量工作量的人工的步骤,即需要人工整理中心词,人工整理中心词的优点是使词表的质量和词语类别更加可控,进一步地,可以降低对语料词语分布特征的需求,特别适用于语料的词语分布不理想以及领域合成词的中心词数量较少的情况。
在获取领域合成词词表后
一种面向领域的自然语言文本的分词和属性标注方法,可选地:
步骤1:在一个大规模汉语自然语言文本中使用权利要求1所述的方法,获取领域合成词词表;
步骤2:设计匹配非标准词的正则表达式并将结果加入非标准词的正则表达式列表;
步骤3:根据合成词词表和非标准词的正则表达式列表,使用基于规则的方法分词;
删除或替换待切分的汉语自然语言文本中的无效字符;匹配预先定义的正则表达式,将匹配成功的字符串标记为词;匹配合成词表中的词。将匹配成功的字符串标记为词;
步骤4:对于在步骤3中字符串未能划分为词的部分,使用一般的开放域分词工具分词。
本发明的语切分方法适用于领域的自然语言文本,特别地,最适用于在领域合成词和非标准词较多的领域,其分词效果好于通用的开放域分词工具的效果,结果有益于进一步在相关领域自然语言处理的后续步骤,特别是在知识抽取或知识图谱中的应用中。
词语切分方法适用于领域的自然语言文本,特别地,最适用于在领域合成词和非标准词较多的领域,其分词效果好于通用的开放域分词工具的效果,结果有益于进一步在相关领域自然语言处理的后续步骤,特别是在知识抽取或知识图谱中的应用中。
使用四险一金领域文本作为示例。所举示例中使用的语料信息如下:原始语料由从网络爬取的公开的四险一金领域法律法规和政府公文的原始文本组成,图2为原始语料中的一个文件的内容,将所有文件里的字符串首尾相连为长字符串并存入一个文件,总字符数量约4.2千万,本方法示例中所述的语料即指此文件中的文本。
经观察与统计,语料的词语分布不够理想,例如,字符串“人劳”(人事劳动的简称)在语料中共出现186次,而“及中”(无意义字符串)在语料中共出现326次,该问题的本质是语料中期望提取词语之间的数量差别过大,在这种情况下,无监督词语提取的方法不适用,使用本发明较为合适。
(1)将一个中心词定为关键词。其中,“中心词”是语言学角度的描述方式,表示一个合成词的最后一个基本词,更学术地,是偏正短语中被修饰语所修饰、限制的中心成分,例如“人力资源和社会保障部”的中心词是“部”;而“关键词”是从算法、程序角度的描述方式,后续步骤将试着提取以关键词为中心词的所有合成词。
(2)如果关键词的长度为1,定义它的排除表。当关键词的长度(即字数)为1时,比如“部”,本来希望得到类似于“人力资源和社会保障部”的,以“部”为中心词的词,但类似于“行政‘部’门”或“本息全‘部’退还”的字符串也会被后续步骤关注,之后,提取的子字符串将是“行政部”和“本息全部”,“部”不是它们的中心词(更一般地,关键词在字符串中的语义或语法角色和期望中不同),这是不希望看到的,应该将“部门”和“全部”加入排除表,不在后续步骤中关注排除表中的情况。具体的方法是,对于一个包含关键词的双字符字符串,如果关键词对应字符是字符串的第一个字(比如“部门”)且字符串是一个有意义的词语,则排除此字符串,如果关键词对应字符是字符串的第二个字(比如“全部”)且字符串不是一个中心词,则排除此字符串,例如对于关键词“表”,虽然字符串“报表”中的“表”也不是原意,但“报表”也可以作为中心词,则不排除,后续得到的词表将包括以“报表”和“表”为中心词的合成词,相当于同时提取了以“报表”为中心词的合成词。还有一种情况,如果关键词在语料中的出现过多,则需要将相关的中心词分别提取,因为基本算法(在没有优化的前提下)的时间复杂度为O(n^2),其中n为关键词出现数量,如果关键词出现数量过大,程序运行时间会很长,例如关键词“工”在语料中出现50万次,其中“职工”出现16万次,所以将“职工”加入“工”的排除词表,再以“职工”作为单独的关键词比较合适。这两种情况都主要出现在关键词长度为1时(虽然原因不同),可以统一用本步骤处理。虽然这一步可以使用计算机自动处理,但实际中人工处理更加合适,如果只甄别数量较大的子字符串,工作量较小且对词表质量的稳定性很有帮助。
(3)获取一个以关键词结尾的字符串,在记录列表中记录该字符串及其所有末尾子字符串的字符串、数量和增长比值,记录列表的每个元素为元组:(字符串,数量,增长比值)(第1个元组没有增长比值),最后依策略选择字符串加入备选字符串列表。例如,一个字符串“由市、区(县)劳动保障行政部门”在整个语料中的出现应该是很少的,将第一个字符去掉后,字符串“市、区(县)劳动保障行政部门”的出现也不会增长多少,但是有意义的词语“劳动保障行政部门”的出现数量,应该比“)劳动保障行政部门”的数量多得多,所以算法获取一个字符串的从长到短的所有末尾子字符串的数量,和前一个字符串相比数量陡增的字符串是有意义词语的概率较大。根据领域合成词的总体情况选取用于观察的字符串的长度,在本领域下选10即可;每次循环,计数并记录,然后字符串的长度减1,但合成词的长度极少小于关键词长度加2(且较短的词是基本词的概率很高),所以不需要取到字符串长度小于关键词长度加2以下;使用字符串和前一个字符串数量的比值来衡量其增长幅度,对于“由市、区(县)劳动保障行政部门”这个例子,可以预见地,字符串“行政部门”的出现也会有一个陡增的情况,所以和前字符串数量比值最大的字符串不一定是期望的字符串,这种情况的占比实际上很高,需要依据实际情况来决定选取策略,这与结果的精确率和召回率相关。例如,可以使用数量和增长比例的乘积作为字符串的评价分数,再选择评价分数最大的两个字符串加入备选字符串列表,如果依据这种策略,在本语料下,经实验验证,精确率平均估计为75%,召回率估计更低。
(4)使用文本特点对字符串进行筛选。文本特点需要根据语料特征人工总结,例如,如果字符串前两个字符的字符串不是一个词,则将字符串淘汰,这种策略可以淘汰大量非期望字符串,但也会淘汰少数的合成词,本步骤中筛选的严格程度同样和精确率、召回率相关。
(5)得到的结果词表的精确率、召回率和策略相关,步骤(3)中选择更少的结果、步骤(4)中设置更多的条件都会提高精确率而降低召回率。使用(3)中描述的策略的情况下,多数中心词的合成词列表有可以接受的精确率,极少数列表有100%的精确率,也有少数列表的精确率非常低;图3是一个算法的结果示例,中心词为“账户”且使用上述策略,精确率约80%。
非标准词指不存在于字典,但表示了一定含义的,有固定格式或标志的词语。领域词指在某领域中有特别的含义或在领域中的出现率远高于在其它领域和开放域中出现率的词。普通词指对于某领域,在开放域语料和在此领域语料中的出现率相近的词。
根据合成词词表、正则表达式列表,使用基于规则的分词方法分词。先将待分词字符串分割为句子,以句子为单位分词。先进行正则表达式匹配分词,后进行领域合成词的匹配分词,其中合成词使用基于最大匹配的策略,从词表最长词的长度开始,考察句子中的该长度的全部子串,再将长度减1,考察下一个长度的全部子串。对于这两个类别的分词,一旦匹配成功,就将其分割,已分割的词就不再考虑。基于规则的方法在未登陆词识别和歧义消解两个问题上的处理方法有限,本质上,领域语料中的部分领域词和非标准词都是开放域分词方法的未登陆词,先将合成词和非标准词划分实际上是对未登陆词识别和分词粒度问题的解决方案;歧义消解问题无法解决,但匹配策略至少保证了在理想情况下可以将有效信息正确提取出来。
对未能划分的部分,使用开放域分词工具分词分词。开放域分词工具可以选择Jieba等。除了真正的普通词以外,领域非合成词也会在这部分被分割,由于领域非合成词的特殊性较低,所以可以和普通词一起处理。
用本发明和开放域分词工具Jieba处理同一段文本,得到如图6所示的结果
本发明将“广西壮族自治区”、“住房和城乡建设厅”等领域合成词划分为一个词语,它们表示完整的意义,比Jieba的“广西/壮族/自治区”和“住房/和/城乡/建设厅”等划分结果更加合理,另外,本发明将“(桂建管[2011]87号)”划分为一个词语,这是一个发文字号,匹配了对应的正则表达式。由于领域合成词、非标准词在领域文本中数量很大,本方法的结果在此领域明显优于Jieba等开放域分词工具。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种汉语自然语言文本的词语切分方法,其特征在于,包括以下步骤:
步骤1:输入待切分的汉语自然语言文本,判定文本所属的领域,设定期望提取的领域合成词的中心词的集合;所述的领域合成词指由多于一个的基本词连接起来而组成的词;所述的中心词指合成词中在最后位置的基本词,领域合成词中其它部分是中心词的定语;
步骤2:从中心词集合中,选择一个中心词,将此中心词定义为以下步骤3到步骤6的关键词。另外,若中心词集合已经全部被选择过,则执行步骤8;
步骤3:为关键词建立排除词表;
若关键词长度为1,在语料中找出所有关键词和“与关键词左右邻接的两个字符分别组成的两个双字符子字符串”,如果该字符串是一个有意义的词语,但关键词的对应字符在词语中的语法或语义角色和所期望的不同,则将此字符串加入此关键词的排除表;若关键词长度大于或等于2,则该关键词对应的排除表为空列表;
步骤4:按顺序地获取语料中关键词出现的一个位置index,并根据此位置,获取关于此关键词的一个子字符串;其中,子字符串的开头位置应该在期望的合成词的开头位置之前,位置为index-n,n大于最长领域合成词长度;子字符串的结尾为关键词的结尾,位置为index+m,m为关键词长度;如果关键词的长度为1,需要验证包括此位置字符的前后两个双字符子字符串不在排除表中,另外,若语料中所有关键词的出现的位置已经全部被获取过,执行步骤2;
步骤5:计数步骤4获取的子字符串在语料中的所有出现,将出现的数量及(从第2条记录开始)此记录与此次循环内上条记录之间的数量的比值记入此子字符串的记录列表,将子字符串的以第2个字符开始的字符串切片设为新的子字符串;
步骤6:若子字符串的长度等于关键词长度加1,则执行步骤7,否则返回步骤5;
步骤7:从步骤5的记录列表中选择比值、数量最大的一条或多条记录,加入此关键词的备选字符串列表,重新执行步骤4;
步骤8:根据此领域合成词的文本特点设定筛选条件,对备选字符串列表中的每个字符串,将满足条件的字符串加入合成词词表;
步骤9:删除或替换待切分的汉语自然语言文本中的无效字符;
步骤10:匹配预先定义的正则表达式,将匹配成功的字符串标记为词;
步骤11:匹配合成词表中的词。将匹配成功的字符串标记为词;
步骤12:对于字符串未能划分为词的部分,使用一般的开放域分词工具分词;
步骤13:输出待切分的汉语自然语言文本的分词结果。
CN201911223545.8A 2019-12-03 2019-12-03 一种汉语自然语言文本的词语切分方法 Active CN110969009B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911223545.8A CN110969009B (zh) 2019-12-03 2019-12-03 一种汉语自然语言文本的词语切分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911223545.8A CN110969009B (zh) 2019-12-03 2019-12-03 一种汉语自然语言文本的词语切分方法

Publications (2)

Publication Number Publication Date
CN110969009A true CN110969009A (zh) 2020-04-07
CN110969009B CN110969009B (zh) 2023-10-13

Family

ID=70032803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911223545.8A Active CN110969009B (zh) 2019-12-03 2019-12-03 一种汉语自然语言文本的词语切分方法

Country Status (1)

Country Link
CN (1) CN110969009B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008151926A (ja) * 2006-12-15 2008-07-03 Internatl Business Mach Corp <Ibm> 音声処理用の辞書に登録するべき新規語句を検索する技術
CN103207921A (zh) * 2013-04-28 2013-07-17 福州大学 一种从中文电子文档中自动提取词语的方法
CN103309852A (zh) * 2013-06-14 2013-09-18 瑞达信息安全产业股份有限公司 一种基于统计和规则的特定领域的合成词发现方法
CN103778243A (zh) * 2014-02-11 2014-05-07 北京信息科技大学 一种领域术语抽取方法
US20150347381A1 (en) * 2014-05-30 2015-12-03 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
CN105426358A (zh) * 2015-11-09 2016-03-23 中国农业大学 一种疾病名词自动识别方法
CN108549631A (zh) * 2018-03-30 2018-09-18 北京智慧正安科技有限公司 名词词库提取方法、电子装置及计算机可读存储介质
CN109582962A (zh) * 2018-11-28 2019-04-05 北京创鑫旅程网络技术有限公司 分词方法及装置
CN109815483A (zh) * 2018-12-19 2019-05-28 东软集团股份有限公司 合成词识别方法、装置、可读存储介质及电子设备
CN109885836A (zh) * 2019-02-21 2019-06-14 陈包容 一种精准分词的方法
CN110362827A (zh) * 2019-07-11 2019-10-22 腾讯科技(深圳)有限公司 一种关键词提取方法、装置及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008151926A (ja) * 2006-12-15 2008-07-03 Internatl Business Mach Corp <Ibm> 音声処理用の辞書に登録するべき新規語句を検索する技術
CN103207921A (zh) * 2013-04-28 2013-07-17 福州大学 一种从中文电子文档中自动提取词语的方法
CN103309852A (zh) * 2013-06-14 2013-09-18 瑞达信息安全产业股份有限公司 一种基于统计和规则的特定领域的合成词发现方法
CN103778243A (zh) * 2014-02-11 2014-05-07 北京信息科技大学 一种领域术语抽取方法
US20150347381A1 (en) * 2014-05-30 2015-12-03 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
CN105426358A (zh) * 2015-11-09 2016-03-23 中国农业大学 一种疾病名词自动识别方法
CN108549631A (zh) * 2018-03-30 2018-09-18 北京智慧正安科技有限公司 名词词库提取方法、电子装置及计算机可读存储介质
CN109582962A (zh) * 2018-11-28 2019-04-05 北京创鑫旅程网络技术有限公司 分词方法及装置
CN109815483A (zh) * 2018-12-19 2019-05-28 东软集团股份有限公司 合成词识别方法、装置、可读存储介质及电子设备
CN109885836A (zh) * 2019-02-21 2019-06-14 陈包容 一种精准分词的方法
CN110362827A (zh) * 2019-07-11 2019-10-22 腾讯科技(深圳)有限公司 一种关键词提取方法、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘兴林 等: "中文合成词识别及分词修正" *

Also Published As

Publication number Publication date
CN110969009B (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
CN110874531B (zh) 一种话题分析方法、装置和存储介质
CN109960724B (zh) 一种基于tf-idf的文本摘要方法
CN109543178B (zh) 一种司法文本标签体系构建方法及系统
CN109299480B (zh) 基于上下文语境的术语翻译方法及装置
CN106294320B (zh) 一种面向学术论文的术语抽取方法及系统
CN111444330A (zh) 提取短文本关键词的方法、装置、设备及存储介质
CN112395395B (zh) 文本关键词提取方法、装置、设备及存储介质
CN108920482B (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
CN114065758B (zh) 一种基于超图随机游走的文档关键词抽取方法
CN107688630B (zh) 一种基于语义的弱监督微博多情感词典扩充方法
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN103324626A (zh) 一种建立多粒度词典的方法、分词的方法及其装置
CN110188174B (zh) 一种基于专业词汇挖掘的专业领域faq智能问答方法
CN110929022A (zh) 一种文本摘要生成方法及系统
CN105095196A (zh) 文本中新词发现的方法和装置
CN111460147A (zh) 一种基于语义增强的标题短文本分类方法
Bedrick et al. Robust kaomoji detection in Twitter
CN110110087A (zh) 一种基于二分类器的用于法律文本分类的特征工程方法
CN114266256A (zh) 一种领域新词的提取方法及系统
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN115238040A (zh) 一种钢铁材料学知识图谱构建方法及系统
CN108475265B (zh) 获取未登录词的方法与装置
CN116502637A (zh) 一种结合上下文语义的文本关键词提取方法
Maheswari et al. Rule based morphological variation removable stemming algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant