CN107608968A - 面向文本大数据的中文分词方法、装置 - Google Patents
面向文本大数据的中文分词方法、装置 Download PDFInfo
- Publication number
- CN107608968A CN107608968A CN201710865158.9A CN201710865158A CN107608968A CN 107608968 A CN107608968 A CN 107608968A CN 201710865158 A CN201710865158 A CN 201710865158A CN 107608968 A CN107608968 A CN 107608968A
- Authority
- CN
- China
- Prior art keywords
- text
- character
- word
- cutting
- string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明属于数据处理技术领域,提供了一种面向文本大数据的中文分词方法、装置。该方法包括获取待切分的文本字符串,文本字符串包括多个字符。根据字符所构成的前缀或词元,与词典进行匹配。根据匹配结果,将文本字符串进行分词切分。对切分的词进行消歧处理,获取最终的分词结果。本发明面向文本大数据的中文分词方法、装置,能够快速、准确地对中文文本进行分词,提高数据运算效率。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种面向文本大数据的中文分词方法、装置。
背景技术
对中文文本中的每个句子进行分词,是中文文本分析处理中的难题。目前,市场是已经出现了很多中文分词技术,比如ICTCLAS、SCWS、FudanNLP、HTTPCWS、CC-CEDICT、IK、Paoding、MMSEG4J、盘古分词等。
Lucene全文搜索技术是当前流行的基于Java的免费信息检索程序库,它自带优秀的分词分析器。Lucene自带的分析器对于西方语言信息检索很方便,因为在西方语言中,各个词之间是使用空格进行自然隔开,词与词之间的区分很明显,只需根据空格进行分隔即可。
由于中文与西方语言在语句构成上的不同,在中文的一个句子中,词与词之间是没有分隔符的,因此,对于中文的分词处理就不能再使用上述处理方式。
对此,许多研究者提出了不同的中文分词方法,主要分为基于字符串的分词方法、基于统计的分词方法和基于理解的分词方法。
公司在房地产分类信息服务平台系统的建设过程中,选择的技术方向是改进基于字符串的传统正向最大匹配分词方法,来提高中文的分词准确度。
基于字符串匹配的分词方法也叫做机械分词方法,主要依据词典的信息,按照一定的策略将待切分的汉字串与词典中的词条逐一匹配,若在词典中找到该词条,则匹配成功,否则做其他相应处理。
目前在机械分词方法中占主流地位的是正向最大匹配分词法FMM和逆向最大匹配分词法RMM。
其中,正向最大匹配分词算法基本思想是:
假设包含在词典中最长词条所含的字的数量为j,然后取当前字符串文本中的前n个字符作为匹配字段,在分词词典中进行查找,如果分词词典中有这样的n字词,则匹配成功,匹配字段被切分出来作为一个词;如果在分词词典中没有找到这样的n字词,则匹配失败,删除匹配字段中的最后一个字,剩下的字符作为新的匹配字段,继续匹配,直到匹配成功,其流程图如附图1所示。
Lucene自带分析器达不到分词效果,无法对正向最大匹配算法进行阐述。
如何快速、准确地对中文文本进行分词,提高数据运算效率,是本领域技术人员亟需解决的问题。
发明内容
针对现有技术中的缺陷,本发明提供了一种面向文本大数据的中文分词方法、装置,能够快速、准确地对中文文本进行分词,提高数据运算效率。
第一方面,本发明提供一种面向文本大数据的中文分词方法,该方法包括:获取待切分的文本字符串,文本字符串包括多个字符。
根据字符所构成的前缀或词元,与词典进行匹配。
根据匹配结果,将文本字符串进行分词切分。
对切分的词进行消歧处理,获取最终的分词结果。
进一步地,根据字符所构成的前缀或词元,与词典进行匹配,具体包括:取出文本字符串的一个字符。
根据词典,判断该字符是否为前缀:
若否,则将该字符进行切分为词,并继续取出文本字符串中与该字符相邻的下一个字符进行判断,
若是,则取出该字符在文本字符串中的下一个字符,组成词汇,词汇包括该字符及该字符的下一个字符。
根据词典,判断词汇是否为前缀:
若否,则将该词汇进行切分为词,并继续取出文本字符串中与该词汇相邻的下一个字符进行判断,
若是,则继续取出该词汇在文本字符串中的下一个字符,进行判断,直至取出文本字符串的最后一个字符。
进一步地,在将字符或词汇切分为词之后,对切分的词进行消歧处理之前,该方法还包括:记录切分次数。
进一步地,对切分的词进行消歧处理,获取最终的分词结果,具体包括:判断切分次数是否等于预设值:
若是,则判断依次切分的两个词是否存在歧义字段:
若不存在,则将切分的词作为最终的分词结果,
若存在,则根据词典,采用消歧算法对切分的词进行消歧处理,获取最终的分词结果。
基于上述任意面向文本大数据的中文分词方法实施例,进一步地,获取待切分的文本字符串,具体包括:
识别待处理文本材料中的标点符号,获取每个标点符号的位置。
根据每个标点符号的位置,将文本材料中的文字切分为多个文本字符串。
第二方面,本发明提供一种面向文本大数据的中文分词装置,该装置包括获取模块、匹配模块、切分模块和消歧模块,获取模块用于获取待切分的文本字符串,文本字符串包括多个字符。匹配模块用于根据字符所构成的前缀或词元,与词典进行匹配。切分模块用于根据匹配结果,将文本字符串进行分词切分。消歧模块用于对切分的词进行消歧处理,获取最终的分词结果。
进一步地,匹配模块具体包括字符提取子模块、字符判断子模块和词汇判断子模块,字符提取子模块用于取出文本字符串的一个字符。字符判断子模块用于根据词典,判断该字符是否为前缀:若否,则将该字符进行切分为词,并继续取出文本字符串中与该字符相邻的下一个字符进行判断,若是,则取出该字符在文本字符串中的下一个字符,组成词汇,词汇包括该字符及该字符的下一个字符。词汇判断子模块用于根据词典,判断词汇是否为前缀:若否,则将该词汇进行切分为词,并继续取出文本字符串中与该词汇相邻的下一个字符进行判断,若是,则继续取出该词汇在文本字符串中的下一个字符,进行判断,直至取出文本字符串的最后一个字符。
进一步地,本实施例面向文本大数据的中文分词装置还包括计数模块,用于记录切分次数。
进一步地,消歧模块具体用于:判断切分次数是否等于预设值:若是,则判断依次切分的两个词是否存在歧义字段:若不存在,则将切分的词作为最终的分词结果,若存在,则根据词典,采用消歧算法对切分的词进行消歧处理,获取最终的分词结果。
基于上述任意面向文本大数据的中文分词装置实施例,进一步地,获取模块具体包括符号识别子模块和切分子模块,符号识别子模块用于识别待处理文本材料中的标点符号,获取每个标点符号的位置。切分子模块用于根据每个标点符号的位置,将文本材料中的文字切分为多个文本字符串。
由上述技术方案可知,本实施例提供的面向文本大数据的中文分词方法、装置,在确定候选词集时计算量小,准确度高,可有效提升分词结果的准确度以及提高分词效率,且该方法能够消除歧义干扰,确保分词结果准确、可靠,支持多种编程语言,如C++、Java等,使用方便,只需要调用其接口即可进行快速分词。
因此,本实施例面向文本大数据的中文分词方法、装置,能够快速、准确地对中文文本进行分词,提高数据运算效率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1示出了本发明所提供的传统正向最大匹配分词方法的方法流程图;
图2示出了本发明所提供的一种面向文本大数据的中文分词方法的方法流程图;
图3示出了本发明所提供的一种面向文本大数据的中文分词装置的结构示意图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只是作为示例,而不能以此来限制本发明的保护范围。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
第一方面,本发明实施例所提供的一种面向文本大数据的中文分词方法,结合图2,该方法包括:
步骤S1,获取待切分的文本字符串,文本字符串包括多个字符。
步骤S2,根据字符所构成的前缀或词元,与词典进行匹配。
步骤S3,根据匹配结果,将文本字符串进行分词切分。
步骤S4,对切分的词进行消歧处理,获取最终的分词结果。
由上述技术方案可知,本实施例提供的面向文本大数据的中文分词方法在确定候选词集时计算量小,准确度高,可有效提升分词结果的准确度以及提高分词效率,且该方法能够消除歧义干扰,确保分词结果准确、可靠,支持多种编程语言,如C++、Java等,使用方便,只需要调用其接口即可进行快速分词。
因此,本实施例面向文本大数据的中文分词方法,能够快速、准确地对中文文本进行分词,提高数据运算效率。
在实际应用过程中,本实施例面向文本大数据的中文分词方法的具体实现过程如下:
输入:待切分字符串N1N2N3…Nn,其中,Ni表示第i个字,
输出:分词之后的词串,词之间用“/”间隔,其中,具体执行过程如下:
对N1进行正向增字最大匹配,取得以该字为首的最长词元。即:先取一字N1,在词典中查找N1,若成词则保存为词,若为词前缀则再取一字N1N2在词典中匹配,重复此过程,直到N1N2…Ni既不成词也不为词前缀为止,则最后保存的词元即为以N1为首的最长词元。
指针后移一字,对N2进行正向增字最大匹配,取得以N2为首的最长词元。
判断两个词元是否存在歧义字段,若有则对其进行歧义处理。
指针后移一字,重复上述过程。
例如,对于句子“当中华人民共和国成立的时候”,经歧义处理后得到最后结果:“当/中华人民共和国/成立/的/时候”。在此,该算法使用逐词扫描,在成功匹配出词元之后保存当前词元及词长等信息,并从词首的下一字进行下次匹配,切分出了字符串中所有可以匹配的词元,能识别所有的交集歧义字段,大大提高了分词精度。
为了进一步提高本实施例面向文本大数据的中文分词方法的准确性,在字符判断与检测方面,根据字符所构成的前缀或词元,与词典进行匹配,具体实现过程如下:
取出文本字符串的一个字符。
根据词典,判断该字符是否为前缀:若否,则将该字符进行切分为词,并继续取出文本字符串中与该字符相邻的下一个字符进行判断,若是,则取出该字符在文本字符串中的下一个字符,组成词汇,词汇包括该字符及该字符的下一个字符。
根据词典,判断词汇是否为前缀:若否,则将该词汇进行切分为词,并继续取出文本字符串中与该词汇相邻的下一个字符进行判断,若是,则继续取出该词汇在文本字符串中的下一个字符,进行判断,直至取出文本字符串的最后一个字符。
在此,本实施例面向文本大数据的中文分词方法,能够逐一对每个字符进行检测,在无法构成前缀时,则该字符则为当个词,若能构成前缀时,则判断构成的词汇能否作为待切分的词,以逐一检验每个字符,提高中文分词的准确度。
在将字符或词汇切分为词之后,对切分的词进行消歧处理之前,该方法还能够记录切分次数,以便于准确统计切分次数,为后续切分的词进行处理,提供便利。同时,切分次数还可以作为记录已切分的词的顺序,便于记录每个已经切分的词的顺序。
对切分的词进行消歧处理,获取最终的分词结果,具体实现过程如下:
判断切分次数是否等于预设值:若是,则判断依次切分的两个词是否存在歧义字段:若不存在,则将切分的词作为最终的分词结果,若存在,则根据词典,采用消歧算法对切分的词进行消歧处理,获取最终的分词结果。
在此,本实施例面向文本大数据的中文分词方法,还能够根据歧义字段,对已经切分的词进行消歧处理,提高分词结果的准确性。
在实际应用过程中,消歧算法对已切分的词进行消歧处理,具体处理过程如下:
由统计可知,交集型歧义字段中,链长为1和2的歧义字段合计占到了歧义字段的97.61%,字段出现次数的95.41%。因此本文对链长为1,2,3的交集型歧义字段进行处理。
取出最前面的两个词元L1、L2,设定初始权重为词元长度,获取它们的交集型歧义字段的链长N。
若链长为0,则无歧义,将前词元L1存入最终结果集,后词元L2继续与下一个词元L3比较。
如果L1权重大于L2,假如将歧义字段分给L1会造成L2只剩单字、且不能与后字连接成词的话,判断减去歧义字段后能否成词,若能成词,则将歧义字段分给L2,否则歧义字段分给L1。
如果L1权重小于L2,假如将歧义字段分给L2会造成L1单字,判断减去歧义字段后能否成词,若能成词,则将歧义字段分给L1,否则将歧义字段分给L2。
如果L1权重等于L2,分3种情况讨论:①歧义字段链长为1,判断L2与后一个词元L3是否有歧义,若有则将L2拆分给L1和L3,且L3权重加一,否则将歧义字段分给L2。②歧义字段链长为2,且L2拆分后能成词,则将歧义字段划分给L1,否则分给L2。③歧义字段链长为3,且L2拆分后能成词,则将歧义字段划分给L1,否则分给L2。划分完毕后将L1存入最终结果集。
重复以上过程,直到将所有词元都处理完毕。
该算法有效地避免了生成单字,例如对于句子“处理机器发生的故障”中的前两个词元“处理机”“机器”,它们的歧义字段为“机”,如果将“机”划分给前词元,则后词元只剩下单字“器”,且不能与后字成词。而如果将“机”划分给后词元,前词元剩下两字“处理”可以单独成词。因此本算法将“处理机器”切分为“处理/机器”,比正向最大匹配算法要准确。
在实际应用过程中,可以先识别待处理中文语句的歧义链,歧义链为待处理中文语句中含有歧义的部分语句。
由于中文语句可以存在多种语义,本实施例在进行对该中文语句的识别之前,首先需要确定该用户输入的待识别中文语句的歧义链,以便后续步骤的施行。其中,歧义链为待识别中文语句中含有歧义的部分语句,最终获取的歧义链为待识别中文语句中各词语片段首尾交叠而成的最长的具有多语义的词语片段集。
具体的,假设用户输入的待识别中文语句为C1C2…Cn,其中C1、C2、…、Cn为组成待识别中文语句的单字,可以是汉字、字母、数字等,具体获取待识别中文语句的歧义链的流程如下:
步骤1、以C1为首字,查找待识别中文语句中以C1为词头的第一最长组合为C1…Ck,其中k小于n,将第一最长组合C1…Ck确定为歧义链。
步骤2、依次选择C2、…、Ck为首字,分别查找待识别中文语句中以C2、…、Ck为词头的所有组合,并选择组合中最长的组合作为第二最长组合,第二最长组合为Ci为词头、Cm为词尾的组合,其中i大于1且小于k,m大于i。
步骤3、对第一最长组合和第二最长组合进行合并处理,若m小于或等于k,则合并得到的第三最长组合与第一最长组合相同,结束流程,并将歧义链确定为待识别中文语句的歧义链。若m大于k,则合并得到的第三最长组合为C1C2…Cm,并将歧义链调整为第三最长组合,并执行步骤4。
步骤4、对Ck、…、Cm重复执行步骤2-步骤3,直到以Cj为首字查找待识别中文语句中以Cj为词头的组合为单字时为止,以得到待识别中文语句的歧义链C1…Cs,其中j大于或等于k,且j小于或等于m,s大于或等于m,且s小于或等于n。
步骤5、判断Cs是否为Cn,若不是则以Cs为首字重复执行步骤1-步骤4,以得到待识别中文语句的其他歧义链,否则结束流程。
例如,以中文语句“湖南省长沙市人民广场”为例,从“湖”字开始查找“湖南省长沙市人民广场”中以“湖”字为词头的第一最长组合为“湖南省”。以“湖南省”的第二字“南”字开始查找最长组合为“南”,以第三字“省”字开始查找最长组合为“省长”,从“南”和“省长”中取“省长”为第二最长组合。对第一最长组合和第二最长组合进行合并得到第三最长组合为“湖南省长”。再以第三最长组合的“长”字开始查找到最长组合为“长沙市”,以该第四最长组合的“沙”字进行查找,得到最长组合为“沙市”,再以“市”字进行查找,得到组长组合为“市”,将“长沙市”作为第四最长组合,对第三最长组合和第四最长组合进行合并得到“湖南省长沙市”,即最后得到待识别中文语句的歧义链为“湖南省长沙市”。
根据不同的切分方式对歧义链进行切分,并根据切分得到的分词的词频、词性标注以及分词之间的移转概率,确定歧义链的最终切分结果,移转概率是指从该当前分词的前一个或前多个分词的词性标注转移到当前分词的词性标注的概率。
本实施例中,首先将获取的待确定中文语句的歧义链进行切分,经过切分的歧义链包括若干分词,例如,经过切分的歧义链为“湖南省/长沙市”,“湖南省”和“长沙市”均为该歧义链的分词。其次,对经过切分的歧义链中的各个分词进行词性标注。再次,根据统计数据获取到该歧义链中的经过词性标注的各分词的词频,同时获取各分词之间的移转概率。最后,根据获取的该歧义链的各个分词的词频、词性标注以及分词之间的移转概率,确定歧义链的最终切分结果。
在文本字符串处理方面,获取待切分的文本字符串时,具体实现过程如下:识别待处理文本材料中的标点符号,获取每个标点符号的位置。
根据每个标点符号的位置,将文本材料中的文字切分为多个文本字符串。
在此,本实施例面向文本大数据的中文分词方法,能够识别文本材料中的标点符号,对文本材料进行切分,以获取不同的文本字符串,进行中文切分,降低中文分词的干扰,提高中文分词的准确性。
第二方面,本发明实施例所提供的一种面向文本大数据的中文分词装置,结合图3,该装置包括获取模块1、匹配模块2、切分模块3和消歧模块4,获取模块1用于获取待切分的文本字符串,文本字符串包括多个字符。匹配模块2用于根据字符所构成的前缀或词元,与词典进行匹配。切分模块3用于根据匹配结果,将文本字符串进行分词切分。消歧模块4用于对切分的词进行消歧处理,获取最终的分词结果。
由上述技术方案可知,本实施例提供的面向文本大数据的中文分词装置在确定候选词集时计算量小,准确度高,可有效提升分词结果的准确度以及提高分词效率,且该装置能够消除歧义干扰,确保分词结果准确、可靠,支持多种编程语言,如C++、Java等,使用方便,只需要调用其接口即可进行快速分词。
因此,本实施例面向文本大数据的中文分词装置,能够快速、准确地对中文文本进行分词,提高数据运算效率。
为了进一步提高本实施例面向文本大数据的中文分词装置的准确性,在字符判断与检测方面,匹配模块2具体包括字符提取子模块、字符判断子模块和词汇判断子模块,字符提取子模块用于取出文本字符串的一个字符。字符判断子模块用于根据词典,判断该字符是否为前缀:若否,则将该字符进行切分为词,并继续取出文本字符串中与该字符相邻的下一个字符进行判断,若是,则取出该字符在文本字符串中的下一个字符,组成词汇,词汇包括该字符及该字符的下一个字符。词汇判断子模块用于根据词典,判断词汇是否为前缀:若否,则将该词汇进行切分为词,并继续取出文本字符串中与该词汇相邻的下一个字符进行判断,若是,则继续取出该词汇在文本字符串中的下一个字符,进行判断,直至取出文本字符串的最后一个字符。
在此,本实施例面向文本大数据的中文分词装置,能够逐一对每个字符进行检测,在无法构成前缀时,则该字符则为当个词,若能构成前缀时,则判断构成的词汇能否作为待切分的词,以逐一检验每个字符,提高中文分词的准确度。
本实施例面向文本大数据的中文分词装置还包括计数模块,用于记录切分次数,以便于准确统计切分次数,为后续切分的词进行处理,提供便利。同时,切分次数还可以作为记录已切分的词的顺序,便于记录每个已经切分的词的顺序。
消歧模块4具体用于:判断切分次数是否等于预设值:若是,则判断依次切分的两个词是否存在歧义字段:若不存在,则将切分的词作为最终的分词结果,若存在,则根据词典,采用消歧算法对切分的词进行消歧处理,获取最终的分词结果。
在此,本实施例面向文本大数据的中文分词装置,还能够根据歧义字段,对已经切分的词进行消歧处理,提高分词结果的准确性。
在文本字符串处理方面,获取模块1具体包括符号识别子模块和切分子模块,符号识别子模块用于识别待处理文本材料中的标点符号,获取每个标点符号的位置。切分子模块用于根据每个标点符号的位置,将文本材料中的文字切分为多个文本字符串。
在此,本实施例面向文本大数据的中文分词装置,能够识别文本材料中的标点符号,对文本材料进行切分,以获取不同的文本字符串,进行中文切分,降低中文分词的干扰,提高中文分词的准确性。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
需要说明的是,附图中的流程图和框图显示了根据本发明的多个实施例的服务器、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的服务器来实现,或者可以用专用硬件与计算机指令的组合来实现。
本发明实施例所提供的配置装置可以是计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的服务器、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的服务器、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个服务器,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以发布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
Claims (10)
1.一种面向文本大数据的中文分词方法,其特征在于,包括:
获取待切分的文本字符串,所述文本字符串包括多个字符;
根据字符所构成的前缀或词元,与词典进行匹配;
根据匹配结果,将所述文本字符串进行分词切分;
对切分的词进行消歧处理,获取最终的分词结果。
2.根据权利要求1所述面向文本大数据的中文分词方法,其特征在于,
根据字符所构成的前缀或词元,与词典进行匹配,具体包括:
取出所述文本字符串的一个字符;
根据所述词典,判断该字符是否为前缀:
若否,则将该字符进行切分为词,并继续取出所述文本字符串中与该字符相邻的下一个字符进行判断,
若是,则取出该字符在所述文本字符串中的下一个字符,组成词汇,所述词汇包括该字符及该字符的下一个字符;
根据所述词典,判断所述词汇是否为前缀:
若否,则将该词汇进行切分为词,并继续取出所述文本字符串中与该词汇相邻的下一个字符进行判断,
若是,则继续取出该词汇在所述文本字符串中的下一个字符,进行判断,直至取出所述文本字符串的最后一个字符。
3.根据权利要求2所述面向文本大数据的中文分词方法,其特征在于,
在将字符或词汇切分为词之后,对切分的词进行消歧处理之前,该方法还包括:记录切分次数。
4.根据权利要求3所述面向文本大数据的中文分词方法,其特征在于,
对切分的词进行消歧处理,获取最终的分词结果,具体包括:
判断所述切分次数是否等于预设值:
若是,则判断依次切分的两个词是否存在歧义字段:
若不存在,则将切分的词作为最终的分词结果,
若存在,则根据所述词典,采用消歧算法对切分的词进行消歧处理,获取最终的分词结果。
5.根据权利要求1所述面向文本大数据的中文分词方法,其特征在于,
获取待切分的文本字符串,具体包括:
识别待处理文本材料中的标点符号,获取每个标点符号的位置;
根据每个标点符号的位置,将所述文本材料中的文字切分为多个文本字符串。
6.一种面向文本大数据的中文分词装置,其特征在于,包括:
获取模块,用于获取待切分的文本字符串,所述文本字符串包括多个字符;
匹配模块,用于根据字符所构成的前缀或词元,与词典进行匹配;
切分模块,用于根据匹配结果,将所述文本字符串进行分词切分;
消歧模块,用于对切分的词进行消歧处理,获取最终的分词结果。
7.根据权利要求6所述面向文本大数据的中文分词装置,其特征在于,
匹配模块,具体包括:
字符提取子模块,用于取出所述文本字符串的一个字符;
字符判断子模块,用于根据所述词典,判断该字符是否为前缀:若否,则将该字符进行切分为词,并继续取出所述文本字符串中与该字符相邻的下一个字符进行判断,若是,则取出该字符在所述文本字符串中的下一个字符,组成词汇,所述词汇包括该字符及该字符的下一个字符;
词汇判断子模块,用于根据所述词典,判断所述词汇是否为前缀:若否,则将该词汇进行切分为词,并继续取出所述文本字符串中与该词汇相邻的下一个字符进行判断,若是,则继续取出该词汇在所述文本字符串中的下一个字符,进行判断,直至取出所述文本字符串的最后一个字符。
8.根据权利要求7所述面向文本大数据的中文分词装置,其特征在于,该装置还包括计数模块,用于记录切分次数。
9.根据权利要求8所述面向文本大数据的中文分词装置,其特征在于,
所述消歧模块具体用于:判断所述切分次数是否等于预设值:若是,则判断依次切分的两个词是否存在歧义字段:若不存在,则将切分的词作为最终的分词结果,若存在,则根据所述词典,采用消歧算法对切分的词进行消歧处理,获取最终的分词结果。
10.根据权利要求6所述面向文本大数据的中文分词装置,其特征在于,获取模块具体包括:
符号识别子模块,用于识别待处理文本材料中的标点符号,获取每个标点符号的位置;
切分子模块,用于根据每个标点符号的位置,将所述文本材料中的文字切分为多个文本字符串。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710865158.9A CN107608968A (zh) | 2017-09-22 | 2017-09-22 | 面向文本大数据的中文分词方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710865158.9A CN107608968A (zh) | 2017-09-22 | 2017-09-22 | 面向文本大数据的中文分词方法、装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107608968A true CN107608968A (zh) | 2018-01-19 |
Family
ID=61061933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710865158.9A Pending CN107608968A (zh) | 2017-09-22 | 2017-09-22 | 面向文本大数据的中文分词方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107608968A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109636352A (zh) * | 2018-12-20 | 2019-04-16 | 湖南晖龙集团股份有限公司 | 一种基于财政大数据的分布式内容查重预警系统 |
CN110321434A (zh) * | 2019-06-27 | 2019-10-11 | 厦门美域中央信息科技有限公司 | 一种基于词义消歧卷积神经网络的文本分类方法 |
CN110413998A (zh) * | 2019-07-16 | 2019-11-05 | 深圳供电局有限公司 | 一种面向电力行业的自适应中文分词方法及其系统、介质 |
CN111144107A (zh) * | 2019-12-25 | 2020-05-12 | 福建天晴在线互动科技有限公司 | 一种基于切片算法的乱码识别方法 |
CN111310481A (zh) * | 2020-01-19 | 2020-06-19 | 百度在线网络技术(北京)有限公司 | 语音翻译方法、装置、计算机设备和存储介质 |
CN112395865A (zh) * | 2020-11-17 | 2021-02-23 | 中国外运股份有限公司 | 报关单校验方法及装置 |
CN112395866A (zh) * | 2020-11-17 | 2021-02-23 | 中国外运股份有限公司 | 报关单数据匹配方法及装置 |
CN114138945A (zh) * | 2022-01-19 | 2022-03-04 | 支付宝(杭州)信息技术有限公司 | 数据分析中的实体识别方法和装置 |
CN116227488A (zh) * | 2023-05-09 | 2023-06-06 | 北京拓普丰联信息科技股份有限公司 | 一种文本分词的方法、装置、电子设备及存储介质 |
CN116860706A (zh) * | 2023-09-04 | 2023-10-10 | 南昌协达科技发展有限公司 | 一种实验数据文本存储方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4750122A (en) * | 1984-07-31 | 1988-06-07 | Hitachi, Ltd. | Method for segmenting a text into words |
CN101464855A (zh) * | 2009-01-13 | 2009-06-24 | 吴长林 | 含有汉语的字符串的分词方法及在字符串中检索词的方法 |
CN102929902A (zh) * | 2012-07-05 | 2013-02-13 | 江苏新瑞峰信息科技有限公司 | 一种基于中文检索的分词方法及装置 |
CN103593338A (zh) * | 2013-11-15 | 2014-02-19 | 北京锐安科技有限公司 | 一种信息处理方法及装置 |
CN103902521A (zh) * | 2012-12-24 | 2014-07-02 | 高德软件有限公司 | 一种中文语句识别方法和装置 |
CN105138514A (zh) * | 2015-08-24 | 2015-12-09 | 昆明理工大学 | 一种基于词典的正向逐次加一字最大匹配中文分词方法 |
-
2017
- 2017-09-22 CN CN201710865158.9A patent/CN107608968A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4750122A (en) * | 1984-07-31 | 1988-06-07 | Hitachi, Ltd. | Method for segmenting a text into words |
CN101464855A (zh) * | 2009-01-13 | 2009-06-24 | 吴长林 | 含有汉语的字符串的分词方法及在字符串中检索词的方法 |
CN102929902A (zh) * | 2012-07-05 | 2013-02-13 | 江苏新瑞峰信息科技有限公司 | 一种基于中文检索的分词方法及装置 |
CN103902521A (zh) * | 2012-12-24 | 2014-07-02 | 高德软件有限公司 | 一种中文语句识别方法和装置 |
CN103593338A (zh) * | 2013-11-15 | 2014-02-19 | 北京锐安科技有限公司 | 一种信息处理方法及装置 |
CN105138514A (zh) * | 2015-08-24 | 2015-12-09 | 昆明理工大学 | 一种基于词典的正向逐次加一字最大匹配中文分词方法 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109636352A (zh) * | 2018-12-20 | 2019-04-16 | 湖南晖龙集团股份有限公司 | 一种基于财政大数据的分布式内容查重预警系统 |
CN110321434A (zh) * | 2019-06-27 | 2019-10-11 | 厦门美域中央信息科技有限公司 | 一种基于词义消歧卷积神经网络的文本分类方法 |
CN110413998B (zh) * | 2019-07-16 | 2023-04-21 | 深圳供电局有限公司 | 一种面向电力行业的自适应中文分词方法及其系统、介质 |
CN110413998A (zh) * | 2019-07-16 | 2019-11-05 | 深圳供电局有限公司 | 一种面向电力行业的自适应中文分词方法及其系统、介质 |
CN111144107A (zh) * | 2019-12-25 | 2020-05-12 | 福建天晴在线互动科技有限公司 | 一种基于切片算法的乱码识别方法 |
CN111144107B (zh) * | 2019-12-25 | 2022-08-09 | 福建天晴在线互动科技有限公司 | 一种基于切片算法的乱码识别方法 |
CN111310481A (zh) * | 2020-01-19 | 2020-06-19 | 百度在线网络技术(北京)有限公司 | 语音翻译方法、装置、计算机设备和存储介质 |
CN112395865A (zh) * | 2020-11-17 | 2021-02-23 | 中国外运股份有限公司 | 报关单校验方法及装置 |
CN112395866A (zh) * | 2020-11-17 | 2021-02-23 | 中国外运股份有限公司 | 报关单数据匹配方法及装置 |
CN112395865B (zh) * | 2020-11-17 | 2024-01-02 | 中国外运股份有限公司 | 报关单校验方法及装置 |
CN112395866B (zh) * | 2020-11-17 | 2024-02-02 | 中国外运股份有限公司 | 报关单数据匹配方法及装置 |
CN114138945A (zh) * | 2022-01-19 | 2022-03-04 | 支付宝(杭州)信息技术有限公司 | 数据分析中的实体识别方法和装置 |
CN116227488A (zh) * | 2023-05-09 | 2023-06-06 | 北京拓普丰联信息科技股份有限公司 | 一种文本分词的方法、装置、电子设备及存储介质 |
CN116860706A (zh) * | 2023-09-04 | 2023-10-10 | 南昌协达科技发展有限公司 | 一种实验数据文本存储方法及系统 |
CN116860706B (zh) * | 2023-09-04 | 2023-11-24 | 南昌协达科技发展有限公司 | 一种实验数据文本存储方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107608968A (zh) | 面向文本大数据的中文分词方法、装置 | |
CN108717406A (zh) | 文本情绪分析方法、装置及存储介质 | |
US10831993B2 (en) | Method and apparatus for constructing binary feature dictionary | |
CN107301244A (zh) | 一种商标分卡处理的方法、装置、系统及商标存储器 | |
CN106776574B (zh) | 用户评论文本挖掘方法及装置 | |
CN109359291A (zh) | 一种命名实体识别方法 | |
CN106776538A (zh) | 企业非标准格式文档的信息提取方法 | |
CN110222184A (zh) | 一种文本的情感信息识别方法及相关装置 | |
CN108363691B (zh) | 一种用于电力95598工单的领域术语识别系统及方法 | |
CN112257421A (zh) | 嵌套实体数据的识别方法、装置及电子设备 | |
CN106095753A (zh) | 一种基于信息熵和术语可信度的金融领域术语识别方法 | |
CN107832301A (zh) | 分词处理方法、装置、移动终端及计算机可读存储介质 | |
CN109213866A (zh) | 一种基于深度学习的税务商品编码分类方法和系统 | |
CN109255117A (zh) | 中文分词方法及装置 | |
US7584173B2 (en) | Edit distance string search | |
CN112951233A (zh) | 语音问答方法、装置、电子设备及可读存储介质 | |
CN110413972B (zh) | 一种基于nlp技术的表名字段名智能补全方法 | |
CN106844508A (zh) | 变形词识别方法及装置 | |
CN107608965B (zh) | 书籍主人公姓名的提取方法、电子设备及存储介质 | |
CN109885641A (zh) | 一种数据库中文全文检索的方法及系统 | |
CN109558735A (zh) | 一种基于机器学习的恶意程序样本聚类方法及相关装置 | |
CN110888983B (zh) | 一种正负面情感分析方法、终端设备及存储介质 | |
CN113033204A (zh) | 信息实体抽取方法、装置、电子设备和存储介质 | |
CN106156181B (zh) | 一种别名获取方法及装置 | |
CN107092669A (zh) | 一种建立机器人智能交互的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180119 |
|
RJ01 | Rejection of invention patent application after publication |