CN107918604A - 一种中文的分词方法及装置 - Google Patents

一种中文的分词方法及装置 Download PDF

Info

Publication number
CN107918604A
CN107918604A CN201711115252.9A CN201711115252A CN107918604A CN 107918604 A CN107918604 A CN 107918604A CN 201711115252 A CN201711115252 A CN 201711115252A CN 107918604 A CN107918604 A CN 107918604A
Authority
CN
China
Prior art keywords
section
word
text
character
ambiguity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711115252.9A
Other languages
English (en)
Other versions
CN107918604B (zh
Inventor
杨良志
汪志新
丁德平
王向军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
POLYTRON TECHNOLOGIES Inc
Original Assignee
POLYTRON TECHNOLOGIES Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by POLYTRON TECHNOLOGIES Inc filed Critical POLYTRON TECHNOLOGIES Inc
Priority to CN201711115252.9A priority Critical patent/CN107918604B/zh
Publication of CN107918604A publication Critical patent/CN107918604A/zh
Application granted granted Critical
Publication of CN107918604B publication Critical patent/CN107918604B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明实施例公开了一种中文的分词方法及装置。所述方法包括:获取待分词文本的特征信息,其中,所述特征信息包括段落划分、标点符号或空格符中至少之一;根据特征信息,确定待分词文本中的所有自然区间;将自然区间划分为歧义区间和非歧义区间;确定歧义区间中的候选词,并将候选词与非歧义区间中的文本进行匹配;根据匹配结果确定候选词的分词规则,并按照分词规则对所述歧义区间的文本进行分词处理。通过采用上述技术方案,有效提高了分词结果与待分词文本语境之间的关联性,使得分词的准确度得到提升。相对于现有技术提供的分词方案,本发明实施例提供的技术方案计算量较小,在一定程度上也可以提高分词的快速性。

Description

一种中文的分词方法及装置
技术领域
本发明实施例涉及分词技术领域,尤其涉及一种中文的分词方法及装置。
背景技术
随着互联网的高速发展,网络应用趋向多元化,网上的信息量急剧增加。其中,分词是进行信息处理、信息检索的基础,所有的信息处理、信息检索工作都是在分词之后进行的。所以分词的错误会被叠加到后续的处理过程中,而且很难被消除。正因为这样所以对分词的准确率的追求是个持续的过程。
一般情况下,在英文的行文中,单词之间是以空格作为自然分界符的,中文中的字、句和段也可通过明显的分界符来简单划界,唯独中文中的词没有一个形式上的分界符。同时由于中文语言的固有特性,对于一个词而言,没有明确的词定义、词和词之间也没有分隔符。此外,新词,专有名词的不断涌现等因素也将导致分词很难做到100%的准确。
现有分词技术采用的主要方法是将字符匹配法、理解法以及统计相结合形成的复合型分词法。由于复合后的分词算法运算量较大,采用的语法规则也较为复杂,在保证分词准确度的基础上极易导致分词的效率降低。而若只采用上述分词算法中的其中一种或两种进行分词,虽然可以减少计算量,提高运算速度,但是在分词过程中所考虑的语境因素并不全面。因此,分词的准确度容易受到影响。所以,现有技术提供的分词方式并不能兼容分词的准确度和快速性。
发明内容
本发明实施例提供一种中文的分词方法及装置,实现了在保证分词准确度的同时,减少了分词过程中的计算量,提高了分词效率。
为实现上述目的,本发明实施例采用如下技术方案:
第一方面,本发明实施例提供了一种中文的分词方法,所述方法包括:
获取待分词文本的特征信息;
根据所述特征信息,确定所述待分词文本中的所有自然区间,其中,所述特征信息包括段落划分、标点符号或空格符中至少之一;
将所述自然区间划分为歧义区间和非歧义区间;
确定所述歧义区间中的候选词,并将所述候选词与所述非歧义区间中的文本进行匹配;
根据匹配结果确定所述候选词的分词规则,并按照所述分词规则对所述歧义区间的文本进行分词处理。
第二方面,本发明实施例提供了一种中文的分词装置,所述装置包括:
特征信息获取模块,用于获取待分词文本的特征信息;
自然区间确定模块,用于根据所述特征信息,确定所述待分词文本中的所有自然区间,其中,所述特征信息包括段落划分、标点符号或空格符中至少之一;
区间划分模块,用于将所述自然区间划分为歧义区间和非歧义区间;
候选词匹配模块,用于确定所述歧义区间中的候选词,并将所述候选词与所述非歧义区间中的文本进行匹配;
分词处理模块,用于根据匹配结果确定所述候选词的分词规则,并按照所述分词规则对所述歧义区间的文本进行分词处理。
本发明实施例的技术方案中,获取待分词文本的特征信息,该特征信息可以包括段落划分、标点符号或空格符中的一种或多种。根据上述特征信息,可确定文本中的所有自然区间。在将自然区间划分为歧义区间和非歧义区间后,通过确定出歧义区间中的候选词,并将候选词与非歧义区间中的文本进行匹配,可根据匹配结果确定候选词的分词规则。通过按照该分词规则对歧义区间中的文本进行分词处理后,可得到与文本语境密切相关的分词。通过采用上述技术方案,有效提高了分词结果与待分词文本语境之间的关联性,使得分词的准确度得到提升。相对于现有技术提供的分词方案,本发明实施例提供的技术方案计算量较小,在一定程度上也可以提高分词的快速性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据本发明实施例的内容和这些附图获得其他的附图。
图1为本发明实施例一提供的一种中文的分词方法的流程示意图;
图2为本发明实施例二提供的一种中文的分词方法的流程示意图;
图3为本发明实施例三提供的一种中文的分词装置的结构框图。
具体实施方式
为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面将结合附图对本发明实施例的技术方案作进一步的详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
图1为本发明实施例一提供的一种中文的分词方法的流程示意图。本实施例的方法可以中文的分词装置来执行,其中该装置可由软件和/或硬件实现,一般可集成在具有分词功能的搜索引擎中。如图1所示,该方法可以包括:
S110:获取待分词文本的特征信息。
其中,待分词文本可以为单个句子,也可以为由多个句子所构成的一个段落,还可以为由多个段落所构成的文章等。对于中文而言,存在对文本进行初步划分的至少一个划分标准,例如可根据段落划分、标点符号和空格等控制字符中的至少一种或多种对文本进行划分。上述控制字符均可作为文本的特征信息,用于将中文文本,即连续的字符串序列划分为多个字符串序列。其中,每个字符串序列均可作为文本中独立的个体,以供搜索引擎进行进一步的识别。
S120:根据特征信息,确定待分词文本中的所有自然区间。
其中,自然区间是在分词过程中,根据待分词文本的至少一种特征信息对文本进行初次划分后的多个序列。该多个序列相互之间不存在组合成词的可能性。例如,对于一个句子,“我今天在路上遇到了一名警察,他当时正面向市政府。”,通过识别标点符号(逗号),可将上述句子划分为“我今天在路上遇到了一名警察”和“他当时正面向市政府”两个自然区间。
示例性的,在划分自然区间的过程中,可按照文本中字符的位置依次对每个字符进行识别,当识别出某个特征信息时,可将该特征信息之前的所有字符作为一个自然区间,并按照上述方式依次识别该特征信息之后的所有字符,直到确定待分词文本中的所有自然区间。
S130:将自然区间划分为歧义区间和非歧义区间。
示例性的,对于待分词文本中的所有自然区间而言,均存在歧义区间和非歧义区间两种不同的类型。
示例性的,可采用现有技术提供的分词词典对自然区间进行划分,具体可以为:对于每个自然区间,按照字符所在文本中的位置依次识别自然区间中的字符,并判断该字符与相邻字符所组成的词语在现有的分词词典中是否存在,若存在,则可表明某个字符可同时与相邻的字符构成词组,进而可将该字符及其相邻字符所构成的区间作为歧义区间;若不存在,则表明该字符为单个字或只属于某一个词,因此该字符可作为非歧义区间中的字符或词组。
具体的,仍以句子“我今天在路上遇到了一名警察,他当时正面向市政府。”为例,对于字符“面”,由于“正面”和“面向”均可作为词组,则可将“正面向”划分为歧义区间。而“我今天在路上遇到了一名警察”可作为非歧义区间。
优选的,将自然区间划分为歧义区间和非歧义区间的方式还可为:根据预设字符编码规则,将待分词文本中每个字符对应的字节信息存入字符矩阵,直到存入所有自然区间;在预设基础词典和预设分类词典中查询字符矩阵中的第N+K个字符与第N个字符是否可构成词组,若是,则将所构成词组的属性信息存储到与字符矩阵对应的关联矩阵;基于关联矩阵遍历自然区间,将自然区间划分为歧义区间和非歧义区间。
其中,预设字符编码规则是指GBK(Chinese Internal Code Specification,汉字编码字符集)或UTF8(8-bit Unicode Transformation Format,万国码)。在对文本信息中的字符依次识别的过程中,根据上述编码规则,可确定每个字符所对应的字节信息。其中,字节信息包括字符所占的字节数(可从字符对应首字节的信息中读出),以及每个字符所对应字节在文本中的开始位置和结束位置。本实施例中通过采用字符矩阵可从字符的角度对待分词文本中的所有字符按照在文本中的位置依次进行存储。
其中,预设基础词典为现有的分词词典。预设分类词典为采用现有技术提供的分词算法对不同专业领域的文章进行分词预处理后,得到的分词的集合。
示例性的,本实施例中,对于每个自然区间中的任意第N个字符,如果通过查询预设基础词典和预设分类词典后,确定出第N+K个字符与第N个字符可构成词组,即第N个字符与第N+K个字符所组成的字符串在预设基础词典或预设分类词典中出现,则可将第N+K个字符与第N个字符所构成的词组存储于字符矩阵对应的关联矩阵中。
其中,关联矩阵是与字符矩阵相对应的二维矩阵,该关联矩阵可从词的角度描述字符与字符之间的关系。在关联矩阵中,可存储所能构成词组的属性信息,比如词头(head)属性,组成部分(part)属性、前缀属性以及后缀属性等。通过上述属性信息,可表示构成词组的字符在所构成的词组中所起到的作用,还可表示所构成的词组在其所在文本中的作用。示例性的,在关联矩阵中也可存储该词组对应的分类属性信息。例如词组A属于军事领域,词组B属于化学领域。上述分类属性信息可作为后续分词处理的依据,通过识别候选词的分类属性,可确定分类属性对应的预设分类词典,进而可确定候选词的检索范围,进而提升分词处理的速度。
需要说明的是,预设分类词典的建立为待分词文本提供了有效的分词依据,相对于直接采用预设基础词典进行分词的方式,通过查询预设分类词典可使得分词结果更符合专业领域的词汇要求,因此可进一步提供分词的准确性。此外,通过关联矩阵对所有可能构成词组的字符及其构成词组的属性信息进行存储,可为后续进一步进行分词处理提供查询依据。
优选的,由于构建的关联矩阵中存储有所有可能构成词的字符及其构成词组的属性信息,因此,可通过采用关联矩阵按照字符位置递增的方式依次遍历每个自然区间中的每个字符以确定歧义区间和非歧义区间。
具体的,对于某个自然区间中的任意字符,如果其在关联矩阵中为单个字符或只属于单个词,则可将该自然区间作为非歧义区间;而如果自然区间中的字符在关联矩阵中同时属于依次排列的至少两个词,则可将至少两个词所在的区间作为歧义区间。
S140:确定歧义区间中的候选词,并将候选词与非歧义区间中的文本进行匹配。
示例性的,在基于关联矩阵确定歧义区间的过程中,也可随之确定出歧义区间中的候选词,即对于某个字符,如果该字符在关联矩阵中同时属于依次排列的至少两个词,则可将该字符所属的至少两个词均作为候选词。仍以句子“我今天在路上遇到了一名警察,他当时正面向市政府。”为例,由于在关联矩阵中存储有所有可能构成的词组,即“正面”和“面向”均被存储于关联矩阵中,而字符“面”同时属于这两个词,因此将“正面向”作为歧义区间,同时可将“正面”和“面向”作为该歧义区间中的候选词。
示例性的,通过将确定的候选词与非歧义区间中的文本进行匹配,如果在非歧义区间中也存在该候选词,可说明该候选词可作为文本信息的目标分词;如果在非歧义区间中并不存在上述候选词,则可表明该候选词可能是文本中第一次出现的词组,也可能是与文本上下文的语境无关的词组,需进一步确认其作为目标分词的准确性。在本实施例中,通过将候选词与非歧义区间中的文本进行匹配的好处在于,可提高分词结果与待分词文本上下文语境的关联性,使得分词结果与文本的语境紧密相关,进而提高分词的准确度。
S150:根据匹配结果确定候选词的分词规则,并按照分词规则对歧义区间的文本进行分词处理。
其中,分词规则可通过候选词与非歧义区间中的文本的匹配结果而确定,具体可通过匹配成功的次数所确定。
具体的,对于候选词“正面”和“面向”,如果将“正面”和“面向”分别与非歧义区间中的文本进行匹配,在非歧义区间中同时存在“正面”和“面向”,即可表明上述两个候选词均匹配成功。而如果在非歧义区间中出现“正面”的次数为一次,出现“面向”的次数为五次,则可说明“面向”更符合文本上下文的语境,进而将歧义区间“正面向”中的“面向”作为目标分词,“正”作为单个字符进行分词处理。
本发明实施例提供了一种中文的分词方法,获取待分词文本的特征信息,该特征信息可以包括段落划分、标点符号或空格符中的一种或多种。根据上述特征信息,可确定文本中的所有自然区间。在将自然区间划分为歧义区间和非歧义区间后,通过确定出歧义区间中的候选词,并将候选词与非歧义区间中的文本进行匹配,可根据匹配结果确定候选词的分词规则。通过按照该分词规则对歧义区间中的文本进行分词处理后,可得到与文本语境密切相关的分词。通过采用上述技术方案,有效提高了分词结果与待分词文本的语境之间的关联性,使得分词的准确度得到提升。相对于现有技术提供的分词方案,本发明实施例提供的技术方案计算量较小,在一定程度上也可以提高分词的快速性。
进一步的,需要说明的是,在获取待分词文本的特征信息之前,可建立分类词典,该分词词典可供多个分词线程或分词进程同时使用。
优选的,分类词典建立的方法具体可以包括:基于爬虫算法,获取第一设定数量的不同专业领域的文章,并将所述文章按照对应的专业领域进行存储,得到分类文本;基于预设原始分词算法对所述分类文本进行第二分词预处理,获取不同专业对应的所述分类文本中的词组以及所述词组对应的词频;将超过第二设定数量的词频所对应的词组作为目标词组,并将不同专业对应的所有目标词组的集合确定为预设分类词典。
示例性的,不同专业领域可以包括但并不限于如下领域:政治、体育、军事、娱乐、科技、汽车、股票和法律等。基于爬虫算法,可从如新浪、搜狐和腾讯等各大网站中获取上述多个专业领域的文章(例如分别爬取不同专业领域的文章1万篇),并将这些文章按照对应的专业领域以文本形式进行存储,进而完成初步的分类处理。
在初步分类得到分类文本后,可基于现有技术提供的预设原始分词算法(例如理解法或统计法等)可对分类文本进行分词预处理,并累加每个词组的词频。然后可将超过第二设定数量的词频(例如2000)所对应的词组作为目标词组。因此,不同专业领域对应的目标词组的集合即可作为分类高频词集合,即预设分类词典。
进一步的,可基于Spark(专为大规模数据处理而设计的快速通用的计算引擎)系统统计不同分类词典中的共享词汇,例如“激光”既可属于军事领域,又可属于电子信息领域。因此,对于上述共享词汇,优选将其归类到某个分类词典中,当然为了避免分词结果具有歧义,也可将其从分类词典中删除。
进一步的,对于上述分类词典中的每个词,可按照前两个字计算哈希值,并构造平衡二叉树。其中,平衡二叉树的每个节点可用于记录该词所对应的专业领域。相对于现有技术提供的分词技术,通过建立不同专业领域对应的预设分类词典,可在分词过程中同时检索多个分类词典,进而提高检索效率。通过采用哈希技术打散词典以形成多个较小的平衡二叉树的方式,可减小对每个预设分类词典的检索时间(例如,可将检索时间限制在纳秒级别),进而提高分词过程中的检索速度,提高分词效率。
实施例二
图2为本发明实施例二提供的一种中文的分词方法的流程示意图。本实施例二对上述实施例进行了优化,参照图2,本发明实施例二具体包括:
S210:获取待分词文本的特征信息。
S220:根据特征信息,确定待分词文本中的所有自然区间。
S230:将自然区间划分为歧义区间和非歧义区间。
S240:确定歧义区间中的候选词,并判断候选词与非歧义区间中的文本是否相匹配,若是,则执行步骤S250;否则,执行步骤S270。
示例性的,在确定歧义区间中的候选词后,可将该候选词依次存入歧义区间链表中,以为后续依次对候选词进行匹配提供便利,进而提升检索速度。
其中,通过判断歧义区间中的候选词是否与非歧义区间中的文件相匹配,可确定该候选词与待分词文本语境的关联程度。候选词在非歧义区间中出现的次数越多,说明该候选词的分词规则的准确性越高,该候选词的语义越接近待分词文本的语境。
示例性的,如果歧义区间中的候选词与非歧义区间中的文本不匹配,则可说明该候选词在非歧义区间中从未出现过,此时,可将该候选词与预设分类词典中的分词进行匹配,进一步确定该候选词分词规则的准确性。
S250:统计候选词在非歧义区间中出现的第一频率。
其中,非歧义区间中的词语为基于预设原始分词算法进行第一分词预处理后的词语,即在确定非歧义区间后,可进一步采用预设原始分词算法将非歧义区间中的字符串与预设基础词典或预设分类词典中的分词进行匹配,以确认非歧义区间中的词组是否为符合分词规则的词组,进而提升后续词组匹配的准确性。
S260:基于第一频率确定候选词所对应的候选切分规则的权重。
示例性的,针对每个候选词,其在非歧义区间中可能出现一次,也可能出现多次。出现的次数越多,说明该候选词与文本上下文所反映的语境越接近,即该候选词对应的候选切分规则相对于其他候选切分规则而言所占的权重越大。
具体的,对于歧义区间“正面向”中的候选词“正面”和“面向”,如果检索到“正面”在非歧义区间中出现2次,“面向”在非歧义区间中出现10次,则可确定该候选词“正面”对应的候选切分规则(切分为“正面”和“向”)所占比重为16%,而候选词“面向”对应的候选切分规则(切分为“正”和“面向”)所占的比重为84%。
S270:统计候选词在预设分类词典中出现的第二频率。
示例性的,由于关联矩阵中存储有可构成词组的所有字符,及其所构成词组的属性信息,因此可获取所有可作为候选分词的词组的属性信息,优选为分类属性信息,并设置与分类属性对应的分类权重计数器。
具体的,对于关联矩阵中的词组,若检索到这些词组绝大多数(例如百分之70的词组)在与军事领域对应的预设分类词典中出现,即与军事领域对应的分类权重计数器的计数值最大,因此,可将与军事相关的预设分类词典作为目标分类词典。后续将候选词与预设分类词典中的分词进行匹配时,采用目标分类词典进行匹配即可。通过确定候选词的分类属性,可缩小候选词的匹配范围,进而提升分词处理的速度。
需要说明的是,在基于第一频率确定出候选词所对应的候选切分规则的权重后,可进一步将该候选词与预设分类词典(优选为目标分类词典)中的分词进行匹配,并统计该候选词在目标分类词典中出现的第二频率。这样设置的好处在于:可进一步提升候选词对应的候选切分规则的准确性。
还需要说明的是,将候选词与非歧义区间中的分词进行匹配与预设分类词典中的分词进行匹配的动作不存在先后之分,可以顺序进行,也可同步进行。
S280:基于第二频率,累加候选切分规则的权重,得到权重最大的候选切分规则。
具体的,对于每个候选词,在将其与非歧义区间中的分词与目标分类词典中的分词进行匹配后,可确定不同候选词所对应的候选切分规则的权重,进而得到权重最大的候选切分规则。例如,仍以上述歧义区间“正面向”为例,其存在两种不同的候选切分规则,其中一种候选切分规则为“正面”和“向”,其权重为16%,另一种候选切分规则为“正”和“面向”,其权重为84%。因此,可将权重最大的候选切分规则“正”和“面向”作为该歧义区间的分词规则,以符合文本所反映的语境。
S290:按照权重最大的候选切分规则对歧义区间的文本进行分词处理。
本实施例二在上述实施例的基础上,针对歧义区间中的每个候选词,通过查找其在非歧义区间中出现的频率可得到候选词所对应的候选切分规则的权重。通过结合预设分类词典,将候选词进一步与预设分类词典中的分词进行匹配后,可得到候选词所对应候选切分规则的最大权重值,并按照该最大权重值对应的候选切分规则对歧义区间中的文本进行分词处理,保证了分词结果与待分词文本语境的关联性,提升了分词的准确度。
实施例三
图3为本发明实施例三提供的一种中文的分词装置的结构框图。该装置可由软件和/或硬件实现,一般可集成在具备分词功能的分词系统中。如图3所示,该装置包括:特征信息获取模块310、自然区间确定模块320、区间划分模块330、候选词匹配模块340和分词处理模块350。
其中,特征信息获取模块310,用于获取待分词文本的特征信息;自然区间确定模块320用于根据所述特征信息,确定所述待分词文本中的所有自然区间,其中,所述特征信息包括段落划分、标点符号或空格符中至少之一;区间划分模块330,用于将所述自然区间划分为歧义区间和非歧义区间;候选词匹配模块340,用于确定所述歧义区间中的候选词,并将所述候选词与所述非歧义区间中的文本进行匹配;分词处理模块350,用于根据匹配结果确定所述候选词的分词规则,并按照所述分词规则对所述歧义区间的文本进行分词处理。
本发明实施例提供了一种中文的分词装置,获取待分词文本的特征信息,该特征信息可以包括段落划分、标点符号或空格符中的一种或多种。根据上述特征信息,可确定文本中的所有自然区间。在将自然区间划分为歧义区间和非歧义区间后,通过确定出歧义区间中的候选词,并将候选词与非歧义区间中的文本进行匹配,可根据匹配结果确定候选词的分词规则。通过按照该分词规则对歧义区间中的文本进行分词处理后,可得到与文本语境密切相关的分词。通过采用上述技术方案,有效提高了分词结果与待分词文本的语境之间的关联性,使得分词的准确度得到提升。相对于现有技术提供的分词方案,本发明实施例提供的技术方案计算量较小,在一定程度上也可以提高分词的快速性。
在上述实施例的基础上,所述区间划分模块330具体包括:
第一存储单元,用于根据预设字符编码规则,将所述待分词文本中每个字符对应的字节信息存入字符矩阵,直到存入所有自然区间;
第二存储单元,用于在预设基础词典和预设分类词典中查询所述字符矩阵中的第N+K个字符与第N个字符是否可构成词组,若是,则将所构成词组的属性信息存储到与所述字符矩阵对应的关联矩阵;其中,N和K为整数,用于表示字符矩阵中的字符个数;
区间划分单元,用于基于所述关联矩阵遍历所述自然区间,将所述自然区间划分为歧义区间和非歧义区间。
在上述实施例的基础上,所述区间划分单元具体用于:
对于所述自然区间中的任意字符,如果在所述关联矩阵中为单个字符或只属于单个词,则将所述自然区间作为非歧义区间;
如果所述自然区间中的字符在所述关联矩阵中同时属于依次排列的至少两个词,则将所述至少两个词所在的区间作为歧义区间;
相应的,所述确定所述歧义区间中的候选词,包括:
将所述关联矩阵中依次排列的,且包含有相同字符的至少两个词均作为所述歧义区间中的候选词。
在上述实施例的基础上,分词处理模块350具体用于:如果所述候选词与所述非歧义区间中的词语相匹配,则统计所述候选词在所述非歧义区间中出现的第一频率;其中,所述非歧义区间中的词语为基于预设原始分词算法进行第一分词预处理后的词语;
基于所述第一频率确定所述候选词所对应的候选切分规则的权重,并按照权重最大的候选切分规则对所述歧义区间的文本进行分词处理。
在上述实施例的基础上,该装置还包括:第二频率统计模块,用于在基于所述第一频率确定所述候选词所对应的候选切分规则的权重之后,统计所述候选词在预设分类词典中出现的第二频率;最大候选切分规则确定模块,用于基于所述第二频率,累加所述候选切分规则的权重,得到权重最大的候选切分规则。
在上述实施例的基础上,该装置还包括:分类权重计数值累加模块,用于在将所构成词组的属性信息存储到与所述字符矩阵对应的关联矩阵之后,读取所述属性信息,并累加与所述属性信息对应的分类权重计数器的计数值;
相应的,第二频率统计模块具体用于:将所述分类权重计数器的最大计数值所对应的预设分类词典作为目标分类词典;
统计所述候选词在所述目标分类词典中出现的第二频率。
在上述实施例的基础上,该装置还包括:文本分类模块,用于在获取待分词的文本信息之前,基于爬虫算法,获取第一设定数量的不同专业领域的文章,并将所述文章按照对应的专业领域进行存储,得到分类文本;
第二分词预处理模块,用于基于预设原始分词算法对所述分类文本进行第二分词预处理,获取不同专业对应的所述分类文本中的词组以及所述词组对应的词频;
分类词典确定模块,用于将超过第二设定数量的词频所对应的词组作为目标词组,并将不同专业对应的所有目标词组的集合确定为预设分类词典。
本发明实施例提供的中文的分词装置可执行本发明任意实施例所提供的中文的分词方法,具备执行方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的中文的分词方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种中文的分词方法,其特征在于,所述方法包括:
获取待分词文本的特征信息,其中,所述特征信息包括段落划分、标点符号或空格符中至少之一;
根据所述特征信息,确定所述待分词文本中的所有自然区间;
将所述自然区间划分为歧义区间和非歧义区间;
确定所述歧义区间中的候选词,并将所述候选词与所述非歧义区间中的文本进行匹配;
根据匹配结果确定所述候选词的分词规则,并按照所述分词规则对所述歧义区间的文本进行分词处理。
2.根据权利要求1所述的方法,其特征在于,所述将所述自然区间划分为歧义区间和非歧义区间,包括:
根据预设字符编码规则,将所述待分词文本中每个字符对应的字节信息存入字符矩阵,直到存入所有自然区间;
在预设基础词典和预设分类词典中查询所述字符矩阵中的第N+K个字符与第N个字符是否构成词组,若是,则将所构成词组的属性信息存储到与所述字符矩阵对应的关联矩阵;其中,N和K均为整数,用于表示字符矩阵中的字符个数;
基于所述关联矩阵遍历所述自然区间中的每个字符,将所述自然区间划分为歧义区间和非歧义区间。
3.根据权利要求2所述的方法,其特征在于,基于所述关联矩阵遍历所述自然区间中的每个字符,将所述自然区间划分为歧义区间和非歧义区间,包括:
对于所述自然区间中的任意字符,如果在所述关联矩阵中为单个字符或只属于单个词,则将所述自然区间确定为非歧义区间;
如果所述自然区间中的字符在所述关联矩阵中同时属于依次排列的至少两个词,则将所述至少两个词所在的区间确定为歧义区间;
相应的,所述确定所述歧义区间中的候选词,包括:
将所述关联矩阵中依次排列的,且包含有相同字符的至少两个词均作为所述歧义区间中的候选词。
4.根据权利要求2所述的方法,其特征在于,根据匹配结果确定所述候选词的分词规则,并按照所述分词规则对所述歧义区间的文本进行分词处理,包括:
如果所述候选词与所述非歧义区间中的词语相匹配,则统计所述候选词在所述非歧义区间中出现的第一频率;其中,所述非歧义区间中的词语为基于预设原始分词算法进行第一分词预处理后的词语;
基于所述第一频率确定所述候选词所对应的候选切分规则的权重,并按照权重最大的候选切分规则对所述歧义区间的文本进行分词处理。
5.根据权利要求4所述的方法,其特征在于,基于所述第一频率确定所述候选词所对应的候选切分规则的权重之后,所述方法还包括:
统计所述候选词在预设分类词典中出现的第二频率;
基于所述第二频率,累加所述候选切分规则的权重,得到权重最大的候选切分规则。
6.根据权利要求5所述的方法,其特征在于,所述将所构成词组的属性信息存储到与所述字符矩阵对应的关联矩阵之后,所述方法还包括:
读取所述属性信息,并累加与所述属性信息对应的分类权重计数器的计数值;
相应的,所述统计所述候选词在预设分类词典中出现的第二频率,包括:
将所述分类权重计数器的最大计数值所对应的预设分类词典作为目标分类词典;
统计所述候选词在所述目标分类词典中出现的第二频率。
7.根据权利要求1所述的方法,其特征在于,所述获取待分词文本的特征信息之前,所述方法还包括:
基于爬虫算法,获取第一设定数量的不同专业领域的文章,并将所述文章按照对应的专业领域进行存储,得到分类文本;
基于预设原始分词算法对所述分类文本进行第二分词预处理,获取不同专业对应的所述分类文本中的词组以及所述词组对应的词频;
将超过第二设定数量的词频所对应的词组作为目标词组,并将不同专业对应的所有目标词组的集合确定为预设分类词典。
8.一种中文的分词装置,其特征在于,所述装置包括:
特征信息获取模块,用于获取待分词文本的特征信息;
自然区间确定模块,用于根据所述特征信息,确定所述待分词文本中的所有自然区间,其中,所述特征信息包括段落划分、标点符号或空格符中至少之一;
区间划分模块,用于将所述自然区间划分为歧义区间和非歧义区间;
候选词匹配模块,用于确定所述歧义区间中的候选词,并将所述候选词与所述非歧义区间中的文本进行匹配;
分词处理模块,用于根据匹配结果确定所述候选词的分词规则,并按照所述分词规则对所述歧义区间的文本进行分词处理。
9.根据权利要求8所述的装置,其特征在于,所述区间划分模块包括:
第一存储单元,用于根据预设字符编码规则,将所述待分词文本中每个字符对应的字节信息存入字符矩阵,直到存入所有自然区间;
第二存储单元,用于在预设基础词典和预设分类词典中查询所述字符矩阵中的第N+K个字符与第N个字符是否可构成词组,若是,则将所构成词组的属性信息存储到与所述字符矩阵对应的关联矩阵;其中,N和K为整数,用于表示字符矩阵中的字符个数;
区间划分单元,用于基于所述关联矩阵遍历所述自然区间,将所述自然区间划分为歧义区间和非歧义区间。
10.根据权利要求8所述的装置,其特征在于,所述装置还包括:
文本分类模块,用于在获取待分词的文本信息之前,基于爬虫算法,获取第一设定数量的不同专业领域的文章,并将所述文章按照对应的专业领域进行存储,得到分类文本;
第二分词预处理模块,用于基于预设原始分词算法对所述分类文本进行第二分词预处理,获取不同专业对应的所述分类文本中的词组以及所述词组对应的词频;
分类词典确定模块,用于将超过第二设定数量的词频所对应的词组作为目标词组,并将不同专业对应的所有目标词组的集合确定为预设分类词典。
CN201711115252.9A 2017-11-13 2017-11-13 一种中文的分词方法及装置 Active CN107918604B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711115252.9A CN107918604B (zh) 2017-11-13 2017-11-13 一种中文的分词方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711115252.9A CN107918604B (zh) 2017-11-13 2017-11-13 一种中文的分词方法及装置

Publications (2)

Publication Number Publication Date
CN107918604A true CN107918604A (zh) 2018-04-17
CN107918604B CN107918604B (zh) 2021-06-25

Family

ID=61895482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711115252.9A Active CN107918604B (zh) 2017-11-13 2017-11-13 一种中文的分词方法及装置

Country Status (1)

Country Link
CN (1) CN107918604B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846094A (zh) * 2018-06-15 2018-11-20 江苏中威科技软件系统有限公司 一种基于分词检索交互的方式
CN109063046A (zh) * 2018-07-17 2018-12-21 广州资宝科技有限公司 搜索方法、装置及智能终端
CN109829167A (zh) * 2019-02-22 2019-05-31 维沃移动通信有限公司 一种分词处理方法和移动终端
CN110413998A (zh) * 2019-07-16 2019-11-05 深圳供电局有限公司 一种面向电力行业的自适应中文分词方法及其系统、介质
CN110852099A (zh) * 2019-10-25 2020-02-28 北京中献电子技术开发有限公司 一种适用于神经网络机器翻译的汉语分词方法及装置
CN111177402A (zh) * 2019-12-13 2020-05-19 中移(杭州)信息技术有限公司 基于分词处理的评价方法、装置、计算机设备及存储介质
CN111310444A (zh) * 2020-01-16 2020-06-19 北京大学 一种公园景观服务识别方法
CN112395866A (zh) * 2020-11-17 2021-02-23 中国外运股份有限公司 报关单数据匹配方法及装置
CN116226362A (zh) * 2023-05-06 2023-06-06 湖南德雅曼达科技有限公司 一种提升搜索医院名称准确度的分词方法
CN116227488A (zh) * 2023-05-09 2023-06-06 北京拓普丰联信息科技股份有限公司 一种文本分词的方法、装置、电子设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101295294A (zh) * 2008-06-12 2008-10-29 昆明理工大学 基于信息增益改进贝叶斯词义消歧方法
CN101499058A (zh) * 2009-03-05 2009-08-05 北京理工大学 一种基于类型论的汉语分词方法
US20090326916A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Unsupervised chinese word segmentation for statistical machine translation
CN103514150A (zh) * 2012-06-21 2014-01-15 富士通株式会社 识别具有组合型歧义的歧义词的方法和装置
CN104077275A (zh) * 2014-06-27 2014-10-01 北京奇虎科技有限公司 一种基于语境进行分词的方法和装置
CN106202056A (zh) * 2016-07-26 2016-12-07 北京智能管家科技有限公司 中文分词场景库更新方法和系统
CN106294863A (zh) * 2016-08-23 2017-01-04 电子科技大学 一种针对海量文本快速理解的文摘方法
CN106484677A (zh) * 2016-09-30 2017-03-08 北京林业大学 一种基于最小信息量的汉语快速分词系统及方法
CN106649251A (zh) * 2015-10-30 2017-05-10 北京国双科技有限公司 一种中文分词的方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101295294A (zh) * 2008-06-12 2008-10-29 昆明理工大学 基于信息增益改进贝叶斯词义消歧方法
US20090326916A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Unsupervised chinese word segmentation for statistical machine translation
CN101499058A (zh) * 2009-03-05 2009-08-05 北京理工大学 一种基于类型论的汉语分词方法
CN103514150A (zh) * 2012-06-21 2014-01-15 富士通株式会社 识别具有组合型歧义的歧义词的方法和装置
CN104077275A (zh) * 2014-06-27 2014-10-01 北京奇虎科技有限公司 一种基于语境进行分词的方法和装置
CN106649251A (zh) * 2015-10-30 2017-05-10 北京国双科技有限公司 一种中文分词的方法及装置
CN106202056A (zh) * 2016-07-26 2016-12-07 北京智能管家科技有限公司 中文分词场景库更新方法和系统
CN106294863A (zh) * 2016-08-23 2017-01-04 电子科技大学 一种针对海量文本快速理解的文摘方法
CN106484677A (zh) * 2016-09-30 2017-03-08 北京林业大学 一种基于最小信息量的汉语快速分词系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张国兵 等: "一种基于局部歧义词网格的快速分词算法", 《计算机工程与应用》 *
秦赞: "中文分词算法的研究与实现", 《中国优秀硕士学位论文全文数据库-信息科技辑》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846094A (zh) * 2018-06-15 2018-11-20 江苏中威科技软件系统有限公司 一种基于分词检索交互的方式
CN109063046A (zh) * 2018-07-17 2018-12-21 广州资宝科技有限公司 搜索方法、装置及智能终端
CN109829167A (zh) * 2019-02-22 2019-05-31 维沃移动通信有限公司 一种分词处理方法和移动终端
CN109829167B (zh) * 2019-02-22 2023-11-21 维沃移动通信有限公司 一种分词处理方法和移动终端
CN110413998A (zh) * 2019-07-16 2019-11-05 深圳供电局有限公司 一种面向电力行业的自适应中文分词方法及其系统、介质
CN110413998B (zh) * 2019-07-16 2023-04-21 深圳供电局有限公司 一种面向电力行业的自适应中文分词方法及其系统、介质
CN110852099A (zh) * 2019-10-25 2020-02-28 北京中献电子技术开发有限公司 一种适用于神经网络机器翻译的汉语分词方法及装置
CN111177402B (zh) * 2019-12-13 2023-09-22 中移(杭州)信息技术有限公司 基于分词处理的评价方法、装置、计算机设备及存储介质
CN111177402A (zh) * 2019-12-13 2020-05-19 中移(杭州)信息技术有限公司 基于分词处理的评价方法、装置、计算机设备及存储介质
CN111310444A (zh) * 2020-01-16 2020-06-19 北京大学 一种公园景观服务识别方法
CN112395866A (zh) * 2020-11-17 2021-02-23 中国外运股份有限公司 报关单数据匹配方法及装置
CN112395866B (zh) * 2020-11-17 2024-02-02 中国外运股份有限公司 报关单数据匹配方法及装置
CN116226362B (zh) * 2023-05-06 2023-07-18 湖南德雅曼达科技有限公司 一种提升搜索医院名称准确度的分词方法
CN116226362A (zh) * 2023-05-06 2023-06-06 湖南德雅曼达科技有限公司 一种提升搜索医院名称准确度的分词方法
CN116227488A (zh) * 2023-05-09 2023-06-06 北京拓普丰联信息科技股份有限公司 一种文本分词的方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN107918604B (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN107918604A (zh) 一种中文的分词方法及装置
CN111222305B (zh) 一种信息结构化方法和装置
CN109670163B (zh) 信息识别方法、信息推荐方法、模板构建方法及计算设备
CN103365992B (zh) 一种基于一维线性空间实现Trie树的词典检索方法
CN106528647B (zh) 一种基于cedar双数组字典树算法进行术语匹配的方法
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
US20180260475A1 (en) Systems and methods for verbatim-text mining
CN106909575B (zh) 文本聚类方法和装置
CN111460170B (zh) 一种词语识别方法、装置、终端设备及存储介质
EP3483747A1 (en) Preserving and processing ambiguity in natural language
CN111832299A (zh) 一种中文分词系统
WO2021077585A1 (zh) 一种查询自动补全的方法和装置
CN112115232A (zh) 一种数据纠错方法、装置及服务器
CN103914570A (zh) 基于字符串相似度算法的智能客服搜索方法与系统
CN109885641B (zh) 一种数据库中文全文检索的方法及系统
CN109918664B (zh) 分词方法和装置
CN112559709A (zh) 基于知识图谱的问答方法、装置、终端以及存储介质
CN108197315A (zh) 一种建立分词索引库的方法和装置
CN112733545A (zh) 文本分块方法、装置、计算机设备和存储介质
CN109255117A (zh) 中文分词方法及装置
CN105404677B (zh) 一种基于树形结构的检索方法
CN111190873B (zh) 一种用于云原生系统日志训练的日志模式提取方法及系统
CN110532569B (zh) 一种基于中文分词的数据碰撞方法及系统
CN110019637B (zh) 一种标准文献检索的排序算法
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 518000 31st floor, Caixun technology building, 3176 Keyuan South Road, Gaoxin community, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province

Applicant after: RICHINFO TECHNOLOGY Co.,Ltd.

Address before: 518057 unit 01-11, 4 / F, Changhong science and technology building, 18 Keji South 12 road, Nanshan District, Shenzhen City, Guangdong Province

Applicant before: RICHINFO TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Chinese word segmentation method and device

Effective date of registration: 20231208

Granted publication date: 20210625

Pledgee: Shenzhen Branch of China Merchants Bank Co.,Ltd.

Pledgor: RICHINFO TECHNOLOGY CO.,LTD.

Registration number: Y2023980070394

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Granted publication date: 20210625

Pledgee: Shenzhen Branch of China Merchants Bank Co.,Ltd.

Pledgor: RICHINFO TECHNOLOGY CO.,LTD.

Registration number: Y2023980070394

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Chinese word segmentation method and device

Granted publication date: 20210625

Pledgee: Shenzhen Branch of China Merchants Bank Co.,Ltd.

Pledgor: RICHINFO TECHNOLOGY CO.,LTD.

Registration number: Y2024980014832