CN110705261B - 中文文本分词方法及其系统 - Google Patents
中文文本分词方法及其系统 Download PDFInfo
- Publication number
- CN110705261B CN110705261B CN201910920178.0A CN201910920178A CN110705261B CN 110705261 B CN110705261 B CN 110705261B CN 201910920178 A CN201910920178 A CN 201910920178A CN 110705261 B CN110705261 B CN 110705261B
- Authority
- CN
- China
- Prior art keywords
- word
- word segmentation
- words
- text
- breakpoint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本申请涉及信息处理技术,公开了一种中文文本分词方法及其系统。该方法包括:将目标文本拆分成多个句子;识别所述多个句子中的断点词语,根据所识别的断点词语将每个句子划分成多个小节,所述断点词语是在任何句子中出现时意义唯一且作为独立意义存在的字、词或短语;以及将对应所述每个句子的多个小节的文本进行分词处理。本申请的实施方式在保证分词准确性的前提下,极大的提高了分词速度和分词结果的可靠性。
Description
技术领域
本申请涉及信息处理技术,特别涉及文本分词技术。
背景技术
中文分词是中文文本信息处理的重要基础,比如文本内容的自动识别及自动分类、搜索引擎、机器翻译等技术中首要解决的就是中文分词的问题,其中分词的速度和准确性直接影响各项技术的实用性。
发明内容
本申请的目的在于提供一种中文文本分词方法及其系统,在保证分词准确性的前提下,极大的提高了分词速度和分词结果的可靠性。
本申请公开了一种中文文本分词方法,包括:
将目标文本拆分成多个句子;
识别所述多个句子中的断点词语,根据所识别的断点词语将每个句子划分成多个小节,所述断点词语是在任何句子中出现时意义唯一且作为独立意义存在的字、词或短语;
将对应所述每个句子的多个小节的文本进行分词处理。
在一个优选例中,所述识别所述多个句子中的断点词语之前,还包括:
提取语料库中的各文本中满足意义唯一且作为独立意义存在的字、词或短语为断点词语,构建断点词语库;
所述识别所述多个句子中的断点词语,进一步包括:
基于所述断点词语库,识别所述多个句子中的断点词语。
在一个优选例中,所述将对应每个句子的多个小节的文本进行分词处理,进一步包括:
将对应每个句子的多个小节中的每个小节的文本按照最短路径分词法进行分词处理,其中对于任一小节的文本:
如果该小节的文本的最短分词路径唯一,确定该路径为目标分词路径;
如果该小节的文本的最短分词路径有多个,计算每个最短分词路径中各词语的词频和,并计算各最短分词路径中两两所述词频和的差值;
如果任一差值都大于预设阈值,则确定词频和最大的最短分词路径为目标分词路径,否则根据该目标文本中除该小节外的其它各小节的目标分词结果确定该小节的目标分词路径;
按照所述目标分词路径对该小节的文本进行分词处理。
在一个优选例中,所述根据该目标文本中除该小节外的其它各小节的目标分词结果确定该小节的目标分词路径,进一步包括:
统计该小节的多个最短分词路径中分词结果不同的词语;
计算所述分词结果不同的词语在所述目标文本的其它各小节的目标分词结果中的数量和,确定数量和最大的词语对应的最短分词路径为目标分词路径。
在一个优选例中,所述根据所识别的断点词语将每个句子划分为多个小节,进一步包括:
将每个句子中的各断点词语用预设符号或预设标识替换,并根据所述预设符号或预设标识的位置将每个句子划分为多个小节;
所述将对应所述每个句子的多个小节的文本进行分词处理之后,还包括:
将所述各断点词语还原至所述目标文本的相应预设符号或预设标识的位置处。
在一个优选例中,所述构建断点词语库,进一步包括:
将所述语料库中的各文本划分成多个句子,对每个句子进行正确分词,获取所有句子的正确分词的词语序列;
对每个句子中能够组合的其他不同字、词和/或短语进行标注,获取所有句子的能够组合的其他词语序列;
提取所述正确分词的词语序列中的字、词和/或短语,并从中排除被包含在所述其他词语序列中的字、词和/或短语,构建断点词语库;
所述构建断点词语库之后,还包括:
提取所述正确分词的词语序列中的非断点词语,并对各非断点词语的词频进行标注,构建通用词语库。
在一个优选例中,所述将对应每个句子的多个小节中的每个小节的文本按照最短路径分词法分词,进一步包括:
基于所述通用词语库,将对应每个句子的多个小节中的每个小节的文本按照最短路径分词法分词;
所述计算每个最短分词路径中各词语的词频和的步骤中,每个词语的词频从所述通用词语库中获取。
本申请还公开了一种中文文本分词系统,包括:
分句模块,用于将目标文本拆分成多个句子;
分节模块,用于识别所述多个句子中的断点词语,根据所识别的断点词语将每个句子划分为多个小节,所述断点词语是在任何句子中出现时表示意义唯一且作为独立意义存在的字、词或短语;
分词模块,用于将对应所述每个句子的多个小节的文本进行分词处理。
本申请还公开了一种中文文本分词系统包括:
存储器,用于存储计算机可执行指令;以及,
处理器,用于在执行所述计算机可执行指令时实现如前文描述的方法中的步骤。
本申请还公开了一种计算机可读存储介质所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如前文描述的方法中的步骤。
本申请实施方式中的中文分词方法及其系统,根据文本中的各句子中的断点词语,可以将每个句子划分为多个小节的形式,因为断点词语的类型主要包括成语、诗、词、曲、人名、地名、官职名、名句典故、文言词汇、普通字词等,它们都是在任何句子中出现时表示的意义唯一且可作为独立意义存在的字、词或者短语,所以根据断点词语将句子分节处理可以在不影响整个句子的分词结果的准确性的情况下,减小了后期对各句子的各小节进行分词处理时的难度,尤其对于字串越长的句子,若存在断点词语,基于断点词语将句子分成多个小节,后续再针对各小节进行分词处理,可以提高分词的准确度、速度和效率。
并且,在后续对各句子的各小节进行分词处理时,对各小节对应的短字串处理相比整个句子长字串处理,不限于使用任何分词算法,都能够明显地提高分词速度。而且,可同时对一句子中的多个小节进行并行分词处理,既保证了分词的准确性、又极大的提高了分词的速度和效率。
进一步地,在分词过程中采用最短路径分词法,可快速地获取最短分词路径。尤其对一些简单的语句,其只存在一条分词路径,通常在该阶段可以直接得到目标分词路径,而对于存在多条最短分词路径的句子,对分词结果中有歧义的字词,进一步结合词频和上下文的目标分词结果,也可准确地获取目标分词路径,进而得到最终分词结果,实用性强。
并且,在对目标文本进行分词前,还可以预先基于所选择的语料库,对语料库中文本的字、词、短语等进行分析和统计,区分并提取出断点词语和非断点词语,并构建相应的断点词语库和通用词语库,对于通用词库中的词语的词频进行分析和标注,从而对上述断点词语识别提供可靠基础,并且对上述采用最短路径分词法的分词过程提供可靠基础,极大的提高了分词速度和分词结果的可靠性。
本申请的说明书中记载了大量的技术特征,分布在各个技术方案中,如果要罗列出本申请所有可能的技术特征的组合(即技术方案)的话,会使得说明书过于冗长。为了避免这个问题,本申请上述发明内容中公开的各个技术特征、在下文各个实施方式和例子中公开的各技术特征、以及附图中公开的各个技术特征,都可以自由地互相组合,从而构成各种新的技术方案(这些技术方案均因视为在本说明书中已经记载),除非这种技术特征的组合在技术上是不可行的。例如,在一个例子中公开了特征A+B+C,在另一个例子中公开了特征A+B+D+E,而特征C和D是起到相同作用的等同技术手段,技术上只要择一使用即可,不可能同时采用,特征E技术上可以与特征C相组合,则,A+B+C+D的方案因技术不可行而应当不被视为已经记载,而A+B+C+E的方案应当视为已经被记载。
附图说明
图1是根据本申请第一实施方式的中文文本分词方法流程示意图;
图2是根据本申请第一实施方式的一个实施例的对每个小节的文本进行分词处理流程示意图;
图3是根据本申请第二实施方式的中文文本分词系统结构示意图。
具体实施方式
在以下的叙述中,为了使读者更好地理解本申请而提出了许多技术细节。但是,本领域的普通技术人员可以理解,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
部分概念的说明:
最短路径分词法:针对待处理字串,根据词典等找出所有可能的词,构造出一个有向无环图,以起始点为中心向外层层扩展,直到终点为止,计算第一个节点到最后一个节点的最短路径。
最大匹配算法:包括正向最大匹配算法、逆向最大匹配算法、双向匹配算法等。其主要原理都是切分出单字串,然后和词库进行比对,如果是一个词就记录下来,否则通过增加或者减少一个单字,继续比较,一直还剩下一个单字则终止。
词语:包括字、词或短语,其中短语的字数不限,例如“锄禾日当午”在句子中作为断点词语出现时也可以称为短语。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请的实施方式作进一步地详细描述。
本申请的第一实施方式涉及一种中文文本分词方法,其流程如图1所示,该方法包括以下步骤101~103:
开始,在步骤101中,将目标文本拆分成多个句子。
可选地,该步骤101,进一步包括以下步骤:
将该目标文本按照其包含的预设标点符号和预设字符,将该目标文本拆分成多个句子。
该预设标点符号的种类可以从现有“标点符号”中选择使用。在一个实施例中,该预设标点符号包括:逗号(,)、句号(。)、感叹号(!)、分号(;)、问号(?)、顿号(、)、冒号(:)。在其他实施例中,除上述标点符号外还可以同时包括:引号(“”‘’)、括号〔()[]{}〕、破折号(──)、省略号(……),等等。
可选地,该预设字符可以包括回车换行等字符。
之后,进入步骤102,识别该多个句子中的断点词语,根据所识别的断点词语将每个句子划分成多个小节,该断点词语是在任何句子中出现时意义唯一且作为独立意义存在的字、词或短语。
可选地,该断点词语的类型主要包括:成语、诗、词、曲、人名、地名、官职名、名句典故、文言词汇、普通字词等。
需要说明的是:该断点词语具有独立性和非歧义性的特点。其中独立性是指可作为独立意义存在的字、词或者短语;非歧义性是指在任何句子中出现时,其表示的意义唯一,产生歧义的可能性为零,且在同一句话中该词语不存在2种或者更多的切分方法。例如,“鲁迅”、“缘故”、“赶时髦”在任何句子中只存在一种分词结果,故为断点词语;而对于非断点词语,例如下表1中对“总理出现在这里”这句话的分析,则该句子中“出现在”存在两种分词结果,具有歧义性,故“在”、“出现”和“现在”都不属于断点词语。
表1
可选地,该步骤102之前,还包括以下步骤:
提取语料库中的各文本中满足意义唯一且作为独立意义存在的字、词或短语为断点词语,构建断点词语库。
可选地,上述“构建断点词语库”可以进一步包括以下步骤a、b和c,其中,在步骤a中,将该语料库中的各文本划分成多个句子,对每个句子进行正确分词(例如,可以通过人工分词等),获取所有句子的正确分词的词语序列;在步骤b中,对每个句子中能够组合的其他不同字、词和/或短语进行标注,获取所有句子的能够组合的其他词语序列;在步骤c中,提取该正确分词的词语序列中的字、词和/或短语,并从中排除被包含在该其他词语序列中的字、词和/或短语,构建断点词语库。举例说明,如下表2所示,将该语料库中的各文本划分成句子1、句子2、……、句子u,对每个句子进行正确分词,得到每个句子的正确分词的词语序列S1、S2、……、Su,以及对每个句子中所有可能组合的其他不同字、词和/或短语进行标注,获取所有句子的能够组合的其他词语序列R1、R2、……、Ru,则属于{S1,S2,……,Su}且不属于{R1,R2,……,Ru}的字、词和短语被确定为断点词语,构建断点词语库,其中u≥1,a≥1,b≥1,c≥1,d≥1,e≥1,f≥1,该例子中罗列的细节主要是为了便于理解,不作为对本申请保护范围的限制。需要指出,该构建断点词语库的过程中提取断点词语方式只是一种优选的方式,实际中不限于人工提取、计算机自动提取或者其它人机结合提取等的方式。
表2
进一步地,在“构建断点词语库”之后,还可以包括以下步骤d,在步骤d中,提取该正确分词的词语序列中的非断点词语,并对各非断点词语的词频进行词频分析并进行词频标注,构建通用词语库。
在一个实施例中,上述构建断点词语库所使用的语料库可以是北大语料库。当然,在其他实施例中,也可以根据需要选择其他语料库。例如,根据目标文本的类型、专业方向等选择相应类型或者专业方向的语料库。
可选地,该步骤102进一步包括以下步骤:
基于该断点词语库,识别该多个句子中的断点词语。
在一个实施例中,该步骤102可以进一步包括:基于该断点词语库,采用最短路径分词法识别该多个句子中的断点词语。需要说明,该最短路径分词法的优势在于计算简单,能快速得到最优解,并且结合词库和词频信息可以不断的提升分词效果,可控性较强。在其他实施例中,还可以基于该断点词语库,并采用例如最大匹配算法等其他方法来识别该多个句子中的断点词语。
在一个实施例中,该步骤102中“根据所识别的断点词语将每个句子划分为多个小节”可以进一步实现为:将每个句子中的各断点词语用预设符号或预设标识替换,并根据该预设符号或预设标识的位置将每个句子划分为多个小节。其中该预设符号或预设标识可以选择为目标文本中不存在的任何符号或标识。例如,将句子M1、M2、……、Mn(n≥1)中的每个句子中的各断点词语用“&”代替,将各句子划分成多个小节,具体如下表3所示,其中,“<>”起到划分的作用,也可以用其他代替,例如“//”等,且不限于此。
表3
句子 | 句子划分成的多个小节表示形式 |
M<sub>1</sub> | <句子小节1><&><句子小节2><&>……<&><句子小节i> |
M<sub>2</sub> | <句子小节1><&><句子小节2><&>……<&><句子小节j> |
…… | …… |
M<sub>n</sub> | <句子小节1><&><句子小节2><&>……<&><句子小节k> |
之后,进入步骤103,将对应该每个句子的多个小节的文本进行分词处理。
可选地,该步骤103,进一步包括:将对应每个句子的多个小节中的每个小节的文本按照最短路径分词法分词。在一个实施例中,可以基于通用词语库,将对应每个句子的多个小节中的每个小节的文本按照最短路径分词法分词。其中,对于任一小节的文本按以下步骤201~205进行分词处理:
在步骤201中,判断:该小节的文本的最短分词路径是否只有一个?
如果只有一个最短分词路径,则进入步骤202,确定该路径为目标分词路径。注意:对一些简单的语句,通常在这阶段即可获取分词结果。
如果有多个最短分词路径,则进入步骤203,计算每个最短分词路径中各词语的词频和,并计算各最短分词路径中两两该词频和的差值。需要指出,该步骤203中,每个词语的词频从上述所构建的通用词语库中获取。
在步骤203之后进入步骤204,判断:是否任一差值大于预设阈值?
如果任一差值都大于预设阈值,则之后进入步骤205,确定词频和最大的最短分词路径为目标分词路径。
如果存在至少一个差值小于预设阈值,则之后进入步骤206,根据该目标文本中除该小节外的其它各小节的目标分词结果确定该小节的目标分词路径。
在步骤202、205或206之后进入步骤207,按照该目标分词路径对该小节的文本进行分词处理。
需要指出:在上述将对应每个句子的多个小节中的每个小节的文本分词时,优选地可以对一个句子的多个小节字串或者多个句子的各小节字串进行多线程并行分词处理,这样可充分利用CPU资源,缩短分词处理时间,在保证分词正确性的同时提高分词效率。
可选地,该步骤206,进一步包括以下步骤A和B,其中,在步骤A中,统计该小节的多个最短分词路径中分词结果不同的词语;在步骤B中,计算该分词结果不同的词语在该目标文本的其它各小节的目标分词结果中的数量和,确定数量和最大的词语对应的最短分词路径为目标分词路径。
可选地,在步骤103之后,还包括以下步骤:
将该各断点词语还原至该目标文本的相应预设符号或预设标识的位置处。
为了能够更好地理解本申请的技术方案,下面结合一个具体的例子来进行说明,该例子中罗列的细节主要是为了便于理解,不作为对本申请保护范围的限制。例如,对句子“经常被他们打得连滚带爬夹着翻得乱七八糟的书包仓皇而逃”进行分词:
首先,采用最短路径分词法(Dijkstra算法)识别句子中的断点词语,识别出的断点词语如下:
“连滚带爬”、“乱七八糟”“仓皇而逃”。
之后,将断点词语用符号&表示,如下所示:
“经常被他们打得&夹着翻得&的书包&”
之后,根据所识别的断点词语将句子进行分节,如下所示:
<经常被他们打得><&><夹着翻得><&><的书包><&>
之后,对“经常被他们打得”、“夹着翻得”、“的书包”三个小节字串采用最短路径(Dijkstra)算法进行分词处理,得到的分词结果如下:
<经常/被/他们/打得>
<夹着/翻/得>
<的/书包>
将断点词语还原致已分词的句子中,获取最终的分词结果:
<经常/被/他们/打得/连滚带爬/夹着/翻/得/乱七八糟/的/书包>。
本申请的第二实施方式涉及一种中文文本分词系统,其结构如图3所示,该中文文本分词系统包括分句模块、分节模块和分词模块。
具体地说,该分句模块用于将目标文本拆分成多个句子。
可选地,该分句模块还用于将该目标文本按照其包含的预设标点符号和预设字符,将该目标文本拆分成多个句子。
该预设标点符号的种类可以从现有“标点符号”中选择使用。在一个实施例中,该预设标点符号包括:逗号(,)、句号(。)、感叹号(!)、分号(;)、问号(?)、顿号(、)、冒号(:)。在其他实施例中,除上述标点符号外还可以同时包括:引号(“”‘’)、括号〔()[]{}〕、破折号(──)、省略号(……),等等。
可选地,该预设字符可以包括回车换行等字符。
进一步地,该分节模块用于识别该多个句子中的断点词语,根据所识别的断点词语将每个句子划分为多个小节,该断点词语是在任何句子中出现时表示意义唯一且作为独立意义存在的字、词或短语。
可选地,该断点词语的类型主要包括:成语、诗、词、曲、人名、地名、官职名、名句典故、文言词汇、普通字词等。
需要说明的是:该断点词语具有独立性和非歧义性的特点。其中独立性是指可作为独立意义存在的字、词或者短语;非歧义性是指在任何句子中出现时,其表示的意义唯一,产生歧义的可能性为零,且在同一句话中,该词不存在两种或者更多的切分方法。
可选地,该中文文本分词系统还包括构建模块和存储模块。该构建模块用于提取语料库中的各文本中满足意义唯一且作为独立意义存在的字、词或短语为断点词语,构建断点词语库,以及提取语料库中的各文本中正确分词结果下的为非断点词语的其它字、词、短语,并分析它们的词频进行标注,构建通用词语库;该存储模块用于存储该断点词语库和该通用词语库,其中该通用词语库中的每个词语对应标注有其词频信息。
在一个实施例中,该构建模块还用于将该语料库中的各文本划分成多个句子,对每个句子进行正确分词,获取所有句子的正确分词的词语序列;对每个句子中能够组合的其他不同字、词和/或短语进行标注,获取所有句子的所有可能组合的其他词语序列;提取该正确分词的词语序列中的字、词和/或短语,并从中排除被包含在该其他词语序列中的字、词和/或短语,构建断点词语库。进一步地,该构建模块在构建断点词语库之后,还用于提取该正确分词的词语序列中的非断点词语,并对各非断点词语的词频进行标注,构建通用词语库。如上表2所示,该构建模块将该语料库中的各文本划分成句子1、句子2、……、句子u,得到正确分词的词语序列S1、S2、……、Su,以及对每个句子中能够组合的其他不同字、词和/或短语进行标注,所有可能组合的其他词语序列R1、R2、……、Ru,则将属于{S1,S2,……,Su}且不属于{R1,R2,……,Ru}的字、词和短语提取为断点词语,来构建断点词语库。
在一个实施例中,上述构建断点词语库所使用的语料库可以是北大语料库。当然,在其他实施例中,也可以根据需要选择其他语料库。例如,根据目标文本的类型、专业方向等选择相应类型或者专业方向的语料库。
可选地,该分节模块还用于基于该断点词语库,识别该多个句子中的断点词语。在一个实施例中,该分节模块还用于基于该断点词语库,采用最短路径分词法识别该多个句子中的断点词语。需要说明,该最短路径分词法的优势在于计算简单,能快速得到最优解,并且结合词库和词频信息可以不断的提升分词效果,可控性较强。在其他实施例中,该分节模块还可以用于基于该断点词语库,并采用例如最大匹配算法等其他方法来识别该多个句子中的断点词语。
可选地,该分节模块还用于将每个句子中的各断点词语用预设符号或预设标识替换,并根据该预设符号或预设标识的位置将每个句子划分为多个小节。如表3所示的分节示例。
进一步地,该分词模块用于将对应该每个句子的多个小节的文本进行分词处理。
可选地,该分词模块还用于将对应每个句子的多个小节中的每个小节的文本按照最短路径分词法分词。进一步地,该分词模块可以还用于基于通用词语库,将对应每个句子的多个小节中的每个小节的文本按照最短路径分词法分词。
在一个实施例中,在对于任一小节的文本分词处理时,该分词模块还用于:如果该小节的文本的最短分词路径只有一个,确定该最短分词路径为目标分词路径;如果该小节的文本的最短分词路径有多个,计算每个最短分词路径中各词语的词频和,并计算各最短分词路径中两两所述词频和的差值;如果任一差值都大于预设阈值,则确定词频和最大的最短分词路径为目标分词路径,否则根据该目标文本中除该小节外的其它各小节的目标分词结果确定该小节的目标分词路径;并且按照该目标分词路径对该小节的文本进行分词处理。需要说明的,上述差值的预设阈值可以根据经验进行设置,且不限于此。可选地,该分词模块可以从该通用词语库中获取每个词语的词频。
可选地,在根据该目标文本中除该小节外的其它各小节的目标分词结果确定该小节的目标分词路径时,该分词模块还用于统计该小节的多个最短分词路径中分词结果不同的词语,并计算该分词结果不同的词语在该目标文本的其它各小节的目标分词结果中的数量和,确定数量和最大的词语对应的最短分词路径为目标分词路径,并且按照该目标分词路径对该小节的文本进行分词处理。
可选地,该中文文本分词系统还包括输入模块和输出模块。其中,该输入模块用于输入目标文本;该输出模块用于分词结束后,将该各断点词语还原至该目标文本的相应预设符号或预设标识的位置处,以及输出完整的目标文本分词集。其中该预设符号或预设标识可以选择为目标文本中不存在的任何符号或标识。
第一实施方式是与本实施方式相对应的方法实施方式,第一实施方式中的技术细节可以应用于本实施方式,本实施方式中的技术细节也可以应用于第一实施方式。
需要说明的是,本领域技术人员应当理解,上述中文文本分词系统的实施方式中所示的各模块的实现功能可参照前述中文文本分词方法的相关描述而理解。上述中文文本分词系统的实施方式中所示的各模块的功能可通过运行于处理器上的程序(可执行指令)而实现,也可通过具体的逻辑电路而实现。本申请实施例上述中文文本分词系统如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件和软件结合。
相应地,本申请实施方式还提供一种计算机可读存储介质,其中存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现本申请的各方法实施方式。计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于,相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读存储介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
此外,本申请实施方式还提供一种中文文本分词系统,其中包括用于存储计算机可执行指令的存储器,以及,处理器;该处理器用于在执行该存储器中的计算机可执行指令时实现上述各方法实施方式中的步骤。其中,该处理器可以是中央处理单元(CentralProcessing Unit,简称“CPU”),还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,简称“DSP”)、专用集成电路(Appl ication Specific IntegratedCircuit,简称“ASIC”)等。前述的存储器可以是只读存储器(read-only memory,简称“ROM”)、随机存取存储器(random access memory,简称“RAM”)、快闪存储器(Flash)、硬盘或者固态硬盘等。本发明各实施方式所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
需要说明的是,在本专利的申请文件中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本专利的申请文件中,如果提到根据某要素执行某行为,则是指至少根据该要素执行该行为的意思,其中包括了两种情况:仅根据该要素执行该行为、和根据该要素和其它要素执行该行为。多个、多次、多种等表达包括2个、2次、2种以及2个以上、2次以上、2种以上。
在本申请提及的所有文献都被认为是整体性地包括在本申请的公开内容中,以便在必要时可以作为修改的依据。此外应理解,以上所述仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例的保护范围之内。
Claims (9)
1.一种中文文本分词方法,其特征在于,包括:
将目标文本拆分成多个句子;
识别所述多个句子中的断点词语,根据所识别的断点词语将每个句子划分成多个小节,所述断点词语是在任何句子中出现时意义唯一且作为独立意义存在的字、词或短语;
将对应所述每个句子的多个小节的文本进行分词处理,其中,将对应每个句子的多个小节中的每个小节的文本按照最短路径分词法进行分词处理,其中对于任一小节的文本:如果该小节的文本的最短分词路径唯一,确定该路径为目标分词路径;如果该小节的文本的最短分词路径有多个,计算每个最短分词路径中各词语的词频和,并计算各最短分词路径中两两所述词频和的差值;如果任一差值都大于预设阈值,则确定词频和最大的最短分词路径为目标分词路径,否则根据该目标文本中除该小节外的其它各小节的目标分词结果确定该小节的目标分词路径;按照所述目标分词路径对该小节的文本进行分词处理。
2.如权利要求1所述的中文文本分词方法,其特征在于,所述识别所述多个句子中的断点词语之前,还包括:
提取语料库中的各文本中满足意义唯一且作为独立意义存在的字、词或短语为断点词语,构建断点词语库;
所述识别所述多个句子中的断点词语,进一步包括:
基于所述断点词语库,识别所述多个句子中的断点词语。
3.如权利要求1所述的中文文本分词方法,其特征在于,所述根据该目标文本中除该小节外的其它各小节的目标分词结果确定该小节的目标分词路径,进一步包括:
统计该小节的多个最短分词路径中分词结果不同的词语;
计算所述分词结果不同的词语在所述目标文本的其它各小节的目标分词结果中的数量和,确定数量和最大的词语对应的最短分词路径为目标分词路径。
4.如权利要求1所述的中文文本分词方法,其特征在于,所述根据所识别的断点词语将每个句子划分为多个小节,进一步包括:
将每个句子中的各断点词语用预设符号或预设标识替换,并根据所述预设符号或预设标识的位置将每个句子划分为多个小节;
所述将对应所述每个句子的多个小节的文本进行分词处理之后,还包括:
将所述各断点词语还原至所述目标文本的相应预设符号或预设标识的位置处。
5.如权利要求2所述的中文文本分词方法,其特征在于,所述构建断点词语库,进一步包括:
将所述语料库中的各文本划分成多个句子,对每个句子进行正确分词,获取所有句子的正确分词的词语序列;
对每个句子中能够组合的其他不同字、词和/或短语进行标注,获取所有句子的能够组合的其他词语序列;
提取所述正确分词的词语序列中的字、词和/或短语,并从中排除被包含在所述其他词语序列中的字、词和/或短语,构建断点词语库;
所述构建断点词语库之后,还包括:
提取所述正确分词的词语序列中的非断点词语,并对各非断点词语的词频进行标注,构建通用词语库。
6.如权利要求5所述的中文文本分词方法,其特征在于,所述将对应每个句子的多个小节中的每个小节的文本按照最短路径分词法分词,进一步包括:
基于所述通用词语库,将对应每个句子的多个小节中的每个小节的文本按照最短路径分词法分词;
所述计算每个最短分词路径中各词语的词频和的步骤中,每个词语的词频从所述通用词语库中获取。
7.一种中文文本分词系统,其特征在于,包括:
分句模块,用于将目标文本拆分成多个句子;
分节模块,用于识别所述多个句子中的断点词语,根据所识别的断点词语将每个句子划分为多个小节,所述断点词语是在任何句子中出现时表示意义唯一且作为独立意义存在的字、词或短语;
分词模块,用于将对应所述每个句子的多个小节的文本进行分词处理,其中,将对应每个句子的多个小节中的每个小节的文本按照最短路径分词法进行分词处理,其中对于任一小节的文本:如果该小节的文本的最短分词路径唯一,确定该路径为目标分词路径;如果该小节的文本的最短分词路径有多个,计算每个最短分词路径中各词语的词频和,并计算各最短分词路径中两两所述词频和的差值;如果任一差值都大于预设阈值,则确定词频和最大的最短分词路径为目标分词路径,否则根据该目标文本中除该小节外的其它各小节的目标分词结果确定该小节的目标分词路径;按照所述目标分词路径对该小节的文本进行分词处理。
8.一种中文文本分词系统,其特征在于,包括:
存储器,用于存储计算机可执行指令;以及,
处理器,用于在执行所述计算机可执行指令时实现如权利要求1至6中任意一项所述的方法中的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如权利要求1至6中任意一项所述的方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910920178.0A CN110705261B (zh) | 2019-09-26 | 2019-09-26 | 中文文本分词方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910920178.0A CN110705261B (zh) | 2019-09-26 | 2019-09-26 | 中文文本分词方法及其系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110705261A CN110705261A (zh) | 2020-01-17 |
CN110705261B true CN110705261B (zh) | 2023-03-24 |
Family
ID=69197524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910920178.0A Active CN110705261B (zh) | 2019-09-26 | 2019-09-26 | 中文文本分词方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110705261B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110874531B (zh) * | 2020-01-20 | 2020-07-10 | 湖南蚁坊软件股份有限公司 | 一种话题分析方法、装置和存储介质 |
CN114492457B (zh) * | 2022-02-16 | 2023-07-07 | 平安科技(深圳)有限公司 | 语义识别方法、装置、电子设备及存储介质 |
CN117408248A (zh) * | 2022-07-07 | 2024-01-16 | 马上消费金融股份有限公司 | 文本分词方法、装置、计算机设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5418717A (en) * | 1990-08-27 | 1995-05-23 | Su; Keh-Yih | Multiple score language processing system |
CN1204811A (zh) * | 1998-08-13 | 1999-01-13 | 英业达股份有限公司 | 汉语语句切分的方法及其系统 |
TW491971B (en) * | 1997-12-11 | 2002-06-21 | Inventec Corp | Chinese sentence partitioning method and its system |
CN109684638A (zh) * | 2018-12-24 | 2019-04-26 | 北京金山安全软件有限公司 | 分句方法及其装置、电子设备、计算机可读存储介质 |
-
2019
- 2019-09-26 CN CN201910920178.0A patent/CN110705261B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5418717A (en) * | 1990-08-27 | 1995-05-23 | Su; Keh-Yih | Multiple score language processing system |
TW491971B (en) * | 1997-12-11 | 2002-06-21 | Inventec Corp | Chinese sentence partitioning method and its system |
CN1204811A (zh) * | 1998-08-13 | 1999-01-13 | 英业达股份有限公司 | 汉语语句切分的方法及其系统 |
CN109684638A (zh) * | 2018-12-24 | 2019-04-26 | 北京金山安全软件有限公司 | 分句方法及其装置、电子设备、计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
基于词典和词频的中文分词方法;张恒等;《微计算机信息》;20080125(第03期);全文 * |
基于语义信息的中文分词研究;张生杰等;《电脑知识与技术》;20180805(第22期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110705261A (zh) | 2020-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111460787B (zh) | 一种话题提取方法、装置、终端设备及存储介质 | |
US10831793B2 (en) | Learning thematic similarity metric from article text units | |
CN110705261B (zh) | 中文文本分词方法及其系统 | |
CN104636466B (zh) | 一种面向开放网页的实体属性抽取方法和系统 | |
CN110807102B (zh) | 知识融合方法、装置、计算机设备和存储介质 | |
CN108021545B (zh) | 一种司法文书的案由提取方法及装置 | |
CN110019668A (zh) | 一种文本检索方法及装置 | |
CN109597983B (zh) | 一种拼写纠错方法及装置 | |
CN108573707B (zh) | 一种语音识别结果的处理方法、装置、设备及介质 | |
KR20150037924A (ko) | 제품 인식에 근거한 정보 분류 기법 | |
CN110704719B (zh) | 企业搜索文本分词方法和装置 | |
CN111209734A (zh) | 试题去重方法及其系统 | |
CN107515849A (zh) | 一种成词判定模型生成方法、新词发现方法及装置 | |
CN108304377A (zh) | 一种长尾词的提取方法及相关装置 | |
CN113033204A (zh) | 信息实体抽取方法、装置、电子设备和存储介质 | |
CN107590119B (zh) | 人物属性信息抽取方法及装置 | |
Soleh et al. | A non word error spell checker for Indonesian using morphologically analyzer and HMM | |
CN114997167A (zh) | 简历内容提取方法及装置 | |
CN111046649A (zh) | 一种文本分割方法和装置 | |
CN110019659B (zh) | 裁判文书的检索方法及装置 | |
CN111160445B (zh) | 投标文件相似度计算方法及装置 | |
KR101663038B1 (ko) | 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법 | |
KR101358614B1 (ko) | 말뭉치 기반의 한국어 형태소 분석장치 및 그 분석방법 | |
Chiu et al. | Chinese spell checking based on noisy channel model | |
US8977538B2 (en) | Constructing and analyzing a word graph |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |