CN109002460A

CN109002460A - 一种基于文本自身产生词库的分词方法及系统

Info

Publication number: CN109002460A
Application number: CN201810554887.7A
Authority: CN
Inventors: 邵玉斌; 高凌云志; 张琪
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-06-01
Filing date: 2018-06-01
Publication date: 2018-12-14

Abstract

本发明涉及一种基于文本自身产生词库的分词方法及系统，属于文本分析技术领域。本发明针对在没有明确的已知的字典前提下，通过待处理文本本身的文字关联程度，提取出词典，并依次筛选出待处理文本中可能的词语信息。同时，本发明提高了对未知文本信息的分词速度，满足了对实际未知文本无已知字典情况下的分词应用的实际需要。

Description

一种基于文本自身产生词库的分词方法及系统

技术领域

本发明涉及一种基于文本自身产生词库的分词方法及系统，属于文本分析技术领域。

背景技术

世界上大部分的语言，都是由单个字符所组成的，多个字符相互连接使用就成为词组。现有的分词方式为，在已知词组含义的时候，通过词典比对的方式，可以准确的找出一个文本中的词语组合来。但是，查询速度慢，对已知文本词组的对比要求高，当面对的是完全陌生的一种语言，没有任何准确性词典比对的情况下，现有分词方式将无法胜任。

发明内容

本发明要解决的技术问题是提供一种基于文本自身产生词库的分词方法及系统，根据文本自身产生词典，用概率的方式，将文本中出现较多的组合划分出来，从而起到分词的功能，极大的提高了分词的效率。

本发明的技术方案是：一种基于文本自身产生词库的分词方法，接收传入系统中的待处理文本信息，并储存在数据流中以待使用；使用编写的文本处理程序对文本进行处理，根据文本自身创建出两字词库，词库包含所有文本中前后两个字在整个文本中出现的次数即词频，词频与词库中的两字词相互关联对应；将建立的两字词词库于词频形成的词典进行储存，形成词典A；再一次读取待处理文本信息，计算词频；与预先给定词频关联阈值进行比对，判断前后字段是否达到相关阈值；将达到阈值的前后词进行联合，形成下一较长词语。依次提取出最长长度的并基于自身文本中的词频关系，筛选出可能的词语，将第一次分出的词语放入词库，可进一步通过比对，产生新的小关联性的词组。

第一步、接收待处理文本信息：

通过数据流的方式，将文本信息读入系统之中，按行读取放入String类型字符串中，并最终转换为字符数组Character。

第二步、将字符数组处理为单一的字符，并依次写入Char C中。

第三步、关联性建表，创建一个二维表格，将每一个字符之后出现的所有文本中相邻的字符放入表中，并依次对应，计算出其出现的概率：并放入表中；其中P(x_i|y_i)为条件概率。

第四步、依次与词库表比对；再次接受文本信息，并做单一字符处理，与词库表中的两字符词进行比对，当前后两个两字符词的概率都大于预定阈值时，将两字符词进行联合，产生一个新的三字符词，依次进行，直到概率低于阈值Q₁，结束联合，从而得到一个全新的多字符词，并写入词库中。

第五步、第二次词库比对；第一次比对之后，建立新的多字符词组，再次读取文本，使用新的多字符词组库进行比对，计算出关联概率：并放入表中；通过与新阈值Q₂的比较，得到最长长度的在阈值范围内的词。

读取待处理文本信息后，将文本信息处理为单一字符的形式，对前后扫描出来的字符进行分别存储，将新扫描到的字符信息放于Char c字符类中，将前一个字符信息放于Char last字符类中，分别给每一个字符后村放入一张Hashtable表格，用于存放文本中与之相关的文本信息和出现的词频信息。

扫描接收到的文本信息，已文本本身所具有的字词关联特性，建立一张二维的关联性表格，文本中每个字符都会有一个相关联的字符，并从全部文本中获取其出现的频率并进行对应的存储。将整个二维表格返回到词库中进行储存，并用原始文本信息与之进行对比，通过词库中的词频来判断前后词语之间的关联性，并以此来判断是否为结合词语。

已未知词语结果的前提下，通过自身文本中的字符关联性，找到最小前后关联字符的频率数，并通过最小的前后字符所组成的两字符词，通过词频的阈值控制，找到尽可能长的词。

在没有明确的已知的字典前提下，通过待处理文本本身的文字关联程度，提取出词典，并依次筛选出待处理文本中可能的词语信息。同时，本发明提高了对未知文本信息的分词速度，满足了对实际未知文本无已知字典情况下的分词应用的实际需要。

一种基于文本自身产生词库的分词系统，包括：

文本接收模块，用于接收待处理的文本信息；

文本处理模块，用于将接收到的文本，处理为单一的字符元素。

建立词库表格模块，用于根据接收到的文本本身，创建出每个字符其后所有出现的字符的概率表格，形成一个概率双字符词典。创建的表格为二维表格；

其使用类型为Hashtable嵌套方式：

Hashtable{Character,Hashtable[Character,Double]}ht1

将单一字符放于大表中，其后紧跟字符与出现概率放于其属性表中。

字符组比对模块，用于将文本信息与建成的双字符词典进行对比，根据前后双字符在全文本中出现的概率，确定最终字符组长度。

第二次建表模块，用于将第一次字符组比对后，产生的新的长度的字符组放于表中，并计算出其紧跟的下一新字符组，出现的概率：

第二次比对模块，用于比对新长度字符组之间的概率性关联，筛选出最终最长的字符组词组。此时，将是多字符比对，所以，表结构将发生变化，有单一的单字符变为String类型的字符串。创建的表格为二维表格；

其使用类型为Hashtable嵌套方式：

Hashtable<String,Hashtable<String,Double>>ht2

本发明的有益效果是：本发明是基于文本本身，通过关联性，概率等数据分析得出词库最终进行比对后得到的分词方法与处理程序；在没有明确的已知的字典前提下，通过待处理文本本身的文字关联程度，提取出词典，并依次筛选出待处理文本中可能的词语信息。

附图说明

图1是本发明的步骤流程图；

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

一种基于文本自身产生词库的分词方法：

第一步：接收待处理的文本信息；

第二步：将读取到的文本文件进行处理，转化为单一的字符信息，并给每一个字符建立一张表，用于存放相关联的字符和整个文本中的出现次数与条件概率值；

第三步：根据编写的文本自建词库的程序，对接收到的文本信息进行处理，产生一个两字词的词库，并统计相对应的词在全文中出现的词频；

第四步：再次读取待处理文本信息，设置词频关联阈值，与之前建立的词库进行对比，结合阈值Q₁，判断前后字词之间的相互关联程度，并加以处理成长的词语；

一种基于文本自身产生词库的分词系统，包括：

文本接收模块，用于接收待处理的文本信息；

建立词库表格模块，用于根据接收到的文本本身，创建出每个字符其后所有出现的字符的概率表格，形成一个概率双字符词典；

字符组比对模块，用于将文本信息与建成的双字符词典进行对比，根据前后双字符在全文本中出现的概率，确定最终字符组长度；

第二次建表模块，用于将第一次字符组比对后，产生的新的长度的字符组放于表中，并计算出其紧跟的下一新字符组；

第二次比对模块，用于比对新长度字符组之间的概率性关联，筛选出最终最长的字符组词组。

实施例1：一种基于文本自身产生词库的分词方法：

第一步、接收待处理的文本信息；如图1中所示流程图，在第一步中，将待处理的文本扫描入数据流中，等待后续的文本处理程序的使用；

第二步、将读取到的文本文件进行处理，如图1中所示流程图，将文本信息逐一扫描，将其转换为单一的字符信息，并通过两个存储空间进行存储，前一存储空间为缓存空间，用于存储当前扫描到的字符的前一字符信息，当下的字符存放于第二个存储空间中；

第三步、给每一个字符建立一张二维的表格，用于存放关联的字符信息和概率信息，如表1所示，当扫描到“中”字后，给其创建一张表格，用于存放其后紧跟的字符信息，例如，表1中展示的例子，在“中”字之后，分别存放了“中”“华”“人”“民”“共”“和”“国”等字符信息，其分别于“中”字组成了“中中”“中华”“中人”“中民”“中共”“中和”“中国”等两字符词组。

表1

第四步、计算每个两字词出现的概率问题，通过计算得出条件概率，并记录与二维表中，例如，在表1中的实例，表示在“中”字符出现后“华”出现的概率为0.4016，此时做特殊处理，当条件概率特别小的时候，可近似的忽略为0，用以表示两个字符存在的相互关联性近乎没有，从表1的实例来看，“中”字符之后，出现“中”字符，在整个文本中可能存在，但是其概率很小，可忽略为0值，并存储于表中。

第五步、再一次接收待待处理文本信息；如图1中所示流程图，将待处理的文本扫描入数据流中，此时的文本将参照之前建立的表格进行分词处理；

第六步、将再次接收到的文本信息，进行单一化字符处理。

第七步、将每个处理后的字符，与表格中的数据进行对比，当连续两个关联的字符的概率都大于阈值Q1的时候，那么，将两个两字符词组进行联合，的到一个三字符词，从表1中的实例，可以理解为：

当扫描到“中”字之后，其后出现“华”字的概率为0.4016，也就是说，在整个文本中，“中华”两个字符出现的概率为0.4016，继续扫描，当扫描到“华”字，其后出现“人”的概率为0.2463，也就是在整个文本中，出现了“华人”两字符词组的概率为0.2463，此处，如若设定阈值为Q₁＞0.2时，那么，将两个字符组进行结合，得到“中华人”，接着扫描到“人”字之后，出现了“民”的概率为0.5132，也就是全文中，出现了“人民”两字符的概率是0.5132，也是大于阈值Q₁的，所以，接着进行结合，得到“中华人民”四字符词，同理，当扫描到“民”后出现“共”的概率较小，被忽略为0，其小于阈值Q₁，则结束联合，最终的到“中华人民”四字符词组。

第八步、将新的多字符词组放入表格中，得到类似于表1的结构，但此时的行列，存放的为第一次分词之后的多字符词组，如表2所示。

表2

第九步、进行第二次的数据对比，如表2实例可知，“中华人民”之后出现“共和国”的概率为0.1286，“共和国”之后出现“中央人民”的概率0.0118，“中央人民”之后出现“政府”的概率为0.1637，所以，假定第二次比对阈值为Q₂＞0.01时，就能够将三个词组相结合，得到“中华人民共和国中央人民政府”等关联性词组。最终，将通过两次或多次比对的结果进行输出。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于文本自身产生词库的分词方法，其特征在于：

第一步：接收待处理的文本信息；

2.一种基于文本自身产生词库的分词系统，其特征在于包括：

文本接收模块，用于接收待处理的文本信息；