CN112800722A

CN112800722A - 基于语义理解的文字组织编码算法

Info

Publication number: CN112800722A
Application number: CN202110176556.6A
Authority: CN
Inventors: 陆晓; 陈文斌; 邹志繁
Original assignee: Liuzhou Zhishi Technology Co ltd
Current assignee: Liuzhou Zhishi Technology Co ltd
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2021-05-14
Anticipated expiration: 2041-02-09
Also published as: CN112800722B

Abstract

一种基于语义理解的文字组织编码算法，包括以下步骤：（一）将文本拆分成单个字符；（二）将单个字符转换成对应的Unicode编码；（三）组织编码，将相邻字符的编码两两组合，寻找有经验的优先进行组织存储，再与剩下的编码一起继续进行两两组合，重复寻找两两组合有经验的优先进行组织，最终得到一个可能有经验的知识编码，用于系统保存或者关联其它有用编码信息。本发明用于语义理解系统里对语句的分析、理解，将文字数据化的方式，不仅传递方便而且还可以通过ID查询到所有相关信息，更方便系统识别。

Description

基于语义理解的文字组织编码算法

技术领域

本发明涉及计算机自然语言处理技术领域，特别涉及一种基于语义理解的文字组织编码算法。

背景技术

目前对于计算机与人工智能的融合，已在多领域进行应用，最为广泛的即NLP（Natural Language Processing，自然语言处理，是研究人与计算机交互的语言问题的一门学科），而现有技术对于传统文本分类的处理大致分为文本预处理、文本特征提取和分类模型构建等，在对文本处理时通常通过大数据来统计，按照概率值进行分词，或者通过提前设置好的词典来分词。但该处理方式还存在以下不足之处：

1．容易引起维度灾难问题，语料库太大，字典的大小为每个词的维度，高维度导致计算困难，若每个文档包含的词语数少于词典的总词语数，则又导致文档稀疏；

2．仅仅考虑词语出现的次数，没有考虑句子词语之间的顺序信息，即语义信息未考虑。

发明内容

本发明要解决的技术问题是：提供一种将文本的语义信息具体化、数据化，变为计算机可以存储的数据信息的基于语义理解的文字组织编码算法，以克服已有技术所存在的上述不足。

本发明采取的技术方案是：一种基于语义理解的文字组织编码算法，包括以下步骤：

（一）拆分文本

（1）将文本拆分成段落；

（2）将段落拆分成整句；

（3）将整句拆分成子句；

（4）将子句拆分成单个字符；

（二）编码转换

将单个字符转换成对应的Unicode编码，每个字符均用16位二进制数来表示；

（三）组织编码

（1）将相邻字符的Unicode编码两两组合；

（2）寻找有经验的组合，优先进行组织、存储；

（3）再与剩下的编码一起继续进行两两组合，重复寻找两两组合有经验的优先进行组织；

（4）持续组织，最终得到一个可能有经验的知识编码，用于系统保存或者关联其它有用编码信息。

其进一步的技术方案是：所述步骤（二）具体包括以下步骤：

（1）将单个字符里的数字部分进行数字转码，即将数字保存到id1，系统标识符-数字保存到id0；

（2）将单个字符里的非数字部分进行非数字转码，其中窄字符（ASCII）转换为宽字符（Unicode），获取对应的Unicode编码，文字则直接转成Unicode编码。

进一步：所述步骤（三）具体包括以下步骤：

s1．组织开始；

s2．将相邻字符的Unicode编码按顺序两两组合成知识ID；

s3．判断知识ID个数是否大于等于3，若是，进入步骤s4，若否，进入步骤s13；

s4．判断计数器是否都小于阈值，若是，进入步骤s5，若否，进入步骤s8；

s5．判断知识ID是否满足固定句式条件，若是，进入步骤s6，若否，进入步骤s7；

s6．优先处理固定句式未知部分，返回步骤s2；

s7．按顺序进行组合、存储，返回步骤s2；

s8．判断计数器是否都大于阈值，若是，进入步骤s9，若否，进入步骤s11；

s9．判断知识ID是否都有抽象ID，即是否有经验，若是，进入步骤s10，若否，进入步骤s12；

s10．有抽象ID的两种组合都尝试进行组织、存储，返回步骤s2；

s11．优先组织计数器大的知识ID，返回步骤s2；

s12．优先组织有抽象ID的知识ID，返回步骤s2；

s13．按顺序依次进行组织，最终组织成一个知识ID；

s14．组织结束。

由于采用上述技术方案，本发明之基于语义理解的文字组织编码算法具有如下有益效果：

本发明通过将文本逐步拆分成单个字符，转换成Unicode编码，后再对每个字符进行两两组合，寻找有经验的组合优先进行组织，直到把所有的知识组织起来，得到一个有经验的可以表达更多意思的知识编码，用于语义理解系统里对语句的分析、理解，如此将文字数据化的方式，不仅传递方便而且还可以通过ID查询到所有相关信息，更方便系统识别。

下面结合附图和实施例对本发明之基于语义理解的文字组织编码算法的技术特征作进一步的说明。

附图说明

图1：本发明之组织编码算法流程图。

文中英文及缩略语说明：

ASCII：美国信息交换标准代码；

Unicode：为了解决传统的字符编码方案（ASCII）的局限而产生的代码，Unicode如一本很厚的字典，记录着世界上所有字符对应的一个数字。

具体实施方式

实施例

一种基于语义理解的文字组织编码算法，包括以下步骤：

（一）拆分文本

（1）将文本拆分成段落；

（2）将段落拆分成整句；

（3）将整句拆分成子句；

（4）将子句拆分成单个字符；

如此按照段落、整句一层层来组织、分析，要理解一个段落必须把句给理解，而句又需要拆分出单个字符，字符可能是中文字符、英文字符、阿拉伯数字或者标点符号等，这些字符都是用来描述句子意思的信息。

（二）编码转换

步骤（一）中所述字符在ASCII码表中都有对应的编号，一个字节由 8 位二进制表示，可表达的范围为0～256，而ASCII 码表中一共有127个编码，即可表示完所有的大写和小写字母、数字 0～9、标点符号以及在美式英语中使用的特殊控制字符，但ASCII 码表中没有中文对应的编号，因此需要把ASCII 码表中的窄字符（ASCII）转换为宽字符（Unicode）后再获取对应Unicode 编码；在Unicode表中，一般使用两个字节表示一个字符，字符不仅包含ASCII 码表的所有字符，同时也包含中文字符以及其它国家的字符的编码；一个宽字符用 16 位二进制数表示，其范围为0～65535，在这个范围内的所有编码都已经被定义了具体的字符或者意义，例如“语义”字符 2 个字的值分别为：语35821、义20041，将它们转为二进制即为：语1000101111101101、义100111001001001。

（三）组织编码

（1）根据字符转成Unicode编码后，将相邻字符的Unicode编码进行规定的两两组合；

（2）在数据库中检索，看是否保存有两两组合的编码，寻找有经验的组合，优先选择有经验的其中一组组合起来，即将2 个值合并到系统里，系统生成没有被使用的 ID 值作为新的 32 位二进制值ID（例如80001）的结构中，当前编码数量减少一位，将每两个编码组合成为一个 32 位二进制值的编码，剩下的编码继续这样的操作，组织、存储；

（3）再与剩下的编码一起继续进行两两组合，重复尝试寻找两两组合有经验的优先进行组织；

（4）持续组织，最终得到一个可能有经验的且可以表达更多意思的知识编码，用于语义系统保存或者关联其它有用编码信息。

例如：将“语义理解系统”这句话转成 6 个 Unicode 编码后，分别为“语 35821，义20041，理290702，解35299，系31995，统32479”，进行相邻两两组合，首先把“语 35821”和“义20041”两两组合后得到一个 ID，再查询这个 ID 结构的抽象字段、词性字段、出现次数的值，作为优先组织的依据，在查询到“语义”、“理解”、“系统”都分别有词性或者抽象后，则该三个词会被优先两两组织成：80001 表示“语义”，80002 表示“理解”，80003 表示“系统”，然后尝试两两组织这三个 ID，若80001 和 80002 组织后它们的出现次数比 80002和 80003 组织后的大，就优先组织 80001 和 80002成为 80004，最后只剩下 80004 和80003两个编码，则直接组织成80005，在语义系统里 80005 便代表字符串“语义理解系统”；

当文本出现都没有词性和抽象时，会尝试运用猜实体名词方法，把组织后不能组织的部分“语、义、理解系统”和曾经根据经验生成的猜分类句式“事物、理解、系统”对比出“语、义”和“事物”应该为同一类，就可以优先组织“语、义”。

所述步骤（二）具体包括以下步骤：

（1）字符转编码分为两种转码：数字转码与非数字转码，将单个字符里的数字部分进行数字转码，即将数字保存到id1，系统标识符-数字保存到id0；

如图1所示，所述步骤（三）具体包括以下步骤：

s1．组织开始；

s2．将相邻字符的Unicode编码按顺序两两组合成知识ID；

s6．优先处理固定句式未知部分，返回步骤s2；

s7．按顺序进行组合、存储，返回步骤s2；

s11．优先组织计数器大的知识ID，返回步骤s2；

s12．优先组织有抽象ID的知识ID，返回步骤s2；

s13．按顺序依次进行组织，最终组织成一个知识ID；

s14．组织结束。

以上实施例仅为本发明的较佳实施例，本发明的方法并不限于上述实施例列举的形式，凡在本发明的精神和原则之内所作的任何修改、等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于语义理解的文字组织编码算法，其特征在于：包括以下步骤：

（一）拆分文本

（1）将文本拆分成段落；

（2）将段落拆分成整句；

（3）将整句拆分成子句；

（4）将子句拆分成单个字符；

（二）编码转换

（三）组织编码

（1）将相邻字符的Unicode编码两两组合；

（2）寻找有经验的组合，优先进行组织、存储；

2.根据权利要求1所述的基于语义理解的文字组织编码算法，其特征在于：所述步骤（二）具体包括以下步骤：

3.根据权利要求1所述的基于语义理解的文字组织编码算法，其特征在于：所述步骤（三）具体包括以下步骤：

s1．组织开始；

s2．将相邻字符的Unicode编码按顺序两两组合成知识ID；

s6．优先处理固定句式未知部分，返回步骤s2；

s7．按顺序进行组合、存储，返回步骤s2；

s11．优先组织计数器大的知识ID，返回步骤s2；

s12．优先组织有抽象ID的知识ID，返回步骤s2；

s13．按顺序依次进行组织，最终组织成一个知识ID；

s14．组织结束。