CN112800722B - 基于语义理解的文字组织编码方法 - Google Patents

基于语义理解的文字组织编码方法 Download PDF

Info

Publication number
CN112800722B
CN112800722B CN202110176556.6A CN202110176556A CN112800722B CN 112800722 B CN112800722 B CN 112800722B CN 202110176556 A CN202110176556 A CN 202110176556A CN 112800722 B CN112800722 B CN 112800722B
Authority
CN
China
Prior art keywords
entering
codes
characters
knowledge
ids
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110176556.6A
Other languages
English (en)
Other versions
CN112800722A (zh
Inventor
陆晓
陈文斌
邹志繁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liuzhou Zhishi Technology Co ltd
Original Assignee
Liuzhou Zhishi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liuzhou Zhishi Technology Co ltd filed Critical Liuzhou Zhishi Technology Co ltd
Priority to CN202110176556.6A priority Critical patent/CN112800722B/zh
Publication of CN112800722A publication Critical patent/CN112800722A/zh
Application granted granted Critical
Publication of CN112800722B publication Critical patent/CN112800722B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

一种基于语义理解的文字组织编码方法,包括以下步骤:(一)将文本拆分成单个字符;(二)将单个字符转换成对应的Unicode编码;(三)组织编码,将相邻字符的编码两两组合,寻找有经验的优先进行组织存储,再与剩下的编码一起继续进行两两组合,重复寻找两两组合有经验的优先进行组织,最终得到一个可能有经验的知识编码,用于系统保存或者关联其它有用编码信息。本发明用于语义理解系统里对语句的分析、理解,将文字数据化的方式,不仅传递方便而且还可以通过ID查询到所有相关信息,更方便系统识别。

Description

基于语义理解的文字组织编码方法
技术领域
本发明涉及计算机自然语言处理技术领域,特别涉及一种基于语义理解的文字组织编码算法。
背景技术
目前对于计算机与人工智能的融合,已在多领域进行应用,最为广泛的即NLP(Natural Language Processing,自然语言处理,是研究人与计算机交互的语言问题的一门学科),而现有技术对于传统文本分类的处理大致分为文本预处理、文本特征提取和分类模型构建等,在对文本处理时通常通过大数据来统计,按照概率值进行分词,或者通过提前设置好的词典来分词。但该处理方式还存在以下不足之处:
1.容易引起维度灾难问题,语料库太大,字典的大小为每个词的维度,高维度导致计算困难,若每个文档包含的词语数少于词典的总词语数,则又导致文档稀疏;
2.仅仅考虑词语出现的次数,没有考虑句子词语之间的顺序信息,即语义信息未考虑。
发明内容
本发明要解决的技术问题是:提供一种将文本的语义信息具体化、数据化,变为计算机可以存储的数据信息的基于语义理解的文字组织编码算法,以克服已有技术所存在的上述不足。
本发明采取的技术方案是:一种基于语义理解的文字组织编码算法,包括以下步骤:
(一)拆分文本
(1)将文本拆分成段落;
(2)将段落拆分成整句;
(3)将整句拆分成子句;
(4)将子句拆分成单个字符;
(二)编码转换
将单个字符转换成对应的Unicode编码,每个字符均用16位二进制数来表示;
(三)组织编码
(1)将相邻字符的Unicode编码两两组合;
(2)寻找有经验的组合,优先进行组织、存储;
(3)再与剩下的编码一起继续进行两两组合,重复寻找两两组合有经验的优先进行组织;
(4)持续组织,最终得到一个可能有经验的知识编码,用于系统保存或者关联其它有用编码信息。
其进一步的技术方案是:所述步骤(二)具体包括以下步骤:
(1)将单个字符里的数字部分进行数字转码,即将数字保存到id1,系统标识符-数字保存到id0;
(2)将单个字符里的非数字部分进行非数字转码,其中窄字符(ASCII)转换为宽字符(Unicode),获取对应的Unicode编码,文字则直接转成Unicode编码。
进一步:所述步骤(三)具体包括以下步骤:
s1.组织开始;
s2.将相邻字符的Unicode编码按顺序两两组合成知识ID;
s3.判断知识ID个数是否大于等于3,若是,进入步骤s4,若否,进入步骤s13;
s4.判断计数器是否都小于阈值,若是,进入步骤s5,若否,进入步骤s8;
s5.判断知识ID是否满足固定句式条件,若是,进入步骤s6,若否,进入步骤s7;
s6.优先处理固定句式未知部分,返回步骤s2;
s7.按顺序进行组合、存储,返回步骤s2;
s8.判断计数器是否都大于阈值,若是,进入步骤s9,若否,进入步骤s11;
s9.判断知识ID是否都有抽象ID,即是否有经验,若是,进入步骤s10,若否,进入步骤s12;
s10.有抽象ID的两种组合都尝试进行组织、存储,返回步骤s2;
s11.优先组织计数器大的知识ID,返回步骤s2;
s12.优先组织有抽象ID的知识ID,返回步骤s2;
s13.按顺序依次进行组织,最终组织成一个知识ID;
s14.组织结束。
由于采用上述技术方案,本发明之基于语义理解的文字组织编码算法具有如下有益效果:
本发明通过将文本逐步拆分成单个字符,转换成Unicode编码,后再对每个字符进行两两组合,寻找有经验的组合优先进行组织,直到把所有的知识组织起来,得到一个有经验的可以表达更多意思的知识编码,用于语义理解系统里对语句的分析、理解,如此将文字数据化的方式,不仅传递方便而且还可以通过ID查询到所有相关信息,更方便系统识别。
下面结合附图和实施例对本发明之基于语义理解的文字组织编码算法的技术特征作进一步的说明。
附图说明
图1:本发明之组织编码算法流程图。
文中英文及缩略语说明:
ASCII:美国信息交换标准代码;
Unicode:为了解决传统的字符编码方案(ASCII)的局限而产生的代码,Unicode如一本很厚的字典,记录着世界上所有字符对应的一个数字。
具体实施方式
实施例
一种基于语义理解的文字组织编码算法,包括以下步骤:
(一)拆分文本
(1)将文本拆分成段落;
(2)将段落拆分成整句;
(3)将整句拆分成子句;
(4)将子句拆分成单个字符;
如此按照段落、整句一层层来组织、分析,要理解一个段落必须把句给理解,而句又需要拆分出单个字符,字符可能是中文字符、英文字符、阿拉伯数字或者标点符号等,这些字符都是用来描述句子意思的信息。
(二)编码转换
将单个字符转换成对应的Unicode编码,每个字符均用16位二进制数来表示;
步骤(一)中所述字符在ASCII码表中都有对应的编号,一个字节由 8 位二进制表示,可表达的范围为0~256,而ASCII 码表中一共有127个编码,即可表示完所有的大写和小写字母、数字 0~9、标点符号以及在美式英语中使用的特殊控制字符,但ASCII 码表中没有中文对应的编号,因此需要把ASCII 码表中的窄字符(ASCII)转换为宽字符(Unicode)后再获取对应Unicode 编码;在Unicode表中,一般使用两个字节表示一个字符,字符不仅包含ASCII 码表的所有字符,同时也包含中文字符以及其它国家的字符的编码;一个宽字符用 16 位二进制数表示,其范围为0~65535,在这个范围内的所有编码都已经被定义了具体的字符或者意义,例如“语义”字符 2 个字的值分别为:语35821、义20041,将它们转为二进制即为:语1000101111101101、义100111001001001。
(三)组织编码
(1)根据字符转成Unicode编码后,将相邻字符的Unicode编码进行规定的两两组合;
(2)在数据库中检索,看是否保存有两两组合的编码,寻找有经验的组合,优先选择有经验的其中一组组合起来,即将2 个值合并到系统里,系统生成没有被使用的 ID 值作为新的 32 位二进制值ID(例如80001)的结构中,当前编码数量减少一位,将每两个编码组合成为一个 32 位二进制值的编码,剩下的编码继续这样的操作,组织、存储;
(3)再与剩下的编码一起继续进行两两组合,重复尝试寻找两两组合有经验的优先进行组织;
(4)持续组织,最终得到一个可能有经验的且可以表达更多意思的知识编码,用于语义系统保存或者关联其它有用编码信息。
例如:将“语义理解系统”这句话转成 6 个 Unicode 编码后,分别为“语 35821,义20041,理290702,解35299,系31995,统32479”,进行相邻两两组合,首先把“语 35821”和“义20041”两两组合后得到一个 ID,再查询这个 ID 结构的抽象字段、词性字段、出现次数的值,作为优先组织的依据,在查询到“语义”、“理解”、“系统”都分别有词性或者抽象后,则该三个词会被优先两两组织成:80001 表示“语义”,80002 表示“理解”,80003 表示“系统”,然后尝试两两组织这三个 ID,若80001 和 80002 组织后它们的出现次数比 80002和 80003 组织后的大,就优先组织 80001 和 80002成为 80004,最后只剩下 80004 和80003两个编码,则直接组织成80005,在语义系统里 80005 便代表字符串“语义理解系统”;
当文本出现都没有词性和抽象时,会尝试运用猜实体名词方法,把组织后不能组织的部分“语、义、理解系统”和曾经根据经验生成的猜分类句式“事物、理解、系统”对比出“语、义”和“事物”应该为同一类,就可以优先组织“语、义”。
所述步骤(二)具体包括以下步骤:
(1)字符转编码分为两种转码:数字转码与非数字转码,将单个字符里的数字部分进行数字转码,即将数字保存到id1,系统标识符-数字保存到id0;
(2)将单个字符里的非数字部分进行非数字转码,其中窄字符(ASCII)转换为宽字符(Unicode),获取对应的Unicode编码,文字则直接转成Unicode编码。
如图1所示,所述步骤(三)具体包括以下步骤:
s1.组织开始;
s2.将相邻字符的Unicode编码按顺序两两组合成知识ID;
s3.判断知识ID个数是否大于等于3,若是,进入步骤s4,若否,进入步骤s13;
s4.判断计数器是否都小于阈值,若是,进入步骤s5,若否,进入步骤s8;
s5.判断知识ID是否满足固定句式条件,若是,进入步骤s6,若否,进入步骤s7;
s6.优先处理固定句式未知部分,返回步骤s2;
s7.按顺序进行组合、存储,返回步骤s2;
s8.判断计数器是否都大于阈值,若是,进入步骤s9,若否,进入步骤s11;
s9.判断知识ID是否都有抽象ID,即是否有经验,若是,进入步骤s10,若否,进入步骤s12;
s10.有抽象ID的两种组合都尝试进行组织、存储,返回步骤s2;
s11.优先组织计数器大的知识ID,返回步骤s2;
s12.优先组织有抽象ID的知识ID,返回步骤s2;
s13.按顺序依次进行组织,最终组织成一个知识ID;
s14.组织结束。
以上实施例仅为本发明的较佳实施例,本发明的方法并不限于上述实施例列举的形式,凡在本发明的精神和原则之内所作的任何修改、等同替换等,均应包含在本发明的保护范围之内。

Claims (2)

1. 一种基于语义理解的文字组织编码方法,其特征在于:包括以下步骤:
(一)拆分文本
(1)将文本拆分成段落;
(2)将段落拆分成整句;
(3)将整句拆分成子句;
(4)将子句拆分成单个字符;
(二)编码转换
将单个字符转换成对应的Unicode编码,每个字符均用16位二进制数来表示;
(三)组织编码
(1)将相邻字符的Unicode编码两两组合;
(2)寻找有经验的组合,优先进行组织、存储;
(3)再与剩下的编码一起继续进行两两组合,重复寻找两两组合有经验的优先进行组织;
(4)持续组织,最终得到一个可能有经验的知识编码,用于系统保存或者关联其它有用编码信息;
所述步骤(三)具体包括以下步骤:
s1.组织开始;
s2.将相邻字符的Unicode编码按顺序两两组合成知识ID;
s3.判断知识ID个数是否大于等于3,若是,进入步骤s4,若否,进入步骤s13;
s4.判断计数器是否都小于阈值,若是,进入步骤s5,若否,进入步骤s8;
s5.判断知识ID是否满足固定句式条件,若是,进入步骤s6,若否,进入步骤s7;
s6.优先处理固定句式未知部分,返回步骤s2;
s7.按顺序进行组合、存储,返回步骤s2;
s8.判断计数器是否都大于阈值,若是,进入步骤s9,若否,进入步骤s11;
s9.判断知识ID是否都有抽象ID,即是否有经验,若是,进入步骤s10,若否,进入步骤s12;
s10.有抽象ID的两种组合都尝试进行组织、存储,返回步骤s2;
s11.优先组织计数器大的知识ID,返回步骤s2;
s12.优先组织有抽象ID的知识ID,返回步骤s2;
s13.按顺序依次进行组织,最终组织成一个知识ID;
s14.组织结束。
2.根据权利要求1所述的基于语义理解的文字组织编码方法,其特征在于:所述步骤(二)具体包括以下步骤:
(1)将单个字符里的数字部分进行数字转码,即将数字保存到id1,系统标识符-数字保存到id0;
(2)将单个字符里的非数字部分进行非数字转码,其中窄字符,即ASCII,转换为宽字符,即Unicode,获取对应的Unicode编码,文字则直接转成Unicode编码。
CN202110176556.6A 2021-02-09 2021-02-09 基于语义理解的文字组织编码方法 Active CN112800722B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110176556.6A CN112800722B (zh) 2021-02-09 2021-02-09 基于语义理解的文字组织编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110176556.6A CN112800722B (zh) 2021-02-09 2021-02-09 基于语义理解的文字组织编码方法

Publications (2)

Publication Number Publication Date
CN112800722A CN112800722A (zh) 2021-05-14
CN112800722B true CN112800722B (zh) 2024-04-26

Family

ID=75814895

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110176556.6A Active CN112800722B (zh) 2021-02-09 2021-02-09 基于语义理解的文字组织编码方法

Country Status (1)

Country Link
CN (1) CN112800722B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5793381A (en) * 1995-09-13 1998-08-11 Apple Computer, Inc. Unicode converter
CN101013420A (zh) * 2006-12-31 2007-08-08 中国科学院计算技术研究所 一种识别中文文本编码形式的方法
JP2008148322A (ja) * 2006-12-08 2008-06-26 Fujitsu Ltd 文字符号化処理方法及びシステム
CN101350624A (zh) * 2008-09-11 2009-01-21 中国科学院计算技术研究所 一种支持ansi编码的中文文本的压缩方法
CN102799600A (zh) * 2012-04-10 2012-11-28 成都网安科技发展有限公司 一种基于编码关联的多模式匹配算法及系统
CN112200286A (zh) * 2020-08-25 2021-01-08 中国物品编码中心 字符串编码的方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10176334B2 (en) * 2016-05-18 2019-01-08 Blackberry Limited Data security using alternative encoding
JP6680126B2 (ja) * 2016-07-25 2020-04-15 富士通株式会社 符号化プログラム、符号化装置、符号化方法、及び検索方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5793381A (en) * 1995-09-13 1998-08-11 Apple Computer, Inc. Unicode converter
JP2008148322A (ja) * 2006-12-08 2008-06-26 Fujitsu Ltd 文字符号化処理方法及びシステム
CN101013420A (zh) * 2006-12-31 2007-08-08 中国科学院计算技术研究所 一种识别中文文本编码形式的方法
CN101350624A (zh) * 2008-09-11 2009-01-21 中国科学院计算技术研究所 一种支持ansi编码的中文文本的压缩方法
CN102799600A (zh) * 2012-04-10 2012-11-28 成都网安科技发展有限公司 一种基于编码关联的多模式匹配算法及系统
CN112200286A (zh) * 2020-08-25 2021-01-08 中国物品编码中心 字符串编码的方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
在通用字符集UCS中藏文编码模式的应用分析;小尼玛扎西;;西藏大学学报(自然科学版);20080515(01);16-20、41 *
基于语义的多文种编码方案SemaCode;李培峰;朱巧明;钱培德;;计算机应用研究;20080615(06);1652-1656 *
文字编码综述;Sherry emi;;中文信息;20021101(11);51-53 *

Also Published As

Publication number Publication date
CN112800722A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN109033307B (zh) 基于crp聚类的词语多原型向量表示及词义消歧方法
CN106776562B (zh) 一种关键词提取方法和提取系统
CN109388795B (zh) 一种命名实体识别方法、语言识别方法及系统
US7031910B2 (en) Method and system for encoding and accessing linguistic frequency data
CN113011189A (zh) 开放式实体关系的抽取方法、装置、设备及存储介质
Otair Comparative analysis of Arabic stemming algorithms
US20050251381A1 (en) Tokenizer for a natural language processing system
JPH08194719A (ja) 検索装置および辞書/テキスト検索方法
CN111061882A (zh) 一种知识图谱构建方法
CN106776548A (zh) 一种文本的相似度计算的方法和装置
KR20070094984A (ko) 로우메모리 결정트리
US20100106481A1 (en) Integrated system for recognizing comprehensive semantic information and the application thereof
CN111814463B (zh) 国际疾病分类编码推荐方法、系统及相应设备和存储介质
US20070028168A1 (en) Phonetic searching using multiple readings
CN115618883A (zh) 一种业务语义识别方法及装置
WO2018213783A1 (en) Computerized methods of data compression and analysis
CN112800722B (zh) 基于语义理解的文字组织编码方法
CN114792092B (zh) 一种基于语义增强的文本主题抽取方法及装置
US20220107919A1 (en) Computerized systems and methods of data compression
Šantić et al. Automatic diacritics restoration in Croatian texts
KR100326634B1 (ko) 문서정보격납장치,문서정보격납방법,문서정보검색장치및문서정보검색방법
Miao et al. Open domain news text relationship extraction based on dependency syntax
Patra et al. A novel word clustering and cluster merging technique for named entity recognition
CN111414459A (zh) 人物关系获取方法、装置、电子设备及存储介质
WO2023091765A1 (en) Computerized systems and methods of data compression

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant