CN104598441A - 一种计算机拆分汉语句子的方法 - Google Patents
一种计算机拆分汉语句子的方法 Download PDFInfo
- Publication number
- CN104598441A CN104598441A CN201410818409.4A CN201410818409A CN104598441A CN 104598441 A CN104598441 A CN 104598441A CN 201410818409 A CN201410818409 A CN 201410818409A CN 104598441 A CN104598441 A CN 104598441A
- Authority
- CN
- China
- Prior art keywords
- chinese
- word
- sentence
- split
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
本发明公开了一种计算机拆分汉语句子的方法,其包括以下步骤:步骤S1,建立基础数据库;所述基础数据库包括基础词库和可以判断单个汉字之间相互组合成词的优先顺序原则的汉字组词优先原则判断数据库;步骤S2,将需要被拆分的汉语句子与步骤S1中建立的基础词库进行匹配比对,将需要被拆分的汉语句子拆分成词;步骤S3,将步骤S2中拆分得到的词进行词性分类处理;步骤S4,对词性分类处理后的词进行重新组合成汉语短语;即完成对被拆汉语句子的拆分。本发明将通过与化学元素分析类似的方法来分析句子,通过代码简单、运算量小的计算机软件实现,对整个汉语句子进行准确、快速的拆分,为汉语句子分析提供有效的基础保证。
Description
技术领域
本发明属于计算机技术领域,尤其涉及一种计算机拆分汉语句子的方法。
背景技术
现代汉语句子是语言表达和信息交流的主要工具,而在计算机软件领域中,汉语句子的拆分一直是句子分析中的重点和难点。汉语句子的基本组成元素是单个汉字,而表达汉语基本意思的基本单位则是由若干个汉字组成的词,所以要对整个汉语句子进行分析,首先要能够对句子进行基本的汉字词拆分。由于单个的汉字大多具有多个意思,与不同的汉字组合在一起又构成了意思差别很大的不同的词,每个词也可能具有多重意思,因此,这给汉语句子的正确拆分带来了相当大的难度。
目前现有的句子拆分方法有很多,基本上都是基于词库检索遍历算法,有些还加上歧义解决算法等。这些方法在计算机软件实现时都普遍存算法复杂、运算量大,以及多义字词拆分不准确等缺点。
发明内容
为了解决现有技术中存在的上述问题,本发明提供一种将化学领域中的一些概念引入到汉语句子分析中,通过与化学元素分析类似的方法来分析句子,通过代码简单、运算量小的计算机软件实现对整个汉语句子进行准确、快速的拆分,为汉语句子分析提供有效基础保证的计算机拆分汉语句子的方法。
为实现上述发明目的,本发明提供的技术方案为:一种计算机拆分汉语句子的方法,其包括以下步骤:
步骤S1,建立基础数据库;所述基础数据库包括基础词库和可以判断单个汉字之间相互组合成词的优先顺序原则的汉字组词优先原则判断数据库;
步骤S2,将需要被拆分的汉语句子与步骤S1中建立的基础词库进行匹配比对,将需要被拆分的汉语句子拆分成词;
步骤S3,将步骤S2中拆分得到的词进行词性分类处理;
步骤S4,对词性分类处理后的词进行重新组合成汉语短语;即完成对被拆汉语句子的拆分。
所述步骤S1中建立的基础词库包括汉字词、英文字母、数字和其它汉语语句中使用的通用字符。
所述基础词库中的汉字词包括日常用语、诗词、网络常用词和特殊名称用词。
所述基础词库存储在计算机内的代码为unicode编码或者汉字国际GB码。
所述汉字组词优先原则判断数据库是根据日常生活中汉字的实际使用频率和使用惯例通过穷举法进行归纳总结而得出的优先组合词组。
所述步骤S1中建立的基础词库中词的尺度范围为1至9;其中基础词库中汉字词的尺度定义为汉字词中汉字的个数,英文字母的尺度定义为1,数字的尺度定义为1,其它汉语语句中使用的通用字符也定义为1。
所述步骤S2中将需要被拆分的汉语句子拆分成词的具体过程如下:
步骤S21,首先,依次使用基础词库中尺度为9至1的汉字词遍历需要被拆分的汉语句子;
步骤S22,将上述需要被拆分的汉语句子中遍历出来的汉字词的首个汉字和最后个汉字分别运用汉字组词优先原则判断数据库进行判断对比;该判断对比的过程为:如果该汉字词的首个汉字与在需要被拆分汉语句子中位于其后的组词能力强于该汉字词的首个汉字与在需要被拆分汉语句子中位于其前的组词能力,且该汉字词的最后个汉字与在需要被拆分汉语句子中位于其后的组词能力弱于该汉字词的最后个汉字与在需要被拆分汉语句子中位于其前的组词能力,则认为该次匹配正确;如果该汉字词的首个汉字与在需要被拆分汉语句子中位于其后的组词能力若于该汉字词的首个汉字与在需要被拆分汉语句子中位于其前的组词能力,或者该汉字词的最后个汉字与在需要被拆分汉语句子中位于其后的组词能力强于该汉字词的最后个汉字与在需要被拆分汉语句子中位于其前的组词能力,则认为该次匹配不正确,同时将匹配不正确的汉字词拆开重新遍历基础词库直至所有的拆分出来的汉字词都判断为匹配正确。
所述步骤S3中对拆分得到的词进行词性分类处理为将拆分得到的词分别分为汉字词、英文字母串、数字串和其它符号串。
所述汉字词分类处理为中心词、前修饰词、后修饰词;所述中心词分为名词、动词和数词;前修饰词分为名词前修饰词和动词前修饰词;后修饰词分为名词后修饰词、动词后修饰词和量词。
所述步骤S4中对词性分类处理后的词进行重新组合成汉语短语的具体过程为:将英文字母串和其它符号形成组合成独立的汉语短语;数字串组合成汉字词中的数词;并且将中心词分类组合成名词短语、动词短语和数词短语。
本发明的有益效果为:
本发明将化学领域中的一些概念引入到汉语句子分析中,通过与化学元素分析类似的方法来分析句子,通过代码简单、运算量小的计算机软件实现,对整个汉语句子进行准确、快速的拆分,为汉语句子分析提供有效的基础保证。
附图说明
图1为本发明所编写计算软件的基础数据和逻辑算法示意图。
图2为离子化合算法的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实例并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
在化学领域中,构成各种元素的基本单位是原子,原子再结合成离子和分子,不同原子、离子和分子的排列组合构成了不同的物质。同样,构成句子的基本单位是字,字再组合成词、词又组合成短语,不同的字、词和短语的排列组合够成了不同的句子。因此,可以将单个字比作一个化学原子,单个词比作一个化学离子、单个短语比作一个化学分子,分别称作原子字、离子词和分子短语。原子与原子间的结合靠“化学键”的作用,字与字、词、短语间的结合同样可称为“作用键”。因为字在句子中的出现是有先后顺序的,所以字之间的作用键要分为“前向键”和“后向键”,类似与化学中的“氧化性”和“还原性”。当一个具有氧化性的原子与一个具有还原性的原子遇到一起,往往可以结合成一个分子;同样,当一个前向键的字和一个后向键字碰到一起,这两个字就结合成一个“离子词”。一个字如果已经跟前面的字结合,但后面的字的前向键作用力更强,这个字就有可能被“拉扯”过来结合成新的离子词,原来的离子词被打破。因此,定义了作用键的强度,就可以基本解决句子中某字前后都是合法词时的分歧拆分问题。
当给出一个句子需要进行拆分时,类似于化学领域中给定若干个元素符号而求解出化学分子式,针对该句子中的若干个原子字,根据作用键的方向和强度,让这些原子字彼此化合成离子词,再根据离子性质进一步化合成分子短语,短语的先后排列形成了整个句子,进而就完成了对整个句子的合理拆分。因为汉字在句子中的出现顺序已经特定,所以句子拆分比求解分子式还要相对简单:在化合时,每个字只可能与它前一个字或后一个相邻的字结合,句子中的其他有间隔的字则不必考虑。
离子词中字的个数,以及分子词组中离子词的个数,称为词和词组的“尺度”。类似于化学中元素的“化合价”属性, 每个字、词、短语也有其固有的价值属性,即“作用价”,分别称为“字性”、“词性”、“语性”。词中的字根据位置可以分为“首字”,“中间字”和“尾字”;短语中的词根据其位置和词性可以分为“前修身词”、“中心词”和“后修饰词”。
本发明对句子拆分时,与传统意义上的“拆分”不同,采取的是类似于化学反应的“逆向化合”方法,让字(原子)化合成词(离子),词(离子)再聚合成短语(分子)。基于以上定义,算法上采用“尺度优先遍历”+“作用键竞争”的原则,经过离子化合、离子词性处理、分子短语聚合等步骤,完成句子-短语-词-字的全面拆分。
本发明采用编写计算软件来实现对汉语句子的拆分,该软件核心如图1所示分为基础数据和逻辑算法两部分:
1、离子词库整理(即步骤S1中建立基础词库)
如同求解化学分子式时需要已知各原子之间可形成何种组合一样,拆分汉语句子,也需要已知各字之间能组合成何种词,称为离子词库。本发明中的离子词库定义广泛,可以包括现代汉语大词典中的既有成语和词语,日常用语、诗词、谚语、网络常用语、特殊名称等等,只要认为这些字需要组合在一起的,都可以收录为一个离子词。词库存储文字的计算机代码(unicode编码或汉字国标GB码),并使用文字代码建立哈希索引表用于快速遍历和检索。离子词库中的数据类型包括四类:汉字词、英文字母、数字、其他字符。
2、作用键值库整理(即步骤S1中建立可以判断单个汉字之间相互组合成词的优先顺序原则的汉字组词优先原则判断数据库)
根据日常生活中实际使用汉语语法的规则收录、建立能够区分汉字之间相互组合成词时的能力强弱的作用键值库。例如,当一个字、词具有双向作用键时,需要定义两个作用键的强度,例如“披上衣服”中:“披上”为一个合理词,“上衣”也为一个合理词,“衣服”仍然为一个合理词。原子字“上”和“衣”都存在双向作用键。因此定义“服”对“衣”的作用键强于“上”对“衣”的作用键,确保“上衣服”三个字遇到一起时拆分成“上 衣服”而不是“上衣 服”,“上”字再去与前面的字做可能的组合。建立作用键值库的技巧在于:算法采用先前字化合再后字拉扯的方式,所以库中只建立后向作用键更强的可成功拉扯的组合即可,确保库的数据量尽可能的少,提高拆分时遍历扫描的效率。
3、逻辑算法
[0033]全部逻辑算法都将使用基础数据库进行,其中离子词库和作用键值库有特定的存储,逻辑判断库则镶嵌于针对不同字、词的逻辑算法中。
(1)离子化合――尺度优先遍历+作用键竞争算法(即步骤S2,将需要被拆分的汉语句子拆分成词)
[0034]目前定义支持的汉字离子词尺度为汉字个数,范围为1~9;连续的英文字母和数字串整个作为一个离子词,尺度定义为1;其他符号则单个字符作为一个尺度为1的离子词。离子化合的算法入图2所示:
经过该算法之后,句子中的每个字符已经彼此“化合”成若干个尺度为1~9离子词。
(2)离子词性处理(即步骤S3,词性分类处理)
本发明中的“词性”概念,与现代汉语语法中规定的词性不同。为了能够更好的对汉语句子进行拆分,根据句子中的字符所表达的意思和功能,将离子词性划分为:
l 汉字词
ü 中心词
- 名词
- 动词
- 数词
ü 前修饰词
- 名词前修饰词
- 动词前修饰词
ü 后修饰词
- 名词后修饰词
- 动词后修饰词
- 量词
l 英文字母串
l 数字串
l 其他符号
离子词库中定义了每个离子词的各种词性,在匹配离子词库时预先读取并加载。本步骤算法中将使用逻辑判断库,根据句子整个上下文词性、词义的相关性逐词进行分析和修改,使整个句子的词性分布更科学更合理。
(3)分子短语聚合(即步骤S4,对词性分类处理后的词进行重新组合成汉语短语)
每个英文字母串和其他符号形成一个独立的分子短语。数字串将作为汉字词中的“数词”等同处理。短语的“语性”除英文字母串和其他符号外,根据词性中的中心词,分为三类:
l 名词短语
l 动词短语
l 数词短语
中心词具有双向作用键,前修饰词具有后向作用键,后修饰词具有前向作用键,因此在作用键的作用下,句子中的所有字符都彼此“化合”成大分子短语。
至此,整个汉语句子的详细拆分全部完成。本发明的输出结果可用于各种需要对汉语句子进行拆分处理进而进行句子分析的应用当中。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的思想和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改。
Claims (10)
1.一种计算机拆分汉语句子的方法,其特征在于,其包括以下步骤:
步骤S1,建立基础数据库;所述基础数据库包括基础词库和可以判断单个汉字之间相互组合成词的优先顺序原则的汉字组词优先原则判断数据库;
步骤S2,将需要被拆分的汉语句子与步骤S1中建立的基础词库进行匹配比对,将需要被拆分的汉语句子拆分成词;
步骤S3,将步骤S2中拆分得到的词进行词性分类处理;
步骤S4,对词性分类处理后的词进行重新组合成汉语短语;即完成对被拆汉语句子的拆分。
2.根据权利要求1所述的一种计算机拆分汉语句子的方法,其特征在于,所述步骤S1中建立的基础词库包括汉字词、英文字母、数字和其它汉语语句中使用的通用字符。
3.根据权利要求2所述的一种计算机拆分汉语句子的方法,其特征在于,所述基础词库中的汉字词包括日常用语、诗词、网络常用词和特殊名称用词。
4.根据权利要求3所述的一种计算机拆分汉语句子的方法,其特征在于,所述基础词库存储在计算机内的代码为unicode编码或者汉字国际GB码。
5.根据权利要求4所述的一种计算机拆分汉语句子的方法,其特征在于,所述汉字组词优先原则判断数据库是根据日常生活中汉字的实际使用频率和使用惯例通过穷举法进行归纳总结而得出的优先组合词组。
6.根据权利要求5所述的一种计算机拆分汉语句子的方法,其特征在于,所述步骤S1中建立的基础词库中词的尺度范围为1至9;其中基础词库中汉字词的尺度定义为汉字词中汉字的个数,英文字母的尺度定义为1,数字的尺度定义为1,其它汉语语句中使用的通用字符也定义为1。
7.根据权利要求6所述的一种计算机拆分汉语句子的方法,其特征在于,所述步骤S2中将需要被拆分的汉语句子拆分成词的具体过程如下:
步骤S21,首先,依次使用基础词库中尺度为9至1的汉字词遍历需要被拆分的汉语句子;
步骤S22,将上述需要被拆分的汉语句子中遍历出来的汉字词的首个汉字和最后个汉字分别运用汉字组词优先原则判断数据库进行判断对比;该判断对比的过程为:如果该汉字词的首个汉字与在需要被拆分汉语句子中位于其后的组词能力强于该汉字词的首个汉字与在需要被拆分汉语句子中位于其前的组词能力,且该汉字词的最后个汉字与在需要被拆分汉语句子中位于其后的组词能力弱于该汉字词的最后个汉字与在需要被拆分汉语句子中位于其前的组词能力,则认为该次匹配正确;如果该汉字词的首个汉字与在需要被拆分汉语句子中位于其后的组词能力若于该汉字词的首个汉字与在需要被拆分汉语句子中位于其前的组词能力,或者该汉字词的最后个汉字与在需要被拆分汉语句子中位于其后的组词能力强于该汉字词的最后个汉字与在需要被拆分汉语句子中位于其前的组词能力,则认为该次匹配不正确,同时将匹配不正确的汉字词拆开重新遍历基础词库直至所有的拆分出来的汉字词都判断为匹配正确。
8.根据权利要求7所述的一种计算机拆分汉语句子的方法,其特征在于,所述步骤S3中对拆分得到的词进行词性分类处理为将拆分得到的词分别分为汉字词、英文字母串、数字串和其它符号串。
9.根据权利要求8所述的一种计算机拆分汉语句子的方法,其特征在于,所述汉字词分类处理为中心词、前修饰词、后修饰词;所述中心词分为名词、动词和数词;前修饰词分为名词前修饰词和动词前修饰词;后修饰词分为名词后修饰词、动词后修饰词和量词。
10.根据权利要求9所述的一种计算机拆分汉语句子的方法,其特征在于,所述步骤S4中对词性分类处理后的词进行重新组合成汉语短语的具体过程为:将英文字母串和其它符号形成组合成独立的汉语短语;数字串组合成汉字词中的数词;并且将中心词分类组合成名词短语、动词短语和数词短语。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410818409.4A CN104598441B (zh) | 2014-12-25 | 2014-12-25 | 一种计算机拆分汉语句子的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410818409.4A CN104598441B (zh) | 2014-12-25 | 2014-12-25 | 一种计算机拆分汉语句子的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104598441A true CN104598441A (zh) | 2015-05-06 |
CN104598441B CN104598441B (zh) | 2019-06-28 |
Family
ID=53124243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410818409.4A Expired - Fee Related CN104598441B (zh) | 2014-12-25 | 2014-12-25 | 一种计算机拆分汉语句子的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104598441B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104881503A (zh) * | 2015-06-24 | 2015-09-02 | 郑州悉知信息技术有限公司 | 一种数据处理方法和装置 |
CN106201012A (zh) * | 2016-07-01 | 2016-12-07 | 乐视控股(北京)有限公司 | 词组拆分方法及装置 |
CN108417210A (zh) * | 2018-01-10 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 一种词嵌入语言模型训练方法、词语识别方法及系统 |
CN113627176A (zh) * | 2021-08-17 | 2021-11-09 | 北京计算机技术及应用研究所 | 一种利用主元分析计算汉语词向量的方法 |
CN113805847A (zh) * | 2021-09-15 | 2021-12-17 | 南通在渡教育咨询有限公司 | 在线无代码化开发系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110270603A1 (en) * | 2002-08-07 | 2011-11-03 | Whitesmoke, Inc. | Method and Apparatus for Language Processing |
CN102982020A (zh) * | 2012-12-17 | 2013-03-20 | 杭州也要买电子商务有限公司 | 一种搜索系统中的中文分词方法 |
-
2014
- 2014-12-25 CN CN201410818409.4A patent/CN104598441B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110270603A1 (en) * | 2002-08-07 | 2011-11-03 | Whitesmoke, Inc. | Method and Apparatus for Language Processing |
CN102982020A (zh) * | 2012-12-17 | 2013-03-20 | 杭州也要买电子商务有限公司 | 一种搜索系统中的中文分词方法 |
Non-Patent Citations (1)
Title |
---|
张合 等: "一种基于句子分割的文法自动推导算法", 《清华大学学报(自然科学版)》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104881503A (zh) * | 2015-06-24 | 2015-09-02 | 郑州悉知信息技术有限公司 | 一种数据处理方法和装置 |
CN106201012A (zh) * | 2016-07-01 | 2016-12-07 | 乐视控股(北京)有限公司 | 词组拆分方法及装置 |
CN108417210A (zh) * | 2018-01-10 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 一种词嵌入语言模型训练方法、词语识别方法及系统 |
CN108417210B (zh) * | 2018-01-10 | 2020-06-26 | 苏州思必驰信息科技有限公司 | 一种词嵌入语言模型训练方法、词语识别方法及系统 |
CN113627176A (zh) * | 2021-08-17 | 2021-11-09 | 北京计算机技术及应用研究所 | 一种利用主元分析计算汉语词向量的方法 |
CN113627176B (zh) * | 2021-08-17 | 2024-04-19 | 北京计算机技术及应用研究所 | 一种利用主元分析计算汉语词向量的方法 |
CN113805847A (zh) * | 2021-09-15 | 2021-12-17 | 南通在渡教育咨询有限公司 | 在线无代码化开发系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104598441B (zh) | 2019-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ding et al. | Event detection with trigger-aware lattice neural network | |
CN105426539B (zh) | 一种基于词典的lucene中文分词方法 | |
CN103544255B (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN111241294B (zh) | 基于依赖解析和关键词的图卷积网络的关系抽取方法 | |
CN103123618B (zh) | 文本相似度获取方法和装置 | |
CN105095204B (zh) | 同义词的获取方法及装置 | |
CN104598441A (zh) | 一种计算机拆分汉语句子的方法 | |
CN102799577B (zh) | 一种中文实体间语义关系抽取方法 | |
CN104008091B (zh) | 一种基于情感值的网络文本情感分析方法 | |
CN105975625A (zh) | 一种面向英文搜索引擎的中式英文查询纠错方法和系统 | |
Zhao et al. | Phrase table as recommendation memory for neural machine translation | |
CN102063424A (zh) | 一种中文分词方法 | |
CN110175585B (zh) | 一种简答题自动批改系统及方法 | |
CN105138514A (zh) | 一种基于词典的正向逐次加一字最大匹配中文分词方法 | |
Zvonarev et al. | A Comparison of Machine Learning Methods of Sentiment Analysis Based on Russian Language Twitter Data. | |
US20130151239A1 (en) | Orthographical variant detection apparatus and orthographical variant detection program | |
Zhao et al. | An empirical comparison of goodness measures for unsupervised Chinese word segmentation with a unified framework | |
CN104391837A (zh) | 一种基于格语义的智能语法分析方法 | |
CN108536724A (zh) | 一种基于双层哈希索引的地铁设计规范中主体识别方法 | |
CN114117070A (zh) | 一种知识图谱的构建方法、系统及存储介质 | |
CN113705237A (zh) | 融合关系短语知识的关系抽取方法、装置和电子设备 | |
CN109299248A (zh) | 一种基于自然语言处理的商业情报收集方法 | |
CN106383814A (zh) | 一种英文社交媒体短文本分词方法 | |
CN113312922A (zh) | 一种改进的篇章级三元组信息抽取方法 | |
CN103744837A (zh) | 基于关键词抽取的多文本对照方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190628 Termination date: 20191225 |