CN109558589A - 一种基于中文分词技术的畅想文书的方法及系统 - Google Patents
一种基于中文分词技术的畅想文书的方法及系统 Download PDFInfo
- Publication number
- CN109558589A CN109558589A CN201811337419.0A CN201811337419A CN109558589A CN 109558589 A CN109558589 A CN 109558589A CN 201811337419 A CN201811337419 A CN 201811337419A CN 109558589 A CN109558589 A CN 109558589A
- Authority
- CN
- China
- Prior art keywords
- word
- elements recognition
- rule
- segmentation
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000033228 biological regulation Effects 0.000 claims abstract description 27
- 239000000284 extract Substances 0.000 claims abstract description 12
- 238000004519 manufacturing process Methods 0.000 claims description 20
- 238000003860 storage Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 16
- 238000004458 analytical method Methods 0.000 claims description 15
- 238000011430 maximum method Methods 0.000 claims description 14
- 238000005457 optimization Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 11
- 238000007619 statistical method Methods 0.000 claims description 8
- 238000013500 data storage Methods 0.000 claims description 7
- 238000007726 management method Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 230000008676 import Effects 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000004064 recycling Methods 0.000 claims description 3
- 235000013399 edible fruits Nutrition 0.000 claims description 2
- 238000000926 separation method Methods 0.000 abstract description 7
- 238000012545 processing Methods 0.000 description 10
- 238000000354 decomposition reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于中文分词技术的畅想文书的方法,包括以下步骤:(1)对文本进行分词操作:导入文书内容,对文书内容进行分词;(2)对步骤(1)中的所有的分词结果进行排序并统计;(3)要素提取:设置要素提取条件,利用XML规则和Rete算法对文件中的要素进行提取;(4)执行检索命令并统计要素提取结果。通过对机械分词方法和统计分词方法的算法进行优化;利用词频概率大小对词语重新判定,并选择最优结果。在分词结束后,用户即可进行自定义的要素提取,我们利用规则引擎和XML规则文件实现了业务逻辑和处理逻辑分离的目的;最大程度的实现了自定义查询。
Description
技术领域
本发明涉及文本处理技术领域,尤其涉及一种基于中文分词技术的畅想文书的方法及系统。
背景技术
近年来,随着信息的不断发展,自我国进入信息公开时代以来,各类文书的公开便是保障公民知情权、增加政府工作透明度的重要手段,所以各类文书的检索、查询、要素提取等功能的需求日益增加。目前文书系统的设计与实现均面临两大问题:一方面是文书数量巨大,这意味着巨大的工作量,对系统的性能要求也更高。
另外一方面是查询以及要素提取的算法不够完善,导致查询以及要素提取效率底下并且容易出现查询条件限制的现象。目前的传统查询方式难以满足复杂的业务逻辑处理需求,并且不具备对新兴词汇及各类未登录词查询业务的适应性,从而难以达到要素提取的目的;因而,一个可以让用户自定义查询条件的畅想文书系统让用户迫不及待。
中国专利文献(申请号为:201410711771.1)公开了一种面向文本大数据的中文分词方法,属于自然语言处理领域。其特征在于所述方法包括以下步骤:(1)对本地海量数据文件进行分解处理,形成数据块;(2)对分解后的数据块文件进行Map化处理,得到以偏移量为Key,文本内容为Value的<Key,Value>键值对;(3)通过一系列的分词处理,获得最终的分词结果,并且得到以偏移量为Key,分词结果为Value的<Key,Value>键值对,作为Map函数的输出;(4)对Map函数得到的<Key,Value>键值对进行Reduce处理,Reduce函数得到原始文件与分词结果文件对应<Key,Value>键值对的索引文件,并将最终结果汇总写入到HDFS。该方法在文本大数据情况下,保证了分词准确率的同时,并且极大的提高了系统的吞吐率以及中文分词的效率,但是没有涉及查询。
因此,现在有必要开发一种最大程度的实现了自定义查询的基于中文分词技术的畅想文书的方法。
发明内容
本发明要解决的技术问题是,提供一种业务逻辑与处理逻辑的分离的方法且最大程度的实现了自定义查询和不受限制的要素提取的基于中文分词技术的畅想文书的方法。
为了解决上述技术问题,本发明采用的技术方案是:该基于中文分词技术的畅想文书的方法,包括以下步骤:
(1)对文本进行分词操作:导入文书内容,对文书内容进行分词;
(2)对步骤(1)中的所有的分词结果进行排序并统计;
(3)要素提取:设置要素提取条件,利用XML规则和Rete算法对文件中的要素进行提取;
(4)执行检索命令并统计要素提取结果。
采用上述技术方案,该方法在运行过程中,首先将文本进行分词并将分词结果进行统计并存储在数据库中,再利用规则引擎分析并分解要素提取条件,最终将要素提取条件转化成SQL语句,然后利用SQL语句进入数据库提取出要素,并返回结果;此方法很好的展现了,业务逻辑与处理逻辑的分离:业务逻辑:要素提取条件;处理逻辑:SQL语句,中间连接并分解转化业务逻辑的就是规则引擎;最终实现了不受限制的要素提取。
作为本发明的优选技术方案,所述步骤(1)中对文本进行分词操作的具体步骤包括:
S11:导入文书内容后,对文书内容利用分词模块进行分词;
S12:分词结束后,将得到的一个个词元传给语言处理器,语言处理器将对对这些词元再作处理,得到“词”;
S13:将步骤S12中的“词”传入索引器,得到“词”与具体句子之间的映射即字典,索引器创建这个字典并把“词”按照字母顺序进行排序,最后把所有相同的“词”合在一起组成文档到排链表形式;
S14:当分词完成后,用户即可进行自定义要素提取。
作为本发明的优选技术方案,所述步骤(3)要素提取的具体步骤包括:
S31:输入用户想要提取的要素条件;
S32:利用规则引擎对此要素提取条件进行规则化,分析要素提取条件,并将这些条件都转化成具有固定格式的XML规则文件;
S33:利用XML规则文件记录并分离要素提取条件的属性信息和控制信息,并记录这些查询规则;XML规则文件中有完整的描述一个查询所有的相关信息,在规则引擎将规则已经经过规则化的要素提取条件传输进来后,XML规则文件将要素条件的属性信息与控制信息进行分离,并记录这些查询规则;
S34:规则引擎利用Rete算法将查询规则按照用户需求进行匹配,整合成与原要素提取条件相匹配的查询规则;
S15:系统将这些查询规则转化成SQL语句,并执行;
S16:执行后,返回要素提取结果。
采用上述技术方案,通过对机械分词方法和统计分词方法的算法进行优化。在机械分词方法中将逆向最大匹配算法进行改良从而得到较精准的分词结果。当进行优化后的逆向最大匹配算法与最大正向匹配算法结果不一致时,利用词频概率大小对词语重新判定,并选择最优结果。在分词结束后,用户即可进行自定义的要素提取,我们利用规则引擎和XML规则文件实现了业务逻辑和处理逻辑分离的目的。将用户的需求转换并存储在XML规则文件中,当执行指令时,系统已经将业务的复杂度转化为逻辑处理复杂度,使得用户的各类不同要素的提取不再受到条件查询的限制,只需使用Rete算法将规则文件中的各类查询规则相匹配最终转化为SQL语句,执行查询语句即可;最大程度的实现了自定义查询。
作为本发明的优选技术方案,所述规则引擎采用生产式系统结构,包括生产式规则库、知识推理机和工作存储器,所述生产式规则库和工作存储器分别与所述知识推理机相连接;其中所述生产式规则库就是规则的集合,能够包含所有要素提取条件中各类需求;所述工作存储器是用于存放推理过程中需要的当前数据对象元素;而所述知识推理机是匹配各种规则并生成最终可执行SQL语句的中心学习系统,将用户的要素提取要求进行一一匹配,并判定是否有冲突或者是否可行,最终将这些需求转化为SQL语句。
采用上述技术方案,规则引擎实际上是一个能够对要素提取生产式表达的知识进行推理的生产式系统,采用了生产式系统的结构,主要包含生产式规则库、知识推理机以及工作存储器。其中规则库就是规则的集合,能够包含所有要素提取条件中各类需求,例如:地名要素识别、地址要素识别、日期要素识别等等。工作存储器的主要功能是存放推理过程中需要的当前数据对象元素。而中间的知识推理机就是匹配这些规则并生成最终可执行SQL语句的中心学习系统,它会将用户的要素提取要求进行一一匹配,并判定是否有冲突或者是否可行,最终将这些需求转化为SQL语句。举例(要素提取要求为:提取文中的地名地址信息。知识推理机将会把生产式规则库中的地名规则、地址规则进行提取、匹配并组合,最终形成SQL语句。)
作为本发明的优选技术方案,所述分词模块包括正向最大匹配算法和优化的逆向最大匹配算法两种分词算法。
作为本发明的优选技术方案,所述步骤S11中利用分词模块对文本进行分词的具体步骤包括:
S111:利用正向最大匹配算法对文书内容进行分词;
S112:在正向最大匹配算法对文书内容进行分词后,再利用优化后的逆向最大匹配算法对文书内容进行分词;取长度为wlen的字符串,从第一个汉字开始,当发现词典表中没有这个词语,就去掉最后的一个字,然后重新开始匹配,这样匹配的结果更加精确,并且能够选择出较优的分词结果;
S113:比较优化后的逆向最大匹配算法和正向最大匹配算法结果,如果一致,则输出分词结果;如果不一致,利用词频概率大小对词语重新判定,选择一项优化结果,输出分词结果。
作为本发明的优选技术方案,所述正向最大匹配算法的法则是从一段文字,从左到右,进行分词并得到一个个词元。
作为本发明的优选技术方案,所述优化的逆向最大匹配算法的法则具体包括以下步骤:
S112-1:分析一个句子,把这个句子记为s1;取一个用来划分s1的标准长度值,记这个长度为wlen;s1=待分词句子,如果s1为空,取下一个句子;如果全部句子分析完,跳出,输出s3,否则如果s1的长度小于wlen的话就把s1的长度作为wlen;在s1中从第一个汉字开始向后取wlen长度的字符串,记这个字符串为s2;
S112-2:如果这时候s2=1,即为一个单字;否则在索引表中查看是否有s2,如果有就在前面加个间隔符作为分词成功记号,并把该词记录到s3中,记为s3="/"+s2+s3,并且s1=s1-s2,再回到上一步骤中;否则的话去掉最前面的一个字,s2=s2-1,重新回到此步骤。
采用上述技术方案,这样得到的分词结果更加精细,更加容易辨别单字、词语以及未登录词。在两种分词结果出来后,进行对比,如果相同,则输出这个分词结果,如果不相同,则经过比较词频概率大小来得出最终结果。
作为本发明的优选技术方案,所述步骤(3)的要素提取的功能分三个层次结构,第一层是前端自定义要素提取平台,用户可以在这里输入要素提取条件;第二层是规则引擎控制器,在这一层,规则引擎与XML规则文件相互配合,分析、分解并记录要素提取条件,并利用Rete算法进行匹配,最终生成可执行的SQL语句进行查询;第三层是数据存储层,用于存储要素的提取结果和/或文档信息的各类数据,方便下次查询。
本发明还要解决的技术问题是提供一种业务逻辑与处理逻辑的分离的方法且最大程度的实现了自定义查询和不受限制的要素提取的基于中文分词技术的畅想文书系统。
为了解决该技术问题,该发明的技术方案是:该基于中文分词技术的畅想文书系统包括用户登陆管理模块、分词模块、要素提取模块、要素提取设置模块、要素统计分析模块和要素编辑替换模块;所述用户登陆管理模块、分词模块、要素提取模块、要素提取设置模块、要素统计分析模块和要素编辑替换模块均与处理器相连接且均与处理器形成单向数据连接;该基于中文分词技术的畅想文书系统还包括数据存储模块,所述数据存储模块包括中间数据库和业务数据库,所述中间数据库用于存储在每一次要素提取中产生的XML规则文件以及要素过滤的结果的中间数据;所述业务数据库则用于存储导入的文档信息以及系统中的配置文档及部署信息。
采用上述技术方案,该基于中文分词技术的畅想文书系统除了核心的分词模块以及要素提取模块之外,还配备有一系列要素提取相关的功能例如:要素提取设置、要素统计分析、要素编辑替换等;包含两个模块,一个分词模块,另一个是要素提取模块,如何实现不受限制的要素提取;最重要的核心是处理逻辑与业务逻辑分离;要素提取设置主要支持在要素提取前,预设一些提取条件,方便后续查询;要素统计分析主要支持对提取的要素进行数据统计,出现频率的分析等操作,方便用户对此要素在全文中的位置、数量、作用有更好的了解;要素编辑替换主要支持对要要素进行统计及定位,然后可以对要素进行编辑及替换,大大提高文档编辑效率。其中,在基于中文分词技术的畅想文书系统中,数据存储主要分为两种,一种临时存储一种正常存储,所以系统包含两个数据库,一个中间数据库,用来存储在每一次要素提取中产生的XML规则文件以及要素过滤的结果等中间数据。而另一个业务数据库则是能够存储导入的文档信息以及系统中的配置文档、部署信息等。分两个数据库的原因主要是为了区分临时信息和正常信息,保证在要素提取时,系统单独存储XML文件和过滤结果,提高要素提取效率。
现有技术相比,本发明具有的有益效果是:
1)经过优化的逆向最大匹配算法的原理和最大逆向减字匹配算法相似,但是,将长度为wlen的字符串从第一个汉字开始,当发现词典表中没有这个词语,就去掉最后的一个字,然后重新开始匹配,对分词进行正向匹配但是利用逆向分析,对词语的识别度更高,一定程度上提高了对未登录词的识别能力,大大提升了分词效率;得到的分词结果再与正向最大匹配算法得到的分词结果进行比较,并进行歧义消除,就能够将正确率提高到98.025%,在分词精准度方面有了突破性的进展;
2)利用XML规则文件分离查询信息以及控制条件并进行存储,相当于将查询条件分为了几大类搜索规则,在利用规则引擎将用户输入的查询条件分析、分解成一个个小的查询条件,最后利用Rete算法将查询条件按照XML文件中的规则进行匹配、整合,最终转化为可执行的SQL语句,打破了查询条件的限制,最大限度的扩大了要素提取的范围;规则引擎与XML文件的配合,实现了业务逻辑与处理逻辑的分离,为开发人员带来了解决问题的契机。
附图说明
下面结合附图进一步描述本发明的技术方案:
图1是本发明的基于中文分词技术的畅想文书的方法的流程示意图;
图2是本发明的基于中文分词技术的畅想文书的方法中的分词操作的流程示意图;
图3是本发明的基于中文分词技术的畅想文书的方法中的要素提取的流程示意图;
图4是本发明的基于中文分词技术的畅想文书的方法中的规则引擎的原理示意图;
图5是本发明的基于中文分词技术的畅想文书的方法中的分词模块的具体实现流程示意图;
图6是本发明的基于中文分词技术的畅想文书的方法中的自定义要素提取的层次结构示意图;
图7是本发明的基于中文分词技术的畅想文书系统的连接框架图;
图8是本发明的基于中文分词技术的畅想文书系统的自定义要素提取数据存储结构图。
具体实施方式
为了加深对本发明的理解,下面将结合附图和实施例对本发明做进一步详细描述,该实施例仅用于解释本发明,并不对本发明的保护范围构成限定。
实施例:如图1所示,该基于中文分词技术的畅想文书的方法,包括以下步骤:
(1)对文本进行分词操作:导入文书内容,对文书内容进行分词;
(2)对步骤(1)中的所有的分词结果进行排序并统计;
(3)要素提取:设置要素提取条件,利用XML规则和Rete算法对文件中的要素进行提取;
(4)执行检索命令并统计要素提取结果。
如图2所示,所述步骤(1)中对文本进行分词操作的具体步骤包括:
S11:导入文书内容后,对文书内容利用分词模块进行分词;所述分词模块包括正向最大匹配算法和优化的逆向最大匹配算法两种分词算法;
如图5所法,所述步骤S11中利用分词模块对文本进行分词的具体步骤包括:
S111:利用正向最大匹配算法对文书内容进行分词;
S112:在正向最大匹配算法对文书内容进行分词后,再利用优化后的逆向最大匹配算法对文书内容进行分词;取长度为wlen的字符串,从第一个汉字开始,当发现词典表中没有这个词语,就去掉最后的一个字,然后重新开始匹配,这样匹配的结果更加精确,并且能够选择出较优的分词结果;
S113:比较优化后的逆向最大匹配算法和正向最大匹配算法结果,如果一致,则输出分词结果;如果不一致,利用词频概率大小对词语重新判定,选择一项优化结果,输出分词结果;所述正向最大匹配算法的法则是从一段文字,从左到右,进行分词并得到一个个词元;所述优化的逆向最大匹配算法的法则具体包括以下步骤:
S112-1:分析一个句子,把这个句子记为s1;取一个用来划分s1的标准长度值,记这个长度为wlen;s1=待分词句子,如果s1为空,取下一个句子;如果全部句子分析完,跳出,输出s3,否则如果s1的长度小于wlen的话就把s1的长度作为wlen;在s1中从第一个汉字开始向后取wlen长度的字符串,记这个字符串为s2;
S112-2:如果这时候s2=1,即为一个单字;否则在索引表中查看是否有s2,如果有就在前面加个间隔符作为分词成功记号,并把该词记录到s3中,记为s3="/"+s2+s3,并且s1=s1-s2,再回到上一步骤中;否则的话去掉最前面的一个字,s2=s2-1,重新回到此步骤;这样得到的分词结果更加精细,更加容易辨别单字、词语以及未登录词。在两种分词结果出来后,进行对比,如果相同,则输出这个分词结果,如果不相同,则经过比较词频概率大小来得出最终结果。
S12:分词结束后,将得到的一个个词元传给语言处理器,语言处理器将对对这些词元再作处理,得到“词”;
S13:将步骤S12中的“词”传入索引器,得到“词”与具体句子之间的映射即字典,索引器创建这个字典并把“词”按照字母顺序进行排序,最后把所有相同的“词”合在一起组成文档到排链表形式;
S14:当分词完成后,用户即可进行自定义要素提取。
如图3所示,所述步骤(3)要素提取的具体步骤包括:
S31:输入用户想要提取的要素条件;
S32:利用规则引擎对此要素提取条件进行规则化,分析要素提取条件,并将这些条件都转化成具有固定格式的XML规则文件;
S33:利用XML规则文件记录并分离要素提取条件的属性信息和控制信息,并记录这些查询规则;XML规则文件中有完整的描述一个查询所有的相关信息,在规则引擎将规则已经经过规则化的要素提取条件传输进来后,XML规则文件将要素条件的属性信息与控制信息进行分离,并记录这些查询规则;
S34:规则引擎利用Rete算法将查询规则按照用户需求进行匹配,整合成与原要素提取条件相匹配的查询规则;
S15:系统将这些查询规则转化成SQL语句,并执行;
S16:执行后,返回要素提取结果。
通过对机械分词方法和统计分词方法的算法进行优化。在机械分词方法中将逆向最大匹配算法进行改良从而得到较精准的分词结果。当进行优化后的逆向最大匹配算法与最大正向匹配算法结果不一致时,利用词频概率大小对词语重新判定,并选择最优结果;在分词结束后,用户即可进行自定义的要素提取,我们利用规则引擎和XML规则文件实现了业务逻辑和处理逻辑分离的目的。将用户的需求转换并存储在XML规则文件中,当执行指令时,系统已经将业务的复杂度转化为逻辑处理复杂度,使得用户的各类不同要素的提取不再受到条件查询的限制,只需使用Rete算法将规则文件中的各类查询规则相匹配最终转化为SQL语句,执行查询语句即可;最大程度的实现了自定义查询。
如图4所示,所述规则引擎采用生产式系统结构,包括生产式规则库、知识推理机和工作存储器,所述生产式规则库和工作存储器分别与所述知识推理机相连接;其中所述生产式规则库就是规则的集合,能够包含所有要素提取条件中各类需求;所述工作存储器是用于存放推理过程中需要的当前数据对象元素;而所述知识推理机是匹配各种规则并生成最终可执行SQL语句的中心学习系统,将用户的要素提取要求进行一一匹配,并判定是否有冲突或者是否可行,最终将这些需求转化为SQL语句;采用上述技术方案,规则引擎实际上是一个能够对要素提取生产式表达的知识进行推理的生产式系统,采用了生产式系统的结构,主要包含生产式规则库、知识推理机以及工作存储器。其中规则库就是规则的集合,能够包含所有要素提取条件中各类需求,例如:地名要素识别、地址要素识别、日期要素识别等等。工作存储器的主要功能是存放推理过程中需要的当前数据对象元素。而中间的知识推理机就是匹配这些规则并生成最终可执行SQL语句的中心学习系统,它会将用户的要素提取要求进行一一匹配,并判定是否有冲突或者是否可行,最终将这些需求转化为SQL语句。举例(要素提取要求为:提取文中的地名地址信息。知识推理机将会把生产式规则库中的地名规则、地址规则进行提取、匹配并组合,最终形成SQL语句。)
如图6所示,所述步骤(3)的要素提取的功能分三个层次结构,第一层是前端自定义要素提取平台,用户可以在这里输入要素提取条件;第二层是规则引擎控制器,在这一层,规则引擎与XML规则文件相互配合,分析、分解并记录要素提取条件,并利用Rete算法进行匹配,最终生成可执行的SQL语句进行查询;第三层是数据存储层,用于存储要素的提取结果和/或文档信息的各类数据,方便下次查询。
首先将导入的文书进行分词,经过正向最大匹配算法以及优化的逆向最大匹配算法两种方式进行分词,并对比分词结果。若分词结果相同则返回此分词结果,如果分词结果不相同则根据词频概率大小选出最优结果。在分词结束后,系统已经记录了各类词与词元,用户即可利用规则引擎进行自定义的要素提取了。首先输入要素提取条件,经过规则引擎的分析、分解以及XML规则文件的记录规则,最后利用Rete算法将查询条件按照XML文件中的规则进行匹配、整合,最终转化为可执行的SQL语句,查询后,返回要素提取结果即可完成要素提取。
如图7~8所示,该基于中文分词技术的畅想文书系统包括用户登陆管理模块、分词模块、要素提取模块、要素提取设置模块、要素统计分析模块和要素编辑替换模块;所述用户登陆管理模块、分词模块、要素提取模块、要素提取设置模块、要素统计分析模块和要素编辑替换模块均与处理器相连接且均与处理器形成单向数据连接;该基于中文分词技术的畅想文书系统还包括数据存储模块,所述数据存储模块包括中间数据库和业务数据库,所述中间数据库用于存储在每一次要素提取中产生的XML规则文件以及要素过滤的结果的中间数据;所述业务数据库则用于存储导入的文档信息以及系统中的配置文档及部署信息。
该基于中文分词技术的畅想文书系统除了核心的分词模块以及要素提取模块之外,还配备有一系列要素提取相关的功能例如:要素提取设置、要素统计分析、要素编辑替换等;包含两个模块,一个分词模块,另一个是要素提取模块,如何实现不受限制的要素提取;最重要的核心是处理逻辑与业务逻辑分离;要素提取设置主要支持在要素提取前,预设一些提取条件,方便后续查询;要素统计分析主要支持对提取的要素进行数据统计,出现频率的分析等操作,方便用户对此要素在全文中的位置、数量、作用有更好的了解;要素编辑替换主要支持对要要素进行统计及定位,然后可以对要素进行编辑及替换,大大提高文档编辑效率。其中,在基于中文分词技术的畅想文书系统中,数据存储主要分为两种,一种临时存储一种正常存储,所以系统包含两个数据库,一个中间数据库,用来存储在每一次要素提取中产生的XML规则文件以及要素过滤的结果等中间数据。而另一个业务数据库则是能够存储导入的文档信息以及系统中的配置文档、部署信息等。分两个数据库的原因主要是为了区分临时信息和正常信息,保证在要素提取时,系统单独存储XML文件和过滤结果,提高要素提取效率。
对于本领域的普通技术人员而言,具体实施例只是对本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围之内。
Claims (10)
1.一种基于中文分词技术的畅想文书的方法,其特征在于,包括以下步骤:
(1)对文本进行分词操作:导入文书内容,对文书内容进行分词;
(2)对步骤(1)中的所有的分词结果进行排序并统计;
(3)要素提取:设置要素提取条件,利用XML规则和Rete算法对文件中的要素进行提取;
(4)执行检索命令并统计要素提取结果。
2.根据权利要求1所述的基于中文分词技术的畅想文书的方法,其特征在于,所述步骤(1)中对文本进行分词操作的具体步骤包括:
S11:导入文书内容后,对文书内容利用分词模块进行分词;
S12:分词结束后,将得到的一个个词元传给语言处理器,语言处理器将对对这些词元再作处理,得到“词”;
S13:将步骤S12中的“词”传入索引器,得到“词”与具体句子之间的映射即字典,索引器创建这个字典并把“词”按照字母顺序进行排序,最后把所有相同的“词”合在一起组成文档到排链表形式;
S14:当分词完成后,用户即可进行自定义要素提取。
3.根据权利要求1所述的基于中文分词技术的畅想文书的方法,其特征在于,所述步骤(3)要素提取的具体步骤包括:
S31:输入用户想要提取的要素条件;
S32:利用规则引擎对此要素提取条件进行规则化,分析要素提取条件,并将这些条件都转化成具有固定格式的XML规则文件;
S33:利用XML规则文件记录并分离要素提取条件的属性信息和控制信息,并记录这些查询规则;
S34:规则引擎利用Rete算法将查询规则按照用户需求进行匹配,整合成与原要素提取条件相匹配的查询规则;
S15:系统将这些查询规则转化成SQL语句,并执行;
S16:执行后,返回要素提取结果。
4.根据权利要求3所述的基于中文分词技术的畅想文书的方法,其特征在于,所述规则引擎采用生产式系统结构,包括生产式规则库、知识推理机和工作存储器,所述生产式规则库和工作存储器分别与所述知识推理机相连接;其中所述生产式规则库就是规则的集合,能够包含所有要素提取条件中各类需求;所述工作存储器是用于存放推理过程中需要的当前数据对象元素;而所述知识推理机是匹配各种规则并生成最终可执行SQL语句的中心学习系统,将用户的要素提取要求进行一一匹配,并判定是否有冲突或者是否可行,最终将这些需求转化为SQL语句。
5.根据权利要求2所述的基于中文分词技术的畅想文书的方法,其特征在于,所述分词模块包括正向最大匹配算法和优化的逆向最大匹配算法两种分词算法。
6.根据权利要求5所述的基于中文分词技术的畅想文书的方法,其特征在于,所述步骤S11中利用分词模块对文本进行分词的具体步骤包括:
S111:利用正向最大匹配算法对文书内容进行分词;
S112:在正向最大匹配算法对文书内容进行分词后,再利用优化后的逆向最大匹配算法对文书内容进行分词;
S113:比较优化后的逆向最大匹配算法和正向最大匹配算法结果,如果一致,则输出分词结果;如果不一致,利用词频概率大小对词语重新判定,选择一项优化结果,输出分词结果。
7.根据权利要求6所述的基于中文分词技术的畅想文书的方法,其特征在于,所述正向最大匹配算法的法则是从一段文字,从左到右,进行分词并得到一个个词元。
8.根据权利要求6所述的基于中文分词技术的畅想文书的方法,其特征在于,所述优化的逆向最大匹配算法的法则具体包括以下步骤:
S112-1:分析一个句子,把这个句子记为s1;取一个用来划分s1的标准长度值,记这个长度为wlen;s1=待分词句子,如果s1为空,取下一个句子;如果全部句子分析完,跳出,输出s3,否则如果s1的长度小于wlen的话就把s1的长度作为wlen;在s1中从第一个汉字开始向后取wlen长度的字符串,记这个字符串为s2;
S112-2:如果这时候s2=1,即为一个单字;否则在索引表中查看是否有s2,如果有就在前面加个间隔符作为分词成功记号,并把该词记录到s3中,记为s3="/"+s2+s3,并且s1=s1-s2,再回到上一步骤中;否则的话去掉最前面的一个字,s2=s2-1,重新回到此步骤。
9.根据权利要求6所述的基于中文分词技术的畅想文书的方法,其特征在于,所述步骤(3)的要素提取的功能分三个层次结构,第一层是前端自定义要素提取平台,用户可以在这里输入要素提取条件;第二层是规则引擎控制器,在这一层,规则引擎与XML规则文件相互配合,分析、分解并记录要素提取条件,并利用Rete算法进行匹配,最终生成可执行的SQL语句进行查询;第三层是数据存储层,用于存储要素的提取结果和/或文档信息的各类数据,方便下次查询。
10.一种基于中文分词技术的畅想文书系统,其特征在于,该基于中文分词技术的畅想文书系统包括用户登陆管理模块、分词模块、要素提取模块、要素提取设置模块、要素统计分析模块和要素编辑替换模块;所述用户登陆管理模块、分词模块、要素提取模块、要素提取设置模块、要素统计分析模块和要素编辑替换模块均与处理器相连接且均与处理器形成单向数据连接;该基于中文分词技术的畅想文书系统还包括数据存储模块,所述数据存储模块包括中间数据库和业务数据库,所述中间数据库用于存储在每一次要素提取中产生的XML规则文件以及要素过滤的结果的中间数据;所述业务数据库则用于存储导入的文档信息以及系统中的配置文档及部署信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811337419.0A CN109558589A (zh) | 2018-11-12 | 2018-11-12 | 一种基于中文分词技术的畅想文书的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811337419.0A CN109558589A (zh) | 2018-11-12 | 2018-11-12 | 一种基于中文分词技术的畅想文书的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109558589A true CN109558589A (zh) | 2019-04-02 |
Family
ID=65866258
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811337419.0A Pending CN109558589A (zh) | 2018-11-12 | 2018-11-12 | 一种基于中文分词技术的畅想文书的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109558589A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111078947A (zh) * | 2019-11-19 | 2020-04-28 | 太极计算机股份有限公司 | 基于xml的领域要素提取配置语言系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279509A (zh) * | 2013-05-17 | 2013-09-04 | 北京首钢自动化信息技术有限公司 | 一种采用动态查询语言的快速查询方法 |
CN103646018A (zh) * | 2013-12-20 | 2014-03-19 | 大连大学 | 一种基于hash散列表词典结构的中文分词方法 |
CN103678684A (zh) * | 2013-12-25 | 2014-03-26 | 沈阳美行科技有限公司 | 一种基于导航信息检索的中文分词方法 |
CN104346382A (zh) * | 2013-07-31 | 2015-02-11 | 香港理工大学 | 使用语言查询的文本分析系统和方法 |
CN104966239A (zh) * | 2015-06-30 | 2015-10-07 | 天津爱蔻科技有限公司 | 一种基于规则引擎的智能核保平台 |
CN106776929A (zh) * | 2016-11-30 | 2017-05-31 | 北京锐安科技有限公司 | 一种信息检索的方法及装置 |
CN108241713A (zh) * | 2016-12-27 | 2018-07-03 | 南京烽火软件科技有限公司 | 一种基于多元切分的倒排索引检索方法 |
CN108647199A (zh) * | 2018-03-23 | 2018-10-12 | 江苏速度信息科技股份有限公司 | 一种地名新词的发现方法 |
-
2018
- 2018-11-12 CN CN201811337419.0A patent/CN109558589A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279509A (zh) * | 2013-05-17 | 2013-09-04 | 北京首钢自动化信息技术有限公司 | 一种采用动态查询语言的快速查询方法 |
CN104346382A (zh) * | 2013-07-31 | 2015-02-11 | 香港理工大学 | 使用语言查询的文本分析系统和方法 |
CN103646018A (zh) * | 2013-12-20 | 2014-03-19 | 大连大学 | 一种基于hash散列表词典结构的中文分词方法 |
CN103678684A (zh) * | 2013-12-25 | 2014-03-26 | 沈阳美行科技有限公司 | 一种基于导航信息检索的中文分词方法 |
CN104966239A (zh) * | 2015-06-30 | 2015-10-07 | 天津爱蔻科技有限公司 | 一种基于规则引擎的智能核保平台 |
CN106776929A (zh) * | 2016-11-30 | 2017-05-31 | 北京锐安科技有限公司 | 一种信息检索的方法及装置 |
CN108241713A (zh) * | 2016-12-27 | 2018-07-03 | 南京烽火软件科技有限公司 | 一种基于多元切分的倒排索引检索方法 |
CN108647199A (zh) * | 2018-03-23 | 2018-10-12 | 江苏速度信息科技股份有限公司 | 一种地名新词的发现方法 |
Non-Patent Citations (2)
Title |
---|
刘晨帆等: "规则引擎在自定义地理信息查询中的应用", 《测绘》 * |
方应飞: "基于规则引擎的自定义查询系统的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111078947A (zh) * | 2019-11-19 | 2020-04-28 | 太极计算机股份有限公司 | 基于xml的领域要素提取配置语言系统 |
CN111078947B (zh) * | 2019-11-19 | 2023-06-02 | 太极计算机股份有限公司 | 基于xml的领域要素提取配置语言系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492077B (zh) | 基于知识图谱的石化领域问答方法及系统 | |
CN107066553B (zh) | 一种基于卷积神经网络与随机森林的短文本分类方法 | |
CN104361127B (zh) | 基于领域本体和模板逻辑的多语种问答接口快速构成方法 | |
CN101131706B (zh) | 一种查询修正方法及系统 | |
JP3143079B2 (ja) | 辞書索引作成装置と文書検索装置 | |
CN105930362B (zh) | 搜索目标识别方法、装置及终端 | |
CN106502994A (zh) | 一种文本的关键词提取的方法和装置 | |
CN107562919B (zh) | 一种基于信息检索的多索引集成软件构件检索方法及系统 | |
CN102402561B (zh) | 一种搜索方法和装置 | |
CN111858888B (zh) | 一种值机场景的多轮对话系统 | |
CN111914534B (zh) | 构建知识图谱语义映射方法及系统 | |
CN111159330A (zh) | 一种数据库查询语句的生成方法及装置 | |
CN112597285B (zh) | 一种基于知识图谱的人机交互方法及系统 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
WO2009017464A1 (en) | Relation extraction system | |
CN102929902A (zh) | 一种基于中文检索的分词方法及装置 | |
CN116821376B (zh) | 煤矿安全生产领域的知识图谱构建方法及系统 | |
CN109558589A (zh) | 一种基于中文分词技术的畅想文书的方法及系统 | |
CN111460147B (zh) | 一种基于语义增强的标题短文本分类方法 | |
CN112183110A (zh) | 一种基于数据中心的人工智能数据应用系统及应用方法 | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
CN114722159B (zh) | 针对数控机床制造资源的多源异构数据处理方法及系统 | |
CN106776590A (zh) | 一种获取词条译文的方法及系统 | |
CN102982063A (zh) | 一种基于关系关键词扩展的元组精化的控制方法 | |
Alhussien et al. | Semantically enhanced models for commonsense knowledge acquisition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190402 |
|
RJ01 | Rejection of invention patent application after publication |