CN113033193A - 一种基于c++语言的混合型中文文本分词方法 - Google Patents
一种基于c++语言的混合型中文文本分词方法 Download PDFInfo
- Publication number
- CN113033193A CN113033193A CN202110077065.6A CN202110077065A CN113033193A CN 113033193 A CN113033193 A CN 113033193A CN 202110077065 A CN202110077065 A CN 202110077065A CN 113033193 A CN113033193 A CN 113033193A
- Authority
- CN
- China
- Prior art keywords
- word segmentation
- character
- text data
- word
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 229
- 238000000034 method Methods 0.000 title claims abstract description 106
- 238000010586 diagram Methods 0.000 description 5
- 239000010410 layer Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5011—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
- G06F9/5016—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
Abstract
本发明提供一种基于C++语言的混合型中文文本分词方法。该方法中,一个给定的文本数据的分词过程包括第一次分词过程和第二次分词过程;第一次分词过程的文本数据读取顺序和第二次分词过程的文本数据读取顺序相反;其中,第一次分词过程或第二次分词过程包括以下步骤:步骤1:加载词语词库和词频词库,并建立双数组tire树;步骤2:按照约定的文本数据读取顺序从给定的文本数据中读取一行数据,然后对当前行数据进行分词;步骤3:判断给定的文本数据是否已经读取完毕,若没有,则返回步骤2;若读取完毕,则执行步骤4;步骤4:判断给定的文本数据的分词过程是否结束,若结束,则比较两次分词过程的分词结果以确定给定的文本数据的最终分词结果。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于C++语言的混合型中文文本分词方法。
背景技术
随着自然语言处理技术的发展,出现了越来越多的中文分词模型,比如最近几年出现的基于神经网络的深度学习分词算法(例如,中国专利文献CN107832307A公开的基于无向图与单层神经网络的中文分词方法)。这些分词模型虽然有的精度高,对未知词识别较好,但是却需要大量的语料做训练,因此要耗费很大的财力和人力去做人工标注;这对于一些中小公司是难以承受的,同时有些应用场景(例如舆情分析)需要第一时间去发现一些敏感的热词等等,能够容忍一定的分词错误率,但是对于分词的速度要求很高,以便于第一时间能够发现特定的热词;此时如果用现有的模型来做,就不能满足此类应用场景。
另外,现有的很多分词模型都是基于python、Java等动态语言写的,虽然开发效率高,但是运行效率却比较低,因此不适用于要求分词速度高的场景。
发明内容
针对现有的基于深度学习的中文分词方法存在的语料需求量大、分词速度较慢的问题,本发明提供一种基于C++语言的混合型中文文本分词方法,至少可以部分地解决上述问题。
本发明提供一种基于C++语言的混合型中文文本分词方法,一个给定的文本数据的分词过程包括第一次分词过程和第二次分词过程;第一次分词过程的文本数据读取顺序和第二次分词过程的文本数据读取顺序相反;
其中,第一次分词过程或第二次分词过程包括以下步骤:
步骤1:加载词语词库和对应的词频词库,并建立双数组tire树;
步骤2:按照约定的文本数据读取顺序从给定的文本数据中读取一行数据,然后对当前行数据进行分词;
步骤3:判断给定的文本数据是否已经读取完毕,若没有,则返回步骤2;若读取完毕,则执行步骤4;
步骤4:判断给定的文本数据的分词过程是否结束,若结束,则比较两次分词过程的分词结果以确定给定的文本数据的最终分词结果。
进一步地,步骤2中,对当前行数据进行分词,包括:
步骤2.1:按照约定的文本数据读取顺序读取当前行数据中的一个字符;
步骤2.2:判断读取的当前字符是否为UTF-8字符:若是,则执行步骤2.3;若不是,则执行步骤2.4;
步骤2.3:判断当前字符的UTF-8编码范围,确定当前字符的长度;将包括当前字符在内及其前面的所有连续UTF-8字符与预先建立的双数组tire树进行比较,并判断是否已经匹配到叶子节点:若已经匹配到叶子节点,则将当前匹配结果存储至分词结果中,然后执行步骤2.7;若未匹配到叶子节点,则将当前匹配结果存储至临时分词结果变量中,然后执行步骤2.7;
步骤2.4:判断读取的当前字符是否为英文字符:若是,则执行步骤2.5;若不是,则执行步骤2.6;
步骤2.5:先将当前英文字符之前的匹配结果存储至分词结果中,然后将当前英文字符存储至字符串变量中,并继续读取下一个字符直至读取到非英文字符或者当前行数据的结尾为止,然后将所述字符串变量中存储的所有字符转存至分词结果中,并执行步骤2.7;
步骤2.6:若读取的当前字符不属于UTF-8字符且也不属于英文字符,则确定当前字符为ASCII字符,则先将当前ASCII字符之前的匹配结果存储至分词结果中,然后将当前ASCII字符存储至特殊字符串变量中,并继续读取下一个字符直至读取到非ASCII字符或者当前行数据的结尾为止,然后将所述特殊字符串变量中存储的所有字符转存至分词结果中,并执行步骤2.7;
步骤2.7:更新读取位置;
步骤2.8:判断当前读取位置是否为当前行数据的结尾,若不是结尾,则返回步骤2.1以继续读取下一个字符;若是结尾,则执行步骤3。
进一步地,步骤4中,比较两次分词过程的分词结果以确定给定的文本数据的最终分词结果,包括:
比较两次分词过程的分词结果数量,以分词结果数量多的分词结果作为给定的文本数据的最终分词结果。
进一步地,步骤4中,比较两次分词过程的分词结果以确定给定的文本数据的最终分词结果,还包括:
若两次分词过程的分词结果数量相同,则比较两次分词过程的分词结果中出现的单个词的频度,以单个词的频度高的分词结果作为给定的文本数据的最终分词结果。
进一步地,步骤4中,比较两次分词过程的分词结果以确定给定的文本数据的最终分词结果,还包括:
若两次分词过程的分词结果数量相同,并且两次分词过程的分词结果中出现的单个词的频度相同,则比较两次分词过程的分词结果的方差,以方差小的分词结果作为给定的文本数据的最终分词结果。
进一步地,步骤4中,比较两次分词过程的分词结果以确定给定的文本数据的最终分词结果,还包括:
若两次分词过程的分词结果数量相同,两次分词过程的分词结果中出现的单个词的频度相同,以及两次分词过程的分词结果的方差相同,则以文本数据读取顺序为从右到左的分词过程的分词结果作为给定的文本数据的最终分词结果。
本发明的有益效果:
本发明提供的分词方法通过按照两种互为相反顺序的文本数据读取顺序对给定的文本数据进行读取进而进行分词,然后比较两次分词过程的分词结果,选取较优的分词结果作为最终的分词结果;并且,可以通过更新词库,增加特定的热词,以满足更多的应用场景。
本发明提供的分词方法,采用C++语言实现,相比于其它语言,C++作为一种静态类型的语言,既能保持面向对象的特性,又兼有C语言的速度,底层的内存分配采用jemalloc,更好地应对了多线程中内存分配的高效率场景,提高了分词速度。
附图说明
图1为本发明实施例提供的基于C++语言的混合型中文文本分词方法的流程示意图;
图2为本发明实施例提供的对当前行数据进行分词的流程示意图;
图3为本发明实施例提供的比较两次分词结果的流程示意图;
图4为本发明实施例提供的含有英文和数字的混合型中文文本的分词结果示意图;
图5为本发明实施例提供的含有数字和其他特殊字符的混合型中文文本的分词结果示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供一种基于C++语言的混合型中文文本分词方法,一个给定的文本数据的分词过程包括第一次分词过程和第二次分词过程;第一次分词过程的文本数据读取顺序和第二次分词过程的文本数据读取顺序相反;
例如,约定第一次分词过程的文本数据读取顺序为从左到右;约定第二次分词过程的文本数据读取顺序为从右到左。可以理解的是,若文本数据读取顺序为从右到左,按照惯用的文本数据的正常逻辑排列顺序,其最终的分词结果应整体进行翻转一下。
其中,第一次分词过程或第二次分词过程包括以下步骤:
S101:加载词语词库和对应的词频词库,并建立双数组tire树;
可以理解,词频词库是用于存储词语词库中的各个词语在一定时间段内所有指定文章中出现的次数的词库。词语词库和词频词库可以分开存放,也可以合并存放,合并存放时,将词语及其词频相对应即可。
S102:按照约定的文本数据读取顺序从给定的文本数据中读取一行数据,然后对当前行数据进行分词;
S103:判断给定的文本数据是否已经读取完毕,若没有,则返回步骤S102;若读取完毕,则执行步骤S104;
S104:判断给定的文本数据的分词过程是否结束,若结束,则比较两次分词过程的分词结果以确定给定的文本数据的最终分词结果。
本发明实施例提供的分词方法通过按照两种互为相反顺序的文本数据读取顺序对给定的文本数据进行读取进而进行分词,然后比较两次分词过程的分词结果,选取较优的分词结果作为最终的分词结果,并且,可以通过更新词库,增加特定的热词,以满足更多的应用场景。
在上述实施例的基础上,如图2所示,作为一种可实施方式,步骤S102中,对当前行数据进行分词,包括:
S201:按照约定的文本数据读取顺序读取当前行数据中的一个字符;在读字符的时候,按照顺序逐字节读取。
S202:判断读取的当前字符是否为UTF-8字符:若是,则执行步骤S203;若不是,则执行步骤S204;
S203:判断当前字符的UTF-8编码范围,确定当前字符的长度;将包括当前字符在内及其前面的所有连续UTF-8字符与预先建立的双数组tire树进行比较,并判断是否已经匹配到叶子节点:若已经匹配到叶子节点(表明当前匹配结果是一个完整的词),则将当前匹配结果存储至分词结果中,然后执行步骤S207;若未匹配到叶子节点,则将当前匹配结果存储至临时分词结果变量中,然后执行步骤S207;
步S204:判断读取的当前字符是否为英文字符:若是,则执行步骤S205;若不是,则执行步骤S206;
步骤S205:先将当前英文字符之前的匹配结果存储至分词结果中,然后将当前英文字符存储至字符串变量中,并继续读取下一个字符直至读取到非英文字符或者当前行数据的结尾为止,然后将所述字符串变量中存储的所有字符转存至分词结果中,并执行步骤S207;
步骤S206:若读取的当前字符不属于UTF-8字符且也不属于英文字符,则确定当前字符为ASCII字符,则先将当前ASCII字符之前的匹配结果存储至分词结果中,然后将当前ASCII字符存储至特殊字符串变量中,并继续读取下一个字符直至读取到非ASCII字符或者当前行数据的结尾为止,然后将所述特殊字符串变量中存储的所有字符转存至分词结果中,并执行步骤S207;
可以理解,非ASCII字符是指英文字符、中文字符、停词、空格等字符。
步骤S207:更新读取位置,具体为:根据步骤S205或步骤S206读取的字节数进行更新。
步骤S208:判断当前读取位置是否为当前行数据的结尾,若不是结尾,则返回步骤S201以继续读取下一个字符;若是结尾,则执行步骤S103。
本发明实施例提供的分词方法,可以识别中文文本中的日期、英文名称等非中文词汇,在保持高效分词的同时,也保持了较高的准确率。
本发明实施例提供的分词方法,采用C++语言实现,相比于其它语言,C++作为一种静态类型的语言,既能保持面向对象的特性,又兼有C语言的速度,底层的内存分配采用jemalloc(jemalloc是一种高效的底层内存管理库,在多线程环境下,能够提升大约20%的效率,由于在分词过程中需要不同的分配和释放内存,势必会影响分词效率,通过把标准glibc中的malloc/free方法替换为jemalloc库中的malloc/free,可以获得可观的性能提升),更好地应对了多线程中内存分配的高效率场景,提高了分词速度。
在上述各实施例的基础上,如图3所示,作为一种可实施方式,步骤S104中,比较两次分词过程的分词结果以确定给定的文本数据的最终分词结果,包括:
比较两次分词过程的分词结果数量,以分词结果数量多的分词结果作为给定的文本数据的最终分词结果。
可以理解,分词结果数量是指分词结果中的单元词汇个数。
若两次分词过程的分词结果数量相同,则比较两次分词过程的分词结果中出现的单个词的频度,以单个词的频度高的分词结果作为给定的文本数据的最终分词结果。
若两次分词过程的分词结果数量相同,并且两次分词过程的分词结果中出现的单个词的频度相同,则比较两次分词过程的分词结果的方差,以方差小的分词结果作为给定的文本数据的最终分词结果。
若两次分词过程的分词结果数量相同,两次分词过程的分词结果中出现的单个词的频度相同,以及两次分词过程的分词结果的方差相同,则以文本数据读取顺序为从右到左的分词过程的分词结果作为给定的文本数据的最终分词结果。
为了验证本发明提供的分词方法的有效性,本发明还提供有两幅分词效果的示意图,如图4和图5所示。图4为含有英文和数字的混合型中文文本的分词结果示意图;图5为含有数字和其他特殊字符的混合型中文文本的分词结果示意图。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (6)
1.一种基于C++语言的混合型中文文本分词方法,其特征在于,一个给定的文本数据的分词过程包括第一次分词过程和第二次分词过程;第一次分词过程的文本数据读取顺序和第二次分词过程的文本数据读取顺序相反;
其中,第一次分词过程或第二次分词过程包括以下步骤:
步骤1:加载词语词库和对应的词频词库,并建立双数组tire树;
步骤2:按照约定的文本数据读取顺序从给定的文本数据中读取一行数据,然后对当前行数据进行分词;
步骤3:判断给定的文本数据是否已经读取完毕,若没有,则返回步骤2;若读取完毕,则执行步骤4;
步骤4:判断给定的文本数据的分词过程是否结束,若结束,则比较两次分词过程的分词结果以确定给定的文本数据的最终分词结果。
2.根据权利要求1所述的方法,其特征在于,步骤2中,对当前行数据进行分词,包括:
步骤2.1:按照约定的文本数据读取顺序读取当前行数据中的一个字符;
步骤2.2:判断读取的当前字符是否为UTF-8字符:若是,则执行步骤2.3;若不是,则执行步骤2.4;
步骤2.3:判断当前字符的UTF-8编码范围,确定当前字符的长度;将包括当前字符在内及其前面的所有连续UTF-8字符与预先建立的双数组tire树进行比较,并判断是否已经匹配到叶子节点:若已经匹配到叶子节点,则将当前匹配结果存储至分词结果中,然后执行步骤2.7;若未匹配到叶子节点,则将当前匹配结果存储至临时分词结果变量中,然后执行步骤2.7;
步骤2.4:判断读取的当前字符是否为英文字符:若是,则执行步骤2.5;若不是,则执行步骤2.6;
步骤2.5:先将当前英文字符之前的匹配结果存储至分词结果中,然后将当前英文字符存储至字符串变量中,并继续读取下一个字符直至读取到非英文字符或者当前行数据的结尾为止,然后将所述字符串变量中存储的所有字符转存至分词结果中,并执行步骤2.7;
步骤2.6:若读取的当前字符不属于UTF-8字符且也不属于英文字符,则确定当前字符为ASCII字符,则先将当前ASCII字符之前的匹配结果存储至分词结果中,然后将当前ASCII字符存储至特殊字符串变量中,并继续读取下一个字符直至读取到非ASCII字符或者当前行数据的结尾为止,然后将所述特殊字符串变量中存储的所有字符转存至分词结果中,并执行步骤2.7;
步骤2.7:更新读取位置;
步骤2.8:判断当前读取位置是否为当前行数据的结尾,若不是结尾,则返回步骤2.1以继续读取下一个字符;若是结尾,则执行步骤3。
3.根据权利要求1或2所述的方法,其特征在于,步骤4中,比较两次分词过程的分词结果以确定给定的文本数据的最终分词结果,包括:
比较两次分词过程的分词结果数量,以分词结果数量多的分词结果作为给定的文本数据的最终分词结果。
4.根据权利要求3所述的方法,其特征在于,步骤4中,比较两次分词过程的分词结果以确定给定的文本数据的最终分词结果,还包括:
若两次分词过程的分词结果数量相同,则比较两次分词过程的分词结果中出现的单个词的频度,以单个词的频度高的分词结果作为给定的文本数据的最终分词结果。
5.根据权利要求4所述的方法,其特征在于,步骤4中,比较两次分词过程的分词结果以确定给定的文本数据的最终分词结果,还包括:
若两次分词过程的分词结果数量相同,并且两次分词过程的分词结果中出现的单个词的频度相同,则比较两次分词过程的分词结果的方差,以方差小的分词结果作为给定的文本数据的最终分词结果。
6.根据权利要求5所述的方法,其特征在于,步骤4中,比较两次分词过程的分词结果以确定给定的文本数据的最终分词结果,还包括:
若两次分词过程的分词结果数量相同,两次分词过程的分词结果中出现的单个词的频度相同,以及两次分词过程的分词结果的方差相同,则以文本数据读取顺序为从右到左的分词过程的分词结果作为给定的文本数据的最终分词结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110077065.6A CN113033193B (zh) | 2021-01-20 | 2021-01-20 | 一种基于c++语言的混合型中文文本分词方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110077065.6A CN113033193B (zh) | 2021-01-20 | 2021-01-20 | 一种基于c++语言的混合型中文文本分词方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113033193A true CN113033193A (zh) | 2021-06-25 |
CN113033193B CN113033193B (zh) | 2024-04-16 |
Family
ID=76459968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110077065.6A Active CN113033193B (zh) | 2021-01-20 | 2021-01-20 | 一种基于c++语言的混合型中文文本分词方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113033193B (zh) |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020003898A1 (en) * | 1998-07-15 | 2002-01-10 | Andi Wu | Proper name identification in chinese |
CN101071420A (zh) * | 2007-06-22 | 2007-11-14 | 腾讯科技(深圳)有限公司 | 一种切分索引分词的方法及系统 |
CN101655841A (zh) * | 2009-09-28 | 2010-02-24 | 章森 | 汉语文本全分词的一种递归方法 |
CN102270234A (zh) * | 2011-08-01 | 2011-12-07 | 北京航空航天大学 | 一种图像搜索方法及其搜索引擎 |
CN102411568A (zh) * | 2010-09-20 | 2012-04-11 | 苏州同程旅游网络科技有限公司 | 基于旅游业特征词库的中文分词方法 |
CN102929902A (zh) * | 2012-07-05 | 2013-02-13 | 江苏新瑞峰信息科技有限公司 | 一种基于中文检索的分词方法及装置 |
CN104252542A (zh) * | 2014-09-29 | 2014-12-31 | 南京航空航天大学 | 一种基于词库的动态规划中文分词方法 |
CN104991889A (zh) * | 2015-06-26 | 2015-10-21 | 江苏科技大学 | 一种基于模糊分词的非多字词错误自动校对方法 |
CN108509419A (zh) * | 2018-03-21 | 2018-09-07 | 山东中医药大学 | 中医药古籍文献分词和词性标引方法及系统 |
CN109800412A (zh) * | 2018-12-10 | 2019-05-24 | 鲁东大学 | 一种中文分词和大数据信息检索方法及装置 |
CN109800427A (zh) * | 2018-12-28 | 2019-05-24 | 北京金山安全软件有限公司 | 一种分词方法、装置、终端及计算机可读存储介质 |
CN109918664A (zh) * | 2019-03-05 | 2019-06-21 | 北京声智科技有限公司 | 分词方法和装置 |
CN110532569A (zh) * | 2019-09-05 | 2019-12-03 | 浪潮软件股份有限公司 | 一种基于中文分词的数据碰撞方法及系统 |
WO2020007027A1 (zh) * | 2018-07-04 | 2020-01-09 | 平安科技(深圳)有限公司 | 线上问答方法、装置、计算机设备和存储介质 |
CN110795938A (zh) * | 2019-11-11 | 2020-02-14 | 北京小米智能科技有限公司 | 文本序列分词方法、装置及存储介质 |
CN111178070A (zh) * | 2019-12-25 | 2020-05-19 | 平安医疗健康管理股份有限公司 | 基于分词的单词序列获取方法、装置和计算机设备 |
CN111523323A (zh) * | 2020-04-26 | 2020-08-11 | 梁华智能科技(上海)有限公司 | 一种中文分词的消歧处理方法和系统 |
CN111832299A (zh) * | 2020-07-17 | 2020-10-27 | 成都信息工程大学 | 一种中文分词系统 |
-
2021
- 2021-01-20 CN CN202110077065.6A patent/CN113033193B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020003898A1 (en) * | 1998-07-15 | 2002-01-10 | Andi Wu | Proper name identification in chinese |
CN101071420A (zh) * | 2007-06-22 | 2007-11-14 | 腾讯科技(深圳)有限公司 | 一种切分索引分词的方法及系统 |
CN101655841A (zh) * | 2009-09-28 | 2010-02-24 | 章森 | 汉语文本全分词的一种递归方法 |
CN102411568A (zh) * | 2010-09-20 | 2012-04-11 | 苏州同程旅游网络科技有限公司 | 基于旅游业特征词库的中文分词方法 |
CN102270234A (zh) * | 2011-08-01 | 2011-12-07 | 北京航空航天大学 | 一种图像搜索方法及其搜索引擎 |
CN102929902A (zh) * | 2012-07-05 | 2013-02-13 | 江苏新瑞峰信息科技有限公司 | 一种基于中文检索的分词方法及装置 |
CN104252542A (zh) * | 2014-09-29 | 2014-12-31 | 南京航空航天大学 | 一种基于词库的动态规划中文分词方法 |
CN104991889A (zh) * | 2015-06-26 | 2015-10-21 | 江苏科技大学 | 一种基于模糊分词的非多字词错误自动校对方法 |
CN108509419A (zh) * | 2018-03-21 | 2018-09-07 | 山东中医药大学 | 中医药古籍文献分词和词性标引方法及系统 |
WO2020007027A1 (zh) * | 2018-07-04 | 2020-01-09 | 平安科技(深圳)有限公司 | 线上问答方法、装置、计算机设备和存储介质 |
CN109800412A (zh) * | 2018-12-10 | 2019-05-24 | 鲁东大学 | 一种中文分词和大数据信息检索方法及装置 |
CN109800427A (zh) * | 2018-12-28 | 2019-05-24 | 北京金山安全软件有限公司 | 一种分词方法、装置、终端及计算机可读存储介质 |
CN109918664A (zh) * | 2019-03-05 | 2019-06-21 | 北京声智科技有限公司 | 分词方法和装置 |
CN110532569A (zh) * | 2019-09-05 | 2019-12-03 | 浪潮软件股份有限公司 | 一种基于中文分词的数据碰撞方法及系统 |
CN110795938A (zh) * | 2019-11-11 | 2020-02-14 | 北京小米智能科技有限公司 | 文本序列分词方法、装置及存储介质 |
CN111178070A (zh) * | 2019-12-25 | 2020-05-19 | 平安医疗健康管理股份有限公司 | 基于分词的单词序列获取方法、装置和计算机设备 |
CN111523323A (zh) * | 2020-04-26 | 2020-08-11 | 梁华智能科技(上海)有限公司 | 一种中文分词的消歧处理方法和系统 |
CN111832299A (zh) * | 2020-07-17 | 2020-10-27 | 成都信息工程大学 | 一种中文分词系统 |
Non-Patent Citations (1)
Title |
---|
GUOQING XIA ET AL.: "Lexicon-based semi-CRF for Chinese clinical text word segmentation", 《2017 INTERNATIONAL CONFERENCE ON PROGRESS IN INFORMATICS AND COMPUTING (PIC)》, 17 May 2018 (2018-05-17) * |
Also Published As
Publication number | Publication date |
---|---|
CN113033193B (zh) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105893349B (zh) | 类目标签匹配映射方法及装置 | |
CN108776762B (zh) | 一种数据脱敏的处理方法及装置 | |
JP6335898B2 (ja) | 製品認識に基づく情報分類 | |
CN111159412B (zh) | 分类方法、装置、电子设备及可读存储介质 | |
CN106776495B (zh) | 一种文档逻辑结构重建方法 | |
US20240143644A1 (en) | Event detection | |
CN109858025B (zh) | 一种地址标准化语料的分词方法及系统 | |
CN113901214B (zh) | 表格信息的提取方法、装置、电子设备及存储介质 | |
CN114329112A (zh) | 内容审核方法、装置、电子设备及存储介质 | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN116414824A (zh) | 行政区划信息识别和标准化处理的方法、装置及存储介质 | |
CN114201756A (zh) | 一种智能合约代码片段的漏洞检测方法和相关装置 | |
CN108427769B (zh) | 一种基于社交网络的人物兴趣标签提取方法 | |
CN113033193A (zh) | 一种基于c++语言的混合型中文文本分词方法 | |
CN104573098B (zh) | 基于Spark系统的大规模对象识别方法 | |
CN114840642A (zh) | 事件抽取方法、装置、设备及存储介质 | |
CN110866397A (zh) | 一种基于Ternary Search Trie的电力设备模型特征匹配方法 | |
CN113420564B (zh) | 一种基于混合匹配的电力铭牌语义结构化方法及系统 | |
CN112819622B (zh) | 一种信息的实体关系联合抽取方法、装置及终端设备 | |
CN115438274A (zh) | 基于异质图卷积网络的虚假新闻识别方法 | |
CN117540729A (zh) | 地址检测方法、装置、计算机设备及计算机可读存储介质 | |
CN113837634A (zh) | 一种基于相似度的行政区划匹配方法及装置 | |
CN109657180B (zh) | 一种智能化网页内容自动模糊抽取系统 | |
CN109299442A (zh) | 汉语篇章主次关系识别方法和系统 | |
CN103150376A (zh) | 一种行业应用软件词根表的构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |