CN111160014A - 一种智能分词方法 - Google Patents

一种智能分词方法 Download PDF

Info

Publication number
CN111160014A
CN111160014A CN201911221374.5A CN201911221374A CN111160014A CN 111160014 A CN111160014 A CN 111160014A CN 201911221374 A CN201911221374 A CN 201911221374A CN 111160014 A CN111160014 A CN 111160014A
Authority
CN
China
Prior art keywords
word
word segmentation
words
segmentation result
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911221374.5A
Other languages
English (en)
Other versions
CN111160014B (zh
Inventor
孙晓光
刘为民
邵飞虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Borui Tongyun Technology Co Ltd
Original Assignee
Beijing Borui Tongyun Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Borui Tongyun Technology Co Ltd filed Critical Beijing Borui Tongyun Technology Co Ltd
Priority to CN201911221374.5A priority Critical patent/CN111160014B/zh
Publication of CN111160014A publication Critical patent/CN111160014A/zh
Application granted granted Critical
Publication of CN111160014B publication Critical patent/CN111160014B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明实施例涉及一种智能分词方法,所述智能分词方法包括:构建基础词典;构建学习词典;当接收到待分词语句时,利用基础词典对待分词语句进行分词,得到第一分词结果,并利用学习词典对待分词语句进行分词,得到第二分词结果;若第一分词结果和第二分词结果不同,则利用第一分词结果对应的词语个数和所述基础词典的权重进行计算,得到第一分词结果对应的第一匹配度,并利用第二分词结果对应的词语个数和学习词典的权重进行计算,得到第二分词结果对应的第二匹配度;将第一匹配度和第二匹配度中值大的匹配度对应的分词结果作为最终分词结果。

Description

一种智能分词方法
技术领域
本发明涉及数据处理技术领域,尤其涉及一种智能分词方法。
背景技术
中文的表达方式是由汉字作为最小单位,但是在自然语言处理中,词是最小能独立运行的语言单位,由于汉语不同于西方语言,词之间没有明显的分隔。在计算机进行自然语言理解方面的处理时,中文分词的结果是否正确是一个重要的前提。目前中文分词的方法主要分为三类:机械分类法、语义分词法和人工智能分词法。其中每个方法都有自己的优缺点,也有适合的使用场景。
在健康方面的自然语言处理,由于专业性强,有的词不是人们常用词汇,专业术语中合成词比较多,如果采用常用的分词方法不容易获得比较好的分词结果。比如“香港脚有什么特点”,分词结果为“香港/脚/有/什么/特点”,其中“香港脚”分为两个词后,在后续处理时就不能语义识别为疾病名称。
发明内容
本发明的目的是针对现有技术的缺陷,提供了一种智能分词方法,为自然语言处理提供一个可靠的保障。
为了实现上述目的,本发明实施例提供了一种智能分词方法,该方法包括:
构建基础词典;
构建学习词典;
当接收到待分词语句时,利用所述基础词典对所述待分词语句进行分词,得到第一分词结果,并利用所述学习词典对所述待分词语句进行分词,得到第二分词结果;
若所述第一分词结果和第二分词结果相同,则将所述第一分词结果或第二分词结果做为最终分词结果;
若所述第一分词结果和第二分词结果不同,则利用第一分词结果对应的词语个数和所述基础词典的权重进行计算,得到所述第一分词结果对应的第一匹配度,并利用第二分词结果对应的词语个数和所述学习词典的权重进行计算,得到所述第二分词结果对应的第二匹配度;
将所述第一匹配度和第二匹配度中值大的匹配度对应的分词结果作为最终分词结果。
优选的,所述构建基础词典包括:通过爬虫技术对预设的多个网页的抓取,获取多个词语,利用获取到的多个词语构建基础词典。
优选的,所述构建学习词典包括:获取语料,并对所述语料进行预处理,得到精语料;对所述精语料进行分词,得到第一词语候选集;对所述第一词语候选集中的词语进行过滤,得到第二词语候选集;计算所述第二词语候选集中每个词语的成词概率;利用所述第二词语候选集中成词概率大于预设的第一阈值的词语构建学习词典。
优选的,所述预处理包括:全角转半角,删除标点符合和特殊符号,删除预设的无关联词语。
优选的,所述对所述第一词语候选集中的词语进行过滤,得到第二词语候选集,包括:对所述第一候选集进行如下处理,得到所述第二词语候选集:将所述第一词语候选集中已包含在所述基础词典中的词语删除;将所述第一词语候选集中出现次数低于预设的第二阈值的词语删除;将所述第一词语候选集中出现次数高于预设的第三阈值的词语,确定为冗余词语;将所述冗余词语进行分词,得到多个冗余分词,针对每个冗余分词,利用该冗余分词的出现次数及所述冗余词语的出现次数确定该冗余分词的置信度;若该冗余分词的置信度小于预设的第一置信度阈值,则删除所述冗余词汇中的该冗余分词;若该冗余分词的置信度不小于预设的第一置信度阈值且小于第二置信度阈值,则将所述冗余词语和该冗余分词均作为单独词汇保留在所述第一候选集中;若该冗余分词的置信度不小于预设的第二置信度阈值且小于第二置信度阈值,则在所述第一候选集中保留该冗余分词且删除所述冗余词语。
优选的,所述计算所述第二词语候选集中每个词语的成词概率,包括:利用二元语法Bigram模型计算所述第二词语候选集中每个词语的成词概率。
优选的,所述学习词典采用首字哈希hash值和字典Tire树映射的方式构建,其中,所述hash值用于快速查询词首,所述Tire树用于快速查找词首开头的词语。
优选的,所述利用所述学习词典对所述待分词语句进行分词,得到第二分词结果,包括:利用所述学习词典,分别通过正向最大匹配的方式或逆向最大匹配方式对所述待分词语句进行分词,得到第二分词结果。
优选的,通过正向最大匹配的方式对所述待分词语句进行分词,包括:将所述待分词语句的第一个字作为词开始位置;确定词开始位置对应的字的hash值;根据所述hash值查找对应的Tire树;若查找到对应的Tire树,对所述词开始位置对应的字以后的每个字沿Tire树进行查找,查找到不匹配为止,记录Tire树匹配到的词作为分词结果,把词开始位置更新为匹配到的最后一个词的后一个字,执行确定词开始位置对应的字的hash值;若查找不到对应的Tire树,把该字作为分词结果,词开始位置向后移动一个字,执行确定词开始位置对应的字的hash值。
优选的,通过逆向最大匹配的方式对所述待分词语句进行分词,包括:将所述待分词语句的倒数第二个字作为匹配位置;确定匹配位置对应的字的hash值;根据所述hash值查找对应的Tire树;若查找到对应的Tire树,把查到的最大查询结果和其他查询结果进行比较,如果相同,把所述最大查询结果作为分词结果,如果不同,将所述最大查询结果拆分为匹配结果和未匹配结果,均作为分词结果,把匹配位置更新为前一个字,执行所述确定匹配位置对应的字的hash值;若查找不到对应的Tire树,把匹配位置更新为前一个字,执行所述确定匹配位置对应的字的hash值。
本发明实施例提供的一种智能分词方法,通过构建基础词典和学习词典,从而分别利用基础词典和学习词典对语句进行分词,并将基于基础词典和学习词典的分词结果进行计算,选出匹配度较高的分词结果作为最终分析结果。该方法可有效提高分词的正确率,为自然语言处理提供一个可靠的保障。
附图说明
图1为本发明实施例提供的一种智能分词方法的流程示意图;
图2为本发明实施例提供的一种学习词典构建方法的流程示意图;
图3为本发明实施例提供的一种对语料分词方法的流程示意图;
图4为本发明实施例提供的一种正向最大匹配方法的流程示意图;
图5为本发明实施例提供的一种逆向最大匹配方法的流程示意图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
本发明实施例提供的一种智能分词方法,该方法应用于服务器。
如图1所示,为该智能分词方法的流程示意图。该智能分词方法包括:
步骤101,构建基础词典;
具体的,在一个例子中,构建基础词典可以具体为:通过爬虫技术对预设的多个网页的抓取,获取多个词语,利用获取到的多个词语构建基础词典。
基础词典是指不需要学习可以直接添加到词典中的专有词。主要原因是一方面,这些词获取比较容易,能够从权威的网站直接获取,不需要进行二次加工处理。另一方面这部分词有一种是合成名词,如果拆分没有意义,以健康领域为例,比如“真菌性尿路感染”,“尿路结石”,还有一种是专有名词,通过人工智能的方式也不容易学习到的词汇,比如“库欣综合征”,因为这种名词只有在特定领域才会出现,即使有足够大的语料库,也可能出现频率比较低达不到成词标准。
因此,基础词典通过爬虫技术就可以实现,通过对既定网站规则网页的抓取,直接获取到专业领域的词汇,在健康领域,如疾病、症状等词汇。
需要说明的是,步骤101和步骤102不限定先后顺序。
步骤102,构建学习词典;
具体的,在一个例子中,如图2所示,构建学习词典可以包括:
步骤201,获取语料,并对语料进行预处理,得到精语料;
具体的,在一个例子中,预处理包括但不限于:全角转半角,删除标点符合和特殊符号,删除预设的无关联词语。
例如,对语料进行全角转半角,数字符号和英文字母替换为空格,按照标点符号和构词能力弱的特殊字、词进行字符串切分,比如“它”,“啊”,“的”,“吗”,“我们”,“请问”...这些词基本对主题没有任何贡献而且还经常出现的字或词。
步骤202,对精语料进行分词,得到第一词语候选集;
具体的,在一个例子中,如图3所示,可通过以下算法对精语料进行分词:
首先需要说明的是,将p表示精预料对应的字符串序列开始的位置,初始值为0,q表示该字符串子串结束的位置。
步骤301,确定p<序列长度是否成立;
具体的,判断p<序列长度是否成立,如果成立,则表示p没有到达字符串序列最后一个位置,则执行步骤302,否则结束本流程;
步骤302,确定q值,q=p+1;
步骤303,确定q<=序列长度是否成立;
具体的,如果成立,表示q是字符串最后或者以前的位置,则执行步骤304;如果不成立,则执行步骤309;
步骤304,取p到q的子串,并确定子串是否在已处理的子串中;
具体的,如果是,则执行步骤305,如果否,执行步骤306;
步骤305,词频+1;
具体的,执行完本步骤后,执行步骤308。
步骤306,把子串添加到已处理子串中;
步骤307,词频设置为1;
具体的,执行完本步骤后,执行步骤308。
步骤308,q+1;
具体的,执行本步骤后,返回执行步骤303。
步骤309,p+1;
具体的,执行本步骤后,然后执行步骤301。
具体的,直到p到达子串的最后一个位置,所有可能的子串作为分析添加到第一词语候选集中。
步骤203,对第一词语候选集中的词语进行过滤,得到第二词语候选集;
具体的,在一个例子中,如图4所示,对第一词语候选集中的词语进行过滤,得到第二词语候选集,可以包括:
对第一候选集进行如下处理,得到第二词语候选集:
将第一词语候选集中已包含在基础词典中的词语删除,并将第一词语候选集中出现次数低于预设的第二阈值的词语删除。
将第一词语候选集中出现次数高于预设的第三阈值的词语,确定为冗余词语,将所述冗余词语进行分词,得到多个冗余分词,针对每个冗余分词,利用该冗余分词的出现次数及冗余词语的出现次数确定该冗余分词的置信度。若该冗余分词的置信度小于预设的第一置信度阈值,则删除冗余词汇中的该冗余分词;若该冗余分词的置信度不小于预设的第一置信度阈值且小于第二置信度阈值,则将冗余词语和该冗余分词均作为单独词汇保留在第一候选集中;若该冗余分词的置信度不小于预设的第二置信度阈值且小于第二置信度阈值,则在第一候选集中保留该冗余分词且删除冗余词语。
在一个具体的例子中,经过分词后的第一词语候选集,需要进行结果过滤,因为上述的算法只把一个句子中所有可能子的组合都提取出来,这些结果中一部分如果已经添加到基础词典,或者经过训练的学习词典中的词,会是一种重复性工作,浪费计算资源,因此首先把第一词语候选集中存在已有词典中的词过滤掉。
上述过滤结果中还有一部分也是可以过滤掉,剩下的部分可以分为几种类型:
A:组合频率低,比如“我想问头痛有什么症状”,结果集中“问头”,“痛有”,“痛有什么”,“我想问头痛有什么症状”,这些组合只是在特定的句子中这些词才偶然组合在一起,在结果集中出现的词频为1,或者2,这些频度太低的组合待处理结果,成词的概率非常小,因此需要被过滤掉。
B:冗余组合,比如在健康领域“吃什么”,“吃啥”,“吃那些”这些组合并非真正的词,但是组合出来的词频也相对较高,这种组合可以设置一个词频阈值来消除,对词频大于2,并且词长度大于2的字符串进行筛选。首先做下述定义:
词支持度指词在文档中的次数,记为sup(C)。
已知词w1的支持度为sup(C1),词w2的支持度为sup(C2),词w=w1+w2的支持度为sup(C),则词条w1相对于词条w来说,词的置信度为
Figure BDA0002300946850000071
对结果采用以下处理:
如果词C1相对于词C的置信度小于阈值α(取经验值0.2),则认为词C是真实词的可能性比C1大,从第一词语候选集中去掉C1词。
如果词C1相对于词C的置信度大于阈值β(取经验值0.8),则认为字符串C1是真实词的可能性比词C大,从第一词语候选集中去掉词C。
如果词C1相对于C的置信度在α和β之间,表示两个词是真实词的可能性都比较大,在第一词语候选集中保留这两个词。
步骤204,计算第二词语候选集中每个词语的成词概率;
具体的,在一个例子中,计算第二词语候选集中每个词语的成词概率可以具体为利用二元语法(Bigram)模型计算所述第二词语候选集中每个词语的成词概率。
在一个具体的例子中,Bigram模型来自于N-Gram模型,N-Gram模型描述的是,当前出现哪个词,仅与前面n-1个词有关
Figure BDA0002300946850000081
如果假设当前词仅与前面一个词有关,那么n=2,上面公式就转为:
Figure BDA0002300946850000082
利用最大似然估计(MLE,Maximum Likelihood Estimation),当统计数据非常大的时候,可以用字符串出现的次数近似表示该字符串出现的概率。上面Bigram可以表示为:
Figure BDA0002300946850000083
根据测试的实际结果调整成词概率值。
步骤205,利用第二词语候选集中成词概率大于预设的第一阈值的词语构建学习词典;
具体的,在一个具体的例子中,学习词典采用首字哈希hash值和字典Tire树映射的方式构建,其中,hash值用于快速查询词首,Tire树用于快速查找词首开头的词语。
步骤103,当接收到待分词语句时,得到第一分词结果和第二分词结果,确定第一分词结果和第二分词结果是否相同;
具体的,当接收到待分词语句时,利用基础词典对待分词语句进行分词,得到第一分词结果,并利用学习词典对待分词语句进行分词,得到第二分词结果;
需要说明的是,在对待分词语句进行分词之前,不需要每次都执行构建基础词典和学习词典的步骤,可在基础词典或学习词典需要更新时,执行步骤101和步骤102。
在一个例子中,利用学习词典对待分词语句进行分词,得到第二分词结果,可以包括:
利用学习词典,分别通过正向最大匹配的方式或逆向最大匹配方式对待分词语句进行分词,得到第二分词结果。
其中,如图4所示,通过正向最大匹配的方式对所述待分词语句进行分词,包括:
步骤401,将待分词语句的第一个字作为词开始位置;
步骤402,确定词开始位置对应的字的hash值;
步骤403,根据hash值确定是否可以查找对应的Tire树;
具体的,若查找到,执行步骤404,否则,执行步骤405;
步骤404,对词开始位置沿Tire树进行查找,并把词开始位置更新为匹配到的最后一个词的后一个字;
具体的,对词开始位置对应的字以后的每个字沿Tire树进行查找,查找到不匹配为止,记录Tire树匹配到的词作为分词结果,把词开始位置更新为匹配到的最后一个词的后一个字;
在执行本步骤后,返回执行步骤402。
步骤405,把该字作为分词结果,词开始位置向后移动一个字;
在执行本步骤后,返回执行确定步骤402。
当进行到词的最后一个字时,分词结束。
其中,如图5所示,通过逆向最大匹配的方式对所述待分词语句进行分词,包括:
步骤501,将待分词语句的倒数第二个字作为匹配位置;
步骤502,确定匹配位置对应的字的hash值;
步骤503,根据hash值查找对应的Tire树,若查找到,执行步骤504,否则执行步骤505;
步骤504,把查到的最大查询结果和其他查询结果进行比较;
具体的,如果相同,把该最大查询结果作为分词结果,如果不同,将所述最大查询结果拆分为匹配结果和未匹配结果,均作为分词结果,把匹配位置更新为前一个字。在执行完本步骤后,执行步骤502。
在执行本步骤后,返回执行步骤502。
步骤505,将匹配位置更新为前一个字;
具体的,在执行完本步骤后,执行步骤502。当进行到词的第一个字时,分词结束。
步骤104,若第一分词结果和第二分词结果相同,则将第一分词结果或第二分词结果做为最终分词结果;
步骤105,若第一分词结果和第二分词结果不同,则利用第一分词结果对应的词语个数和基础词典的权重进行计算,得到第二分词结果对应的第二匹配度;
具体的,若第一分词结果和第二分词结果不同,则利用第一分词结果对应的词语个数和基础词典的权重进行计算,得到第一分词结果对应的第一匹配度,并利用第二分词结果对应的词语个数和学习词典的权重进行计算,得到第二分词结果对应的第二匹配度。
步骤106,将第一匹配度和第二匹配度中值大的匹配度对应的分词结果作为最终分词结果;
在一个具体的例子中,对上述两种分词结果可能会有两种结果,一种结果是结果相同,那说明分词没有歧义,分词的结果可以被当做最后结果输出。另一种结果是两种查询结果不同,那应该采用哪一种结果比较合适,对此采用计算权重的方式。设置基础词典权重为α,学习词典权重为β,普通分词为γ,权重值根据实际使用进行调整。假设分词结果数为n,第i个分词结果为Ci
计算方法:
Figure BDA0002300946850000111
最终结果数据值高的认为匹配度高,作为最后结果输出。
本发明实施例提供的一种智能分词方法,通过构建基础词典和学习词典,从而分别利用基础词典和学习词典对语句进行分词,并将基于基础词典和学习词典的分词结果进行计算,选出匹配度较高的分词结果作为最终分析结果。该方法可有效提高分词的正确率,为自然语言处理提供一个可靠的保障。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种智能分词方法,其特征在于,所述方法包括:
构建基础词典;
构建学习词典;
当接收到待分词语句时,利用所述基础词典对所述待分词语句进行分词,得到第一分词结果,并利用所述学习词典对所述待分词语句进行分词,得到第二分词结果;
若所述第一分词结果和第二分词结果相同,则将所述第一分词结果或第二分词结果做为最终分词结果;
若所述第一分词结果和第二分词结果不同,则利用第一分词结果对应的词语个数和所述基础词典的权重进行计算,得到所述第一分词结果对应的第一匹配度,并利用第二分词结果对应的词语个数和所述学习词典的权重进行计算,得到所述第二分词结果对应的第二匹配度;
将所述第一匹配度和第二匹配度中值大的匹配度对应的分词结果作为最终分词结果。
2.根据权利要求1所述的方法,其特征在于,所述构建基础词典具体为:
通过爬虫技术对预设的多个网页的抓取,获取多个词语,利用获取到的多个词语构建基础词典。
3.根据权利要求1所述的方法,其特征在于,所述构建学习词典具体为:
获取语料,并对所述语料进行预处理,得到精语料;
对所述精语料进行分词,得到第一词语候选集;
对所述第一词语候选集中的词语进行过滤,得到第二词语候选集;
计算所述第二词语候选集中每个词语的成词概率;
利用所述第二词语候选集中成词概率大于预设的第一阈值的词语构建学习词典。
4.根据权利要求3所述的方法,其特征在于,所述预处理具体为:全角转半角,删除标点符合和特殊符号,删除预设的无关联词语。
5.根据权利要求3所述的方法,其特征在于,所述对所述第一词语候选集中的词语进行过滤,得到第二词语候选集具体为:
对所述第一候选集进行如下处理,得到所述第二词语候选集:
将所述第一词语候选集中已包含在所述基础词典中的词语删除;
将所述第一词语候选集中出现次数低于预设的第二阈值的词语删除;
将所述第一词语候选集中出现次数高于预设的第三阈值的词语,确定为冗余词语;
将所述冗余词语进行分词,得到多个冗余分词,针对每个冗余分词,利用该冗余分词的出现次数及所述冗余词语的出现次数确定该冗余分词的置信度;
若该冗余分词的置信度小于预设的第一置信度阈值,则删除所述冗余词汇中的该冗余分词;
若该冗余分词的置信度不小于预设的第一置信度阈值且小于第二置信度阈值,则将所述冗余词语和该冗余分词均作为单独词汇保留在所述第一候选集中;
若该冗余分词的置信度不小于预设的第二置信度阈值且小于第二置信度阈值,则在所述第一候选集中保留该冗余分词且删除所述冗余词语。
6.根据权利要求3所述的方法,其特征在于,所述计算所述第二词语候选集中每个词语的成词概率具体为:
利用二元语法Bigram模型计算所述第二词语候选集中每个词语的成词概率。
7.根据权利要求1或3所述的方法,其特征在于,所述学习词典采用首字哈希hash值和字典Tire树映射的方式构建,其中,所述hash值用于快速查询词首,所述Tire树用于快速查找词首开头的词语。
8.根据权利要求7所述的方法,其特征在于,所述利用所述学习词典对所述待分词语句进行分词,得到第二分词结果具体为:
利用所述学习词典,分别通过正向最大匹配的方式或逆向最大匹配方式对所述待分词语句进行分词,得到第二分词结果。
9.根据权利要求8所述的方法,其特征在于,通过正向最大匹配的方式对所述待分词语句进行分词具体为:
将所述待分词语句的第一个字作为词开始位置;
确定词开始位置对应的字的hash值;
根据所述hash值查找对应的Tire树;
若查找到对应的Tire树,对所述词开始位置对应的字以后的每个字沿Tire树进行查找,查找到不匹配为止,记录Tire树匹配到的词作为分词结果,把词开始位置更新为匹配到的最后一个词的后一个字,执行确定词开始位置对应的字的hash值;
若查找不到对应的Tire树,把该字作为分词结果,词开始位置向后移动一个字,执行确定词开始位置对应的字的hash值。
10.根据权利要求8所述的方法,其特征在于,通过逆向最大匹配的方式对所述待分词语句进行分词具体为:
将所述待分词语句的倒数第二个字作为匹配位置;
确定匹配位置对应的字的hash值;
根据所述hash值查找对应的Tire树;
若查找到对应的Tire树,把查到的最大查询结果和其他查询结果进行比较,如果相同,把所述最大查询结果作为分词结果,如果不同,将所述最大查询结果拆分为匹配结果和未匹配结果,均作为分词结果,把匹配位置更新为前一个字,执行所述确定匹配位置对应的字的hash值;
若查找不到对应的Tire树,把匹配位置更新为前一个字,执行所述确定匹配位置对应的字的hash值。
CN201911221374.5A 2019-12-03 2019-12-03 一种智能分词方法 Active CN111160014B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911221374.5A CN111160014B (zh) 2019-12-03 2019-12-03 一种智能分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911221374.5A CN111160014B (zh) 2019-12-03 2019-12-03 一种智能分词方法

Publications (2)

Publication Number Publication Date
CN111160014A true CN111160014A (zh) 2020-05-15
CN111160014B CN111160014B (zh) 2023-05-16

Family

ID=70556349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911221374.5A Active CN111160014B (zh) 2019-12-03 2019-12-03 一种智能分词方法

Country Status (1)

Country Link
CN (1) CN111160014B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221552A (zh) * 2021-06-02 2021-08-06 浙江百应科技有限公司 一种基于深度学习的多模型分词方法、装置及电子设备
CN113362827A (zh) * 2021-06-24 2021-09-07 未鲲(上海)科技服务有限公司 语音识别方法、装置、计算机设备及存储介质
CN113486660A (zh) * 2021-06-30 2021-10-08 上海众言网络科技有限公司 适用于多用户自定义字典的中文分词词频方法及装置
CN114925686A (zh) * 2022-04-29 2022-08-19 深圳市优必选科技股份有限公司 基于词典匹配的分词方法、装置、电子设备及存储介质
CN115840800A (zh) * 2023-02-27 2023-03-24 江苏曼荼罗软件股份有限公司 患者信息匹配方法、系统、计算机及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530298A (zh) * 2012-07-06 2014-01-22 深圳市世纪光速信息技术有限公司 一种信息搜索方法和装置
CN104077275A (zh) * 2014-06-27 2014-10-01 北京奇虎科技有限公司 一种基于语境进行分词的方法和装置
CN104462051A (zh) * 2013-09-12 2015-03-25 腾讯科技(深圳)有限公司 分词方法及装置
CN105426539A (zh) * 2015-12-23 2016-03-23 成都电科心通捷信科技有限公司 一种基于词典的lucene中文分词方法
CN107301866A (zh) * 2017-06-23 2017-10-27 北京百度网讯科技有限公司 信息输入方法
CN109558595A (zh) * 2018-12-11 2019-04-02 河南恩湃高科集团有限公司 一种基于HanLP的电力设备中文分词方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530298A (zh) * 2012-07-06 2014-01-22 深圳市世纪光速信息技术有限公司 一种信息搜索方法和装置
CN104462051A (zh) * 2013-09-12 2015-03-25 腾讯科技(深圳)有限公司 分词方法及装置
CN104077275A (zh) * 2014-06-27 2014-10-01 北京奇虎科技有限公司 一种基于语境进行分词的方法和装置
WO2015196909A1 (zh) * 2014-06-27 2015-12-30 北京奇虎科技有限公司 一种分词方法和装置
CN105426539A (zh) * 2015-12-23 2016-03-23 成都电科心通捷信科技有限公司 一种基于词典的lucene中文分词方法
CN107301866A (zh) * 2017-06-23 2017-10-27 北京百度网讯科技有限公司 信息输入方法
CN109558595A (zh) * 2018-12-11 2019-04-02 河南恩湃高科集团有限公司 一种基于HanLP的电力设备中文分词方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JUNMIN YE; SONGSONG LI; GUANGQUAN HAO; SHIZI LI; YAN YANG; CONG JIN: "The prefix and suffix query of Chinese word segmentation algorithm for maximum matching" *
蔡灿民: "基于词典的智能分词系统的研究与实现" *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221552A (zh) * 2021-06-02 2021-08-06 浙江百应科技有限公司 一种基于深度学习的多模型分词方法、装置及电子设备
CN113362827A (zh) * 2021-06-24 2021-09-07 未鲲(上海)科技服务有限公司 语音识别方法、装置、计算机设备及存储介质
CN113362827B (zh) * 2021-06-24 2024-02-13 上海风和雨网络科技有限公司 语音识别方法、装置、计算机设备及存储介质
CN113486660A (zh) * 2021-06-30 2021-10-08 上海众言网络科技有限公司 适用于多用户自定义字典的中文分词词频方法及装置
CN114925686A (zh) * 2022-04-29 2022-08-19 深圳市优必选科技股份有限公司 基于词典匹配的分词方法、装置、电子设备及存储介质
CN115840800A (zh) * 2023-02-27 2023-03-24 江苏曼荼罗软件股份有限公司 患者信息匹配方法、系统、计算机及可读存储介质

Also Published As

Publication number Publication date
CN111160014B (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
CN110210029B (zh) 基于垂直领域的语音文本纠错方法、系统、设备及介质
CN110162627B (zh) 数据增量方法、装置、计算机设备及存储介质
CN109299480B (zh) 基于上下文语境的术语翻译方法及装置
CN111160014B (zh) 一种智能分词方法
WO2019196314A1 (zh) 文本信息相似度匹配方法、装置、计算机设备及存储介质
WO2018157805A1 (zh) 一种自动问答处理方法及自动问答系统
WO2020186627A1 (zh) 舆情极性预测方法、装置、计算机设备及存储介质
CN105095204B (zh) 同义词的获取方法及装置
WO2015196909A1 (zh) 一种分词方法和装置
CN107577671B (zh) 一种基于多特征融合的主题词提取方法
CN111753531A (zh) 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质
CN105068997B (zh) 平行语料的构建方法及装置
CN111967258B (zh) 一种构建共指消解模型的方法、共指消解的方法和介质
CN110096572B (zh) 一种样本生成方法、装置及计算机可读介质
CN106446018B (zh) 基于人工智能的查询信息处理方法和装置
CN111832299A (zh) 一种中文分词系统
CN110188174B (zh) 一种基于专业词汇挖掘的专业领域faq智能问答方法
CN110879834B (zh) 一种基于循环卷积网络的观点检索系统及其观点检索方法
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN109948144A (zh) 一种基于课堂教学情境的教师话语智能处理的方法
CN113221542A (zh) 一种基于多粒度融合与Bert筛选的中文文本自动校对方法
CN108491407B (zh) 一种面向代码检索的查询扩展方法
CN111460147A (zh) 一种基于语义增强的标题短文本分类方法
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN111125299A (zh) 一种基于用户行为分析的动态词库更新方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant