CN109271462A - 一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法 - Google Patents

一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法 Download PDF

Info

Publication number
CN109271462A
CN109271462A CN201811406530.0A CN201811406530A CN109271462A CN 109271462 A CN109271462 A CN 109271462A CN 201811406530 A CN201811406530 A CN 201811406530A CN 109271462 A CN109271462 A CN 109271462A
Authority
CN
China
Prior art keywords
address
cluster
value
taxpayer
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811406530.0A
Other languages
English (en)
Inventor
杨为琛
伺彦伟
张婷
李慧
祁洪波
郭冰洁
徐爱华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei Aerospace Information Technology Co Ltd
Original Assignee
Hebei Aerospace Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei Aerospace Information Technology Co Ltd filed Critical Hebei Aerospace Information Technology Co Ltd
Priority to CN201811406530.0A priority Critical patent/CN109271462A/zh
Publication of CN109271462A publication Critical patent/CN109271462A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出了一种基于K‑means算法模型的纳税人税务登记注册地址信息聚类方法,属于计算机技术领域。首先,将注册地址进行自然语言的语义挖掘处理,其中,包括词库的扩充、分词操作。对于地址分词后的结果,利用空间向量模型(VSM,Vector Space Model)转化文本向量,再采用K‑means算法对转化为文本向量地址进行聚类,采用无监督的方式选取合适聚类个数K,并将聚类结果根据需要指定结构。

Description

一种基于K-means算法模型的纳税人税务登记注册地址信息 聚类方法
技术领域
本发明涉及一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法,属于计算机技术领域。
背景技术
当前,面对纳税人信息分析时,存在纳税人企业注册地址登记中地址模糊,填写不准确,导致无法用匹配的方式判断是否存在多个纳税人在同一地址进行了注册。并且,由于汉字的异构性提升了对同一地址识别的难度,进而导致无法对纳税人企业注册地址登记中的地址信息进行准确识别。
发明内容
本发明为了解决现有技术中无法对纳税人企业注册地址登记中的地址信息进行准确识别的技术问题,提出了一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法,所采取的技术方案如下:
一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法,所述地址信息聚类方法包括:
步骤一、获取地址样本数据
步骤二、利用分词过程和补充字典方式对所述纳税人税务登记注册地址中的文字信息进行语义挖掘;
步骤三、利用向量空间模型将所述纳税人税务登记注册地址中的地址文本信息转化为地址向量;
步骤四、利用TF-IDF方法度量所述地址向量中的特征向量并获得所述纳税人税务登记注册地址信息中的每一个地址词在总样本中的权重值;
步骤五、利用手肘法与K-means聚类算法中当聚类个数小于实际聚类个数后SSE值随着聚类个数K的增加而骤减的特性相结合,确定SSE减幅最小时所对应的K值,作为地址聚类个数;利用已确定聚类个数K的K-means聚类算法对所述地址向量进行聚类处理,对所述纳税人税务登记注册地址中包含的每个地址信息返回相应的类标,具有相同类标的地址归为一类,进而获得纳税人税务登记注册地址信息的聚类结果。
进一步地,步骤二所述的语义挖掘具体过程包括:
第一步、利用JieBa分词策略结合Trie树结构对所述纳税人税务登记注册地址的文字进行词图扫描,对所述纳税人税务登记注册地址的文字进行分词过程处理,将所述纳税人税务登记注册地址中的文字信息按照能分为词的所有情况生成有向无环图;
第二步、利用Http Client爬取网络页面,Jsoup拆分页面数据,获取所述纳税人税务登记注册地址所在区域的个行政区划、街道和小区的地址数据,并将所述地址数据补充到分词的补充字典中。
进一步地,步骤四所述每一个地址词在总样本中的权重值的具体过程包括:
第1步、利用纳税人税务登记注册地址信息中出现的地址词w在文档d中出现的次数count(w,d)和文档d中的总次数size(d)的比值模型计算获得词频值,所述比值模型为:
其中,文档d代表所述总样本中的一个文档;
第2步、利用逆向文件词频计算模型获取地址信息此在文档中的逆向文件词频值,所述逆向文件词频计算模型为:
其中,n表示总文档中的文件个数,docs(w,D)表示包含地址词w的文件数量;
第3步、利用TF-IDF权重模型计算所述地址词w的TF-IDF值,所述TF-IDF权重模型如下:
wTF-IDF=TF×IDF
通过获得TF-IDF值即为所述地址词w在总样本中的权重值。
进一步地,所述TF-IDF值高低判断原则为:所述地址词w在文档d中出现的频率越高,并且在总文档中出现的频率最低时,所述地址词w具有的TF-IDF值为高。
进一步地,步骤五获得所述纳税人税务登记注册地址信息的聚类结果的具体过程包括:
步骤1、将样本数据划分为K个类簇:利用K-means++的方式选取K个地址向量作为初始聚类中心{μ1,μ2,…,μn},并且每个聚类中心对应一个类簇;
步骤2、利用采用欧氏距离模型计算每个样本与聚类中心的距离:所述欧氏距离模型如下:
dist=||xji||2
其中,xj表示样本;μi表示聚类中心;
步骤3、根据每个样本与聚类中心的距离最近原则,将各个样本分别分配到样本与聚类中心距离最近的一个类簇中;
步骤4、计算各类簇的样本均值,判断前后计算的两次样本均值是否收敛;如果不收敛,则更新聚类中心,重复步骤2和步骤3的内容直至聚类中心不再发生改变;如果收敛,则对本次聚类过程中的SSE值进行计算,获得SSE值;其中,所述样本均值计算的模型为:
其中,xi为地址样本,并且如果xi属于第K个类,dik=1,反之,则dik=0;
步骤5、判断步骤4中获得的SSE值所对应的K值是否为拐点,如果SSE值所对应的K值不是拐点,则重复步骤1至步骤4的内容直至SSE值所对应的K值为拐点;如果SSE值所对应的K值是拐点,则确定聚类个数K,得出聚类结果;其中,所述拐点为SSE减幅最小时的点。
本发明有益效果:
当前,面对纳税人信息分析时,存在纳税人企业注册地址登记中地址模糊,填写不准确,导致无法用匹配的方式判断是否存在多个纳税人在同一地址进行了注册。并且,对于由于汉字的异构性提升了对同一地址识别的难度。本发明解决了上述问题,可对存在一个地址多个纳税人进行注册进行检测,以预警存在潜在危险的企业,发现团伙企业。
利用该发明对于纳税人企业注册地址信息进行聚类,对得到的结果进行分析,同一地址识别率为百分之八十五。以上可见,对于税务工作中对于一个地址多个纳税人注册的情况可以有效地处理分析。
附图说明
图1为本发明所述聚类方法的整体流程图;
图2为本发明所述K-means算法聚类过程的流程图。
具体实施方式
下面结合具体实施例对本发明做进一步说明,但本发明不受实施例的限制。
实施例1:
一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法,首先,将注册地址进行自然语言的语义挖掘处理,其中包括词库的扩充、分词操作。对于地址分词后的结果,利用空间向量模型(VSM,Vector Space Model)转化文本向量,再采用聚类算法中基于划分的聚类算法——K-means算法对转化为文本向量地址进行聚类,采用无监督的方式选取合适聚类个数K,并将聚类结果根据需要指定结构。其中,分词:分词过程是将汉字序列按语义分为相互独立词语的过程,根据研究表明词的特征粒度与字特征粒度相比具有更好的效果,可以保留更多的“n-gram”信息,因此需对地址信息进行分词。不同于英文具有天然的分隔性,中文的分词更加复杂,本发明选用JieBa分词策略,基于Trie树结构实现高效的词图扫描,将句子中可能分为词的的所有情况,生成有向无环图(DAG)。扩充字典:由于本专利针对注册地址信息进行分析,分词字典中缺乏地址信息的词典,为保证分词准确度,本专利利用Http Client爬取网络页面,Jsoup拆分页面数据,获取河北省的各个行政区划、街道和小区的地址数据,用以分词的补充字典。
具体的,如图1所示,所述地址信息聚类方法包括:
步骤一、获取地址样本数据
步骤二、利用分词过程和补充字典方式对所述纳税人税务登记注册地址中的文字信息进行语义挖掘;
步骤三、利用TF-IDF方法度量所述地址向量中的特征向量并获得所述纳税人税务登记注册地址信息中的每一个地址词在总样本中的权重值;
步骤四、采用向量空间模型将所述纳税人税务登记注册地址中的地址文本信息转化为地址向量;
步骤五、利用手肘法与K-means聚类算法中当聚类个数小于实际聚类个数后SSE值随着聚类个数K的增加而骤减的特性相结合,确定SSE减幅最小时所对应的K值,作为地址聚类个数;利用已确定聚类个数K的K-means聚类算法对所述地址向量进行聚类处理,对所述纳税人税务登记注册地址中包含的每个地址信息返回相应的类标,具有相同类标的地址归为一类,进而获得纳税人税务登记注册地址信息的聚类结果。
其中,步骤二所述的语义挖掘具体过程包括:
第一步、利用JieBa分词策略结合Trie树结构对所述纳税人税务登记注册地址的文字进行词图扫描,对所述纳税人税务登记注册地址的文字进行分词过程处理,将所述纳税人税务登记注册地址中的文字信息按照能分为词的所有情况生成有向无环图;
第二步、利用Http Client爬取网络页面,Jsoup拆分页面数据,将河北省的各个行政区划、街道和小区地址数据获取下来,用以分词的补充字典。
步骤四所述每一个地址词在总样本中的权重值的具体过程包括:
第1步、利用纳税人税务登记注册地址信息中出现的地址词w在文档d中出现的次数count(w,d)和文档d中的总次数size(d)的比值模型计算获得词频值,所述比值模型为:
其中,文档d代表所述总样本中的一个文档;
第2步、利用逆向文件词频计算模型获取地址信息此在文档中的逆向文件词频值,所述逆向文件词频计算模型为:
其中,n表示总文档中的文件个数,docs(w,D)表示包含地址词w的文件数量;
第3步、利用TF-IDF权重模型计算所述地址词w的TF-IDF值,所述TF-IDF权重模型如下:
wTF-IDF=TF×IDF
通过获得TF-IDF值即为所述地址词w在总样本中的权重值。
针对地址信息进行聚类,首先需要对地址信息转换为向量化的表示,本发明使用向量空间模型来表示每一条地址信息,在VSM模型中,每个地址d为向量空间中的一个向量。本发明使用TF-IDF(Term Frequency–Inverse Document Frequency)来度量特征向量,TF-IDF给予每一条地址在总样本中的权重值。
TF-IDF技术:Term Frequency-Inverse Document Frequency是用于文本挖掘常用的加权技术,利用统计方法,用以评估某个词的重要程度。其中,词频(Term Frequency,TF)指某一个词在该语料文件中出现的频率。逆向文件词频(Inverse DocumentFrequency,IDF)是用于衡量一个词语普遍重要性的度量。
所述TF-IDF值高低判断原则为:所述地址词w在文档d中出现的频率越高,并且在总文档中出现的频率最低时,所述地址词w具有的TF-IDF值为高。
本实施例中,K-means属于无监督学习,需要提前指定聚类个数K,由于地址信聚类属于无法确定具体的聚类个K,本发明采用手肘法来来确定K的个数,其核心为SSE(sum ofthe squared errors,误差平方和),即根据所有样本与聚类中心的误差,代表了聚类效果的好坏。随着聚类个数K的增加,样本的划分将更加细化,相应的每个类簇间的样本之间的相似性也会越来越高,故SSE的值会随着聚类个数K的增加而减少。但是,当聚类个数K小于实际聚类个数后,每个类簇之间的聚合程度会随着K值的增大而大幅度的提高,故SSE的值会随着聚类个数K的增加而骤减。综上,本发明找到SSE减幅最小时(即拐点)所对应的K值,选为地址聚类个数。
对已转化为向量的地址信息,进行聚类,K-means聚类算法将样本数据划分为k个类簇,使每个类簇内的数据样本相似性尽可能的达,而不同类簇之间的数据样本的相似性尽可能的小,具体步骤如下:
如图2所示,步骤五获得所述纳税人税务登记注册地址信息的聚类结果的具体过程包括:
步骤1、将样本数据划分为K个类簇;利用K-means++的方式选取K个地址向量作为初始聚类中心{μ1,μ2,…,μn},并且每个聚类中心对应一个类簇;
步骤2、利用采用欧氏距离模型计算每个样本与聚类中心的距离:所述欧氏距离模型如下:
dist=||xji||2
其中,xj表示样本;μi表示聚类中心;
步骤3、根据每个样本与聚类中心的距离最近原则,将各个样本分别分配到样本与聚类中心距离最近的一个类簇中;
步骤4、计算各类簇的样本均值,判断前后计算的两次样本均值是否收敛;如果不收敛,则更新聚类中心,重复步骤2和步骤3的内容直至直至聚类中心不再发生改变;如果收敛,则对本次聚类过程中的SSE值进行计算,获得SSE值;其中,所述样本均值计算的模型为:
其中,xi为地址样本,并且如果xi属于第K个类,dik=1,反之,则dik=0;
步骤5、判断步骤4中获得的SSE值所对应的K值是否为拐点,如果SSE值所对应的K值不是拐点,则重复步骤1至步骤4的内容直至SSE值所对应的K值为拐点;如果SSE值所对应的K值是拐点,则确定聚类个数K,得出聚类结果;其中,所述拐点为SSE减幅最小时的点。
当前,面对纳税人信息分析时,存在纳税人企业注册地址登记中地址模糊,填写不准确,导致无法用匹配的方式判断是否存在多个纳税人在同一地址进行了注册。并且,对于由于汉字的异构性提升了对同一地址识别的难度。本发明解决了上述问题,可对存在一个地址多个纳税人进行注册进行检测,以预警存在潜在危险的企业,发现团伙企业。
利用该发明对于纳税人企业注册地址信息进行聚类,对得到的结果进行分析,同一地址识别率为百分之八十五。以上可见,对于税务工作中对于一个地址多个纳税人注册的情况可以有效地处理分析。
虽然本发明已以较佳的实施例公开如上,但其并非用以限定本发明,任何熟悉此技术的人,在不脱离本发明的精神和范围内,都可以做各种改动和修饰,因此本发明的保护范围应该以权利要求书所界定的为准。

Claims (5)

1.一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法,其特征在于,所述地址信息聚类方法包括:
步骤一、获取地址样本数据
步骤二、利用分词过程和补充字典方式对所述纳税人税务登记注册地址中的文字信息进行语义挖掘;
步骤三、利用向量空间模型将所述纳税人税务登记注册地址中的地址文本信息转化为地址向量;
步骤四、利用TF-IDF方法度量所述地址向量中的特征向量并获得所述纳税人税务登记注册地址信息中的每一个地址词在总样本中的权重值;
步骤五、利用手肘法与K-means聚类算法中当聚类个数小于实际聚类个数后SSE值随着聚类个数K的增加而骤减的特性相结合,确定SSE减幅最小时所对应的K值,作为地址聚类个数;利用已确定聚类个数K的K-means聚类算法对所述地址向量进行聚类处理,对所述纳税人税务登记注册地址中包含的每个地址信息返回相应的类标,具有相同类标的地址归为一类,进而获得纳税人税务登记注册地址信息的聚类结果。
2.根据权利要求1所述纳税人税务登记注册地址信息聚类方法,其特征在于,步骤二所述的语义挖掘具体过程包括:
第一步、利用JieBa分词策略结合Trie树结构对所述纳税人税务登记注册地址的文字进行词图扫描,对所述纳税人税务登记注册地址的文字进行分词过程处理,将所述纳税人税务登记注册地址中的文字信息按照能分为词的所有情况生成有向无环图;
第二步、利用Http Client爬取网络页面,Jsoup拆分页面数据,获取所述纳税人税务登记注册地址所在区域的个行政区划、街道和小区的地址数据,并将所述地址数据补充到分词的补充字典中。
3.根据权利要求1所述纳税人税务登记注册地址信息聚类方法,其特征在于,步骤四所述每一个地址词在总样本中的权重值的具体过程包括:
第1步、利用纳税人税务登记注册地址信息中出现的地址词w在文档d中出现的次数count(w,d)和文档d中的总次数size(d)的比值模型计算获得词频值,所述比值模型为:
其中,文档d代表所述总样本中的一个文档;
第2步、利用逆向文件词频计算模型获取地址信息此在文档中的逆向文件词频值,所述逆向文件词频计算模型为:
其中,n表示总文档中的文件个数,docs(w,D)表示包含地址词w的文件数量;
第3步、利用TF-IDF权重模型计算所述地址词w的TF-IDF值,所述TF-IDF权重模型如下:
wTF-IDF=TF×IDF
通过获得TF-IDF值即为所述地址词w在总样本中的权重值。
4.根据权利要求3所述纳税人税务登记注册地址信息聚类方法,其特征在于,所述TF-IDF值高低判断原则为:所述地址词w在文档d中出现的频率越高,并且在总文档中出现的频率最低时,所述地址词w具有的TF-IDF值为高。
5.根据权利要求1所述纳税人税务登记注册地址信息聚类方法,其特征在于,步骤五获得所述纳税人税务登记注册地址信息的聚类结果的具体过程包括:
步骤1、将样本数据划分为K个类簇;利用K-means++的方式选取K个地址向量作为初始聚类中心{μ1,μ2,…,μn},并且每个聚类中心对应一个类簇;
步骤2、利用采用欧氏距离模型计算每个样本与聚类中心的距离:所述欧氏距离模型如下:
dist=||xji||2
其中,xj表示样本;μi表示聚类中心;
步骤3、根据每个样本与聚类中心的距离最近原则,将各个样本分别分配到样本与聚类中心距离最近的一个类簇中;
步骤4、计算各类簇的样本均值,判断前后计算的两次样本均值是否收敛;如果不收敛,则更新聚类中心,重复步骤2和步骤3的内容直至直至聚类中心不再发生改变;如果收敛,则对本次聚类过程中的SSE值进行计算,获得SSE值;其中,所述样本均值计算的模型为:
其中,xi为地址样本,并且如果xi属于第K个类,dik=1,反之,则dik=0;
步骤5、判断步骤4中获得的SSE值所对应的K值是否为拐点,如果SSE值所对应的K值不是拐点,则重复步骤1至步骤4的内容直至SSE值所对应的K值为拐点;如果SSE值所对应的K值是拐点,则确定聚类个数K,得出聚类结果;其中,所述拐点为SSE减幅最小时的点。
CN201811406530.0A 2018-11-23 2018-11-23 一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法 Pending CN109271462A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811406530.0A CN109271462A (zh) 2018-11-23 2018-11-23 一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811406530.0A CN109271462A (zh) 2018-11-23 2018-11-23 一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法

Publications (1)

Publication Number Publication Date
CN109271462A true CN109271462A (zh) 2019-01-25

Family

ID=65190631

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811406530.0A Pending CN109271462A (zh) 2018-11-23 2018-11-23 一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法

Country Status (1)

Country Link
CN (1) CN109271462A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516040A (zh) * 2019-08-14 2019-11-29 出门问问(武汉)信息科技有限公司 文本间的语义相似性比较方法、设备及计算机存储介质
CN111291099A (zh) * 2020-05-13 2020-06-16 中邮消费金融有限公司 一种地址模糊匹配方法、系统及计算机设备
CN112184022A (zh) * 2020-09-29 2021-01-05 神州数码信息系统有限公司 一种白酒消费税风险评估方法
CN112818684A (zh) * 2021-01-29 2021-05-18 上海寻梦信息技术有限公司 地址元素排序方法、装置、电子设备及存储介质
CN112884390A (zh) * 2019-11-29 2021-06-01 北京三快在线科技有限公司 订单处理的方法、装置、可读存储介质及电子设备
CN117828382A (zh) * 2024-02-26 2024-04-05 闪捷信息科技有限公司 基于url的网络接口聚类方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744830A (zh) * 2013-12-31 2014-04-23 北京锐安科技有限公司 基于语义分析的excel文档中身份信息的识别方法
CN104376057A (zh) * 2014-11-06 2015-02-25 南京邮电大学 一种基于最大最小距离和K-means的自适应聚类方法
CN105022840A (zh) * 2015-08-18 2015-11-04 新华网股份有限公司 一种新闻信息处理方法、新闻推荐方法和相关装置
CN106897390A (zh) * 2017-01-24 2017-06-27 北京大学 基于深度度量学习的目标精确检索方法
CN108268526A (zh) * 2016-12-30 2018-07-10 中国移动通信集团北京有限公司 一种数据分类方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744830A (zh) * 2013-12-31 2014-04-23 北京锐安科技有限公司 基于语义分析的excel文档中身份信息的识别方法
CN104376057A (zh) * 2014-11-06 2015-02-25 南京邮电大学 一种基于最大最小距离和K-means的自适应聚类方法
CN105022840A (zh) * 2015-08-18 2015-11-04 新华网股份有限公司 一种新闻信息处理方法、新闻推荐方法和相关装置
CN108268526A (zh) * 2016-12-30 2018-07-10 中国移动通信集团北京有限公司 一种数据分类方法和装置
CN106897390A (zh) * 2017-01-24 2017-06-27 北京大学 基于深度度量学习的目标精确检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
文一凭等: "基于聚类分析的中文客户地址自动分组方法", 《小型微型计算机系统》 *
郭松: "商业银行基于客户行为数据的客户画像研究", 《智库时代》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516040A (zh) * 2019-08-14 2019-11-29 出门问问(武汉)信息科技有限公司 文本间的语义相似性比较方法、设备及计算机存储介质
CN112884390A (zh) * 2019-11-29 2021-06-01 北京三快在线科技有限公司 订单处理的方法、装置、可读存储介质及电子设备
CN111291099A (zh) * 2020-05-13 2020-06-16 中邮消费金融有限公司 一种地址模糊匹配方法、系统及计算机设备
CN111291099B (zh) * 2020-05-13 2020-08-14 中邮消费金融有限公司 一种地址模糊匹配方法、系统及计算机设备
CN112184022A (zh) * 2020-09-29 2021-01-05 神州数码信息系统有限公司 一种白酒消费税风险评估方法
CN112818684A (zh) * 2021-01-29 2021-05-18 上海寻梦信息技术有限公司 地址元素排序方法、装置、电子设备及存储介质
CN112818684B (zh) * 2021-01-29 2024-04-19 上海寻梦信息技术有限公司 地址元素排序方法、装置、电子设备及存储介质
CN117828382A (zh) * 2024-02-26 2024-04-05 闪捷信息科技有限公司 基于url的网络接口聚类方法及装置
CN117828382B (zh) * 2024-02-26 2024-05-10 闪捷信息科技有限公司 基于url的网络接口聚类方法及装置

Similar Documents

Publication Publication Date Title
CN109271462A (zh) 一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法
Su et al. Off-line recognition of realistic Chinese handwriting using segmentation-free strategy
CN107861939A (zh) 一种融合词向量和主题模型的领域实体消歧方法
WO2017162134A1 (zh) 用于文本处理的电子设备和方法
AU2010311067B2 (en) System and method for increasing the accuracy of optical character recognition (OCR)
Do et al. Multiview deep learning for predicting twitter users' location
CN109241256B (zh) 对话处理方法、装置、计算机设备和可读存储介质
US20230065915A1 (en) Table information extraction and mapping to other documents
CN105183833A (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
CN112527981B (zh) 开放式信息抽取方法、装置、电子设备及存储介质
CN109740642A (zh) 发票类别识别方法、装置、电子设备及可读存储介质
RU2765884C2 (ru) Идентификация блоков связанных слов в документах сложной структуры
CN110928981A (zh) 一种文本标签体系搭建及完善迭代的方法、系统及存储介质
CN110399483A (zh) 一种主题分类方法、装置、电子设备及可读存储介质
CN103310227A (zh) 基于神经网络的自动窗宽窗位提取方法
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
CN113657098A (zh) 文本纠错方法、装置、设备及存储介质
CN114997288A (zh) 一种设计资源关联方法
CN105354184A (zh) 一种使用优化的向量空间模型实现文档自动分类的方法
US20230394317A1 (en) System and method for text mining
CN115062621A (zh) 标签提取方法、装置、电子设备和存储介质
CN110515836A (zh) 一种面向软件缺陷预测的加权朴素贝叶斯方法
CN112699685A (zh) 基于标签引导的字词融合的命名实体识别方法
CN111859898B (zh) 一种基于隐藏关联网络的多领域文本隐式特征抽取方法及计算机存储介质
CN111985680A (zh) 基于胶囊网络与时序的刑事多罪名预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190125