CN107862046B - 一种基于短文本相似度的税务商品编码分类方法及系统 - Google Patents
一种基于短文本相似度的税务商品编码分类方法及系统 Download PDFInfo
- Publication number
- CN107862046B CN107862046B CN201711085221.3A CN201711085221A CN107862046B CN 107862046 B CN107862046 B CN 107862046B CN 201711085221 A CN201711085221 A CN 201711085221A CN 107862046 B CN107862046 B CN 107862046B
- Authority
- CN
- China
- Prior art keywords
- word
- classification
- commodity code
- short text
- tax
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于短文本相似度的税务商品编码分类方法及系统,所述方法包括:获取样本数据;对样本数据进行分词;获得扩展词;计算KL差异熵,以获得待分类税务商品编码与已有类别之间的差异度,根据所述差异度完成所述分类。本发明对商品文本信息进行具体分类,分为本体词和扩展词,本体词通过应用先进的分词技术对商品的短文本进行中文分词获得,扩展词集合包括索引词和缩略词,扩展词利用外部搜索引擎获得。本发明扩充了待分类词语集合后,利用KL差别熵计算模型来计算待分类词语已有类别之间的差异度,改进了该计算模型,同时引入了平滑参数,在计算其条件词频与反词频、条件概率等值时,防止分母出现0的情况,此外也提高了相似度计算的效率。
Description
技术领域
本发明涉及电子商务平台技术领域,尤其涉及一种基于短文本相似度的税务商品编码分类方法及系统。
背景技术
随着“互联网+”行动的战略部署,互联网在税务领域也发挥着巨大的作用。应用先进的互联网技术,打造全天候、全方位、全覆盖、全流程、全联通的智能的税务系统,是一件惠及企业民生的重要大事。在税务改革过程中,开票是一个关键的环节,据统计数据表明,过去五年中仅天津积累的票务数据达10亿条,达7TB,税务数据的爆炸式增加,一方面带来了信息的积累,给未来的数据分析带来了机遇,一方面也带来了挑战。
2016年国家税务总局提出在开票过程中,必须指定商品类别,并公布了4000余种商品的详细分类。通知要求必须严格按照商品编码分类要求对商品开票,做到商品实际类别与发票显示类型一致。由于商品种类规模巨大,如果通过人力对商品的种类进行浏览是不现实的。那么如何高效准确的对商品进行自动分类是一个关键问题,即如何通过商品名称确定其归属的商品类别。通过税务商品名称可知商品名称呈现典型的短文本特质,语义信息稀疏,上下文信息不足导致语义敏感性较大。商品已有的类别信息也是由一些词语构成的稀疏词语集合,通过经典的依赖概率统计的方式是行不通的。
首先是词频问题。这些方法不但依赖待分类文本的词频也依赖已有的训练文本的词频,而商品名称中出现的词频几乎是1,在训练数据中的词频也是有限的,如果待分类文本与已有历史信息没有共同的词,那么他们之间的相似度会非常小,这被称为字典不匹配问题。此外,还有上下文敏感性问题,在以后的历史信息中,一个词通过语义环境指代一个意思,而待分类短文本因为缺少上下文环境提供的意义是有限的,例如“苹果电脑”和“苹果pie”,这两个词虽然存在共同的词,但是实际上意义完全不一样。在使用经典的基于词频的方法上会导致这两个词存在相似性。
发明内容
为解决以上现有技术中存在的问题,本发明着重通过外部知识挖掘商品名称的短文本与类别短文本之间的相似度计算,包括简单的词法分析,词语缩略处理,文本上下文扩展等技术来计算短文本之间的相似度。
本发明探索利用外部信息检索技术计算短文本相似度,提出短文本相似度计算方法的同时,也提供短文本的上下文语义信息扩展及词语的分词、缩略词等词法分析的处理。
具体的,一种基于短文本相似度的税务商品编码分类方法,包括:
步骤一:获取样本数据;
步骤二:对样本数据进行分词;
步骤三:获得扩展词;
步骤四:计算KL差异熵,以获得待分类税务商品编码与已有商品编码类别之间的差异度,根据所述差异度完成所述分类。
优选的,所述步骤三中的所述扩展词包括索引词和缩略词。
优选的,所述步骤四中的计算KL差异熵的具体过程如下:
(1)使用KL散度来描述待分类商品名称θq和已有商品类别θc之间的关系,如公式1所示:
其中V是用到的字典,H是信息熵;
W:商品名称经过分词后的词;
C:是经过扩展后的所有类别集合;
θq:商品名称;
θc:商品类别;
P(w|θq):某个词在商品名称中的概率;
P(w|θc):该词在所有类别数据集中出现的概率;
(2)使用步骤二中分词后获得的本体词来计算P(w|θq),计算过程如公式2所示:
其中,QS是商品名称经过分词后的短文本词语集合,tfw,QS是词语w在QS中的词频;
(3)对公式2进行改进,如公式3所示:
其中QE是扩展后的词集合,包括本体词的扩展词和缩略词,μQ是平滑系数。
更优选的,所述步骤四中的计算KL差异熵的具体过程进一步包括如下步骤:
(4)计算P(w|θc)
其中,CE是经过扩展的类别候选集,μc是平滑系数。
更优选的,采用期望交叉熵最小原则进行μ的迭代,具体步骤如下:
(1)给μi赋初始值,假设μi=0.5
(2)计算1-μi和μi的期望
PJM(w|C)是经过平滑处理后的概率;
(3)计算μi+1
(4)若|μi-μi+1|>ε,则执行返回步骤(2),反之,则终止迭代;其中,ε=0.01。
优选的,所述样本数据是待分类的税务商品编码名称。
根据本发明的另一个方面,还提供了一种基于短文本相似度的税务商品编码分类系统,包括顺序连接的如下模块:
样本数据获取模块,用于获取样本数据;
分词模块,用于对样本数据进行分词;
扩展模块,用于获得扩展词;
KL差异熵计算模块,用于计算KL差异熵,以获得待分类税务商品编码与已有商品编码类别之间的差异度,根据所述差异度完成所述分类。
本发明具有如下优点:本发明对商品文本信息进行具体分类,分为本体词和扩展词,本体词通过应用先进的分词技术对商品的短文本进行中文分词获得,扩展词集合包括索引词和缩略词,扩展词利用外部搜索引擎获得。本发明扩充了待分类词语集合后,利用KL差别熵计算模型来计算待分类词语已有类别之间的差异度,改进了该计算模型,同时引入了平滑参数,在计算其条件词频与反词频、条件概率等值时,防止分母出现0的情况,此外也提高了相似度计算的效率。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
附图1示出了根据本发明实施方式的基于短文本相似度的税务商品编码分类方法流程图。
附图2示出了根据本发明实施方式的基于短文本相似度的税务商品编码分类系统结构图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明主要包括两个过程,文本生成过程和相似度计算过程,文本生成过程是相似度计算的基础,目的是对短文本进行词语扩展。
本发明对商品文本信息进行具体分类,分为本体词和扩展词,本体词通过应用先进的分词技术对商品的短文本进行中文分词获得,扩展词集合包括索引词和缩略词,扩展词利用外部搜索引擎获得。本发明扩充了待分类词语集合后,利用KL差别熵计算模型来计算待分类词语已有类别之间的差异度,改进了该计算模型,同时引入了平滑参数,在计算其条件词频与反词频、条件概率等值时,防止分母出现0的情况,此外也提高了相似度计算的效率。
具体的,如图1所示,本发明提供一种基于短文本相似度的税务商品编码分类方法,包括如下步骤:
S1、获得样本数据;所述样本数据就是待分类的税务商品编码名称。
S2、对样本数据进行分词;对样本数据包含的商品名称使用分词技术,即利用维基百科词库对商品名称的短文本进行分析,将商品名称按照其规则划分为不同的词,如“苹果笔记本”分词为“苹果”和“笔记本”,经过分词后得到的词语集合是短文本分类的基础,即本体词,它是未经人工干预过的高质量分类基础,且具有很大的稀疏性。
S3、获得扩展词;所述扩展词包括索引词和缩略词。
索引词是解决商品名称上下文语境确实的问题的一种有效方法。在本发明中,采用web搜索引擎来解决扩展词的问题,该方法是指通过搜索引擎搜索引词,在搜索结果中分析与其同时出现的词,若某些词与该词同时出现的频率非常大,则把这些词作为该词的扩展。
对一些词进行缩略处理是解决词语稀疏的另一种方法,有时候是标准化的一种操作。但有时候缩略词会引起过匹配的问题,本发明有效的利用缩略词这一特性,如苹果笔记本其缩略词为mac,可以有效的去除“苹果”这个词对商品的影响,加大分对的准确率。但是也有可能会产生过匹配的问题,如在商品名称中出现machine air char,缩略词为MAC,在对其进行分类的时候可能会分到电脑配件这类中。
S4、计算KL差异熵,以获得待分类税务商品编码与已有商品编码类别之间的差异度,根据所述差异度完成所述分类。即KL差异度越大,商品与该类别的差异越大,KL差异越小,商品属于该类别的可能性越大。KL的具体计算过程在下面。商品名称是典型的短文本,由国家颁布的商品编码分类标准作为规则集也是短文本构成,已经存在的历史开票数据中的数据存在开票不准确或编码分类空白的情况,只能有一部分作为样本集。
在计算KL差异熵时,本发明采用了相似度技术。具体过程如下:
首先对使用的符合进行简单说明:
W:商品名称经过分词后的词;
C:是经过扩展后的所有类别集合;
θq:商品名称;
θc:商品类别;
P(w|θq):某个词在商品名称中的概率;
P(w|θc)P(w|C):该词在所有类别数据集中出现的概率;
本发明使用KL散度来描述待分类商品名称θq和已有商品类别θc之间的关系,如公式1所示。
其中V是用到的字典,H是信息熵,使用步骤S2的本体词来计算P(w|θq),计算过程如公式2所示。
其中,QS是商品名称经过分词后的短文本词语集合,tfw,QS是词语w在QS中的词频。由于本体词集合的稀疏性特点,在本发明中增加了扩展词,对公式2进行改进,如公式3所示。
其中QE是扩展后的词集合,包括本体词的扩展词和缩略词,μQ是平滑系数,防止在计算过程中导致分母为0造成计算异常,在本发明中取一个极小值。同理计算P(w|θc)
其中,CE是经过扩展的类别候选集,μc是平滑系数。
本发明中,为了得到平滑效果好的平滑参数μ,采用期望交叉熵最小原则进行μ的迭代,具体步骤如下:
(1)给μi赋初始值,假设μi=0.5
(2)计算1-μi和μi的期望
PJM(w|C)是经过平滑处理后的概率。
(3)计算μi+1
(4)若|μi-μi+1|>ε,则执行返回步骤(2),反之,则终止迭代。
本发明中ε=0.01。
如图2所示,根据本发明的另一个方面,还提供了一种基于短文本相似度的税务商品编码分类系统100,包括顺序连接的如下模块:
样本数据获取模块101,用于获取样本数据;
分词模块102,用于对样本数据进行分词;
扩展模块103,用于获得扩展词;
KL差异熵计算模块104,用于计算KL差异熵,以获得待分类税务商品编码与已有类别之间的差异度,根据所述差异度完成所述分类。
本发明的技术关键点在于:
1、利用外部搜索引擎对短文本进行扩展,将待分类的文本变为本体词和扩展词,缩略词的集合。
2、提出使用KL离散熵的方法来计算词与候选集的差异度,并对该方法基于关键点1进行了改进。
3、加入了平滑参数,抑制了计算过程中的异常。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (7)
1.一种基于短文本相似度的税务商品编码分类方法,其特征在于,包括:
步骤一:获取样本数据;
步骤二:对样本数据进行分词;
步骤三:获得扩展词;
步骤四:计算KL差异熵,以获得待分类税务商品编码与已有商品编码类别之间的差异度,根据所述差异度完成所述分类;
所述步骤四中的计算KL差异熵的具体过程如下:
(1)使用KL散度来描述待分类商品名称θq和已有商品类别θc之间的关系,如公式1所示:
其中V是用到的字典,H是信息熵;
W:商品名称经过分词后的词;
CE是经过扩展的类别候选集;
θq:商品名称;
θc:商品类别;
P(w|θq):某个词在商品名称中的概率;
P(w|θc):该词在所有类别数据集中出现的概率;
(2)使用步骤二中分词后获得的本体词来计算P(w|θq),计算过程如公式2所示:
其中,QS是商品名称经过分词后的短文本词语集合,tfw,QS是词语w在QS中的词频;
(3)对公式2进行改进,如公式3所示:
其中QE是扩展后的词集合,包括本体词的扩展词和缩略词,μQ是平滑系数;
所述步骤四中的计算KL差异熵的具体过程进一步包括如下步骤:
(4)根据以下公式4计算P(w|θc)
其中,CE是经过扩展的类别候选集,μc是平滑系数。
2.根据权利要求1所述的一种基于短文本相似度的税务商品编码分类方法,其特征在于,所述步骤三中的所述扩展词包括索引词和缩略词。
3.根据权利要求1或2所述的一种基于短文本相似度的税务商品编码分类方法,其特征在于,采用期望交叉熵最小原则进行μ的迭代,具体步骤如下:
(1)给μi赋初始值,假设μi=0.5
(2)计算1-μi和μi的期望
其中,PJM(w|C)是经过
平滑处理后的概率;
(3)计算μi+1
(4)若|μi-μi+1|>ε,则执行返回步骤(2),反之,则终止迭代;其中,ε=0.01。
4.根据权利要求1所述的一种基于短文本相似度的税务商品编码分类方法,其特征在于,所述样本数据是待分类的税务商品编码名称。
5.一种基于短文本相似度的税务商品编码分类系统,包括顺序连接的如下模块:
样本数据获取模块,用于获取样本数据;
分词模块,用于对样本数据进行分词;
扩展模块,用于获得扩展词;
KL差异熵计算模块,用于计算KL差异熵,以获得待分类税务商品编码与已有商品编码类别之间的差异度,根据所述差异度完成所述分类;
所述计算KL差异熵的具体过程如下:
(1)使用KL散度来描述待分类商品名称θq和已有商品类别θc之间的关系,如公式1所示:
其中V是用到的字典,H是信息熵;
W:商品名称经过分词后的词;
CE是经过扩展的类别候选集;
θq:商品名称;
θc:商品类别;
P(w|θq):某个词在商品名称中的概率;
P(w|θc):该词在所有类别数据集中出现的概率;
(2)使用步骤二中分词后获得的本体词来计算P(w|θq),计算过程如公式2所示:
其中,QS是商品名称经过分词后的短文本词语集合,tfw,QS是词语w在QS中的词频;
(3)对公式2进行改进,如公式3所示:
其中QE是扩展后的词集合,包括本体词的扩展词和缩略词,μQ是平滑系数;
所述步骤四中的计算KL差异熵的具体过程进一步包括如下步骤:
(4)根据以下公式4计算P(w|θc)
其中,CE是经过扩展的类别候选集,μc是平滑系数。
6.根据权利要求5所述的一种基于短文本相似度的税务商品编码分类系统,其特征在于,所述扩展词包括索引词和缩略词。
7.根据权利要求5所述的一种基于短文本相似度的税务商品编码分类系统,其特征在于,所述样本数据是待分类的税务商品编码名称。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711085221.3A CN107862046B (zh) | 2017-11-07 | 2017-11-07 | 一种基于短文本相似度的税务商品编码分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711085221.3A CN107862046B (zh) | 2017-11-07 | 2017-11-07 | 一种基于短文本相似度的税务商品编码分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107862046A CN107862046A (zh) | 2018-03-30 |
CN107862046B true CN107862046B (zh) | 2019-03-26 |
Family
ID=61701116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711085221.3A Active CN107862046B (zh) | 2017-11-07 | 2017-11-07 | 一种基于短文本相似度的税务商品编码分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107862046B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509424B (zh) * | 2018-04-09 | 2021-08-10 | 平安科技(深圳)有限公司 | 制度信息处理方法、装置、计算机设备和存储介质 |
CN110851587B (zh) * | 2018-07-25 | 2024-04-05 | 阿里巴巴集团控股有限公司 | 商品编码预测模型生成和确定商品编码方法、装置及设备 |
CN110874407A (zh) * | 2018-08-14 | 2020-03-10 | 中国软件与技术服务股份有限公司 | 一种增值税发票商品和服务税收分类编码识别及纠错方法 |
CN109213866A (zh) * | 2018-09-19 | 2019-01-15 | 浙江诺诺网络科技有限公司 | 一种基于深度学习的税务商品编码分类方法和系统 |
CN110968685B (zh) * | 2018-09-26 | 2023-06-20 | 阿里巴巴集团控股有限公司 | 商品名称的归集方法和装置 |
CN111275476B (zh) * | 2018-12-05 | 2023-11-03 | 北京京东振世信息技术有限公司 | 一种物流仓储服务的报价方法和装置 |
CN109871861B (zh) * | 2018-12-27 | 2023-05-23 | 航天信息股份有限公司 | 一种用于为目标数据提供编码的系统及方法 |
CN110110192A (zh) * | 2019-04-16 | 2019-08-09 | 北京奇艺世纪科技有限公司 | 一种query标注方法、装置及电子设备 |
CN110209811B (zh) * | 2019-04-30 | 2023-09-22 | 上海艾瑞数科商务咨询有限公司 | 一种商品自动分类方法及系统 |
CN110209755B (zh) * | 2019-06-13 | 2021-06-18 | 思必驰科技股份有限公司 | Poi导航地址的扩展方法及系统 |
CN111680158A (zh) * | 2020-06-10 | 2020-09-18 | 创新奇智(青岛)科技有限公司 | 开放领域的短文本分类方法、装置、设备及存储介质 |
CN113157918B (zh) * | 2021-03-23 | 2022-07-22 | 浙江工业大学 | 一种基于注意力机制的商品名称短文本分类方法和系统 |
CN113779933B (zh) * | 2021-09-03 | 2024-07-09 | 深圳市朗华供应链服务有限公司 | 商品的编码方法、电子设备及计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006139518A (ja) * | 2004-11-11 | 2006-06-01 | Nec Corp | 文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム |
CN102262632A (zh) * | 2010-05-28 | 2011-11-30 | 国际商业机器公司 | 进行文本处理的方法和系统 |
CN105808526A (zh) * | 2016-03-30 | 2016-07-27 | 北京京东尚科信息技术有限公司 | 商品短文本核心词提取方法和装置 |
CN105912716A (zh) * | 2016-04-29 | 2016-08-31 | 国家计算机网络与信息安全管理中心 | 一种短文本分类方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8856050B2 (en) * | 2011-01-13 | 2014-10-07 | International Business Machines Corporation | System and method for domain adaption with partial observation |
-
2017
- 2017-11-07 CN CN201711085221.3A patent/CN107862046B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006139518A (ja) * | 2004-11-11 | 2006-06-01 | Nec Corp | 文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム |
CN102262632A (zh) * | 2010-05-28 | 2011-11-30 | 国际商业机器公司 | 进行文本处理的方法和系统 |
CN105808526A (zh) * | 2016-03-30 | 2016-07-27 | 北京京东尚科信息技术有限公司 | 商品短文本核心词提取方法和装置 |
CN105912716A (zh) * | 2016-04-29 | 2016-08-31 | 国家计算机网络与信息安全管理中心 | 一种短文本分类方法及装置 |
Non-Patent Citations (1)
Title |
---|
Karl-Michael Schneider.A New Feature Selection Score for Multinomial Naïve Bayes Text Classification Based on KL-Divergence.《Proceedings of the ACL 2004 on Interactive poster and demonstration sessions》.2004, |
Also Published As
Publication number | Publication date |
---|---|
CN107862046A (zh) | 2018-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107862046B (zh) | 一种基于短文本相似度的税务商品编码分类方法及系统 | |
Yasen et al. | Movies reviews sentiment analysis and classification | |
Zolhavarieh et al. | A review of subsequence time series clustering | |
US10095780B2 (en) | Automatically mining patterns for rule based data standardization systems | |
Hoffart et al. | Discovering emerging entities with ambiguous names | |
US20120290293A1 (en) | Exploiting Query Click Logs for Domain Detection in Spoken Language Understanding | |
CN104899322A (zh) | 搜索引擎及其实现方法 | |
KR20160121382A (ko) | 텍스트 마이닝 시스템 및 툴 | |
Banerjee et al. | Automated duplicate bug report classification using subsequence matching | |
US9996504B2 (en) | System and method for classifying text sentiment classes based on past examples | |
JPWO2011078186A1 (ja) | 文書クラスタリングシステム、文書クラスタリング方法およびプログラム | |
Kumar et al. | Effective information retrieval and feature minimization technique for semantic web data | |
CN114254201A (zh) | 一种科技项目评审专家的推荐方法 | |
WO2012158572A2 (en) | Exploiting query click logs for domain detection in spoken language understanding | |
CN110019653B (zh) | 一种融合文本和标签网络的社交内容表征方法和系统 | |
KR102091633B1 (ko) | 연관법령 제공 방법 | |
Singh et al. | Sentiment analysis using lexicon based approach | |
US8224642B2 (en) | Automated identification of documents as not belonging to any language | |
CN110413992A (zh) | 一种语义分析识别方法、系统、介质和设备 | |
US20190095525A1 (en) | Extraction of expression for natural language processing | |
Kharisma et al. | Comparison of Naïve Bayes Algorithm Model Combinations with Term Weighting Techniques in Sentiment Analysis | |
CN112989190A (zh) | 一种商品挂载方法、装置、电子设备和存储介质 | |
Hosseini et al. | Implicit entity linking through ad-hoc retrieval | |
Goumy et al. | Ecommerce Product Title Classification. | |
Maiorino et al. | Noise sensitivity of an information granules filtering procedure by genetic optimization for inexact sequential pattern mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20180725 Address after: 315000 34, 35, 14 lane, 299 lane, Guanghua Road, Ningbo hi tech Zone, Zhejiang Applicant after: Ningbo Aisino Co., Ltd. Applicant after: Hangtian Information Co., Ltd. Address before: 315000 34, 35, 14 lane, 299 lane, Guanghua Road, Ningbo hi tech Zone, Zhejiang Applicant before: Ningbo Aisino Co., Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |