CN108021605A - 一种关键词分类方法和装置 - Google Patents

一种关键词分类方法和装置 Download PDF

Info

Publication number
CN108021605A
CN108021605A CN201711035198.7A CN201711035198A CN108021605A CN 108021605 A CN108021605 A CN 108021605A CN 201711035198 A CN201711035198 A CN 201711035198A CN 108021605 A CN108021605 A CN 108021605A
Authority
CN
China
Prior art keywords
classification
keyword
sorted
text
obtains
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711035198.7A
Other languages
English (en)
Inventor
倪嘉呈
吴健君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201711035198.7A priority Critical patent/CN108021605A/zh
Publication of CN108021605A publication Critical patent/CN108021605A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本发明实施例提供了一种关键词分类方法和装置,具体包括根据待分类关键词,查找人工配置的哈希词典,如果命中,则输出分类结果;如果不能命中,则进一步根据待分类关键词查找人工配置的多模匹配词典,如果命中,则输出分类结果;如果还不能命中,则进一步将待分类关键词进行切词处理,得到待分类关键词的文本特征;将文本特征输入预设的文本分类模型,得到每个分类的概率,将概率最高的分类作为分类结果输出。本申请的技术方案将人工配置和机器学习模型结合对关键词进行分类,从而在保持机器学习模型泛化能力的同时避免错误分类的出现,进而能够较好地解决目前的分类方法在出现分类错误时无法纠正的问题。

Description

一种关键词分类方法和装置
技术领域
本发明涉及网络搜索技术领域,特别是涉及一种关键词分了方法和装置。
背景技术
关键词源于英文"keywords",特指单个媒体在制作使用索引时,所用到的词汇,是图书馆学中的词汇。关键词搜索是网络搜索索引主要方法之一,就是希望访问者了解的产品、服务和公司等的具体名称用语。在网络搜索中为了能够为用户提供更好的搜索服务,需要对关键词进行详尽的分析,而关键词分类是关键词分析中的重要问题。
本申请的发明人在实施本申请中的技术方案时发现,目前常用的分类方法主要有朴素贝叶斯、logistic回归、支持向量机等,通过预先标注的训练数据集训练得到机器学习模型,并用得到的机器学习模型对待分类关键词进行分类,但是,这种模式下对于具体的分类错误很难通过修正模型的来进行纠正。
发明内容
有鉴于此,本发明提供了一种关键词分类方法和装置,以解决目前的分类方法在出现分类错误时无法纠正的问题。
为了解决上述问题,本发明公开了一种关键词分类方法,具体包括步骤:
根据待分类关键词从人工配置的哈希词典进行查找,如果命中,则输出分类结果;
如果不能命中,则进一步根据所述待分类关键词查找人工配置的多模匹配词典,如果命中,则输出分类结果;
如果还不能命中,则进一步将所述待分类关键词进行切词处理,得到所述待分类关键词的文本特征;
将所述文本特征输入预设的文本分类模型,得到每个分类的概率,将概率最高的分类作为分类结果输出。
可选的,所述根据所述待分类关键词查找人工配置的多模匹配词典,如果命中,则输出分类结果,包括:
根据所述待分类关键词从所述多模匹配词典中进行查找;
如果存在与所述待分类关键词匹配的字符串,则取最长的字符串对应的分类结果予以输出。
可选的,所述文本分类模型通过如下训练步骤得到:
对预先获取的标注训练集中的分类样本的文本做切词处理,得到多个文本词条;
对所述文本词条进行二元特征组合和三元特征组合,得到所述文本的文本特征;
将所述文本特征和所述分类样本的分类标签用Softmax分类器进行训练,得到所述文本分类模型。
可选的,所述标注训练集的获取步骤包括:
响应用户的业务分析或人工标识,获取分类体系和样本;
根据所述分类体系对样本进行处理,得到分类样本,所有分类样本构成所述标注训练集。
相应的,为了保证上述方法的实施,本发明还提供了一种关键词分类装置,具体包括:
第一匹配模块,用于根据待分类关键词从人工配置的哈希词典进行查找,如果命中,则输出分类结果;
第二匹配模块,用于当所述第一匹配模块不能命中时,进一步根据所述待分类关键词查找人工配置的多模匹配词典,如果命中,则输出分类结果;
切词处理模块,用于如果第二匹配不能命中时,进一步将所述待分类关键词进行切词处理,得到所述待分类关键词的文本特征;
第三匹配模块,用于将所述文本特征输入预设的文本分类模型,得到每个分类的概率,将概率最高的分类作为分类结果输出。
可选的,所述第二匹配模块包括:
分类查找单元,用于根据所述待分类关键词从所述多模匹配词典中进行查找;
分类输出单元,用于如果存在与所述待分类关键词匹配的字符串,则取最长的字符串对应的分类结果予以输出。
可选的,还包括:
模型训练模块,用于训练所述文本分类模型的。
可选的,所述模型训练模块包括:
文本切词单元,用于对预先获取的标注训练集中的分类样本的文本做切词处理,得到多个文本词条;
特征组合单元,用于对所述文本词条进行二元特征组合和三元特征组合,得到所述文本的文本特征;
训练处理单元,用于将所述文本特征和所述分类样本的分类标签用Softmax分类器进行训练,得到所述文本分类模型。
可选的,所述模型训练模块还包括:
训练集获取单元,用于响应用户的业务分析或人工标识,获取分类体系和样本;并根据所述分类体系对样本进行处理,得到分类样本,所有分类样本构成所述标注训练集。
从上述技术方案可以看出,本发明提供了一种关键词分类方法和装置,具体包括根据待分类关键词,查找人工配置的哈希词典,如果命中,则输出分类结果;如果不能命中,则进一步根据待分类关键词查找人工配置的多模匹配词典,如果命中,则输出分类结果;如果还不能命中,则进一步将待分类关键词进行切词处理,得到待分类关键词的文本特征;将文本特征输入预设的文本分类模型,得到每个分类的概率,将概率最高的分类作为分类结果输出。本申请的技术方案将人工配置和机器学习模型结合对关键词进行分类,从而在保持机器学习模型泛化能力的同时避免错误分类的出现,进而能够较好地解决目前的分类方法在出现分类错误时无法纠正的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种关键词分类方法实施例的步骤流程图;
图2为本发明提供的一种关键词分类装置实施例的结构框图;
图3为本发明提供的另一种关键词分类装置的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
图1为本发明提供的一种关键词分类方法实施例的步骤流程图。
参照图1所示,本实施例提供的关键词分类方法应用于搜索引擎,用于对待分类关键词进行分类处理,并输出分类结果,以便能够对关键词进行分析,该关键词分类方法包括如下步骤:
S101:根据待分类关键词查找人工配置的哈希词典。
在需要对关键词进行分类时,根据待分类关键词从人工配置的哈希词典中进行查找,如果能够命中分类结果,则输出该分类结果,并结束分类。这里的哈希词典在词句计算机处理中又叫字典(dictionary),其中包含有多个哈希表,哈希表中有自动生成或人工标注的哈希值,以便进行匹配查找。人工配置的哈希词典是指其中部分或全部哈希值是经过人工配置的,这样可以克服机器自动配置的僵化或错误。
S102:根据待分类关键词查找人工配置的多模匹配词典。
这里是指如果从人工配置的哈希词典中无法查找到相匹配的分类结果时,进一步从人工配置的多模匹配词典中进行查找。多模匹配词典是指基于解决多模匹配问题得到的字典,该字典中包括有多个元素,以便能够与待分类关键词进行匹配。具体的多模匹配是指在一个字符串中寻找多个模式字符字串的问题。该算法广泛应用于关键字过滤、入侵检测、病毒检测、分词等等问题中。多模问题一般有Trie树,AC算法,WM算法等等。具体过程如下:
首先根据待分类关键词从多模匹配词典中进行查找;
然后,如果能够查找到与待分类关键词的文本相匹配的字符串,因为这里的字符串为多个且长短不一,因此,将所匹配的字符串中最长的字符串相对应的分类结果予以输出。输出结果的同时结束查找。因为最长的字符串所属分类最为具体,即最长的字符串所属的分类最能反映关键词的的分类,因此选最长的字符串所属的分类作为分类结果。
S103:对待分类关键词进行切词处理。
即如果通过多模匹配词典的查找依然无法得到分类结果的,则进一步将待分类关键词的文本进行切词处理,并将切词得到的切词结果query->t1,..tm,进行二元特征组合与三元特征组合,并结合切词结果,得到得分类关键词的文本特征{<[t1,…,tm,t1t2,…,tm- 1tm,t1t2t3,…,tm-2tm-1tm],label>}。
S104:将文本特征输入到文本分类模型,得到分类结果。
在得到待分类关键词的文本特征后,将该文本特征输入到预先训练好的文本分类模型进行计算,从而得到每个分类的概率,然后将概率最高的分类予以输出,从而得分类结果。
从上述技术方案可以看出,本实施例提供了一种关键词分类方法,具体包括根据待分类关键词,查找人工配置的哈希词典,如果命中,则输出分类结果;如果不能命中,则进一步根据待分类关键词查找人工配置的多模匹配词典,如果命中,则输出分类结果;如果还不能命中,则进一步将待分类关键词进行切词处理,得到待分类关键词的文本特征;将文本特征输入预设的文本分类模型,得到每个分类的概率,将概率最高的分类作为分类结果输出。本申请的技术方案将人工配置和机器学习模型结合对关键词进行分类,从而在保持机器学习模型泛化能力的同时避免错误分类的出现,进而能够较好地解决目前的分类方法在出现分类错误时无法纠正的问题。
本实施例中的文本分类模型通过如下步骤训练得到:
首先,对预先获取的标注训练集中的分类样本进行切词处理,其中,分类样本{<query,label>},其中query为文本,label为分类标签,这里的切词是对文本query进行切词处理,得到文本的多个文本词条;
然后,对文本词条进行二元特征组合和三元特征组合,得到文本的文本特征。所谓二元特征组合是指将文本的多个文本词条中任选两个进行两两组合,从而得到文本特征;三亚特征组合与上述概念相同,即从中任选三个文本词条进行多次组合,从而得到文本特征。相对于二元特征组合来说,三元特征组合所能得到的文本特征更能反映实际特征,但计算量相对较大。
最后,将文本特征和分类样本的分类标签用Softmax分类器进行训练,从而得到该文本分类模型。
还有,前面提到的标注训练集通过如下步骤获取:
首先,响应用户的请求,具体包括业务分析请求或人工标识请求,并根据上述请求获取分类体系和样本;
然后,根据上述分类体系对样本进行处理,从而得到分类样本,所有分类样本就构成上述标注训练集。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
实施例二
图2为本发明提供的一种关键词分类装置实施例的结构框图。
参照图2所示,本实施例提供的关键词分类装置应用于搜索引擎,用于对待分类关键词进行分类处理,并输出分类结果,以便能够对关键词进行分析,该关键词分类装置具体包括第一匹配模块10、第二匹配模块20、切词处理模块30和第三匹配模块40。
第一匹配模块用于根据待分类关键词查找人工配置的哈希词典。
在需要对关键词进行分类时,根据待分类关键词从人工配置的哈希词典中进行查找,如果能够命中分类结果,则输出该分类结果,并结束分类。
第二匹配模块用于根据待分类关键词查找人工配置的多模匹配词典。
这里是指如果从人工配置的哈希词典中无法查找到相匹配的分类结果时,进一步从人工配置的多模匹配词典中进行查找。该模块包括分类查找单元和分类输出单元。
分类查找单元用于根据待分类关键词从多模匹配词典中进行查找;
分类输出单元在该分类查找单元能够查找到与待分类关键词的文本相匹配的字符串时,因为这里的字符串为多个且长短不一,因此,将所匹配的字符串中最长的字符串相对应的分类结果予以输出。输出结果的同时结束查找。
切词处理模块用于对待分类关键词进行切词处理。
即如果通过多模匹配词典的查找依然无法得到分类结果的,则进一步将待分类关键词的文本进行切词处理,并将切词得到的切词结果query->t1,..tm,进行二元特征组合与三元特征组合,并结合切词结果,得到得分类关键词的文本特征{<[t1,…,tm,t1t2,…,tm- 1tm,t1t2t3,…,tm-2tm-1tm],label>}。
第三匹配模块用于将文本特征输入到文本分类模型,得到分类结果。
在得到待分类关键词的文本特征后,将该文本特征输入到预先训练好的文本分类模型进行计算,从而得到每个分类的概率,然后将概率最高的分类予以输出,从而得分类结果。
从上述技术方案可以看出,本实施例提供了一种关键词分类装置,具体包括根据待分类关键词,查找人工配置的哈希词典,如果命中,则输出分类结果;如果不能命中,则进一步根据待分类关键词查找人工配置的多模匹配词典,如果命中,则输出分类结果;如果还不能命中,则进一步将待分类关键词进行切词处理,得到待分类关键词的文本特征;将文本特征输入预设的文本分类模型,得到每个分类的概率,将概率最高的分类作为分类结果输出。本申请的技术方案将人工配置和机器学习模型结合对关键词进行分类,从而在保持机器学习模型泛化能力的同时避免错误分类的出现,进而能够较好地解决目前的分类方法在出现分类错误时无法纠正的问题。
另外,本实施例提供的关键词分类装置还可以包括模型训练模块50,如图3所示,该模型训练模块用于得到文本分类模型。该模块具体包括文本切词单元、特征组合单元和训练处理单元。
文本切词单元用于对预先获取的标注训练集中的分类样本进行切词处理,其中,分类样本{<query,label>},其中query为文本,label为分类标签,这里的切词是对文本query进行切词处理,得到文本的多个文本词条;
特征组合单元用于对文本词条进行二元特征组合和三元特征组合,得到文本的文本特征。
训练处理单元用于将文本特征和分类样本的分类标签用Softmax分类器进行训练,从而得到该文本分类模型。
还有,该模型训练模块还包括训练集获取单元,该单元用于响应用户的业务分析或人工标识,获取分类体系和样本;并根据上述分类体系对样本进行处理,从而得到分类样本,所有分类样本就构成上述标注训练集。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的技术方案进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (9)

1.一种关键词分类方法,其特征在于,具体包括:
根据待分类关键词从人工配置的哈希词典进行查找,如果命中,则输出分类结果;
如果不能命中,则进一步根据所述待分类关键词查找人工配置的多模匹配词典,如果命中,则输出分类结果;
如果还不能命中,则进一步将所述待分类关键词进行切词处理,得到所述待分类关键词的文本特征;
将所述文本特征输入预设的文本分类模型,得到每个分类的概率,将概率最高的分类作为分类结果输出。
2.如权利要求1所述的关键词分类方法,其特征在于,所述根据所述待分类关键词查找人工配置的多模匹配词典,如果命中,则输出分类结果,包括:
根据所述待分类关键词从所述多模匹配词典中进行查找;
如果存在与所述待分类关键词匹配的字符串,则取最长的字符串对应的分类结果予以输出。
3.如权利要求1所述的关键词分类方法,其特征在于,所述文本分类模型通过如下训练步骤得到:
对预先获取的标注训练集中的分类样本的文本做切词处理,得到多个文本词条;
对所述文本词条进行二元特征组合和三元特征组合,得到所述文本的文本特征;
将所述文本特征和所述分类样本的分类标签用Softmax分类器进行训练,得到所述文本分类模型。
4.如权利要求3所述的关键词分类方法,其特征在于,所述标注训练集的获取步骤包括:
响应用户的业务分析或人工标识,获取分类体系和样本;
根据所述分类体系对样本进行处理,得到分类样本,所有分类样本构成所述标注训练集。
5.一种关键词分类装置,其特征在于,具体包括:
第一匹配模块,用于根据待分类关键词从人工配置的哈希词典进行查找,如果命中,则输出分类结果;
第二匹配模块,用于当所述第一匹配模块不能命中时,进一步根据所述待分类关键词查找人工配置的多模匹配词典,如果命中,则输出分类结果;
切词处理模块,用于如果第二匹配不能命中时,进一步将所述待分类关键词进行切词处理,得到所述待分类关键词的文本特征;
第三匹配模块,用于将所述文本特征输入预设的文本分类模型,得到每个分类的概率,将概率最高的分类作为分类结果输出。
6.如权利要求5所述的关键词分类装置,其特征在于,所述第二匹配模块包括:
分类查找单元,用于根据所述待分类关键词从所述多模匹配词典中进行查找;
分类输出单元,用于如果存在与所述待分类关键词匹配的字符串,则取最长的字符串对应的分类结果予以输出。
7.如权利要求5所述的关键词分类装置,其特征在于,还包括:
模型训练模块,用于训练所述文本分类模型的。
8.如权利要求7所述的关键词分类装置,其特征在于,所述模型训练模块包括:
文本切词单元,用于对预先获取的标注训练集中的分类样本的文本做切词处理,得到多个文本词条;
特征组合单元,用于对所述文本词条进行二元特征组合和三元特征组合,得到所述文本的文本特征;
训练处理单元,用于将所述文本特征和所述分类样本的分类标签用Softmax分类器进行训练,得到所述文本分类模型。
9.如权利要求7所述的关键词分类装置,其特征在于,所述模型训练模块还包括:
训练集获取单元,用于响应用户的业务分析或人工标识,获取分类体系和样本;并根据所述分类体系对样本进行处理,得到分类样本,所有分类样本构成所述标注训练集。
CN201711035198.7A 2017-10-30 2017-10-30 一种关键词分类方法和装置 Pending CN108021605A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711035198.7A CN108021605A (zh) 2017-10-30 2017-10-30 一种关键词分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711035198.7A CN108021605A (zh) 2017-10-30 2017-10-30 一种关键词分类方法和装置

Publications (1)

Publication Number Publication Date
CN108021605A true CN108021605A (zh) 2018-05-11

Family

ID=62079630

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711035198.7A Pending CN108021605A (zh) 2017-10-30 2017-10-30 一种关键词分类方法和装置

Country Status (1)

Country Link
CN (1) CN108021605A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325414A (zh) * 2018-08-20 2019-02-12 阿里巴巴集团控股有限公司 证件信息的提取方法、装置和文本信息的提取方法
CN109543023A (zh) * 2018-09-29 2019-03-29 中国石油化工股份有限公司石油勘探开发研究院 基于trie和LCS算法的文献分类方法和系统
CN109684627A (zh) * 2018-11-16 2019-04-26 北京奇虎科技有限公司 一种文本分类方法及装置
WO2020051907A1 (zh) * 2018-09-14 2020-03-19 深圳市欢太科技有限公司 一种速记项目的分类方法、终端及计算机存储介质
CN111191614A (zh) * 2020-01-02 2020-05-22 中国建设银行股份有限公司 一种单据分类方法和装置
CN111339290A (zh) * 2018-11-30 2020-06-26 北京嘀嘀无限科技发展有限公司 一种文本分类方法和系统
CN111522955A (zh) * 2020-04-29 2020-08-11 深圳市华云中盛科技股份有限公司 诉讼案件分类方法、装置、计算机设备及存储介质
CN111626052A (zh) * 2020-04-28 2020-09-04 北京明亿科技有限公司 基于哈希词典的接处警文本物品名称提取方法和装置
CN111966830A (zh) * 2020-06-30 2020-11-20 北京来也网络科技有限公司 结合rpa和ai的文本分类方法、装置、设备及介质
CN112948370A (zh) * 2019-11-26 2021-06-11 上海哔哩哔哩科技有限公司 数据分类方法、装置以及计算机设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577423A (zh) * 2012-07-23 2014-02-12 阿里巴巴集团控股有限公司 关键词分类方法及系统
WO2016166760A1 (en) * 2015-04-16 2016-10-20 Docauthority Ltd. Structural document classification
CN106055560A (zh) * 2016-05-18 2016-10-26 上海申腾信息技术有限公司 一种基于统计机器学习方法的分词字典数据采集方法
CN106326458A (zh) * 2016-06-02 2017-01-11 广西智度信息科技有限公司 一种基于文本分类的城市管理案件分类方法
CN106550241A (zh) * 2016-11-11 2017-03-29 武汉烽火网络有限责任公司 视频业务识别系统及虚拟化部署方法
CN107301225A (zh) * 2017-06-20 2017-10-27 挖财网络技术有限公司 短文本分类方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577423A (zh) * 2012-07-23 2014-02-12 阿里巴巴集团控股有限公司 关键词分类方法及系统
WO2016166760A1 (en) * 2015-04-16 2016-10-20 Docauthority Ltd. Structural document classification
CN106055560A (zh) * 2016-05-18 2016-10-26 上海申腾信息技术有限公司 一种基于统计机器学习方法的分词字典数据采集方法
CN106326458A (zh) * 2016-06-02 2017-01-11 广西智度信息科技有限公司 一种基于文本分类的城市管理案件分类方法
CN106550241A (zh) * 2016-11-11 2017-03-29 武汉烽火网络有限责任公司 视频业务识别系统及虚拟化部署方法
CN107301225A (zh) * 2017-06-20 2017-10-27 挖财网络技术有限公司 短文本分类方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张颖等: "高效识别用户上网行为和提高大数据准确性的研究", 《实验技术与管理》 *
李纲: "《情报学研究进展》", 30 September 2010, 武汉大学出版社 *
田峥等: "一种基于多模匹配的敏感邮件实时检测方法", 《湖南电力》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325414A (zh) * 2018-08-20 2019-02-12 阿里巴巴集团控股有限公司 证件信息的提取方法、装置和文本信息的提取方法
WO2020051907A1 (zh) * 2018-09-14 2020-03-19 深圳市欢太科技有限公司 一种速记项目的分类方法、终端及计算机存储介质
CN109543023A (zh) * 2018-09-29 2019-03-29 中国石油化工股份有限公司石油勘探开发研究院 基于trie和LCS算法的文献分类方法和系统
CN109684627A (zh) * 2018-11-16 2019-04-26 北京奇虎科技有限公司 一种文本分类方法及装置
CN111339290A (zh) * 2018-11-30 2020-06-26 北京嘀嘀无限科技发展有限公司 一种文本分类方法和系统
CN112948370A (zh) * 2019-11-26 2021-06-11 上海哔哩哔哩科技有限公司 数据分类方法、装置以及计算机设备
CN111191614A (zh) * 2020-01-02 2020-05-22 中国建设银行股份有限公司 一种单据分类方法和装置
CN111191614B (zh) * 2020-01-02 2023-08-29 中国建设银行股份有限公司 一种单据分类方法和装置
CN111626052A (zh) * 2020-04-28 2020-09-04 北京明亿科技有限公司 基于哈希词典的接处警文本物品名称提取方法和装置
CN111522955A (zh) * 2020-04-29 2020-08-11 深圳市华云中盛科技股份有限公司 诉讼案件分类方法、装置、计算机设备及存储介质
CN111522955B (zh) * 2020-04-29 2023-10-03 深圳市华云中盛科技股份有限公司 诉讼案件分类方法、装置、计算机设备及存储介质
CN111966830A (zh) * 2020-06-30 2020-11-20 北京来也网络科技有限公司 结合rpa和ai的文本分类方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN108021605A (zh) 一种关键词分类方法和装置
CN108197098B (zh) 一种关键词组合策略的生成及关键词扩展方法、装置和设备
CN104636465B (zh) 网页摘要生成方法、展示方法及相应装置
US8190556B2 (en) Intellegent data search engine
US20160217142A1 (en) Method and system of acquiring semantic information, keyword expansion and keyword search thereof
CN105243087B (zh) It资讯聚合阅读个性化推荐方法
CN107045496A (zh) 语音识别后文本的纠错方法及纠错装置
US20080154875A1 (en) Taxonomy-Based Object Classification
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
CN108763321A (zh) 一种基于大规模相关实体网络的相关实体推荐方法
Azam et al. Feature extraction based text classification using k-nearest neighbor algorithm
WO2015043066A1 (zh) 关键词扩展方法及系统、及分类语料标注方法及系统
US20110302167A1 (en) Systems, Methods and Computer Program Products for Processing Accessory Information
CN113282689B (zh) 基于领域知识图谱的检索方法、装置
US20030212663A1 (en) Neural network feedback for enhancing text search
KR101355945B1 (ko) 온라인 문맥기반 광고 장치 및 방법
CN106503153B (zh) 一种计算机文本分类体系
CN106844638A (zh) 信息检索方法、装置及电子设备
CN114722137A (zh) 基于敏感数据识别的安全策略配置方法、装置及电子设备
CN110032622A (zh) 关键词确定方法、装置、设备及计算机可读存储介质
US9875298B2 (en) Automatic generation of a search query
CN114818674A (zh) 商品标题关键词提取方法及其装置、设备、介质、产品
Xu et al. Combining text classification and hidden markov modeling techniques for structuring randomized clinical trial abstracts
US8001122B2 (en) Relating similar terms for information retrieval
US8335791B1 (en) Detecting synonyms and merging synonyms into search indexes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180511

RJ01 Rejection of invention patent application after publication