CN113127642A - 文档可控式自动分类方法、装置、设备及存储介质 - Google Patents
文档可控式自动分类方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113127642A CN113127642A CN202110475442.1A CN202110475442A CN113127642A CN 113127642 A CN113127642 A CN 113127642A CN 202110475442 A CN202110475442 A CN 202110475442A CN 113127642 A CN113127642 A CN 113127642A
- Authority
- CN
- China
- Prior art keywords
- document
- retrieval
- mapping relation
- classification
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例提供了一种文档可控式自动分类方法、装置、设备及存储介质,该方法包括:提供检索式与文档分类器的映射关系集合,以用户供选择;所述映射关系集合中每个映射关系匹配不同的主题;接收包含目标检索式的检索请求;所述目标检索式为用户从所述映射关系集合中选择的检索式;根据所述检索请求从数据库获取检索结果;调用与所述目标检索式对应的文档分类器对所述检索结果进行文档分类,获得文档分类结果。本说明书实施例可以满足用户对文档分类的个性化需求。
Description
技术领域
本说明书涉及文档自动分类技术领域,尤其是涉及一种文档可控式自动分类方法、装置、设备及存储介质。
背景技术
企业(或其他研究机构)在进行技术追踪时,对于技术文献(例如专利申请文件、专利文件、论文等)检索范围的界定往往比较困难。仅仅通过国际专利分类法(InternationalPatent Classification,IPC)或关键词等进行检索;而且为了避免漏检,一般会采用扩大检索范围的方式进行检索。如此,往往无法精准地缩小搜寻范围,从而不可避免的会出现大量不相关的检索结果。在此情况下,需要人工对检索结果进行分类,以从中找出相关的文档。这种人工对检索结果进行分类的方式耗时费力。
为解决人工对检索结果进行分类的方式耗时费力的问题,目前也存在利用一个预设的分类模型对技术文献进行自动分类的技术方案。然而,这种自动分类方案下用户几乎没有自定义空间,难以满足用户对文档分类的个性化需求。
发明内容
本说明书实施例的目的在于提供一种文档可控式自动分类方法、装置、设备及存储介质,以满足或至少部分满足用户对文档分类的个性化需求。
为达到上述目的,一方面,本说明书实施例提供了一种文档可控式自动分类方法,包括:
提供检索式与文档分类器的映射关系集合,以用户供选择;所述映射关系集合中每个映射关系匹配不同的主题;
接收包含目标检索式的检索请求;所述目标检索式为用户从所述映射关系集合中选择的检索式;
根据所述检索请求从数据库获取检索结果;
调用与所述目标检索式对应的文档分类器对所述检索结果进行文档分类,获得文档分类结果。
本说明书一实施例中,所述方法还包括:
在根据所述检索请求从数据库获取检索结果后,提供文档分类方式选项;所述文档分类方式选项包括:自动文档分类和人工文档分类;
相应的,所述调用与所述目标检索式对应的文档分类器对所述检索结果进行文档分类,包括:
当接收到对自动文档分类的选择操作时,调用与所述目标检索式对应的文档分类器对所述检索结果进行文档分类。
本说明书一实施例中,所述方法还包括:
当接收到在指定时机创建的新映射关系时,将其保存至所述映射关系集合中。
本说明书一实施例中,所述指定时机包括:
所述映射关系集合中所有映射关系与当前期望的主题不匹配。
本说明书一实施例中,所述方法还包括:
对所述文档分类结果进行校正。
本说明书一实施例中,所述对所述文档分类结果进行校正,包括:
展示所述文档分类结果,以供用户从中选择待校正对象;
接收针对所述待校正对象的校正操作;
根据所述校正操作对所述文档分类结果进行校正。
本说明书一实施例中,所述方法还包括:
根据所述文档分类结果更新所述映射关系集合中对应的文档分类器。
另一方面,本说明书实施例还提供了一种文档可控式自动分类装置,包括:
映射关系提供模块,用于提供检索式与文档分类器的映射关系集合,以用户供选择;所述映射关系集合中每个映射关系匹配不同的主题;
检索请求接收模块,用于接收包含目标检索式的检索请求;所述目标检索式为用户从所述映射关系集合中选择的检索式;
检索结果获取模块,用于根据所述检索请求从数据库获取检索结果;
分类结果获取模块,用于调用与所述目标检索式对应的文档分类器对所述检索结果进行文档分类,获得文档分类结果。
另一方面,本说明书实施例还提供了一种计算机设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,所述计算机程序被所述处理器运行时,执行上述方法的指令。
另一方面,本说明书实施例还提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被计算机设备的处理器运行时,执行上述方法的指令。
由以上本说明书实施例提供的技术方案可见,本说明书实施例中,由于提供了检索式与文档分类器的映射关系集合,当用户需要进行检索和分类时,可以从映射关系集合中选择与期望主题对应的目标检索式进行文档检索;在获得检索结果后,可以自动调用与目标检索式对应的文档分类器对检索结果进行文档分类,获得文档分类结果。如此,就实现了用户按需选择文档分类器,从而提高了用户的自主选择性,在一定程度上满足了用户对文档分类的个性化需求。不仅如此,由于用户可以直接从映射关系集合中选择与期望主题匹配的检索式,而无需人工输入,从而也提高了文档检索效率。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了本说明书一些实施例的应用场景示意图;
图2示出了本说明书一些实施例中文档可控式自动分类方法的流程图;
图3示出了本说明书一些实施例中文档可控式自动分类装置的结构框图;
图4示出了本说明书一些实施例中计算机设备的结构框图。
【附图标记说明】
1、数据库;
2、客户端;
3、服务器;
31、映射关系提供模块;
32、检索请求接收模块;
33、检索结果获取模块;
34、分类结果获取模块;
402、计算机设备;
404、处理器;
406、存储器;
408、驱动机构;
410、输入/输出接口;
412、输入设备;
414、输出设备;
416、呈现设备;
418、图形用户接口;
420、网络接口;
422、通信链路;
424、通信总线。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
本说明书实施例主要涉及文档自动分类技术。其中,文档一般是指技术文档,例如专利申请文件、专利文件、专业技术论文等。传统的文档自动分类技术一般是利用一个预设的分类模型对技术文献进行自动分类的技术方案。当用户向分类模型提供输入数据后,分类模型会自动进行分类处理,并输出分类结果。然而,不同用户对于同一份文档的分类需求可能会不同。例如,不同的企业对同一项专利文件的分类需求可能不同。同一个企业下的不同研发部门由于关注点不同,对于同一项专利文件的分类需求也可能会不同。因此,在传统的文档自动分类方案下,用户几乎没有自定义(或自主选择)空间,从而难以满足用户对文档分类的个性化需求。
有鉴于此,为了解决上述问题,本说明书实施例提供了文档可控式自动分类方法,其可以应用于任何合适的计算机设备。例如,本说明书一些实施例中,文档可控式自动分类方法可以用于如图1所示的服务器3上。服务器3可以与客户端1和数据库2进行数据交互以实现文档检索和文档自动分类。
在本说明书一些实施例中,所述客户端1可以为台式电脑、平板电脑、笔记本电脑、智能手机、数字助理、智能可穿戴设备等。其中,智能可穿戴设备可以包括智能手环、智能手表、智能眼镜、智能头盔等。当然,所述客户端1并不限于上述具有一定实体的电子设备,其还可以为运行于上述电子设备中的软体。
在本说明书一些实施例中,所述服务器3可以为具有运算和网络交互功能的电子设备;也可以为运行于该电子设备中,为数据处理和网络交互提供业务逻辑的软体。
在本说明书一些实施例中,所述数据库2可以包括但不限于专利数据库、论文数据库和/或其他数据库等。
参考图2所示,在本说明书一些实施例中,所述文档可控式自动分类方法可以包括以下步骤:
S201、提供检索式与文档分类器的映射关系集合,以用户供选择;所述映射关系集合中每个映射关系匹配不同的主题。
S202、接收包含目标检索式的检索请求;所述目标检索式为用户从所述映射关系集合中选择的检索式。
S203、根据所述检索请求从数据库获取检索结果。
S204、调用与所述目标检索式对应的文档分类器对所述检索结果进行文档分类,获得文档分类结果。
在本说明书的实施例中,由于提供了检索式与文档分类器的映射关系集合,当用户需要进行检索和分类时,可以从映射关系集合中选择与期望主题对应的目标检索式进行文档检索;在获得检索结果后,可以自动调用与目标检索式对应的文档分类器对检索结果进行文档分类,获得文档分类结果。如此,就实现了用户按需选择文档分类器,从而提高了用户的自主选择性,在一定程度上满足了用户对文档分类的个性化需求。不仅如此,由于用户可以直接从映射关系集合中选择与期望主题匹配的检索式,而无需人工输入,从而也提高了文档检索效率和检索。
检索式是检索者向计算机设备发布的检索指令,表达了检索者的检索意图。一般的检索式通常由检索词、逻辑算符、通配符等组成。例如,在一示例性实施例中,一个检索式可以表示为:“飞行器”or“无人机”or“无人驾驶飞机”and“集群”and“通信”or“通讯”。
在本说明书的实施例中,映射关系集合中每个映射关系匹配不同的主题是指:每个映射关系对应不同的主题,且经过检验确认是对应主题下最佳或较佳的检索式;同时,与该检索式对应的文档分类器是专门针对该主题场景的分类器。其中,主题一般是指技术主题或检索主题。主题的划分可以根据实际需要确定,本说明书对此不作限定。例如,在一示例性实施例中,对于一家无人机公司,主题可以包括但不限于机体结构、机体材料、飞行控制、无线通信遥控和无线图像回传等。对于该无人机公司,不同研发部门可能负责不同主题下的研发任务,因而不同研发部门一般仅需关注于与本研发部门直接相关的主题;例如,机体材料研发部门,仅需关注机体材料主题。
在本说明书的实施例中,文档分类器可以通过预训练初始模型得到。即可以先利用自然语言处理模型对文档进行分词等处理,以作为数据集;然后训练机器学习模型对数据集中的样本进行分类,从而训练得到文档分类器。
例如,在本说明书一实施例中,针对某一主题的文档分类器,其预训练过程可以包括如下步骤:
1)、对于该主题下多个专利文档,可以逐条取得各专利文档的摘要、权利要求及说明书。
2)、基于自然语言处理模型对上述内容进行分词处理。其中,自然语言处理模型可以为任何合适的机自然语言处理模型;例如可以包括但不限于隐马尔可夫模型等。
3)、对分词得到的词汇进行清洗,以剔除无意义词汇。
4)、根据清洗后保留下的词汇构建数据集,并对数据集中的样本进行打标(例如0表示相关,1表示不相关)。
5)、利用数据集训练机器学习模型,从而构建出该主题下的文档分类器。其中,机器学习模型可以为任何合适的机器学习模型;例如可以包括但不限于BERT(BidirectionalEncoder Representation from Transformers)模型等。
如此,可以根据应用场景需要,构建出所需主题下的文档分类器。应当指出的是,在上述训练过程中,用户可以自定义分类值和阈值等信息。例如,某企业的一个研发部门可以定义用0表示相关,1表示不相关;而该企业的另一个研发部门可以定义用A表示相关,B表示不相关等等,具体可以根据用户自身需要和习惯自由设定。如此有利于更好的满足用户的个性化需求。
映射关系集合中一般包含有多个映射关系,映射关系集合中映射关系的数量同样可以根据需要自定义。其中,每个映射关系表征了一个检索式与一个文档分类器之间的一一对应关系。因此,映射关系集合可以如下表1所示。
表1
序号 | 检索式 | 文档分类器 |
1 | 检索式1 | 文档分类器1 |
2 | 检索式2 | 文档分类器2 |
3 | 检索式3 | 文档分类器3 |
4 | 检索式4 | 文档分类器4 |
5 | 检索式5 | 文档分类器5 |
6 | 检索式6 | 文档分类器6 |
… | … | … |
在本说明书的实施例中,当用户登录客户端后,服务器可以提供检索式与文档分类器的映射关系集合,以便用户可以从展示的多个映射关系中,选择与期望主题对应的检索式。例如,用户希望检索的主体为“无人机集群通信”,而映射关系集合中有检索式:“飞行器”or“无人机”or“无人驾驶飞机”and“集群”and“通信”or“通讯”),则用户可以通过客户端从中选择该检索式作为目标检索式。
在本说明书另一些实施例中,还可以提供用于自定义新映射关系的用户界面,以便于用户可以在指定时机创建新映射关系。
例如,在本说明书一实施例中,指定时机可以是当前映射关系集合中所有映射关系与当前期望的主题均不匹配。例如,用户希望检索的主体为“无人机集群通信”,而映射关系集合中没有与之匹配的检索式,此时,允许用户创建新映射关系,以满足用户需求。
例如,在本说明书另一实施例中,随着技术的发展变化和数据库的不断更新,映射关系集合中原有的映射关系可能不再适用。例如,当前映射关系集合中虽然存在与当前期望的主题匹配的映射关系,但是由于数据库的不断更新,基于该映射关系下的检索式获得检索结果过大(例如有几百个,甚至上千个检索结果),其中可能会有一些检索结果是不相关的,因此,需要更新检索式,以获得更加精准的检索结果。即可以定期对映射关系集合进行更新(这里的更新包括新增、修改和删除等)。对应的,当接收到用户在指定时机创建的新映射关系时,可以将其保存至所述映射关系集合中。
在本说明书一些实施例中,根据所述检索请求从数据库获取检索结果是指:以所述检索请求中的目标检索式作为输入,从数据库中查询(或搜索)出可能与之相关的文档。本领域技术人员可以理解,本说明书中的“相关”或“不相关”均可以是相对于用户设定的相关度阈值或相似度阈值而言。例如,相关度阈值设为0.6,如果一个文档与检索式的相似度达到0.6,则可以认为该文档相关,否则,可以认为该文档不相关。
在本说明书一些实施例中,步骤S104可以是在完成步骤S103后直接触发,也可以是完成步骤S103后依据用户分类指令触发,具体可以根据需要选择,本说明书对此不作限定。
由于映射关系集合中,检索式与文档分类器一一对应。根据检索时所使用的检索式,即可以从映射关系集合中确定与之文档分类器,然后调用与所述目标检索式对应的文档分类器对所述检索结果进行文档分类,既可以获得文档分类结果。例如,检索时所使用的检索式为上表1中的检索式2,则分类时,可以则调用文档分类器2。
在本说明书一些实施例中,所述文档可控式自动分类方法还可以包括:
在根据所述检索请求从数据库获取检索结果后,提供文档分类方式选项,以便于用户可以自主选择采用何种方式对文档进行分类,从而有利于进一步满足用户的个性化需求。其中,所述文档分类方式选项可以包括自动文档分类和人工文档分类。此外,人工文档分类方式的另一个重要目的在于,当需要对文档分类器进行模型更新(即使文档分类器以提高预测精度为目的进行追加学习训练)时,还可以通过人工文档分类方式对数据进行打标,以便于后续追加学习训练。
在本说明书一些实施例中,可以根据所述文档分类结果更新所述映射关系集合中对应的文档分类器。其中,追加学习训练所使用的数据样本,可以是来源于最近一次或最近若干次分类的分类结果以及对应的检索结果数据。例如,在一示例性实施例中,主题“无线图像回传”对应的文档分类器已经执行了100次的文档分类,则可以将这100次的文档分类结果以及对应的检索结果数据作为数据样本。
相应的,所述调用与所述目标检索式对应的文档分类器对所述检索结果进行文档分类,可以包括:当接收到对自动文档分类的选择操作时,调用与所述目标检索式对应的文档分类器对所述检索结果进行文档分类;当接收到对人工文档分类的选择操作时,向客户端返回人工文档分类界面,以便用户在人工文档分类界面上执行分类操作。
获得的文档分类结果可以打包成数据包以方便用户下载使用,或自动保存到用户指定存储路径以供用户查阅。理论而言,任何文档分类器都难以保证百分之百正确分类。因此,在本说明书一些实施例中,在获得文档分类结果后,还可以对所述文档分类结果进行校正,以提高分类结果的准确性。例如,在本说明书一实施例中,所述对所述文档分类结果进行校正,可以包括以下步骤:
1)、展示所述文档分类结果,以供用户从中选择待校正对象。例如,文档分类结果中有100个文档,经核查确认其中两个文档的分类错误。则此时,用户可选择这个两个文档的文档分类结果作为待校正对象。
2)、接收针对所述待校正对象的校正操作。
在本说明书的实施例中,校正操作可以由用户通过客户端发起。虽然待校正对象的确定是由用户操作的,但是随着后续根据校正后的文档分类结果不断更新文档分类器,文档分类器的分类准确度将日趋精准;在此情况下,用户也可以逐渐从核查全部文档分类结果,到抽查部文档分类结果,再到无需核查文档分类结果依次过渡,从而最终既保证了文档分类结果的准确性,也降低了用户的劳动强度,提高了文档分类效率。
3)、根据所述校正操作对所述文档分类结果进行校正。
在本说明书的实施例中,当接收到针对所述待校正对象的校正操作时,可以根据所述校正操作对所述文档分类结果进行校正。例如,以上述两个文档的文档分类结果作为待校正对象为例,如果两个文档的文档分类结果为:文档1“不相关”,文档2“相关”,则在校正后两个文档最终的文档分类结果为:文档1“相关”,文档2“不相关”。
虽然上文描述的过程流程包括以特定顺序出现的多个操作,但是,应当清楚了解,这些过程可以包括更多或更少的操作,这些操作可以顺序执行或并行执行(例如使用并行处理器或多线程环境)。
与上述的文档可控式自动分类方法对应,本说明书实施例还提供了一种文档可控式自动分类装置。参考图3所示,在本说明书一些实施例中,所述文档可控式自动分类装置可以包括:映射关系提供模块31、检索请求接收模块32、检索结果获取模块33和分类结果获取模块34。其中:
映射关系提供模块31,可以用于提供检索式与文档分类器的映射关系集合,以用户供选择;所述映射关系集合中每个映射关系匹配不同的主题;
检索请求接收模块32,可以用于接收包含目标检索式的检索请求;所述目标检索式为用户从所述映射关系集合中选择的检索式;
检索结果获取模块33,可以用于根据所述检索请求从数据库获取检索结果;
分类结果获取模块34,可以用于调用与所述目标检索式对应的文档分类器对所述检索结果进行文档分类,获得文档分类结果。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
例如,在本说明书一些实施例中,所述文档可控式自动分类装置还包括:
分类方式提供模块,其可以用于在根据所述检索请求从数据库获取检索结果后,提供文档分类方式选项;所述文档分类方式选项包括:自动文档分类和人工文档分类;
相应的,所述分类结果获取模块34调用与所述目标检索式对应的文档分类器对所述检索结果进行文档分类,包括:
当接收到对自动文档分类的选择操作时,调用与所述目标检索式对应的文档分类器对所述检索结果进行文档分类。
例如,在本说明书一些实施例中,所述文档可控式自动分类装置还包括:
映射关系更新模块,其可以用于当接收到在指定时机创建的新映射关系时,将其保存至所述映射关系集合中。
例如,在本说明书一些实施例中,所述指定时机包括:
所述映射关系集合中所有映射关系与当前期望的主题不匹配。
例如,在本说明书一些实施例中,所述文档可控式自动分类装置还包括:
分类结果校正模块,其可以用于对所述文档分类结果进行校正。
例如,在本说明书一些实施例中,所述分类结果校正模块包括:
分类结果展示子模块,其可以用于展示所述文档分类结果,以供用户从中选择待校正对象;
校正操作接收子模块,其可以用于接收针对所述待校正对象的校正操作;
结果校正执行子模块,其可以用于根据所述校正操作对所述文档分类结果进行校正。
例如,在本说明书一些实施例中,所述文档可控式自动分类装置还包括:
分类器更新模块,其可以用于根据所述文档分类结果更新所述映射关系集合中对应的文档分类器。
本说明书的实施例还提供一种计算机设备。如图4所示,在本说明书一些实施例中,所述计算机设备402可以包括一个或多个处理器404,诸如一个或多个中央处理单元(CPU)或图形处理器(GPU),每个处理单元可以实现一个或多个硬件线程。计算机设备402还可以包括任何存储器406,其用于存储诸如代码、设置、数据等之类的任何种类的信息,一具体实施方式中,存储器406上并可在处理器404上运行的计算机程序,所述计算机程序被所述处理器404运行时,可以执行上述任一实施例的文档可控式自动分类方法的指令。非限制性的,比如,存储器406可以包括以下任一项或多种组合:任何类型的RAM,任何类型的ROM,闪存设备,硬盘,光盘等。更一般地,任何存储器都可以使用任何技术来存储信息。进一步地,任何存储器可以提供信息的易失性或非易失性保留。进一步地,任何存储器可以表示计算机设备402的固定或可移除部件。在一种情况下,当处理器404执行被存储在任何存储器或存储器的组合中的相关联的指令时,计算机设备402可以执行相关联指令的任一操作。计算机设备402还包括用于与任何存储器交互的一个或多个驱动机构408,诸如硬盘驱动机构、光盘驱动机构等。
计算机设备402还可以包括输入/输出接口410(I/O),其用于接收各种输入(经由输入设备412)和用于提供各种输出(经由输出设备414)。一个具体输出机构可以包括呈现设备416和相关联的图形用户接口418(GUI)。在其他实施例中,还可以不包括输入/输出接口410(I/O)、输入设备412以及输出设备414,仅作为网络中的一台计算机设备。计算机设备402还可以包括一个或多个网络接口420,其用于经由一个或多个通信链路422与其他设备交换数据。一个或多个通信总线424将上文所描述的部件耦合在一起。
通信链路422可以以任何方式实现,例如,通过局域网、广域网(例如,因特网)、点对点连接等、或其任何组合。通信链路422可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。
本申请是参照本说明书一些实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理器的处理器以产生一个机器,使得通过计算机或其他可编程数据处理器的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理器以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理器上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算机设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理器来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种文档可控式自动分类方法,其特征在于,包括:
提供检索式与文档分类器的映射关系集合,以用户供选择;所述映射关系集合中每个映射关系匹配不同的主题;
接收包含目标检索式的检索请求;所述目标检索式为用户从所述映射关系集合中选择的检索式;
根据所述检索请求从数据库获取检索结果;
调用与所述目标检索式对应的文档分类器对所述检索结果进行文档分类,获得文档分类结果。
2.如权利要求1所述的文档可控式自动分类方法,其特征在于,还包括:
在根据所述检索请求从数据库获取检索结果后,提供文档分类方式选项;所述文档分类方式选项包括:自动文档分类和人工文档分类;
相应的,所述调用与所述目标检索式对应的文档分类器对所述检索结果进行文档分类,包括:
当接收到对自动文档分类的选择操作时,调用与所述目标检索式对应的文档分类器对所述检索结果进行文档分类。
3.如权利要求1所述的文档可控式自动分类方法,其特征在于,还包括:
当接收到在指定时机创建的新映射关系时,将其保存至所述映射关系集合中。
4.如权利要求3所述的文档可控式自动分类方法,其特征在于,所述指定时机包括:
所述映射关系集合中所有映射关系与当前期望的主题不匹配。
5.如权利要求1所述的文档可控式自动分类方法,其特征在于,还包括:
对所述文档分类结果进行校正。
6.如权利要求5所述的文档可控式自动分类方法,其特征在于,所述对所述文档分类结果进行校正,包括:
展示所述文档分类结果,以供用户从中选择待校正对象;
接收针对所述待校正对象的校正操作;
根据所述校正操作对所述文档分类结果进行校正。
7.如权利要求1所述的文档可控式自动分类方法,其特征在于,还包括:
根据所述文档分类结果更新所述映射关系集合中对应的文档分类器。
8.一种文档可控式自动分类装置,其特征在于,包括:
映射关系提供模块,用于提供检索式与文档分类器的映射关系集合,以用户供选择;所述映射关系集合中每个映射关系匹配不同的主题;
检索请求接收模块,用于接收包含目标检索式的检索请求;所述目标检索式为用户从所述映射关系集合中选择的检索式;
检索结果获取模块,用于根据所述检索请求从数据库获取检索结果;
分类结果获取模块,用于调用与所述目标检索式对应的文档分类器对所述检索结果进行文档分类,获得文档分类结果。
9.一种计算机设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,其特征在于,所述计算机程序被所述处理器运行时,执行根据权利要求1-7任意一项所述方法的指令。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被计算机设备的处理器运行时,执行根据权利要求1-7任意一项所述方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110475442.1A CN113127642B (zh) | 2021-04-29 | 2021-04-29 | 文档可控式自动分类方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110475442.1A CN113127642B (zh) | 2021-04-29 | 2021-04-29 | 文档可控式自动分类方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113127642A true CN113127642A (zh) | 2021-07-16 |
CN113127642B CN113127642B (zh) | 2022-12-23 |
Family
ID=76780530
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110475442.1A Active CN113127642B (zh) | 2021-04-29 | 2021-04-29 | 文档可控式自动分类方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113127642B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1637744A (zh) * | 2004-01-09 | 2005-07-13 | 微软公司 | 为在大量电子文档中搜索而确定文档相关性的机器学习方法 |
US20100114855A1 (en) * | 2008-10-30 | 2010-05-06 | Nec (China) Co., Ltd. | Method and system for automatic objects classification |
US20130238608A1 (en) * | 2012-03-07 | 2013-09-12 | Microsoft Corporation | Search results by mapping associated with disparate taxonomies |
CN105447205A (zh) * | 2016-01-05 | 2016-03-30 | 腾讯科技(深圳)有限公司 | 检索结果排序的方法和装置 |
CN106202234A (zh) * | 2016-06-29 | 2016-12-07 | 徐州工程学院 | 基于样本对分类器可纠正的交互式信息检索方法 |
CN106202177A (zh) * | 2016-06-27 | 2016-12-07 | 腾讯科技(深圳)有限公司 | 一种文本分类方法及装置 |
CN110334178A (zh) * | 2019-03-28 | 2019-10-15 | 平安科技(深圳)有限公司 | 数据检索方法、装置、设备及可读存储介质 |
CN110569273A (zh) * | 2019-07-26 | 2019-12-13 | 南京邮电大学 | 一种基于相关性排序的专利检索系统及方法 |
CN110781285A (zh) * | 2019-10-30 | 2020-02-11 | 中国农业科学院农业信息研究所 | 一种科技文献检索意图构建方法 |
CN111625728A (zh) * | 2020-05-28 | 2020-09-04 | 苏州浪潮智能科技有限公司 | 一种网页文档生成检索目录的方法、装置、设备和介质 |
-
2021
- 2021-04-29 CN CN202110475442.1A patent/CN113127642B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1637744A (zh) * | 2004-01-09 | 2005-07-13 | 微软公司 | 为在大量电子文档中搜索而确定文档相关性的机器学习方法 |
US20050154686A1 (en) * | 2004-01-09 | 2005-07-14 | Corston Simon H. | Machine-learned approach to determining document relevance for search over large electronic collections of documents |
US20100114855A1 (en) * | 2008-10-30 | 2010-05-06 | Nec (China) Co., Ltd. | Method and system for automatic objects classification |
US20130238608A1 (en) * | 2012-03-07 | 2013-09-12 | Microsoft Corporation | Search results by mapping associated with disparate taxonomies |
CN105447205A (zh) * | 2016-01-05 | 2016-03-30 | 腾讯科技(深圳)有限公司 | 检索结果排序的方法和装置 |
CN106202177A (zh) * | 2016-06-27 | 2016-12-07 | 腾讯科技(深圳)有限公司 | 一种文本分类方法及装置 |
CN106202234A (zh) * | 2016-06-29 | 2016-12-07 | 徐州工程学院 | 基于样本对分类器可纠正的交互式信息检索方法 |
CN110334178A (zh) * | 2019-03-28 | 2019-10-15 | 平安科技(深圳)有限公司 | 数据检索方法、装置、设备及可读存储介质 |
CN110569273A (zh) * | 2019-07-26 | 2019-12-13 | 南京邮电大学 | 一种基于相关性排序的专利检索系统及方法 |
CN110781285A (zh) * | 2019-10-30 | 2020-02-11 | 中国农业科学院农业信息研究所 | 一种科技文献检索意图构建方法 |
CN111625728A (zh) * | 2020-05-28 | 2020-09-04 | 苏州浪潮智能科技有限公司 | 一种网页文档生成检索目录的方法、装置、设备和介质 |
Non-Patent Citations (1)
Title |
---|
汪东芳等: ""面向科技查新的词表构建研究"", 《图书馆学研究》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113127642B (zh) | 2022-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11599714B2 (en) | Methods and systems for modeling complex taxonomies with natural language understanding | |
US11068439B2 (en) | Unsupervised method for enriching RDF data sources from denormalized data | |
Kalmegh | Analysis of weka data mining algorithm reptree, simple cart and randomtree for classification of indian news | |
US10599711B1 (en) | Region-specific image download probability modeling | |
CN104778158B (zh) | 一种文本表示方法及装置 | |
US20170161641A1 (en) | Streamlined analytic model training and scoring system | |
US8756216B1 (en) | Scalable tree builds for content descriptor search | |
CN107329987A (zh) | 一种基于mongo数据库的搜索系统 | |
US20220114361A1 (en) | Multi-word concept tagging for images using short text decoder | |
US11429792B2 (en) | Creating and interacting with data records having semantic vectors and natural language expressions produced by a machine-trained model | |
CN112527970B (zh) | 数据字典标准化处理方法、装置、设备及存储介质 | |
US20170124090A1 (en) | Method of discovering and exploring feature knowledge | |
US20220179910A1 (en) | Using graph queries to obtain results from machine learning models | |
CN113127642B (zh) | 文档可控式自动分类方法、装置、设备及存储介质 | |
US20240112074A1 (en) | Natural language query processing based on machine learning to perform a task | |
US20200387545A1 (en) | Focused aggregation of classification model outputs to classify variable length digital documents | |
CN112925939A (zh) | 图片搜索方法、描述信息生成方法、设备及存储介质 | |
CA3164857A1 (en) | Supervised machine learning method for matching unsupervised data | |
WO2022055643A1 (en) | Modular machine learning systems and methods | |
US20240220876A1 (en) | Artificial intelligence (ai) based data product provisioning | |
US11880655B2 (en) | Fact correction of natural language sentences using data tables | |
US12032915B2 (en) | Creating and interacting with data records having semantic vectors and natural language expressions produced by a machine-trained model | |
US11934359B1 (en) | Log content modeling | |
US20230186071A1 (en) | Classifying and organizing digital content items automatically utilizing content item classification models | |
US20230326046A1 (en) | Application matching method and application matching device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |