CN115329083A - 文档分类方法、装置、计算机设备和存储介质 - Google Patents
文档分类方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN115329083A CN115329083A CN202211022866.3A CN202211022866A CN115329083A CN 115329083 A CN115329083 A CN 115329083A CN 202211022866 A CN202211022866 A CN 202211022866A CN 115329083 A CN115329083 A CN 115329083A
- Authority
- CN
- China
- Prior art keywords
- document
- classified
- class
- matching
- knowledge graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000011218 segmentation Effects 0.000 claims description 43
- 238000004590 computer program Methods 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000013145 classification model Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 description 11
- 238000011156 evaluation Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 239000007787 solid Substances 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 239000003651 drinking water Substances 0.000 description 2
- 235000020188 drinking water Nutrition 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种文档分类方法、装置、计算机设备和存储介质。所述方法包括:获取待分类文档;获取预先通过类别样本数据训练的多个文档类别知识图谱;将所述待分类文档与各个文档类别知识图谱进行匹配,得到所述待分类文档与各个文档类别知识图谱之间的文档类别匹配图;根据所述文档类别匹配图计算所述待分类文档与各个文档类别知识图谱之间的匹配度;根据所述匹配度确定所述待分类文档对应的分类结果。采用本方法能够提高分档分类准确性。
Description
技术领域
本发明涉及计算机技术领域,特别是涉及一种文档分类方法、装置、计算机设备、存储介质和计算机程序。
背景技术
随着越来越多的企业进行数字化、无纸化转型,企业中的文档数量以及种类也越来越多,文档分类成为企业最基本的需求之一。
传统方式中,是依靠人工经验构建每一类文档的特征,通过将待分类文档的特征与预先构建的特征进行匹配来实现文档分类。
然而,依靠人工经验构建的文档特征的准确性较低,导致文档分类的准确性也较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高文档分类准确性的文档分类方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种文档分类方法。所述方法包括:
获取待分类文档;
获取预先通过类别样本数据训练的多个文档类别知识图谱;
将待分类文档与各个文档类别知识图谱进行匹配,得到待分类文档与各个文档类别知识图谱之间的文档类别匹配图;
根据文档类别匹配图计算待分类文档与各个文档类别知识图谱之间的匹配度;
根据匹配度确定待分类文档对应的分类结果。
在其中一个实施例中,在获取待分类文档之前,所述方法还包括:
获取多个文档类别的类别样本数据;
在各个文档类别的类别样本数据中提取关键实体,得到各个文档类别对应的关键实体;
根据各个文档类别对应的关键实体以及预设领域知识库分别对待训练知识图谱进行训练,直至满足训练停止条件,得到多个文档类别知识图谱。
在其中一个实施例中,将待分类文档与各个文档类别知识图谱进行匹配,包括:
对待分类文档进行分词处理,得到待分类文档对应的分词列表;
将分词列表与各个文档类别知识图谱进行匹配。
在其中一个实施例中,根据文档类别匹配图计算待分类文档与各个文档类别知识图谱之间的匹配度包括:
在文档类别匹配图中获取待分类文档与各个文档类别知识图谱的共现实体和共现实体间的关系路径;
根据共现实体和共现实体间的关系路径计算待分类文档与各个文档类别知识图谱之间的匹配度。
在其中一个实施例中,根据共现实体和共现实体间的关系路径计算待分类文档与各个文档类别知识图谱之间的匹配度包括:
根据共现实体间的关系路径计算共现实体在对应的文档类别知识图谱上的距离;
根据共现实体的数量和共现实体在对应的文档类别知识图谱上的距离计算待分类文档与各个文档类别知识图谱之间的匹配度。
在其中一个实施例中,根据匹配度确定待分类文档对应的分类结果包括:
选取匹配度最高的文档类别知识图谱,将选取的文档类别知识图谱对应的文档类别确定为待分类文档对应的分类结果。
第二方面,本申请还提供了一种文档分类装置。所述装置包括:
文档获取模块,用于获取待分类文档;
图谱获取模块,用于获取预先通过类别样本数据训练的多个文档类别知识图谱;
类别匹配模块,用于将待分类文档与各个文档类别知识图谱进行匹配,得到待分类文档与各个文档类别知识图谱之间的文档类别匹配图;
匹配度计算模块,根据文档类别匹配图计算待分类文档与各个文档类别知识图谱之间的匹配度;
文档分类模块,用于根据匹配度确定待分类文档对应的分类结果。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待分类文档;
获取预先通过类别样本数据训练的多个文档类别知识图谱;
将待分类文档与各个文档类别知识图谱进行匹配,得到待分类文档与各个文档类别知识图谱之间的文档类别匹配图;
根据文档类别匹配图计算待分类文档与各个文档类别知识图谱之间的匹配度;
根据匹配度确定待分类文档对应的分类结果。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待分类文档;
获取预先通过类别样本数据训练的多个文档类别知识图谱;
将待分类文档与各个文档类别知识图谱进行匹配,得到待分类文档与各个文档类别知识图谱之间的文档类别匹配图;
根据文档类别匹配图计算待分类文档与各个文档类别知识图谱之间的匹配度;
根据匹配度确定待分类文档对应的分类结果。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取待分类文档;
获取预先通过类别样本数据训练的多个文档类别知识图谱;
将待分类文档与各个文档类别知识图谱进行匹配,得到待分类文档与各个文档类别知识图谱之间的文档类别匹配图;
根据文档类别匹配图计算待分类文档与各个文档类别知识图谱之间的匹配度;
根据匹配度确定待分类文档对应的分类结果。
上述一种文档分类方法方法、装置、计算机设备、存储介质和计算机程序产品,由于文档类别知识图谱是根据类别样本数据训练得到的,能够得到准确的文档类别知识图谱。之后,通过将待分类文档与各个文档类别知识图谱进行匹配,根据匹配得到的文档类别匹配图计算待分类文档与各个文档类别知识图谱之间的匹配度,从而根据匹配度确定待分类文档对应的分类结果,无需依赖人工经验预先构建文档特征,大大提高了文档分类的准确性。并且类别样本数据是现有的类别数据,直接获取即可,与基于深度学习算法的文档分类方法相比,不需要大量正确标注的数据作为基础,能够在提高文档分类准确性的同时,节省人力物力,进而降低了文档分类成本。
附图说明
图1为一个实施例中文档分类方法的应用环境图;
图2为一个实施例中文档分类方法的流程示意图;
图3为另一个实施例中文档分类方法的流程示意图;
图4为一个实施例中训练多个文档类别知识图谱步骤的流程示意图;
图5为另一个实施例中分档分类方法的详细流程示意图;
图6为一个实施例中文档分类装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的文档分类方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。终端102发送文档分类请求至服务器104,服务器104对文档分类请求进行解析,得到文档分类请求携带的待分类文档。服务器104获取预先通过类别样本数据训练的多个文档类别知识图谱,服务器104再将待分类文档与各个文档类别知识图谱进行匹配,得到待分类文档与各个文档类别知识图谱之间的文档类别匹配图,服务器104再根据文档类别匹配图计算待分类文档与各个文档类别知识图谱之间的匹配度,最后服务器104根据匹配度确定待分类文档对应的分类结果。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种文档分类方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,获取待分类文档。
其中,待分类文档是指企业在工作业务中存在的需要进行分类的文档。
具体地,服务器可以接收终端发送的文档分类请求,文档分类请求携带有待分类文档,对分档分类请求进行解析,得到待分类文档。例如,待分类文档可以是合同、票据、会议纪要、策划方案等。
步骤204,获取预先通过类别样本数据训练的多个文档类别知识图谱。
其中,类别样本数据是指从每个类别数据中选择的作为样本的数据。知识图谱是指一个具有有向图结构的知识库,其中图的节点代表实体或者概念,图的边代表实体或者概念之间的各种语义关系。文档类别知识图谱是指某一文档类别对应的知识图谱,其中的节点代表对应文档类别相关的实体,而图的边代表实体之间的关系。
具体地,服务器中预先存储有预先训练的多个文档类别知识图谱。文档类别知识图谱用于与待分类文档进行匹配,以实现对待分类文档进行分类。服务器可以在获取到待分类文档后,根据文档分类请求获取多个文档类别知识图谱。各个文档类别知识图谱中包含了对应的文档类别相关的实体和实体间的关系。
文档类别知识图谱可以是服务器预先根据多个文档类别的类别样本数据训练得到的。具体地,在文档类别知识图谱的训练过程中,服务器可以获取多个文档类别的类别样本数据,根据各个文档类别的类别样本数据对待训练知识图谱进行训练,得到各个文档类别对应的文档类别知识图谱,从而完成对各个文档类别的文档类别知识图谱的构建,以便在文档分类时,直接获取预先训练的多个文档类别知识图谱。
步骤206,将待分类文档与各个文档类别知识图谱进行匹配,得到待分类文档与各个文档类别知识图谱之间的文档类别匹配图。
其中,文档类别匹配图是指待分类文档与各个文档类别知识图谱之间相匹配的实体,以及相匹配的实体间的关系所生成的匹配图。
具体地,服务器可以通过对待分类文档进行分词处理,将分词处理后得到的分词列表与各个文档类别知识图谱进行匹配,从而得到待分类文档与各个文档类别知识图谱之间的文档类别匹配图。其中,分词列表中可以包括文档标题的关键字、表格的表头等。
可选地,服务器可以使用现有的分词算法对待分类文档进行分词处理,例如,现有的分词算法可以是MM法(MaximumMatching Method,最大正向匹配法)、RMM法(ReverseMaximum Matching Method,逆向最大匹配法)、最小切分法和双向匹配法等。
步骤208,根据文档类别匹配图计算待分类文档与各个文档类别知识图谱之间的匹配度。
其中,匹配度是指待分类文档与各个文档类别知识图谱之间的相近程度。
具体地,服务器在文档类别匹配图中获取待分类文档与各个文档类别知识图谱之间的共现实体和共现实体之间的关系。然后服务器根据共现实体和共现实体之间的关系计算待分类文档与各个文档类别知识图谱之间的匹配度。
步骤210,根据匹配度确定待分类文档对应的分类结果。
其中,分类结果是指待分类文档对应的文档类别。
具体地,服务器根据匹配度确定待分类文档对应的分类结果的方式可以有多种,可以是选取匹配度最高的文档类别知识图谱,将选取的文档类别知识图谱对应的文档类别确定为待分类文档对应的分类结果。也可以将匹配度中的最高匹配度与匹配度阈值进行比较,当最高匹配度小于匹配度阈值时,说明该待分类文档与文档类别知识图谱中相匹配的实体数过少,此时,服务器可以将待分类文档发送至终端,以指示登录终端的工作人员对待分类文档进行分类。服务器从而接收终端发送的待分类文档对应的分类结果。
可选地,服务器可以将匹配度输入至预先训练的分类模型中,通过分类模型在匹配度中选取匹配度最高的文档类别知识图谱,将选取的文档类别知识图谱对应的文档类别确定为待分类文档对应的分类结果。其中,分类模型可以是CRF(Conditional RandomField,条件随机场模型)、Seq2Seq(Sequence to Sequence,序列到序列模型)、Boost模型等。
示例性地,图3示出了另一个实施例中文档分类方法的流程示意图。其中,文档表示待分类文档,类别1知识图谱、类别2知识图谱和类别3知识图谱表示预先通过类别样本数据训练的多个文档类别知识图谱,文档-类别1匹配图、文档-类别2匹配图和文档-类别3匹配图表示待分类文档分别与类别1知识图谱、类别2知识图谱和类别3知识图谱进行匹配后得到的文档类别匹配图。文档-类别1评估结果、文档-类别2评估结果和文档-类别3评估结果表示待分类文档与类别1知识图谱之间的匹配度、待分类文档与类别2知识图谱之间的匹配度和待分类文档与类别3知识图谱之间的匹配度。分类器表示分类模型。
具体地,服务器在获取到文档以及类别1知识知识图谱、类别2知识图谱和类别3知识图谱之后,将文档分别与类别1知识知识图谱、类别2知识图谱和类别3知识图谱进行匹配,得到文档-类别1匹配图、文档-类别2匹配图和文档-类别3匹配图。其中,类别1知识知识图谱、类别2知识图谱和类别3知识图谱中的实心点表示与每个文档类别相关的实体,实心点间的连线对应实体间的关系。
根据文档-类别1匹配图、文档-类别2匹配图和文档-类别3匹配图计算待分类文档与各个文档类别知识图谱之间的匹配度,得到文档-类别1评估结果、文档-类别2评估结果和文档-类别3评估结果。其中,文档-类别1匹配图、文档-类别2匹配图和文档-类别3匹配图中的实心点表示待分类文档与文档类别知识图谱的共现实体,非实心点即不是共现实体。连线表示文档类别匹配图中实体间的关系。
将文档-类别1评估结果、文档-类别2评估结果和文档-类别3评估结果分别输入到分类器中,由分类器对多个评估结果进行处理,最后输出文档对应的分类结果。
上述文档分类方法中,由于文档类别知识图谱是根据类别样本数据训练得到的,能够得到准确的文档类别知识图谱。之后,通过将待分类文档与各个文档类别知识图谱进行匹配,根据匹配得到的文档类别匹配图计算待分类文档与各个文档类别知识图谱之间的匹配度,从而根据匹配度确定待分类文档对应的分类结果,无需依赖人工经验预先构建文档特征,大大提高了文档分类的准确性。并且类别样本数据是现有的类别数据,直接获取即可,与基于深度学习算法的文档分类方法相比,不需要大量正确标注的数据作为基础,能够在提高文档分类准确性的同时,节省人力物力,进而降低了文档分类成本。
在一个实施例中,如图4所示,在获取待分类文档之前,上述方法还包括:多个文档类别知识图谱的训练步骤,该步骤可以包括:
步骤402,获取多个文档类别的类别样本数据。
步骤404,在各个文档类别的类别样本数据中提取关键实体,得到各个文档类别对应的关键实体。
步骤406,根据各个文档类别对应的关键实体以及预设领域知识库分别对待训练知识图谱进行训练,直至满足训练停止条件,得到多个文档类别知识图谱。
其中,关键实体是指类别样本数据中与该类别相关的核心实体。预设领域知识库是指与文档类别相关的领域的知识库。
具体地,服务器可以先获取现有的多个文档类别的类别数据。文档类别可以包括账单类、合同类和公告类等。类别数据是指多个文档类别对应的文档。之后,在各个文档类别的类别数据中选取类别样本数据,从而得到多个文档类别的类别样本数据。
可选地,服务器可以从每个文档类别的类别数据中人工挑选预设数量的数据作为类别样本数据,也可以从每个文档类别的类别数据中随机选择预设数量的数据作为类别样本数据。例如,预设数量可以是10%到15%的样本量。
服务器可以采取多种实体提取方式提取类别样本数据中的关键实体。其中,多种实体提取方式可以包括人工提取和人工及模型的组合提取方式。具体地,服务器可以根据类别样本数据的篇幅以及板式来确定实体提取方式。例如,当类别样本数据的篇幅较短,即类别样本数据为短文本型文档,或者,类别样本数据为固定板式文档时,可以采用人工提取方式。例如,固定板式文档可以是票据。采用人工提取方式提取类别样本数据中的关键实体可以是人工选择文档命名、特征字段值、特征字段上下文、特征字段所处文档中的位置等关键实体。
当类别样本数据的篇幅较长,即类别样本数据为长文本文档时,可以采用人工及模型的组合提取方式,例如,长文本文档可以是合同。人工及模型的组合提取方式可以是采用BERT模型(Bidirectional Encoder Representations from Transformer,自然语言预训练模型),来从各个文档的类别样本数据中提取各个文档类别对应的关键实体。
预设领域知识库中可以包括多个领域的知识库,如财务、供应链、OA等领域的知识库。每个领域的知识库中可以包括该领域中涵盖的所有文档类别对应的文档。
服务器将提取的关键实体作为待训练知识图谱的核心实体,可以理解的是,关键实体也是训练得到的文档类别知识图谱的核心实体。当各个文档类别分别对应多个核心实体时,将各个文档类别对应的核心实体作为一个关键词集,根据关键词集中的每个关键词爬取或者检索预设领域知识库的相关知识,相关知识是指预设领域知识库中与该核心实体相关的文档。在相关知识中检索与核心实体相关的实体,确定检索到的实体间的关系。根据检索到的实体间的关系将检索到的实体插入对应的待训练知识图谱。然后将检索到的实体作为原先充当关键词的每一个文档类别知识图谱的关键实体的直接关系的扩展实体。然后再用这些扩展实体更新对应的关键词集,即将扩展实体添加至关键词集中。再进行新一轮的检索或者爬取,直至满足训练停止条件。例如,训练停止条件可以是达到预设迭代次数,或者图谱损失值不再下降。
本实施例中,训练各个文档类别知识图谱只需要从每个类别数据中获取少量类别样本数据进行训练,不需要大量正确标注的数据作为基础,能够达到节省人力物力和文档分类成本的作用。并且还可以结合预设领域知识库进行图谱构建,能够在类别样本数据较少时,通过预设领域知识库来扩展样本数据数量,进一步提高了文档类别知识图谱的全面性和准确性。
在一个实施例中,将待分类文档与各个文档类别知识图谱进行匹配包括:对待分类文档进行分词处理,得到待分类文档对应的分词列表;将分词列表与各个文档类别知识图谱进行匹配。
其中,分词列表是指待分类文档进行分词处理后,得到的含有待分类文档中多个关键词的数据表。
具体地,服务器可以基于分词词典对待分类文档进行分词处理。假定分词词典中的最长词有i个汉字字符,则用待分类文档的当前字串中的前i个字作为匹配字段,查找分词词典。若分词词典中存在这样的一个i字词,则匹配成功,匹配字段被作为一个词切分出来。如果分词词典中找不到这样的一个i字词,则匹配失败,将匹配字段中的最后一个字去掉,对剩下的字串重新进行匹配处理。如此进行下去,直到匹配成功,即切分出一个词或剩余字串的长度为零为止。这样就完成了一轮匹配,然后取下一个i字字串进行匹配处理,直到待分类文档被扫描完为止,得到分词列表。
将分词列表中的所有关键词分别与各个文档类别知识图谱进行匹配,当待分类文档的分词列表中的一个关键词与某一文档类别知识图谱中的实体匹配成功时,将匹配成功的实体作为文档类别匹配图中的实体节点,并且通过查询这些匹配成功的实体在对应的文档类别知识图谱中的关系,便可以得到在文档类别匹配图中这些实体节点间的关系,由此,根据实体节点以及实体节点间的关系得到待分类文档与各个文档类别知识图谱之间的文档类别匹配图。
示例性地,对一篇待分类文档进行分词处理之后,得到的分词列表中包括“菜品”、“金额”、“明细”等实体,则可以将分词列表中的实体与文档类别为“餐饮水单”的文档类别知识图谱中的实体进行匹配,分词列表和文档类别知识图谱中匹配成功的实体便组成了该篇待分类文档与类别为“餐饮水单”的文档类别知识图谱之间的文档类别匹配图的实体节点。通过查询匹配成功的实体在类别为“餐饮水单”的文档类别知识图谱上彼此之间的关系,便可以相应地获取到在文档类别匹配图中这些实体节点之间的关系。由此,可以得到一篇待分类文档与每一个文档类别知识图谱之间的文档类别匹配图,后续服务器可以基于匹配得到的文档类别匹配图,计算待分类文档与每一个文档类别知识图谱之间的匹配度。
本实施例中,通过对待分类文档进行分词处理,得到分词列表,分词列表中含有待分类文档的多个关键词,这些关键词对应了待分类文档的关键特征,之后分词列表使用这些关键词与文档类别知识图谱进行匹配,能够提高文档分类结果的准确性。
在一个实施例中,根据文档类别匹配图计算待分类文档与各个文档类别知识图谱之间的匹配度包括:在文档类别匹配图中获取待分类文档与各个文档类别知识图谱的共现实体和共现实体间的关系路径;根据共现实体和共现实体间的关系路径计算待分类文档与各个文档类别知识图谱之间的匹配度。
其中,共现实体是指待分类文档与文档类别知识图谱之间匹配成功的实体。关系路径是指共现实体之间的直接关系对应的路径。
具体地,共现实体也就是在分词列表与文档类别知识图谱匹配过程中匹配成功的实体,因此文档类别匹配图中的实体均为待分类文档与文档类别知识图谱中都出现的实体。通过查询这些文档类别匹配图中的实体在对应的文档类别知识图谱中的关系,便可以对应的得到在文档类别匹配图中这些实体间的关系路径。
本实施例中,通过共现实体和共现实体间的关系路径计算待分类文档与各个文档类别知识图谱之间的匹配度,能够提高文档分类结果的准确性。
在一个实施例中,根据共现实体和共现实体间的关系路径计算待分类文档与各个文档类别知识图谱之间的匹配度包括:根据共现实体间的关系路径计算共现实体在对应的文档类别知识图谱上的距离;根据共现实体的数量和共现实体在对应的文档类别知识图谱上的距离计算待分类文档与各个文档类别知识图谱之间的匹配度。
具体地,服务器可以使用现有的图论的基本理论计算共现实体在对应的文档类别知识图谱上的距离,图有点和边,两个点之间的距离就是两个点之间边的数量的最小值,那么共现实体之间的距离为两个共现实体之间关系路径数量的最小值。当共现实体的数量越多,且共现实体在对应的文档类别知识图谱上的距离越近时,该待分类文档与对应的文档类别知识图谱的匹配度就越高。
服务器可以获取匹配度计算关系,根据共现实体的数量、共现实体在对应的文档类别知识图谱上的距离以及匹配度计算关系计算待分类文档与各个文档类别知识图谱之间的匹配度。例如,匹配度计算关系可以是匹配度计算公式,如下所示:
其中,et表示待分类文档与文本类别匹配图t的匹配度,S(t)表示文本类别匹配图t中的实体集,i表示S(t)中的一个实体,O(t)表示S(t)中除实体i外的实体集,j表示O(t)里的一个实体,dis(i,j)-1表示共现实体i和j在文档类别匹配图t中的最短距离。
可选地,还可以获取预设评分表,预设评分表中记录有多个文档类别分值,以及每个文档类别分值对应的共现实体数量和共现实体在对应的文档类别知识图谱上的距离。服务器可以根据获取到的共现实体的数量和计算的共现实体在对应的文档类别知识图谱上的距离,在预设评分表中确定对应的文档类别分值,得到匹配度。例如,共现实体数量为5,共现实体间的距离为1,在预设评分表确定对应的文档类别分值为60,即匹配度为60%。
本实施例中,通过共现实体的数量和共现实体间的距离计算待分类文档与对应的文档类别知识图谱的匹配度,能够得到最接近的文档类别对应的文档类别知识图谱,进一步提高了文档分类结果的准确性。
在一个实施例中,根据匹配度确定待分类文档对应的分类结果包括:选取匹配度最高的文档类别知识图谱,将选取的文档类别知识图谱对应的文档类别确定为待分类文档对应的分类结果。
具体地,获取待分类文档与每一个文档类别知识图谱之间的匹配度,并进行比较,选取匹配度最高的文档类别知识图谱对应的文档类别,确定为待分类文档对应的分类结果。匹配度越高,表明待分类文档属于对应文档类别的可能性就越强。当存在多个最高匹配度时,可以根据对应的文档类别知识图谱中的实体数进行判断,选取所含实体数少的文档类别知识图谱对应的文档类别作为待分类文档对应的分类结果。
本实施例中,通过选取最高匹配度文档类别知识图谱对应的文档类别作为待分类文档对应的分类结果,能够快速且准确地得到分类结果,且分类结果可靠性更高。
在另一个实施例中,如图5所示,提供了一种文档分类方法,该方法可以包括以下步骤:
步骤502,获取多个文档类别的类别样本数据。
步骤504,在各个文档类别的类别样本数据中提取关键实体,得到各个文档类别对应的关键实体。
步骤506,根据各个文档类别对应的关键实体以及预设领域知识库分别对待训练知识图谱进行训练,直至满足训练停止条件,得到多个文档类别知识图谱。
步骤508,获取待分类文档。
步骤510,获取预先通过类别样本数据训练的多个文档类别知识图谱。
步骤512,对待分类文档进行分词处理,得到待分类文档对应的分词列表。
步骤514,将分词列表与各个文档类别知识图谱进行匹配,得到待分类文档与各个文档类别知识图谱之间的文档类别匹配图。
步骤516,在文档类别匹配图中获取待分类文档与各个文档类别知识图谱的共现实体和共现实体间的关系路径。
步骤518,根据共现实体间的关系路径计算共现实体在对应的文档类别知识图谱上的距离。
步骤520,根据共现实体的数量和共现实体在对应的文档类别知识图谱上的距离计算待分类文档与各个文档类别知识图谱之间的匹配度。
步骤522,根据匹配度确定待分类文档对应的分类结果。
在本实施例中,由于文档类别知识图谱是根据类别样本数据训练得到的,能够得到准确的文档类别知识图谱。之后,通过将待分类文档与各个文档类别知识图谱进行匹配,根据匹配得到的文档类别匹配图计算待分类文档与各个文档类别知识图谱之间的匹配度,从而根据匹配度确定待分类文档对应的分类结果,无需依赖人工经验预先构建文档特征,大大提高了文档分类的准确性。并且类别样本数据是现有的类别数据,直接获取即可,与传统基于深度学习算法的文档分类方法相比,不需要大量正确标注的数据作为基础,能够在提高文档分类准确性的同时,节省人力物力,进而降低了文档分类成本。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的文档分类方法的文档分类装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个分类装置实施例中的具体限定可以参见上文中对于文档分类方法的限定,在此不再赘述。
在一个实施例中,如图6所示,提供了一种文档分类装置,包括:文档获取模块602、图谱构建模块604、类别匹配模块606、匹配度计算模块608和文档分类模块610,其中:
文档获取模块602,用于获取待分类文档。
图谱获取模块604,用于获取预先通过类别样本数据训练的多个文档类别知识图谱。
类别匹配模块606,用于将待分类文档与各个文档类别知识图谱进行匹配,得到待分类文档与各个文档类别知识图谱之间的文档类别匹配图。
匹配度计算模块608,根据文档类别匹配图计算待分类文档与各个文档类别知识图谱之间的匹配度。
文档分类模块610,用于根据匹配度确定待分类文档对应的分类结果。
在一个实施例中,上述装置还包括:
图谱训练模块,用于获取多个文档类别的类别样本数据;在各个文档类别的类别样本数据中提取关键实体,得到各个文档类别对应的关键实体;根据各个文档类别对应的关键实体以及预设领域知识库分别对待训练知识图谱进行训练,直至满足训练停止条件,得到多个文档类别知识图谱。
在一个实施例中,类别匹配模块606,还用于对待分类文档进行分词处理,得到待分类文档对应的分词列表;将分词列表与各个文档类别知识图谱进行匹配,得到待分类文档与各个文档类别知识图谱之间的文档类别匹配图。
在一个实施例中,匹配度计算模块608,还用于在文档类别匹配图中获取待分类文档与各个文档类别知识图谱的共现实体和共现实体间的关系路径。
在一个实施例中,匹配度计算模块608,还用于根据共现实体间的关系路径计算共现实体在对应的文档类别知识图谱上的距离;根据共现实体的数量和共现实体在对应的文档类别知识图谱上的距离计算待分类文档与各个文档类别知识图谱之间的匹配度。
在一个实施例中,文档分类模块610,还用于选取匹配度最高的文档类别知识图谱,将选取的文档类别知识图谱对应的文档类别确定为待分类文档对应的分类结果。
上述文档分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文档类别知识图谱等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文档分类方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种文档分类方法,其特征在于,所述方法包括:
获取待分类文档;
获取预先通过类别样本数据训练的多个文档类别知识图谱;
将所述待分类文档与各个文档类别知识图谱进行匹配,得到所述待分类文档与各个文档类别知识图谱之间的文档类别匹配图;
根据所述文档类别匹配图计算所述待分类文档与各个文档类别知识图谱之间的匹配度;
根据所述匹配度确定所述待分类文档对应的分类结果。
2.根据权利要求1所述的方法,其特征在于,在所述获取待分类文档之前,所述方法还包括:
获取多个文档类别的类别样本数据;
在各个文档类别的类别样本数据中提取关键实体,得到各个文档类别对应的关键实体;
根据各个文档类别对应的关键实体以及预设领域知识库分别对待训练知识图谱进行训练,直至满足训练停止条件,得到多个文档类别知识图谱。
3.根据权利要求1所述的方法,其特征在于,所述将所述待分类文档与各个文档类别知识图谱进行匹配,包括:
对所述待分类文档进行分词处理,得到所述待分类文档对应的分词列表;
将所述分词列表与各个文档类别知识图谱进行匹配。
4.根据权利要求1所述的方法,其特征在于,所述根据所述文档类别匹配图计算所述待分类文档与各个文档类别知识图谱之间的匹配度包括:
在所述文档类别匹配图中获取所述待分类文档与各个文档类别知识图谱的共现实体和所述共现实体间的关系路径;
根据所述共现实体和所述共现实体间的关系路径计算所述待分类文档与各个文档类别知识图谱之间的匹配度。
5.根据权利要求4所述的方法,其特征在于,所述根据所述共现实体和所述共现实体间的关系路径计算所述待分类文档与各个文档类别知识图谱之间的匹配度包括:
根据所述共现实体间的关系路径计算所述共现实体在对应的文档类别知识图谱上的距离;
根据所述共现实体的数量和所述共现实体在对应的文档类别知识图谱上的距离计算所述待分类文档与各个文档类别知识图谱之间的匹配度。
6.根据权利要求1所述的方法,其特征在于,根据所述匹配度确定所述待分类文档对应的分类结果包括:
选取匹配度最高的文档类别知识图谱,将选取的文档类别知识图谱对应的文档类别确定为所述待分类文档对应的分类结果。
7.一种文档分类装置,其特征在于,所述装置包括:
文档获取模块,用于获取待分类文档;
图谱获取模块,用于获取预先通过类别样本数据训练的多个文档类别知识图谱;
类别匹配模块,用于将所述待分类文档与各个文档类别知识图谱进行匹配,得到所述待分类文档与各个文档类别知识图谱之间的文档类别匹配图;
匹配度计算模块,根据所述文档类别匹配图计算所述待分类文档与各个文档类别知识图谱之间的匹配度;
文档分类模块,用于根据所述匹配度确定所述待分类文档对应的分类结果。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211022866.3A CN115329083A (zh) | 2022-08-25 | 2022-08-25 | 文档分类方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211022866.3A CN115329083A (zh) | 2022-08-25 | 2022-08-25 | 文档分类方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115329083A true CN115329083A (zh) | 2022-11-11 |
Family
ID=83925682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211022866.3A Pending CN115329083A (zh) | 2022-08-25 | 2022-08-25 | 文档分类方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115329083A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116186067A (zh) * | 2023-04-27 | 2023-05-30 | 浪潮云洲(山东)工业互联网有限公司 | 一种工业数据表存储查询方法及设备 |
-
2022
- 2022-08-25 CN CN202211022866.3A patent/CN115329083A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116186067A (zh) * | 2023-04-27 | 2023-05-30 | 浪潮云洲(山东)工业互联网有限公司 | 一种工业数据表存储查询方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
WO2020232861A1 (zh) | 命名实体识别方法、电子装置及存储介质 | |
US10146862B2 (en) | Context-based metadata generation and automatic annotation of electronic media in a computer network | |
WO2020063092A1 (zh) | 知识图谱的处理方法及装置 | |
US8744839B2 (en) | Recognition of target words using designated characteristic values | |
WO2020237856A1 (zh) | 基于知识图谱的智能问答方法、装置及计算机存储介质 | |
WO2023108980A1 (zh) | 基于文本对抗样例的信息推送方法及装置 | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
CN106708929B (zh) | 视频节目的搜索方法和装置 | |
CN112559895B (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
WO2019227581A1 (zh) | 兴趣点识别方法、装置、终端设备及存储介质 | |
CN114357117A (zh) | 事务信息查询方法、装置、计算机设备及存储介质 | |
CN113468339B (zh) | 基于知识图谱的标签提取方法、系统、电子设备及介质 | |
CN112926308B (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
CN112784591B (zh) | 数据的处理方法、装置、电子设备和存储介质 | |
CN112559747A (zh) | 事件分类处理方法、装置、电子设备和存储介质 | |
CN112506864B (zh) | 文件检索的方法、装置、电子设备及可读存储介质 | |
CN110110218B (zh) | 一种身份关联方法及终端 | |
CN112579729A (zh) | 文档质量评价模型的训练方法、装置、电子设备和介质 | |
CN106570196B (zh) | 视频节目的搜索方法和装置 | |
CN115269816A (zh) | 基于信息处理方法的核心人员挖掘方法、装置和存储介质 | |
CN115329083A (zh) | 文档分类方法、装置、计算机设备和存储介质 | |
CN115248890A (zh) | 用户兴趣画像的生成方法、装置、电子设备以及存储介质 | |
CN117435685A (zh) | 文档检索方法、装置、计算机设备、存储介质和产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |