CN112486919A

CN112486919A - 文档管理方法、系统及存储介质

Info

Publication number: CN112486919A
Application number: CN202011270176.0A
Authority: CN
Inventors: 和瑞楷; 熊赟; 李占新; 夏曙东
Original assignee: CHINA TRANSINFO TECHNOLOGY CORP
Current assignee: CHINA TRANSINFO TECHNOLOGY CORP
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2021-03-12

Abstract

本申请公开了一种文档管理方法、系统及存储介质，所述方法包括：采集及清洗文档数据；对清洗后的文档数据进行语义分析，生成文档、摘要、关键词及关联关系；将所述文档、摘要、关键词及关联关系输入所述约束模型，生成知识图谱。通过对清洗后的文档数据进行语义分析，能够获得文档、摘要、关键词和关联关系，再将得到的文档、摘要、关键词和关联关系输入至建立好的约束模型中，能够生成知识图谱，满足用户对文档管理的需求。

Description

文档管理方法、系统及存储介质

技术领域

本申请涉及文档处理领域，尤其涉及一种文档管理方法、系统及存储介质。

背景技术

目前,面对种类、数量众多的文档，传统的方式一般为采用目录、标签等方法进行归类，根据时间、类型、所属人等条件进行检索。然而海量的文档淹没了重点内容。人工提取摘要，费时费力，效率不高。标签覆盖范围窄，无法标记所有关键词。只能被动检索，内容无法自动与用户匹配。缺少文档与文档，标签与标签之间的关系。基于以上原因，传统方式已经很难满足用户需求。

综上所述，需要提供一种能够获取文档的摘要、关键词以及文档之间的关联关系，并生成知识图谱，满足用户需求的文档管理方法、系统及存储介质。

发明内容

为解决以上问题，本申请提出了一种文档管理方法、系统及存储介质。

一方面，本申请提出一种文档管理方法，包括：

采集及清洗文档数据；

对清洗后的文档数据进行语义分析，生成文档、摘要、关键词及关联关系；

将所述文档、摘要、关键词及关联关系输入约束模型，生成知识图谱。

优选地，还包括建立约束模型，所述建立约束模型的步骤包括：

根据待建模词条的属性、上下继承关系、组合关系、和依赖关系，建立约束模型；

根据待建模词条建立词库，获取词条的属性和词性，并按照预设规则将所述待建模词条映射到所述约束模型中。

优选地，在所述建立约束模型之前，还包括：

根据需求进行业务分析；

根据业务分析，确定待建模词条；

根据所述待建模词条，确定所述待建模词条的属性，以及确定所述待建模词条之间的上下继承关系、组合关系、和依赖关系。

优选地，所述采集及清洗文档数据，包括：

采集文档数据，所述文档数据的来源包括表数据、文本数据和网页数据；

根据数据清理规则，去除所述表数据、文本数据和网页数据中的冗余和不规范的标签，得到清洗后的文档数据。

优选地，所述对清洗后的文档数据进行语义分析，生成文档、摘要、关键词及关联关系，包括：

使用基于循环神经网络模型和所述词库，对所述清洗后的文档数据进行语义分析，提取文档、摘要、关键词及关联关系。

优选地，所述将所述文档、摘要、关键词及关联关系输入所述约束模型，生成知识图谱，包括：

依据所述约束模型和关联关系，对提取到的所述关键词以及所述关键词对应的文档和摘要进行分类；

根据分类后的所述关键词、文档和摘要，生成知识图谱。

优选地，在所述使用基于循环神经网络模型和所述词库，对所述清洗后的文档数据进行语义分析，提取文档、摘要、关键词及关联关系之后，还包括：

若获取到的所述关键词为词库中没有的词条，则判断所述关键词是否属于所述约束模型；

若属于，则将所述关键词作为新词条加入所述约束模型；

执行所述使用基于循环神经网络模型，根据所述词库，对所述清洗后的文档数据进行语义分析，提取文档、摘要、关键词及关联关系的操作。

优选地，在所述生成知识图谱之后，还包括：

确定用户搜索的目标词条在所述知识图谱中的对应的关键词；

根据所述关键词，将与所目标述词条对应的文档、摘要和/或与所述目标词条对应的文档有关联关系的文档和/或摘要推送给用户。

第二方面，本申请提出一种文档管理系统，包括：

文档获取模块，用于采集及清洗文档数据；

词条提取模块，用于对清洗后的文档数据进行语义分析，生成文档、摘要、关键词及关联关系；

图谱生成模块，用于将所述文档、摘要、关键词及关联关系输入约束模型，生成知识图谱。

第三方面，本申请提出一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行实现如上所述的文档管理方法。

本申请的优点在于：通过对文档数据进行语义分析，能够获得文档、摘要、关键词和关联关系，再将得到的文档、摘要、关键词和关联关系输入至建立好的约束模型中，能够生成知识图谱，满足用户对文档管理的需求。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选事实方案的目的，而并不认为是对本申请的限制。而且在整个附图中，用同样的参考符号表示相同的部件。在附图中：

图1是本申请提供的一种文档管理方法的步骤示意图；

图2是本申请提供的一种文档管理方法的流程示意图；

图3是本申请提供的一种文档管理方法的关系示意图；

图4是本申请提供的一种文档管理系统的示意图；

图5是本申请提供的一种计算机可读存储介质的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

第一方面，根据本申请的实施方式，提出一种文档管理方法，如图1所示，包括：

S101，采集及清洗文档数据。

采集及清洗文档数据包括采集文档数据，其中文档数据的来源包括表数据、文本数据和网页数据；根据数据清理规则，去除表数据、文本数据和网页数据中的冗余和不规范的标签，得到清洗后的文档数据。这样可以去除冗余和不规范的标签能够降低数据中的噪音，提高数据处理的速度和准确度。

S102，对清洗后的文档数据进行语义分析，生成文档、摘要、关键词及关联关系。

优选地，使用基于循环神经网络模型和词库，对清洗后的文档数据进行语义分析，提取文档、摘要、关键词及关联关系。基于循环神经网络模型和词库对清洗后的文档数据进行文档、摘要、关键词及关联关系的提取，使得提取到的目标更加精确。

在一个优选的实施例中，使用基于循环神经网络模型，对清洗后的文档数据进行语义分析，提取文档、摘要、关键词及关联关系之后，还可以对循环神经网络模型提取的关键词进行判断，确定这些关键词是否已经属于约束模型。具体包括：若获取到的关键词为词库中没有的词条，则判断关键词是否属于约束模型；若属于，则将关键词作为新词条加入约束模型；执行使用基于循环神经网络模型和词库，对清洗后的文档数据进行语义分析，提取文档、摘要、关键词及关联关系的操作。另外，还可以将关键词通过作为新词条，通过人工的方式加入约束模型，能够丰富约束模型，使其更加全面，从而得到更丰富的知识图谱。

S103，将文档、摘要、关键词及关联关系输入约束模型，生成知识图谱。

具体通过依据约束模型和关联关系，对提取到的关键词以及关键词对应的文档和摘要进行分类；根据分类后的关键词、文档和摘要，生成知识图谱。生成的知识图谱包括各关键词以及各关键词之间的关联关系，用户可以通过在知识图谱中搜索关键词，获取被搜索的关键词对应的文档和摘要，同时还能够通过关键词之间的关联关系获取与被搜索关键词相关的其他关键词以及其对应的文档和摘要。知识图谱中，关键词作为节点，有关联的关键词之间依据其关联程度，通过边互相连接，方便对文档进行管理，同时方便用户搜索与被搜索关键词相关的关键词。

在一个优选的实施例中，还包括约束模型的建立，约束模型的建立的具体步骤包括：根据待建模词条的属性、上下继承关系、组合关系、和依赖关系，建立约束模型；根据待建模词条建立词库，获取词条的属性和词性，并按照预设规则将待建模词条映射到约束模型中。通过把待建模词条和/或预设规则映射到约束模型中，能够约束各待建模词条之间的关系和规则，使词条具有抽象特征。

进一步地，在根据待建模词条的属性、上下继承关系、组合关系、和依赖关系，建立约束模型之前，还包括：根据需求进行业务分析；根据业务分析，确定待建模词条；根据所述待建模词条，确定所述待建模词条的属性，以及确定所述待建模词条之间的上下继承关系、组合关系、和依赖关系。通过对业务的分析，能够确定适合的待建模词条，减少无关词条造成的词条之间的关系干扰同时减少之后的计算量。

在一个优选的实施例中，在生成知识图谱之后，还包括：确定用户搜索的目标词条在知识图谱中的对应的关键词；根据关键词，将与所目标述词条对应的文档、摘要和/或与目标词条对应的文档有关联关系的文档和/或摘要推送给用户。

具体地，在知识图谱上，用户所搜索知识图谱中的某一个点(节点)，此点对应的关键词可以作为精确结果推送给用户，同时与此点相关的网状外延所包括的关键词，也可以推送给用户。可以以点向外扩散的方向来划分优先级，离中心点最近的优先推送给用户，达到智能推荐的目的。

在一个优选的实施例中，在生成知识图谱之后，还包括：保存知识图谱、约束模型、文档和摘要。

下面，对本申请实施例进行进一步说明。

如图2所示，在建立约束模型之前，需要先根据需求进行业务分析。由于不同领域所需要抽象的约束模型是不同的，因此需要进行业务分析，为约束模型的建立做准备，同时也为数据采集做前提。通过业务分析，可以理清约束模型的层次关系，完善词条与规则。

在此仅以处理数据库中的文档数据为例，主要需要完成以下几项工作：

如图3所示，梳理有关的实体与属性，例如：表、表空间、内部表、外部表、字段、字段类型、表分区、触发器、同义词、主键、外键等。以狗为例，狗可以作为一个实体，眼睛、耳朵可以作为它的属性。梳理有关实体与属性的层次依赖关系，例如：表、内部表、外部表可以有上下继承关系。表注释、是否临时表、表类型与表有属性关系。与表有组合关系的可以是表约束、触发器等。其中，空气和水与狗有依赖关系。狗粮可以和狗有组合关系。完善词条，可以将oracle和mysql等数据库相关关键字，录入到词库，提高语义分析的准确性。完善规则，例如d_开头的单词，可以定义为字典表，idx_开头的单词，可以定义为表索引。确定文档数据的来源，确定文档数据的清理规则，例如网页版的文档，需要清理html相关标签。

在进行业务分析之后，根据业务分析得到的信息，根据待建模词条的属性、上下继承关系、组合关系、和依赖关系，对实体与属性建立约束模型。若已有可用的约束模型，则可以直接使用。如图3所示，为定义表与数据源、表与数据库、表与表空间的关系。约束建模中的模型库会与词库当中的词条进行关联，使所有词条都具有抽象特征，而抽象特征是形成知识图谱的重要基础。约束模型定义并约束了文档要素，不同的约束模型可以描绘文档的不同方面特征，展现不同的关注点。约束模型使信息的描述和分类实现格式化，为机器处理创造了可能。约束模型的建立主要包括：定义属性、定义上下继承关系、定义组合关系和定义依赖关系。定义属性包括：属性名称、属性代码、数据类型、长度、小数位数等的定义。定义上下继承关系包括：是否抽象类、父数据模型和子数据模型。定义组合关系包括：定义关系名称、定义关系代码、定义被组合端数据模型代码、定义被组合端多重性(零个或多个、零个或一个、一个、一个或多个)。定义依赖关系包括：定义关系名称、定义关系代码、定义被依赖端模型代码、定义被依赖端模型名称。

建立完约束模型后，根据待建模词条建立词库，进行词库管理和词条管理，获取词条的属性和词性，并按照预设规则将待建模词条映射到约束模型中。若已有可用的词库，则可以直接使用。词条管理包括：行业术语、机构代码和理名称等。丰富的词条是语义分析的有力助手，是对历史经验的收纳总结。词条的属性包括：中文名称、英文名称、全拼、简拼、数据模型、词性和挂载点等。词性划分以词条的特点作为划分词条的依据，词性包括名词(表示实体和概念名称的词)、代词(在句子结构中代替其他词的词)、形容词(修饰名词，表示人或事物的性质、状态、特征或属性的词)、数词(表示数量和序数的词)和量词(表示数量单位的词)等。词库是语义分析的成果，也能够作为下次分析的训练样本。丰富的词条能够提高语义分析的准确度，为了丰富样本，可以通过录入词条，如oracle，名词，模型为关系型数据库。建立词库还包括规则管理，包括：配置规则类型和规则格式。例如日期类型、首字母开头等。通过录入规则，能够丰富语义分析的语境，帮助语义分析算法识别个性化需求，如提取字典表，业务表，可以录入规则如下：d_开头的单词为字典表，t_yw开头的单词为业务表。最后，按照预设规则将将待建模词条或规则应用到模型当中，使词条具有抽象特征。

建立完词库后，进行文档数据的采集和清洗。文档数据的采集方式包括：增量或全量。数据来源包括：表数据、文本数据和网页数据等。数据的清洗方式包括：清理对语义分析有影响的数据，例如去除冗余、不规范标签(如网页数据中的html标签)等。通过分析数据来源、分析业务属性，分析抽象业务对象，完善约束模型。

之后进行语义分析。语义分析主要包括：新词发现、关键词提取和文档摘要提取。语义分析使用人工智能方式，以词库作为训练样本，通过n与n-1比对的方式完成语义分析。提取出的文档词条进入词库，作为下次识别的训练样本。具体地，使用循环神经网络语言模型，N元模型架构：

P(w₁，w_2，w_3，w₄)＝P(w₁)P(w₂)P(w₃)P(w₄)

P(w₁，w_2，w_3，w₄)＝P(w₁)P(w₂|w₁)P(w₃|w₂)P(w₄|w₃)

P(w₁，w₂，w₃，w₄)＝P(w₁)P(w₂|w₁)P(w₃|w₁，w₂)P(w₄|w₂，w₃)

其中，w₁、w₂至w_t-1，均为词条，将前w₁至w_t-1个词条成为历史词条，认为一句话中的第w_t个词出现的概率是由前面t-1个历史词决定的，使用频率P来估计概率。若发现新词条，则将新词条加入约束模型，之后再执行语义分析，对清洗后的文档数据进行语义分析，提取文档、摘要、关键词及关联关系的操作。

在语义分析后，会生成文档、摘要、关键词的关联关系数据，非新词部分，根据词上应用的数据模型，依靠模型中，属性、父类、子类、组合、被组合、依赖、被依赖的关系，生成知识图谱。新词部分，人工应用数据模型后，生成知识图谱。通过文档、词条、数据模型之间的关系，使所有采集到的文档，形成一张网状的知识图谱，根据知识图谱。用户通过任何一点，都能级联出其他任意点。形成了一张关系网，一张具有抽象概念的知识图谱。在知识图谱上，用户所搜索的某一个点，可以作为精确结果推送给用户，同时与此点相关的网状外延，也可以推送给用户。可以以点向外扩散的方向来划分优先级，离中心点最近的优先推送给用户，实现智能推荐的目的。

第二方面，根据本申请的实施方式，提出一种文档管理系统，如图4所示，包括：

文档获取模块101，用于采集及清洗文档数据。

词条提取模块102，用于对清洗后的文档数据进行语义分析，生成文档、摘要、关键词及关联关系。

图谱生成模块103，用于将文档、摘要、关键词及关联关系输入约束模型，生成知识图谱。

在一个优选的实施例中，文档管理系统还包括：模型生成模块104和词库模块105。模型生成模块104，用于根据待建模词条的属性、上下继承关系、组合关系、和依赖关系，建立约束模型；词库模块，用于根据待建模词条建立词库，获取词条的属性和词性，并按照预设规则将所述待建模词条映射到所述约束模型中。

第三方面，根据本申请的实施方式，提出一种计算机可读存储介质，其上存储有计算机程序，程序被处理器执行实现如上述的文档管理方法。该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。如图5所示，其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

本申请的方法中，通过引入语义分析，智能提取文档、摘要、关键词和关联关系，结合已建立的约束模型，依靠属性、父类、子类、组合、被组合、依赖、被依赖的关系，使所有文档形成关联，根据关联生成知识图谱，从而实现对文档进行智能分类的目的。本申请的实施方式加快了文档整理速度、提高了文档整理质量、生成了网状知识图谱关系、基于网状图谱，实现了知识的智能推荐，满足用户对文档管理的需求，方便对文档内容进行分析和挖掘。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种文档管理方法，其特征在于，包括：

采集及清洗文档数据；

2.根据权利要求1所述的文档管理方法，其特征在于，还包括建立约束模型，所述建立约束模型的步骤包括：

3.根据权利要求2所述的文档管理方法，其特征在于，在所述建立约束模型之前，还包括：

根据需求进行业务分析；

根据业务分析，确定待建模词条；

4.根据权利要求1所述的文档管理方法，其特征在于，所述采集及清洗文档数据，包括：

5.根据权利要求2所述的文档管理方法，其特征在于，所述对清洗后的文档数据进行语义分析，生成文档、摘要、关键词及关联关系，包括：

6.根据权利要求2所述的文档管理方法，其特征在于，所述将所述文档、摘要、关键词及关联关系输入所述约束模型，生成知识图谱，包括：

根据分类后的所述关键词、文档和摘要，生成知识图谱。

7.根据权利要求4所述的文档管理方法，其特征在于，在所述使用基于循环神经网络模型和所述词库，对所述清洗后的文档数据进行语义分析，提取文档、摘要、关键词及关联关系之后，还包括：

若属于，则将所述关键词作为新词条加入所述约束模型；

8.根据权利要求1所述的文档管理方法，其特征在于，在所述生成知识图谱之后，还包括：

9.一种文档管理系统，其特征在于，包括：

文档获取模块，用于采集及清洗文档数据；

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行实现如权利要求1-8中任一项所述的方法。