CN115204123A

CN115204123A - 协同编辑文档的分析方法、分析装置以及存储介质

Info

Publication number: CN115204123A
Application number: CN202210907292.1A
Authority: CN
Inventors: 杜臣勇; 冷传航; 代风
Original assignee: Beijing Zhiyuan Chuangtong Information Technology Co ltd
Current assignee: Beijing Zhiyuan Chuangtong Information Technology Co ltd
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-10-18
Anticipated expiration: 2042-07-29
Also published as: CN115204123B

Abstract

本发明公开了一种协同编辑文档的分析方法、分析装置以及存储介质，涉及文档编辑技术领域，所述方法包括：获取协同文档输入内容，所述协同文档输入内容由多个输入主体共同输入；对所述协同文档输入内容进行词语解析，获得词语集，所述词语集包括多个词语；基于所述协同文档输入内容和所述词语集进行分析，生成对应的分析结果。通过对协同输入的文档内容进行拆解，并进行词语级的分析，从而准确分析出文档的主要内容以及输入者的贡献度，为管理人员提供了管理数据支撑，提高了用户体验。

Description

协同编辑文档的分析方法、分析装置以及存储介质

技术领域

本发明涉及文档编辑技术领域，具体地涉及一种协同编辑文档的分析方法、一种协同编辑文档的分析装置以及一种计算机可读存储介质。

背景技术

目前人们越来越多的通过计算机进行文档编辑，以提高工作中的工作效率，而随着计算机技术以及通信技术的不断发展，人们对现有的文档编辑提出了更高的要求。为了满足在不同场景下的协同办公需求，技术人员提供了基于通信的协同办公功能，人们可以通过通信技术，在不同的办公场景打开文档进行同时、协同的文档编辑。

例如在进行项目开发、大型文档编辑或协同文档制作的过程中，需要不同的人同时对该项目或文档进行协同编辑，而不同的人负责对应的不同的工作内容，在现有的协同文档编辑过程中，往往是在事先分配好针对某文档的分工编辑内容，然后由每个人进行对应的文档编辑，并最终汇总为整体的文档。

在实际应用过程中，技术人员发现现有的协同办公平台仅具有基本的协同文档编辑功能，而不具有针对协同文档的分析功能，当需要知道协同文档的关键信息或每个人的编辑贡献度等信息时，将为管理人员造成困扰。

发明内容

为了克服现有技术中存在的上述技术问题，本发明实施例提供一种协同编辑文档的分析方法，通过对协同输入的文档内容进行拆解，并进行词语级的分析，从而准确分析出文档的主要内容以及输入者的贡献度，为管理人员提供了管理数据支撑，提高了用户体验。

为了实现上述目的，本发明实施例提供一种协同编辑文档的分析方法，所述方法包括：获取协同文档输入内容，所述协同文档输入内容由多个输入主体共同输入；对所述协同文档输入内容进行词语解析，获得词语集，所述词语集包括多个词语；基于所述协同文档输入内容和所述词语集进行分析，生成对应的分析结果。

优选地，所述对所述协同文档输入内容进行词语解析，获得词语集，包括：建立所述协同文档输入内容与所述多个输入主体之间的第一关联关系；对所述协同文档输入内容进行词语解析，获得对应的多个词语；基于所述第一关联关系确定每个词语与对应的输入个体之间的第二关联关系；基于所述多个词语和所述第二关联关系生成所述词语集。

优选地，所述基于所述协同文档输入内容和所述词语集进行分析，生成对应的分析结果，包括：对所述词语集进行分析，生成对应的第一分析信息；基于所述协同文档输入内容和所述第一关联关系确定每个输入主体的内容输入量；基于每个输入主体的内容输入量生成对应的第二分析信息；基于所述第一分析信息和所述第二分析信息生成分析结果。

优选地，所述对所述词语集进行分析，生成对应的第一分析信息，包括：对所述词语集中的每个词语进行频次分析，获得每个词语的出现频次；提取出现频次高于预设频次值的高频词语；对所述高频词语进行属性分析，获得对应的高频词属性信息，将所述高频词属性信息作为第一分析信息。

优选地，所述基于每个输入主体的内容输入量生成对应的第二分析信息，包括：基于所述协同文档输入内容的内容总量和每个输入主体的内容输入量确定每个输入主体的内容输入占比；基于所述内容输入占比确定每个输入主体的第一输入贡献；确定与所述高频词语对应的高频内容占比；基于所述高频内容占比确定每个输入主体的第二输入贡献；基于所述第一输入贡献和所述第二输入贡献生成第二分析信息。

相应的，本发明实施例还提供一种协同编辑文档的分析装置，所述装置包括：内容获取单元，用于获取协同文档输入内容，所述协同文档输入内容由多个输入主体共同输入；解析单元，用于对所述协同文档输入内容进行词语解析，获得词语集，所述词语集包括多个词语；分析单元，用于基于所述协同文档输入内容和所述词语集进行分析，生成对应的分析结果。

优选地，所述解析单元包括：第一关联模块，用于建立所述协同文档输入内容与所述多个输入主体之间的第一关联关系；解析模块，用于对所述协同文档输入内容进行词语解析，获得对应的多个词语；第二关联模块，用于基于所述第一关联关系确定每个词语与对应的输入个体之间的第二关联关系；词语集生成模块，用于基于所述多个词语和所述第二关联关系生成所述词语集。

优选地，所述分析单元包括：第一分析模块，用于对所述词语集进行分析，生成对应的第一分析信息；输入量确定模块，用于基于所述协同文档输入内容和所述第一关联关系确定每个输入主体的内容输入量；第二分析模块，用于基于每个输入主体的内容输入量生成对应的第二分析信息；结果确定模块，用于基于所述第一分析信息和所述第二分析信息生成分析结果。

优选地，所述第一分析模块具体用于：对所述词语集中的每个词语进行频次分析，获得每个词语的出现频次；提取出现频次高于预设频次值的高频词语；对所述高频词语进行属性分析，获得对应的高频词属性信息，将所述高频词属性信息作为第一分析信息。

优选地，所述第二分析模块具体用于：基于所述协同文档输入内容的内容总量和每个输入主体的内容输入量确定每个输入主体的内容输入占比；基于所述内容输入占比确定每个输入主体的第一输入贡献；确定与所述高频词语对应的高频内容占比；基于所述高频内容占比确定每个输入主体的第二输入贡献；基于所述第一输入贡献和所述第二输入贡献生成第二分析信息。

另一方面，本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明实施例提供的方法。

通过本发明提供的技术方案，本发明至少具有如下技术效果：

通过根据协同文档输入者的输入内容特点，对协同文档输入内容进行拆解，并从词语级对协同文档输入内容进行分析，从而有效分析出各个协同文档的内容主题以及每个内容输入者在进行协同文档编辑的过程中的贡献度，从而为管理人员在后续的管理和分析过程中提供了有效的数据支撑，降低了管理成本，提高了管理效率和管理精确性，提高了用户体验。

本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施例，但并不构成对本发明实施例的限制。在附图中：

图1是本发明实施例提供的协同编辑文档的分析方法的具体实现流程图；

图2是本发明实施例提供的协同编辑文档的分析方法中进行词语解析并获得词语集的具体实现流程图；

图3是本发明实施例提供的协同编辑文档的分析方法中对词语集进行分析生成对应的分析结果的具体实现流程图；

图4是本发明实施例提供的协同编辑文档的分析装置的结构示意图。

具体实施方式

以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施例，并不用于限制本发明实施例。

本发明实施例中的术语“系统”和“网络”可被互换使用。“多个”是指两个或两个以上，鉴于此，本发明实施例中也可以将“多个”理解为“至少两个”。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，字符“/”，如无特殊说明，一般表示前后关联对象是一种“或”的关系。另外，需要理解的是，在本发明实施例的描述中，“第一”、“第二”等词汇，仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序。

请参见图1，本发明实施例提供一种协同编辑文档的分析方法，所述方法包括：

S10）获取协同文档输入内容，所述协同文档输入内容由多个输入主体共同输入；

S20）对所述协同文档输入内容进行词语解析，获得词语集，所述词语集包括多个词语；

S30）基于所述协同文档输入内容和所述词语集进行分析，生成对应的分析结果。

在一种可能的实施方式中，首先获取协同文档输入内容，该协同文档输入内容由多个输入主体共同输入，例如某个协同文档由5个用户在不同的地方通过在线编辑的方式共同编辑完成。要对该协同文档输入内容进行分析，需要首先进行词语解析。

请参见图2，在本发明实施例中，所述对所述协同文档输入内容进行词语解析，获得词语集，包括：

S21）建立所述协同文档输入内容与所述多个输入主体之间的第一关联关系；

S22）对所述协同文档输入内容进行词语解析，获得对应的多个词语；

S23）基于所述第一关联关系确定每个词语与对应的输入个体之间的第二关联关系；

S24）基于所述多个词语和所述第二关联关系生成所述词语集。

例如在进行词语解析之前，首先建立协同文档输入内容与多个输入主体之间的第一关联关系，当然，对于本领域技术人员很容易知道，也可以在用户输入协同文档输入内容的同时建立该输入主体与其所输入的内容之间的第一关联关系。然后对上述协同文档输入内容进行词语解析，例如可以采用现有的文字识别技术、词语识别技术、基于知识图谱的词语分析技术、基于深度学习的词语识别技术等技术对协同文档输入内容进行词语解析，以提取出协同文档输入内容中的多个词语，此时根据每个输入主体与协同文档输入内容之间的第一关联关系进一步确定每个输入主体与每个词语之间的第二关联关系，然后根据上述多个词语以及对应的第二关联关系生成词语集，必然可以生成对应的向量集进行存储。

请参见图3，在本发明实施例中，所述基于所述协同文档输入内容和所述词语集进行分析，生成对应的分析结果，包括：

S31）对所述词语集进行分析，生成对应的第一分析信息；

S32）基于所述协同文档输入内容和所述第一关联关系确定每个输入主体的内容输入量；

S33）基于每个输入主体的内容输入量生成对应的第二分析信息；

S34）基于所述第一分析信息和所述第二分析信息生成分析结果。

在一种可能的实施方式中，首先直接对词语集进行分析，并生成对应的第一分析信息，具体的，在本发明实施例中，所述对所述词语集进行分析，生成对应的第一分析信息，包括：对所述词语集中的每个词语进行频次分析，获得每个词语的出现频次；提取出现频次高于预设频次值的高频词语；对所述高频词语进行属性分析，获得对应的高频词属性信息，将所述高频词属性信息作为第一分析信息。

例如首先提取词语集中的每个词语并统计其中的重复词语，为了进一步提高分析的精确性，可以将某个词语的近义词视为该词语的重复词语并进行统计，以实现更精确的分析结果，在确定每个词语的重复词语后，可以确定该词语的出现频次，此时进一步提取其中出现频次高于预设频次值（例如5次以上）的高频词语，并对该高频词语进行属性分析，具体的，可以通过对该高频词语进行语义解析以识别出该高频词语的属性，词语的属性包括但不限于所属领域、技术方向、技术类别等属性，即生成对应的高频词属性信息，并将该高频词属性信息作为第一分析信息。

然后进一步根据协同文档输入内容和第一关联关系确定每个输入主体的内容输入量，例如在某个协同文档输入内容中包括10段话，其中第1-2段由第1个输入主体输入，第3-5段话由第2个输入主体输入，第6段话由第3个输入主体输入，第7-10段话由第4个输入主体输入，根据上述关联关系可以确定每个输入主体的内容注入量，例如该内容注入量可以为每个输入主体实际输入的字符数或文字数。

此时进一步根据每个输入主体的内容输入量生成对应的第二分析信息，具体的，在本发明实施例中，所述基于每个输入主体的内容输入量生成对应的第二分析信息，包括：基于所述协同文档输入内容的内容总量和每个输入主体的内容输入量确定每个输入主体的内容输入占比；基于所述内容输入占比确定每个输入主体的第一输入贡献；确定与所述高频词语对应的高频内容占比；基于所述高频内容占比确定每个输入主体的第二输入贡献；基于所述第一输入贡献和所述第二输入贡献生成第二分析信息。

例如某个协同文档内的内容总量为20581字，其中A输入主体的内容输入量为3799字，B输入主体的内容输入量为2981字，C输入主体的内容输入量为10881字，D输入主体的内容输入量为2920字，因此可以确定每个输入主体的内容输入占比分别为18.5%、14.5%、52.9%和14.1%，然后基于该内容输入占比确定每个输入主体的第一输入贡献，具体的，可以直接将上述内容输入占比作为每个输入主体的第一输入贡献，也可以获取预设第一权值，并将第一预设权值与上述内容输入占比相乘后得到与每个输入主体对应的第一输入贡献。

此时进一步确定与上述高频词语对应的高频内容占比，具体的，通过在协同文档输入内容提取出对应的高频词语后确定每个输入主体所输入的高频词语在所有高频词语中的占比，例如在本实施例中，上述四个输入主体的高频内容占比分别为27%、9%、48%和16%，然后基于该高频内容占比确定每个输入主体的第二输入贡献，例如可以获取预设第二权值，并将预设第二权值与上述高频内容占比进行相乘后获得每个输入主体对应的第二输入贡献，此时根据上述第一输入贡献和第二输入贡献生成对应的第二分析信息。最后，根据上述第一分析信息和第二分析信息生成针对该协同文档的分析结果，例如可以分析出该协同文档所涉及的技术领域、技术方向、主要技术摘要、主要内容贡献者、内容贡献排名等信息。

在本发明实施例中，通过对协同文档输入内容进行语言识别，并提取出协同文档中的词语集，在此基础上对协同文档的相关内容进行分析，并生成对应的分析结果，为管理人员在后续的文档编辑管理过程中，提供了有效的数据支撑，以及为文档阅读者提供了阅读指引，提高了用户体验。

下面结合附图对本发明实施例所提供的协同编辑文档的分析装置进行说明。

请参见图4，基于同一发明构思，本发明实施例提供一种协同编辑文档的分析装置，所述装置包括：内容获取单元，用于获取协同文档输入内容，所述协同文档输入内容由多个输入主体共同输入；解析单元，用于对所述协同文档输入内容进行词语解析，获得词语集，所述词语集包括多个词语；分析单元，用于基于所述协同文档输入内容和所述词语集进行分析，生成对应的分析结果。

在本发明实施例中，所述解析单元包括：第一关联模块，用于建立所述协同文档输入内容与所述多个输入主体之间的第一关联关系；解析模块，用于对所述协同文档输入内容进行词语解析，获得对应的多个词语；第二关联模块，用于基于所述第一关联关系确定每个词语与对应的输入个体之间的第二关联关系；词语集生成模块，用于基于所述多个词语和所述第二关联关系生成所述词语集。

在本发明实施例中，所述分析单元包括：第一分析模块，用于对所述词语集进行分析，生成对应的第一分析信息；输入量确定模块，用于基于所述协同文档输入内容和所述第一关联关系确定每个输入主体的内容输入量；第二分析模块，用于基于每个输入主体的内容输入量生成对应的第二分析信息；结果确定模块，用于基于所述第一分析信息和所述第二分析信息生成分析结果。

在本发明实施例中，所述第一分析模块具体用于：对所述词语集中的每个词语进行频次分析，获得每个词语的出现频次；提取出现频次高于预设频次值的高频词语；对所述高频词语进行属性分析，获得对应的高频词属性信息，将所述高频词属性信息作为第一分析信息。

在本发明实施例中，所述第二分析模块具体用于：基于所述协同文档输入内容的内容总量和每个输入主体的内容输入量确定每个输入主体的内容输入占比；基于所述内容输入占比确定每个输入主体的第一输入贡献；确定与所述高频词语对应的高频内容占比；基于所述高频内容占比确定每个输入主体的第二输入贡献；基于所述第一输入贡献和所述第二输入贡献生成第二分析信息。

进一步地，本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明实施例所述的方法。

以上结合附图详细描述了本发明实施例的可选实施方式，但是，本发明实施例并不限于上述实施方式中的具体细节，在本发明实施例的技术构思范围内，可以对本发明实施例的技术方案进行多种简单变型，这些简单变型均属于本发明实施例的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明实施例对各种可能的组合方式不再另行说明。

本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得单片机、芯片或处理器（processor）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

此外，本发明实施例的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明实施例的思想，其同样应当视为本发明实施例所公开的内容。

Claims

1.一种协同编辑文档的分析方法，其特征在于，所述方法包括：

获取协同文档输入内容，所述协同文档输入内容由多个输入主体共同输入；

对所述协同文档输入内容进行词语解析，获得词语集，所述词语集包括多个词语；

基于所述协同文档输入内容和所述词语集进行分析，生成对应的分析结果。

2.根据权利要求1所述的方法，其特征在于，所述对所述协同文档输入内容进行词语解析，获得词语集，包括：

建立所述协同文档输入内容与所述多个输入主体之间的第一关联关系；

对所述协同文档输入内容进行词语解析，获得对应的多个词语；

基于所述第一关联关系确定每个词语与对应的输入个体之间的第二关联关系；

基于所述多个词语和所述第二关联关系生成所述词语集。

3.根据权利要求2所述的方法，其特征在于，所述基于所述协同文档输入内容和所述词语集进行分析，生成对应的分析结果，包括：

对所述词语集进行分析，生成对应的第一分析信息；

基于所述协同文档输入内容和所述第一关联关系确定每个输入主体的内容输入量；

基于每个输入主体的内容输入量生成对应的第二分析信息；

基于所述第一分析信息和所述第二分析信息生成分析结果。

4.根据权利要求3所述的方法，其特征在于，所述对所述词语集进行分析，生成对应的第一分析信息，包括：

对所述词语集中的每个词语进行频次分析，获得每个词语的出现频次；

提取出现频次高于预设频次值的高频词语；

对所述高频词语进行属性分析，获得对应的高频词属性信息，将所述高频词属性信息作为第一分析信息。

5.根据权利要求4所述的方法，其特征在于，所述基于每个输入主体的内容输入量生成对应的第二分析信息，包括：

基于所述协同文档输入内容的内容总量和每个输入主体的内容输入量确定每个输入主体的内容输入占比；

基于所述内容输入占比确定每个输入主体的第一输入贡献；

确定与所述高频词语对应的高频内容占比；

基于所述高频内容占比确定每个输入主体的第二输入贡献；

基于所述第一输入贡献和所述第二输入贡献生成第二分析信息。

6.一种协同编辑文档的分析装置，其特征在于，所述装置包括：

内容获取单元，用于获取协同文档输入内容，所述协同文档输入内容由多个输入主体共同输入；

解析单元，用于对所述协同文档输入内容进行词语解析，获得词语集，所述词语集包括多个词语；

分析单元，用于基于所述协同文档输入内容和所述词语集进行分析，生成对应的分析结果。

7.根据权利要求6所述的装置，其特征在于，所述解析单元包括：

第一关联模块，用于建立所述协同文档输入内容与所述多个输入主体之间的第一关联关系；

解析模块，用于对所述协同文档输入内容进行词语解析，获得对应的多个词语；

第二关联模块，用于基于所述第一关联关系确定每个词语与对应的输入个体之间的第二关联关系；

词语集生成模块，用于基于所述多个词语和所述第二关联关系生成所述词语集。

8.根据权利要求7所述的装置，其特征在于，所述分析单元包括：

第一分析模块，用于对所述词语集进行分析，生成对应的第一分析信息；

输入量确定模块，用于基于所述协同文档输入内容和所述第一关联关系确定每个输入主体的内容输入量；

第二分析模块，用于基于每个输入主体的内容输入量生成对应的第二分析信息；

结果确定模块，用于基于所述第一分析信息和所述第二分析信息生成分析结果。

9.根据权利要求8所述的装置，其特征在于，所述第一分析模块具体用于：

提取出现频次高于预设频次值的高频词语；

10.根据权利要求9所述的装置，其特征在于，所述第二分析模块具体用于：

基于所述内容输入占比确定每个输入主体的第一输入贡献；

确定与所述高频词语对应的高频内容占比；

基于所述高频内容占比确定每个输入主体的第二输入贡献；

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-5中任一项权利要求所述的方法。