CN113688607A - 在线文档作者的画像更新方法及装置 - Google Patents

在线文档作者的画像更新方法及装置 Download PDF

Info

Publication number
CN113688607A
CN113688607A CN202110880729.2A CN202110880729A CN113688607A CN 113688607 A CN113688607 A CN 113688607A CN 202110880729 A CN202110880729 A CN 202110880729A CN 113688607 A CN113688607 A CN 113688607A
Authority
CN
China
Prior art keywords
label
online document
group
paragraphs
editor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110880729.2A
Other languages
English (en)
Inventor
陈奇宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN202110880729.2A priority Critical patent/CN113688607A/zh
Publication of CN113688607A publication Critical patent/CN113688607A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种在线文档作者的画像更新方法及装置。该发明包括:通过本申请,通过腾讯文档的接口等方式获取在线文档的编辑者信息,以及每个编辑者编写的段落,然后按照抽取出每个编辑者编写过的所有段落作为一个分组,从分组中抽取出标签,如技能标签、行业标签等,用上述标签绘制或更新数据库中每个编辑者的标签画像,后续可利用标签画像进行人员管理、信息推荐等功能的实现,解决了相关技术中在线文档价值利用率低的问题。

Description

在线文档作者的画像更新方法及装置
技术领域
本申请涉及计算机领域,具体而言,涉及一种在线文档作者的画像更新方法及装置。
背景技术
在相关技术中,企业组织内部使用在线文档已经变得越来越普遍,包括石墨文档、腾讯文档、飞书、Office 365等。在线文档和离线文档最大的区别在于,在线文档可以多人同时编辑同一份文档,并不会造成冲突,编辑内容、作者、时间等信息都会实时记录下来。
基于这样的文档协作模式,相关技术中仅是充分利用了给协作者提供便捷的办公方式,未能充分发挥在线文档的优势。
针对相关技术中在线文档价值利用率低的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种在线文档作者的画像更新方法及装置,以解决相关技术中在线文档价值利用率低的问题。
根据本申请的一个实施例,提供了一种在线文档作者的画像更新方法,包括:获取在线文档的以下信息:所述在线文档的所有编辑者、每个编辑者编写的段落;将所述在线文档的段落按照不同编辑者进行分组,每个分组内的段落为同一个编辑者编写的内容;抽取出每个分组内的在线文档片段的标签,依据所述标签更新每个分组对应的编辑者的标签画像。
根据本申请的另一个实施例,还提供了一种在线文档作者的画像更新方法,包括:获取待更新标签画像的人员的第一ID;获取所述第一ID编辑过的在线文档的所有段落;从所述所有段落中抽取出标签,依据所述标签更新所述第一ID的人员的标签画像。
根据本申请的另一个实施例,还提供了一种在线文档作者的画像更新装置,包括:获取模块,用于获取在线文档的以下信息:所述在线文档的所有编辑者、每个编辑者编写的段落;分组模块,用于将所述在线文档的段落按照不同编辑者进行分组,每个分组内的段落为同一个编辑者编写的内容;更新标签模块,用于抽取出每个分组内的在线文档片段的标签,依据所述标签更新每个分组对应的编辑者的标签画像。
通过本申请,通过腾讯文档的接口等方式获取在线文档的编辑者信息,以及每个编辑者编写的段落,然后按照抽取出每个编辑者编写过的所有段落作为一个分组,从分组中抽取出标签,如技能标签、行业标签等,用上述标签绘制或更新数据库中每个编辑者的标签画像,后续可利用标签画像进行人员管理、信息推荐等功能的实现,解决了相关技术中在线文档价值利用率低的问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的在线文档作者的画像更新方法的流程图;以及
图2是根据本申请实施例提供的在线文档作者的画像更新装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面就本申请用到的术语进行解释:
在线文档:可以在线创建编辑的文档,可以多人协同编辑同一篇文档,彼此可以看到对方编辑的内容,也可以恢复到指定的版本。类似石墨文档、腾讯文档、飞书文档等。
离线文档:传统使用office等办公软件创建的文档,如word、excel、ppt等,同一时间只能一个人编辑。
实体识别:识别文本中的实体,实体是指文本中具有特定含义的对象,例如姓名、公司名、产品名、客户名等
协作者:包括在线文档创建者在内,共同参与在线文档撰写的人员。可能不同的协作者编辑文档的不同文本片段,也可能某个协作者会修改另一个协作者写过的文本片段。
相关技术中从离线文档中获取的作者并不准确。在离线文档中并没有显式的作者信息,office文件在创建时会默认以系统协作者为文档的作者(通常是Administrator)。部分文档的首页包含有作者信息,但仍需要对文档首页进行解析,抽取标题及标题附近的人名,作为文档作者,这样的抽取方式既会出现误抽取,又会出现遗漏的情况。总之,从离线文档获取作者信息较困难,很多离线文档获取不到作者,并且抽取到的作者,其准确率也不高。
相关技术中的离线文档只能获取文档创建者,默认是创建者完成了文档所有内容的撰写,但这其实并不符合实际。同一份文档可能会有多人进行修改编辑。最终的文档,可能不同的部分由不同的人员完成。这样,抽取文档全部内容的标签作为创建者的标签,就会存在错误的画像(可能有的标签是从非创建者写的文本片段中抽取到的)
针对上述问题,本申请针对在线文档,调用接口获取文档创建者及协作者,以及各自编辑的文本片段,使用实体识别、关键词抽取和文本分类的方法获取相应的标签,包括产品名标签、客户名标签、行业标签、技能标签、关键词标签等,并统计同一协作者不同标签的频次;对标签进行权重打分(可以直接用频率进行打分,也可以用其它的公式计算标签的权重得分)。最终得到协作者的标签画像。
图1是根据本申请实施例提供的在线文档作者的画像更新方法的流程图,其特征在于,包括:
步骤S101,获取在线文档的以下信息:所述在线文档的所有编辑者、每个编辑者编写的段落;
在线文档可以包括全部或部分在线文档,步骤S101中使用的在线文档的数量越多,种类越丰富,最终得到的标签画像越精确。
所有编辑者可以包括文档创建者和协作者,可依据最终想要标签画像的人员进行定制筛选。
可通过相关技术中在线文档提供的接口来获取上述信息。
步骤S102,将所述在线文档的段落按照不同编辑者进行分组,每个分组内的段落为同一个编辑者编写的内容;
可选地,获取所有的在线文档,通过在线文档提供的接口,获取到文档协作者编辑的文本片段,以协作者来分组。这样,可以得到以协作者为key的文本片段分组列表。格式如下:
协作者1:[文本片段1,文本片段2,文本片段3…]
协作者2:[文本片段1,文本片段2,文本片段3…]
步骤S103,抽取出每个分组内的在线文档片段的标签,依据所述标签更新每个分组对应的编辑者的标签画像。
可选地,抽取出每个分组内的在线文档片段的标签,包括以下至少之一:使用实体识别技术处理每个分组内的段落,抽取到实体标签及其词频;使用关键词抽取技术处理每个分组内的段落,抽取到关键词标签及其词频;使用文本分类技术处理每个分组内的段落,得到行业标签及其频率。
可选地,使用实体识别技术处理每个分组内的段落,抽取到实体标签及其词频,即从单个协作者的所有文本片段抽取实体标签。在文本片段中抽取实体,作为协作者的标签,实体类型包括但不限于产品名、客户名、技能标签(如:java、神经网络、深度学习等),这些都可以作为作者的标签。抽取实体的方法包括但不限于模型进行实体识别,规则进行识别以及词典匹配进行识别。基于模型的实体识别方法包括但不限于CRF、BiLSTM+CRF、bert。识别到的实体进行词频统计,作为作者的实体标签。例如,抽取到协作者1的文本片段中出现的产品标签及对应频率:[“产品1”:32,“产品2”:10…],抽取到协作者1的文本片段中出现的客户标签及对应频率:[“腾讯”:25,“华为”:10…],抽取到协作者1的文本片段中出现的技能标签及对应频率:[“python”:20,“深度学习”:10…]标签频率越高证明协作者对该实体对象越熟悉,或越关注相应的实体对象。
可选地,使用关键词抽取技术处理每个分组内的段落,抽取到关键词标签及其词频,即从单个协作者的所有文本片段抽取关键词标签。从单个协作者的所有文本片段中,用tf-idf或textrank等方法,抽取文本片段中的关键词,取top10作为协作者的关键词标签,并统计关键词标签的总频率。例如,从协作者1的文档片段中抽取到关键词标签:[“产品”:50,“协作分析”:23,“知识图谱”:21,“知识库”:20…]以此作为协作者的关键词标签。
可选地,使用文本分类技术处理每个分组内的段落,得到行业标签及其频率,即从单个协作者的各个文本片段用文本分类识别行业标签。有些标签无法从文本中匹配获取,需要对整个文本片段进行分类,得到分类标签。例如,在获取行业标签时,分别对每个文本片段,应用行业分类模型进行识别。所用的分类模型包括但不限于SVM、fasttext、TextCNN、bert等文本分类模型。例如针对协作者1,其文本片段的行业类别可能分别是[其它,金融,工业,金融,其它……],则对文本片段识别到行业标签进行统计,除去“其它”类别,得到协作者的行业标签:[“金融”:20,“工业”:5…],以此作为协作者的行业标签画像。
可选地,依据所述标签更新每个分组对应的编辑者的标签画像,包括以下:将每个分组内抽取到的实体标签、关键词标签和/或行业标签,按照出现频率高低进行排序,将排序符合目标规则的标签作为所述编辑者的标签画像,并更新至后台知识图谱。
可选地,提供一种打分机制来利用标签来更新标签画像。这里提供另一种打分机制,是从纵向和横向两个维度来进行打分。
可选地,抽取出每个分组内的在线文档片段的标签,依据所述标签更新每个分组对应的编辑者的标签画像,包括:
获取所有编辑者在所有文档中出现的每个标签的次数;
针对每个标签执行以下操作:将第一标签在所有编辑者的所有标签中出现的次数记为C,将第一用户的所述第一标签出现次数记为k,将k/C记为所述第一标签的纵向权重vi;
针对每个编辑者执行以下操作:将第二编辑者的第二类别标签记为Cp,将所述第二编辑者的第二类别标签内的第二标签出现此处记为k1,将k1/Cp记为所述第二标签的横向权重hi;横向权重使同一个人员的同类标签的权重具有可比性。方法是计算每个人的同类标签中每个标签的频次与该类别标签总频次的占比。具体做法:针对单个人员,遍历不同的标签类别(如产品类标签、客户类标签、技能类标签、行业类标签、关键词类标签)下的所有标签。统计每个类别下的标签的频次和。如产品类标签的频次和Cp=79,行业类标签的频次和Ci=50,然后计算每个标签类别下各个标签占该类别标签的比例,如产品1的频次为k1=32,则其权重为k1/Cp=32/79=0.405。然后,对所有协作者的同一类别的所有标签都重复上面步骤进行计算得到标签权重得分,作为标签的横向权重hi。
将每个标签的纵向权重vi和横向权重hi作为目标计算规则的输入,依据输出结果更新所述编辑者的标签画像。最终每个标签有两个权重得分[vi,hi],在实际应用中,按需取不同的权重得分进行计算。
可选地,依据所述标签更新每个分组对应的编辑者的标签画像,包括:在所述在线文档为腾讯文档时,通过腾讯文档ID或企业微信ID链接至后台知识图谱中的人员。
根据协作者姓名和ID(腾讯文档等在线文档可以获取到登录的协作者的ID,如用企业微信登录,则可以获取企业微信ID)链接图谱中的人员,则将产品标签、客户标签、技能标签、行业标签及关键词标签作为人员的画像,实现协作者画像,为后续的推荐、搜索等应用提供标签数据基础。
通过本申请,通过腾讯文档的接口等方式获取在线文档的编辑者信息,以及每个编辑者编写的段落,然后按照抽取出每个编辑者编写过的所有段落作为一个分组,从分组中抽取出标签,如技能标签、行业标签等,用上述标签绘制或更新数据库中每个编辑者的标签画像,后续可利用标签画像进行人员管理、信息推荐等功能的实现,解决了相关技术中在线文档价值利用率低的问题。
根据本申请的另一个实施例,还提供了一种在线文档作者的画像更新方法,包括:
步骤一,获取待更新标签画像的人员的第一ID;
步骤二,获取所述第一ID编辑过的在线文档的所有段落;
步骤三,从所述所有段落中抽取出标签,依据所述标签更新所述第一ID的人员的标签画像。
采用上述方案,获取待更新画像人员的ID,将该人员编辑过的所有在线文档的段落提取出来,识别出相应的标签,如产品标签、技能标签、行业标签,以此来更新该人员的标签画像,为后续的人岗匹配、信息推荐等提供依据,解决了相关技术中在线文档价值利用率低的问题。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种在线文档作者的画像更新装置的示意图,需要说明的是,本申请实施例的在线文档作者的画像更新装置可以用于执行本申请实施例所提供的用于在线文档作者的画像更新方法。以下对本申请实施例提供的在线文档作者的画像更新装置进行介绍。
图2是根据本申请实施例提供的在线文档作者的画像更新装置的示意图,如图2所示,包括:
获取模块22,用于获取在线文档的以下信息:所述在线文档的所有编辑者、每个编辑者编写的段落;
分组模块24,用于将所述在线文档的段落按照不同编辑者进行分组,每个分组内的段落为同一个编辑者编写的内容;
更新标签模块26,用于抽取出每个分组内的在线文档片段的标签,依据所述标签更新每个分组对应的编辑者的标签画像。
可选地,所述更新标签模块26通过以下方案至少之一抽取每个分组内的在线文档片段的标签:使用实体识别技术处理每个分组内的段落,抽取到实体标签及其词频;使用关键词抽取技术处理每个分组内的段落,抽取到关键词标签及其词频;使用文本分类技术处理每个分组内的段落,得到行业标签及其频率。
可选的,所述更新标签模块26通过以下方式更新每个分组对应的编辑者的标签画像:将每个分组内抽取到的实体标签、关键词标签和/或行业标签,按照出现频率高低进行排序,将排序符合目标规则的标签作为所述编辑者的标签画像,并更新至后台知识图谱。
可选地,所述更新标签模块26还用于执行以下步骤:获取所有编辑者在所有文档中出现的每个标签的次数;针对每个标签执行以下操作:将第一标签在所有编辑者的所有标签中出现的次数记为C,将第一用户的所述第一标签出现次数记为k,将k/C记为所述第一标签的纵向权重vi;针对每个编辑者执行以下操作:将第二编辑者的第二类别标签记为Cp,将所述第二编辑者的第二类别标签内的第二标签出现此处记为k1,将k1/Cp记为所述第二标签的横向权重hi;将每个标签的纵向权重vi和横向权重hi作为目标计算规则的输入,依据输出结果更新所述编辑者的标签画像。
可选地,所述更新标签模块26还用于依据所述标签更新每个分组对应的编辑者的标签画像,包括:在所述在线文档为腾讯文档时,通过腾讯文档ID或企业微信ID链接至后台知识图谱中的人员。
所述在线文档作者的画像更新装置包括处理器和存储器,上述获取模块22等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来通过腾讯文档的接口等方式获取在线文档的编辑者信息,以及每个编辑者编写的段落,然后按照抽取出每个编辑者编写过的所有段落作为一个分组,从分组中抽取出标签,如技能标签、行业标签等,用上述标签绘制或更新数据库中每个编辑者的标签画像,后续可利用标签画像进行人员管理、信息推荐等功能的实现,解决了相关技术中在线文档价值利用率低的问题。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述在线文档作者的画像更新方法。
本申请实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述在线文档作者的画像更新方法。
本申请实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:获取在线文档的以下信息:所述在线文档的所有编辑者、每个编辑者编写的段落;将所述在线文档的段落按照不同编辑者进行分组,每个分组内的段落为同一个编辑者编写的内容;抽取出每个分组内的在线文档片段的标签,依据所述标签更新每个分组对应的编辑者的标签画像。本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取在线文档的以下信息:所述在线文档的所有编辑者、每个编辑者编写的段落;将所述在线文档的段落按照不同编辑者进行分组,每个分组内的段落为同一个编辑者编写的内容;抽取出每个分组内的在线文档片段的标签,依据所述标签更新每个分组对应的编辑者的标签画像。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种在线文档作者的画像更新方法,其特征在于,包括:
获取在线文档的以下信息:所述在线文档的所有编辑者、每个编辑者编写的段落;
将所述在线文档的段落按照不同编辑者进行分组,每个分组内的段落为同一个编辑者编写的内容;
抽取出每个分组内的在线文档片段的标签,依据所述标签更新每个分组对应的编辑者的标签画像。
2.根据权利要求1所述的方法,其特征在于,抽取出每个分组内的在线文档片段的标签,包括以下至少之一:
使用实体识别技术处理每个分组内的段落,抽取到实体标签及其词频;
使用关键词抽取技术处理每个分组内的段落,抽取到关键词标签及其词频;
使用文本分类技术处理每个分组内的段落,得到行业标签及其频率。
3.根据权利要求2所述的方法,其特征在于,依据所述标签更新每个分组对应的编辑者的标签画像,包括:
将每个分组内抽取到的实体标签、关键词标签和/或行业标签,按照出现频率高低进行排序,将排序符合目标规则的标签作为所述编辑者的标签画像,并更新至后台知识图谱。
4.根据权利要求2所述的方法,其特征在于,抽取出每个分组内的在线文档片段的标签,依据所述标签更新每个分组对应的编辑者的标签画像,包括:
获取所有编辑者在所有文档中出现的每个标签的次数;
针对每个标签执行以下操作:将第一标签在所有编辑者的所有标签中出现的次数记为C,将第一用户的所述第一标签出现次数记为k,将k/C记为所述第一标签的纵向权重vi;
针对每个编辑者执行以下操作:将第二编辑者的第二类别标签记为Cp,将所述第二编辑者的第二类别标签内的第二标签出现此处记为k1,将k1/Cp记为所述第二标签的横向权重hi;
将每个标签的纵向权重vi和横向权重hi作为目标计算规则的输入,依据输出结果更新所述编辑者的标签画像。
5.根据权利要求1所述的方法,其特征在于,依据所述标签更新每个分组对应的编辑者的标签画像,包括:
在所述在线文档为腾讯文档时,通过腾讯文档ID或企业微信ID链接至后台知识图谱中的人员。
6.一种在线文档作者的画像更新方法,其特征在于,包括:
获取待更新标签画像的人员的第一ID;
获取所述第一ID编辑过的在线文档的所有段落;
从所述所有段落中抽取出标签,依据所述标签更新所述第一ID的人员的标签画像。
7.一种在线文档作者的画像更新装置,其特征在于,包括:
获取模块,用于获取在线文档的以下信息:所述在线文档的所有编辑者、每个编辑者编写的段落;
分组模块,用于将所述在线文档的段落按照不同编辑者进行分组,每个分组内的段落为同一个编辑者编写的内容;
更新标签模块,用于抽取出每个分组内的在线文档片段的标签,依据所述标签更新每个分组对应的编辑者的标签画像。
8.根据权利要求7所述的装置,其特征在于,所述更新标签模块通过以下方案至少之一抽取每个分组内的在线文档片段的标签:
使用实体识别技术处理每个分组内的段落,抽取到实体标签及其词频;
使用关键词抽取技术处理每个分组内的段落,抽取到关键词标签及其词频;
使用文本分类技术处理每个分组内的段落,得到行业标签及其频率。
9.一种“计算机可读存储介质”或“非易失性存储介质”,其特征在于,所述“计算机可读存储介质”或“非易失性存储介质”包括存储的程序,其中,在所述程序运行时控制所述“计算机可读存储介质”或“非易失性存储介质”所在设备执行权利要求1至5中任意一项所述的画像更新方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至5中任意一项所述的画像更新方法。
CN202110880729.2A 2021-08-02 2021-08-02 在线文档作者的画像更新方法及装置 Pending CN113688607A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110880729.2A CN113688607A (zh) 2021-08-02 2021-08-02 在线文档作者的画像更新方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110880729.2A CN113688607A (zh) 2021-08-02 2021-08-02 在线文档作者的画像更新方法及装置

Publications (1)

Publication Number Publication Date
CN113688607A true CN113688607A (zh) 2021-11-23

Family

ID=78578888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110880729.2A Pending CN113688607A (zh) 2021-08-02 2021-08-02 在线文档作者的画像更新方法及装置

Country Status (1)

Country Link
CN (1) CN113688607A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110489667A (zh) * 2019-08-20 2019-11-22 北京航空航天大学 基于用户画像的智能公文流转技术
KR20200063829A (ko) * 2018-11-28 2020-06-05 (주)아이에프소프트 협업 기반 연재작품 관리 서버 및 방법
CN111429184A (zh) * 2020-03-27 2020-07-17 北京睿科伦智能科技有限公司 一种基于文本信息的用户画像抽取方法
CN111814475A (zh) * 2019-04-09 2020-10-23 Oppo广东移动通信有限公司 用户画像构建方法、装置、存储介质和电子设备
CN112364133A (zh) * 2020-11-17 2021-02-12 深圳平安智汇企业信息管理有限公司 岗位画像生成方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200063829A (ko) * 2018-11-28 2020-06-05 (주)아이에프소프트 협업 기반 연재작품 관리 서버 및 방법
CN111814475A (zh) * 2019-04-09 2020-10-23 Oppo广东移动通信有限公司 用户画像构建方法、装置、存储介质和电子设备
CN110489667A (zh) * 2019-08-20 2019-11-22 北京航空航天大学 基于用户画像的智能公文流转技术
CN111429184A (zh) * 2020-03-27 2020-07-17 北京睿科伦智能科技有限公司 一种基于文本信息的用户画像抽取方法
CN112364133A (zh) * 2020-11-17 2021-02-12 深圳平安智汇企业信息管理有限公司 岗位画像生成方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
Zimmeck et al. Privee: An architecture for automatically analyzing web privacy policies
CN114616572A (zh) 跨文档智能写作和处理助手
CN112711937A (zh) 一种模板推荐方法、装置、设备及存储介质
CN106991090B (zh) 舆情事件实体的分析方法及装置
CN109800354B (zh) 一种基于区块链存储的简历修改意图识别方法及系统
CN113360676A (zh) 一种基于知识图谱确定企业潜在关系的方法及装置
US10146881B2 (en) Scalable processing of heterogeneous user-generated content
CN112149387A (zh) 财务数据的可视化方法、装置、计算机设备及存储介质
CN111428503A (zh) 同名人物的识别处理方法及处理装置
Lamba et al. Text Mining for Information Professionals
de Carvalho et al. An automated corpus annotation experiment in Brazilian Portuguese for sentiment analysis in public security
CN107729330B (zh) 获取数据集的方法和装置
CN113220885B (zh) 一种文本处理方法和系统
CN112418875B (zh) 跨平台税务智能客服语料迁移方法及装置
CN111444368B (zh) 构建用户画像的方法、装置、计算机设备及存储介质
Terblanche et al. Ontology‐based employer demand management
CN110347921A (zh) 一种多模态数据信息的标签抽取方法及装置
CN110941952A (zh) 一种完善审计分析模型的方法及装置
CN112328812B (zh) 基于自调参数的领域知识抽取方法与系统、电子设备
CN113688607A (zh) 在线文档作者的画像更新方法及装置
CN114495138A (zh) 一种智能文档识别与特征提取方法、装置平台和存储介质
CN113887191A (zh) 文章的相似性检测方法及装置
CN113988020A (zh) 工程技术标标书编制方法、装置、设备及存储介质
CN110858214B (zh) 推荐模型训练、及进一步审计程序推荐方法、装置及设备
CN111428037A (zh) 一种分析行为政策匹配性的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination