CN112052666B - 一种专家确定方法、装置及存储介质 - Google Patents
一种专家确定方法、装置及存储介质 Download PDFInfo
- Publication number
- CN112052666B CN112052666B CN202010792352.0A CN202010792352A CN112052666B CN 112052666 B CN112052666 B CN 112052666B CN 202010792352 A CN202010792352 A CN 202010792352A CN 112052666 B CN112052666 B CN 112052666B
- Authority
- CN
- China
- Prior art keywords
- determining
- matrix
- communication
- word
- communication text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000006854 communication Effects 0.000 claims abstract description 124
- 238000004891 communication Methods 0.000 claims abstract description 112
- 238000012545 processing Methods 0.000 claims abstract description 20
- 239000011159 matrix material Substances 0.000 claims description 79
- 230000011218 segmentation Effects 0.000 claims description 21
- 238000001914 filtration Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 description 19
- 239000013598 vector Substances 0.000 description 15
- 238000005070 sampling Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种专家确定方法,包括:获取用户的沟通文本;对该沟通文本进行处理得到对应的主题;确定该主题对应的专家。通过本发明实施例提供的专家确定方法,可以通过对员工工作交流及往来记录进行分析,得出每名员工在各主题的参与度,实现各知识领域专家的有效识别。
Description
技术领域
本发明涉及信息技术领域,具体涉及一种专家确定方法、装置及存储介质。
背景技术
目前,多数企业内部各知识领域的专家认定往往依据员工的工作年限、组织定性认定或者员工口口相传,缺乏通过详实的数据与清晰的规则进行专家认定的机制。因此,当员工遇到某领域问题时,往往无法快速找到对应专家进行问题解答,需要通过多人中转,甚至领导协调才能找到对应的领域专家,给业务开展造成了诸多不便。
发明内容
本发明提供了一种专家确定方法、装置及存储介质,解决了相关技术中无法有效定位相关领域专家的问题。
本发明实施例提供了一种专家确定方法,包括:获取用户的沟通文本;对所述沟通文本进行处理得到对应的主题;确定所述主题对应的专家。
在一可选实施例中,所述获取用户的沟通文本,包括:获取预设时间内所述用户对应的多个沟通记录;对所述多个沟通记录进行合并生成所述沟通文本。
在一可选实施例中,所述对所述沟通文本进行处理得到对应的主题,包括:确定所述沟通文本中的关键词及每个关键词对应的词频;根据确定的所述关键词和所述词频,得到所述沟通文本的主题。
在一可选实施例中,所述确定所述沟通文本中的关键词及每个关键词对应的词频,包括:对所述沟通文本进行拆分,得到多个分词以及每个分词的词频;过滤所述分词中的无用分词,得到所述关键词以及每个关键词对应的词频。
在一可选实施例中,在过滤所述分词中的无用分词之后,所述方法还包括:判断剩余的一个或多个所述分词是否存储在预先设置的数据库中;在判断结果为是的情况下,对存储在所述数据库中的分词的词频进行调整。
在一可选实施例中,所述确定所述主题对应的专家,包括:确定所述用户在所述沟通文本中的权重,生成所述用户与所述沟通文本的第一矩阵;根据所述沟通文本和所述主题,生成所述沟通文本与所述主题的第二矩阵;根据所述第一权重矩阵和所述第二权重矩阵得到所述用户与所述主题的第三矩阵;对于任一所述主题,根据所述第三矩阵和第一预设阈值确定任一所述主题对应的专家。
在一可选实施例中,所述确定所述用户在所述沟通文本中的权重,包括:确定所述沟通文本对应的沟通过程中的用户数量;根据所述用户数量确定所述用户的权重。
在一可选实施例中,所述确定所述用户在所述沟通文本中的权重,包括:确定所述沟通文本对应的沟通过程中的用户数量;在所述沟通过程中存在主持人的情况下,确定所述主持人的第一权重;根据所述用户数量和所述第一权重确定所述用户中除所述主持人之外的其他用户的第二权重。
在一可选实施例中,所述方法还包括:确定所述主题在所述关键词中的分布,得到所述主题与所述关键词的第四矩阵;根据所述第三矩阵和所述第四矩阵,得到所述用户与所述关键词的第五矩阵;对于任一所述关键词,根据所述第五矩阵和第二预设阈值确定任一所述关键词对应的专家。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例中的任意一种方法。
本发明实施例还提供了一种电子装置,包括存储器和处理器,所述处理器通过执行所述存储器中的程序实现本发明实施例中的任意一种方法。
通过本发明实施例提供的专家确定方法,可以通过对员工工作交流及往来记录进行分析,得出每名员工在各主题的参与度,从而达到实现各知识领域专家有效识别的效果。
附图说明
图1为本发明实施例提供的一种专家确定方法的流程图;
图2为本发明实施例提供的一种专家确定装置的框架图;
图3为本发明实施例提供的另一种专家确定方法的流程图。
具体实施方法
为使本申请的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
另外,在本发明实施例中,“可选的”或者“示例性的”等词用于表示作例子、例证或说明。本发明实施例中被描述为“可选的”或者“示例性的”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“可选的”或者“示例性的”等词旨在以具体方式呈现相关概念。
本发明实施例提供了一种专家确定方法,图1为本发明实施例提供的一种专家确定方法的流程图,如图1所示,本实施例提供的方法可以包括如下步骤:
S102,获取用户的沟通文本;
S104,对该沟通文本进行处理得到对应的主题;
S106,确定该主题对应的专家。
通过本发明实施例提供的专家确定方法,可以通过对员工工作交流及往来记录等沟通文本进行分析,得出每名员工在各主题的参与度,从而达到实现各知识领域专家的有效识别的效果。
需要说明的是,本发明实施例不仅适用于公司内部专家的识别和认证,也适用于其他场景下的专家识别和认证。
可选的,该获取用户的沟通文本,包括:获取预设时间内该用户对应的多个沟通记录;对该多个沟通记录进行合并生成该沟通文本。
用于分析的数据可以来自员工工作过程中的交流及往来记录,包括但不限于即时通讯工具通讯记录、邮件往来记录、会议邀请记录等。为保证数据时效性,可以选取某个时间段,从服务器端获取该时间段企业内部员工工作交流及往来记录的全量数据,如:企业内部通讯工具通讯内容、工作邮箱邮件记录、工作会议主题及议程等。可选的,针对即时通讯工具聊天内容等短文本形式的语料,通过预设会话时间间隔进行会话切分,将属于同一会话的双方或多方交互短文本进行合并,从而使得原本按照时间顺序依次排列的会话短文本,经过处理成为多个完整且独立的通讯会话文档,该通讯会话文档即沟通文本。
可选的,该对该沟通文本进行处理得到对应的主题,包括:确定该沟通文本中的关键词及每个关键词对应的词频;根据确定的该关键词和该词频,得到该沟通文本的主题。
可选的,该确定该沟通文本中的关键词及每个关键词对应的词频,包括:对该沟通文本进行拆分,得到多个分词以及每个分词的词频;过滤该分词中的无用分词,得到该关键词以及每个关键词对应的词频。
可以借助分词工具,对前述即时通讯工具通讯内容、邮件记录、会议记录等沟通文本进行分析处理,将语句拆分为分词短语,进而得到多个词向量,以及各词语的词频。进一步的,可以去除词向量中出现频次高且无实际意义的词语,如介词、代词、感叹词、致谢语等。
可选的,文本中的名词短语相对于其他词性的词语,更可能传达实际意义,因此可以提取出经上述步骤处理后的词向量集合中的名词短语,供后续分析。可选的,设定一个阈值,选取经上述步骤所得的词向量中词频高于该阈值的词语,进行后续文本主题分析。
经前述处理后,沟通文本中共提取出关键词,或称分词,或称词语的数量为W。其中,W为大于等于1的正整数。
可选的,在过滤该分词中的无用分词之后,该方法还包括:判断剩余的一个或多个该分词是否存储在预先设置的数据库中;在判断结果为是的情况下,对存储在该数据库中的分词的词频进行调整。
可以根据企业自身行业性质,引入相应行业的词库,并根据企业实际业务进行增减或调整,将经上述步骤处理之后的词向量集合中属于相应词库的词汇频率乘以系数,使其得到进一步提高,进而在后续的主题分析中占有更高权重,使得主题分析的结果集中于企业专注的专业领域。
可选的,该确定该主题对应的专家,包括:确定该用户在该沟通文本中的权重,生成该用户与该沟通文本的第一矩阵;根据该沟通文本和该主题,生成该沟通文本与该主题的第二矩阵;根据该第一权重矩阵和该第二权重矩阵得到该用户与该主题的第三矩阵;对于任一该主题,根据该第三矩阵和第一预设阈值确定任一该主题对应的专家。
可选的,该确定该用户在该沟通文本中的权重,包括:确定该沟通文本对应的沟通过程中的用户数量;根据该用户数量确定该用户的权重。
可选的,该确定该用户在该沟通文本中的权重,包括:确定该沟通文本对应的沟通过程中的用户数量;在沟通过程中存在主持人的情况下,确定该主持人的第一权重;根据该用户数量和该第一权重确定该用户中除该主持人之外的其他用户的第二权重。
假设沟通文本的数量为D,参与者的数量为P,逐条将D个沟通文本对应的P个参与者的ID、姓名等进行记录,并根据场景为参与者赋予参与权重。例如,若文本为双人通过即时通讯工具进行交流,则双方在相应会话文本中参与权重均可赋为0.5;若为多方参与的群聊,可根据参与人数n将参与权重均分为1/n,或根据每个人的发言数量进行权重分配;又如,若为邮件交流记录,可将发件方与收件方的权重各置为0.5,双方内部再根据人数进行权重分配;再如,工作会议记录的参与权重,可按参会角色进行分配,会议主讲人的权重值可置为0.5,剩余权重值根据参会人员人数均分至个人。经过此步骤处理,得到D个沟通文档与P名企业内部员工之间的第一矩阵APD。其中,D为大于等于1的正整数,P为大于等于1的正整数。
可选的,该方法还包括:确定该主题在该关键词中的分布,得到该主题与该关键词的第四矩阵;根据该第三矩阵和该第四矩阵,得到该用户与该关键词的第五矩阵;对于任一该关键词,根据该第五矩阵和第二预设阈值确定任一该关键词对应的专家。
可以将经前述步骤处理后得到的沟通文本分词,又称沟通文本词语,或称沟通文本关键词作为特征向量,采用Gibbs采样方法,针对D个沟通文本、W个关键词,设定超参数α及β、主题数T、每个主题下词语数K及迭代抽样次数N。经过迭代处理,可得出D个文档在T个潜在主题的分布情况,以及T个潜在主题在W个词语中的分布,分别记为文档-主题分布的第二矩阵CDT,以及主题-关键词分布的第四矩阵BTW。其中,T为大于等于1的正整数,K为大于等于1的正整数,N为大于等于1的正整数,α为大于0的数值,β为大于0的数值,且α及β可随着迭代过程进行调整。
经过上述步骤处理,可得出如下数据:企业内部P名员工与D条文档之间的权重矩阵APD、D条文档与T个潜在主题之间的分布矩阵CDT、T个潜在主题与W个词语的分布矩阵BTW,对相应矩阵进行如下运算,以得出各领域专家:
1、计算员工-主题矩阵
将员工-文档矩阵APD与文档-主题矩阵CDT相乘,得出员工-主题参与度的第三矩阵EPT;
2、计算员工-词语矩阵
进一步地,可将1中所得的员工-主题参与度矩阵EPT与主题-词语分布矩阵BTW相乘,得出员工-词语参与度的第五矩阵FPW;
3、根据上述计算结果选取各领域专家
对T个潜在主题中的每个主题t,设定第一阈值St,在员工-主题参与度矩阵EPT中进行查找,将使得EPT≥St的对应的员工筛选出来,即将其视为相应主题t对应领域的专家;
进一步地,企业可结合自身实际,针对T个潜在主题中的任一主题t,选取主题t下的词语的全集或子集,作为主题t对应领域的子领域,对每个词语w,设定第二阈值Sw,在员工-词语参与度矩阵FPW中进行查找,将使得FPW≧Sw的p对应的员工筛选出来,即将其视为相应词语w对应子领域的专家。
综合以上步骤,即可根据员工工作交流及往来记录得出企业内部的专业领域及各领域所对应的专家列表。以上文本分析及专家检测过程可根据企业实际情况定期执行,以保证数据的时效性及准确性。
本发明实施例还提供了一种专家确定装置,图2为本发明实施例提供的一种专家确定装置的框架图,如图2所示,本实施例提供的装置可以包括获取模块22、处理模块24和第一确定模块26,其中,
该获取模块22,用于获取用户的沟通文本;
处理模块24,用于对该沟通文本进行处理得到对应的主题;
第一确定模块26,用于确定该主题对应的专家。
可选的,该获取模块22,包括第一获取子模块和合并子模块,其中,该第一获取子模块,用于获取预设时间内该用户对应的多个沟通记录;该合并子模块,用于对该多个沟通记录进行合并生成该沟通文本。
可选的,该处理模块24,包括第一确定子模块和第二获取子模块,其中,该第一确定子模块,用于确定该沟通文本中的关键词及每个关键词对应的词频;该第二获取子模块,用于根据确定的关键词和词频,得到该沟通文本的主题。
可选的,该第一确定子模块,包括第一确定单元和过滤单元,其中,该第一确定单元,用于对该沟通文本进行拆分,得到多个分词以及每个分词的词频;该过滤单元,用于过滤该分词中的无用分词,得到该关键词以及每个关键词对应的词频。
可选的,该装置还包括判断模块和调整模块,其中,该判断模块,用于判断剩余的一个或多个分词是否存储在预先设置的数据库中;该调整模块,用于在判断结果为是的情况下,对存储在该数据库中的分词的词频进行调整。
可选的,该第一确定模块26,包括第二确定子模块、第一生成子模块、第三确定子模块和第四确定子模块,其中,该第二确定子模块,用于确定该用户在该沟通文本中的权重,生成该用户与该沟通文本的第一矩阵;该第一生成子模块,用于根据该沟通文本和该主题,生成该沟通文本与该主题的第二矩阵;该第三确定子模块,用于根据该第一权重矩阵和该第二权重矩阵得到该用户与该主题的第三矩阵;该第四确定子模块,用于对于任一该主题,根据该第三矩阵和第一预设阈值确定任一该主题对应的专家。
可选的,该第二确定子模块,包括第二确定单元和第三确定单元,其中,该第二确定单元,用于确定该沟通文本对应的沟通过程中的用户数量;该第三确定单元,用于根据该用户数量确定该用户的权重。
可选的,该第二确定子模块,包括第四确定单元、第五确定单元和第六确定单元,其中,该第四确定单元,用于确定该沟通文本对应的沟通过程中的用户数量;该第五确定单元,用于在沟通过程中存在主持人的情况下,确定该主持人的第一权重;该第六确定单元,用于根据该用户数量和该第一权重确定该用户中除该主持人之外的其他用户的第二权重。
可选的,该装置还包括第二确定模块、生成模块和第三确定模块,其中,该第二确定模块,用于确定该主题在该关键词中的分布,得到该主题与该关键词的第四矩阵;该生成模块,用于根据该第三矩阵和该第四矩阵,得到该用户与该关键词的第五矩阵;该第三确定模块,用于对于任一该关键词,根据该第五矩阵和第二预设阈值确定任一该关键词对应的专家。
本发明实施例还提供了另一种专家确定方法,图3为本发明实施例提供的另一种专家确定方法的流程图,如图3所示,本实施例提供的方法可以包括如下步骤:
一、通过LDA(Latent Di r ich let Al locat ion)主题模型对员工工作交流及往来记录进行分析,得出主题分布及员工参与情况:
1数据选取范围
用于LDA主题模型分析的数据来自员工工作过程中的交流及往来记录,包括但不限于即时通讯工具通讯记录、邮件往来记录、会议邀请记录等。通过运用LDA主题分析模型对上述记录进行文本主题分析,得出员工工作中交流的主要主题分布情况。
2对全量数据进行文本主题分析
为保证数据时效性,选取某个时间节点至今的一段时间,从服务器端获取期间企业内部员工工作交流及往来记录的全量数据,如:企业内部通讯工具通讯内容、工作邮箱邮件记录、工作会议主题及议程等,对其进行文本主题分析,具体如下:
2.1数据预处理
2.1.1会话切分及短文本合并
此步骤为可选步骤,主要针对即时通讯工具聊天内容等短文本形式的语料,通过预设会话时间间隔进行会话切分,将属于同一会话的双方或多方交互短文本进行合并,从而使得原本按照时间顺序依次排列的会话短文本,经过处理成为多个完整且独立的通讯会话文档。
2.1.2记录文本参与人员信息并赋予相应参与权重
逐条将D个文档对应交流记录的参与者ID、姓名等进行记录,并根据场景为参与者赋予参与权重,例如,若文本为双人通过即时通讯工具进行交流,则双方在相应会话文本中参与权重均可赋为0.5,多方参与的群聊可根据参与人数n将参与权重均分为1/n,或根据发言数量同比进行权重分配;又如,若为邮件交流记录,可将发件方与收件方的权重各置为0.5,双方内部再根据人数进行权重分配;再如,工作会议记录的参与权重,可按参会角色进行分配,会议主讲人的权重值可置为0.5,剩余权重值根据参会人员人数均分至个人。经过此步骤处理,得到D个文档与企业内部P名员工之间的P*D权重矩阵APD。其中,D为大于等于1的正整数,P为大于等于1的正整数。
2.1.3分词处理
借助分词工具,对前述即时通讯工具通讯内容、邮件记录、会议记录等文本进行分析处理,将语句拆分为分词短语,进而得到多个词向量,及各词向量的词频。
2.1.4过滤停用词及其他无关数据
去除前一步骤所得词向量中出现频次高且无实际意义的词语,如介词、代词、感叹词、致谢语等。
2.1.5提取名词短语
文本中的名词短语相对于其他词性的词语,更可能具备及传达实际意义,本步骤提取出经上述步骤处理后的词向量集合中的名词短语,供后续分析。
2.1.6筛选高频次词语
设定一个阈值,选取经上述步骤所得的词向量中词频高于该阈值的词语,进行后续文本主题分析。
2.1.7引入外部词库
根据企业自身行业性质,引入相应行业开放词库,如清华大学开放中文词库、搜狗细胞词库等,并根据企业实际业务进行增减或调整,将经上述步骤处理之后的词向量集合中属于相应词库的词汇频率乘以系数,使其得到进一步提高,进而在后续的主题分析中占有更高权重,使得主题分析的结果集中于企业专注的专业领域。具体而言,以从事I T行业的企业为例,该企业可选取清华大学开放中文词库中I T行业的词库,并根据自身业务实际,对其加以修整,得到一定形式的词语的集合,进而将待分析的文本词向量中落入该集合的词汇频率加大至原本频率的2倍,以用于后续的主题模型训练。
经过此步骤处理后,可最终确定参与文本主题分析的词语总数W及各个词语对应词频。
2.2文本主题分析
利用LDA主题模型,将经2.1数据预处理后得到的文档词向量作为特征向量,采用Gibbs采样方法,经文本预处理词语总量设定超参数α及β、主题数T、主题下词语数K及迭代抽样次数N,可得出T个潜在主题在W个词语中的分布,以及D个文档在T个潜在主题的分布情况,分别记为主题-词语分布的T*W矩阵BTW,文档-主题分布的D*T矩阵CDT。其中,W为大于等于1的正整数,T为大于等于1的正整数,K为大于等于1的正整数,N为大于等于1的正整数,α为大于0的数值,β为大于0的数值,且α及β可随着迭代过程进行调整。
以下结合具体数据对2.2的过程进行介绍:
采用Gibbs采样方法,根据企业内部实际设定参数,如文档总数D为20000,文档中的词语总数W为60000,员工总数P为200,可将超参数ɑ及β分别设为1及0.5,主题数T设为25,每个主题下包含的词语数量K为30,迭代抽样次数设为1000,进而得出25个主题,其中每个主题包含30个词语,以及25个潜在主题与60000个词语分布的25*60000矩阵BTW、20000条文档与25个潜在主题之间的20000*25分布矩阵CDT,以及2.1.2.中所得20000个文档与企业内部200名员工之间的200*20000权重矩阵APD。
二、整合处理以上步骤所得数据
经过上述步骤处理,可得出如下数据:企业内部P名员工与D条文档之间的权重矩阵APD、T个潜在主题与W个词语分布的T*W矩阵BTW、D条文档与T个潜在主题之间的D*T矩阵CDT,对相应矩阵进行如下运算,以得出各领域专家:
1.计算员工-主题矩阵
将员工-文档矩阵APD与文档-主题矩阵CDT相乘,得出员工-主题参与度矩阵EPT;
2.计算员工-词语矩阵
进一步地,可将1中所得的员工-主题参与度矩阵EPT与主题-词语分布矩阵BTW相乘,得出员工-词语参与度矩阵FPW。
三、根据上述计算结果选取各领域专家
对T个潜在主题中的每个主题t,设定阈值St,在员工-主题参与度矩阵EPT中进行查找,将使得EPT≥St的对应的员工筛选出来,即将其视为相应主题t对应领域的专家;
进一步地,企业可结合自身实际,针对T个潜在主题中的任一主题t,选取主题t下的词语的全集或子集,作为主题t对应领域的子领域,对每个词语w,设定阈值Sw,在员工-词语参与度矩阵FPW中进行查找,将使得FPW≧Sw的p对应的员工筛选出来,即将其视为相应词语w对应子领域的专家。
综合以上步骤,即可根据员工工作交流及往来记录得出企业内部的专业领域及各领域所对应的专家列表。以上文本分析及专家检测过程可根据企业实际情况定期执行,以保证数据的时效性及准确性。
本发明实施例还提供了一种电子装置,该电子装置包括处理器和存储器;电子装置中处理器的数量可以是一个或多个,存储器作为一种计算机可读存储介质,可用于存储计算机可执行程序。处理器通过运行存储在存储器中的软件程序、指令,从而执行电子装置的各种功能应用以及数据处理,即实现上述任一实施例中的方法。
本申请实施例还提供一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时实现上述任一实施例中的方法。
可选的,处理器通过执行指令实现一种专家确定方法,该方法包括:
S1,获取用户的沟通文本;
S2,对该沟通文本进行处理得到对应的主题;
S3,确定该主题对应的专家。
以上仅为本申请的示例性实施例而已,并非用于限定本申请的保护范围。
一般来说,本申请的多种实施例可以在硬件或专用电路、软件、逻辑或其任何组合中实现。例如,一些方面可以被实现在硬件中,而其它方面可以被实现在可以被控制器、微处理器或其它计算装置执行的固件或软件中,尽管本申请不限于此。
本申请的实施例可以通过移动装置的数据处理器执行计算机程序指令来实现,例如在处理器实体中,或者通过硬件,或者通过软件和硬件的组合。计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码。
本申请附图中的任何逻辑流程的框图可以表示程序步骤,或者可以表示相互连接的逻辑电路、模块和功能,或者可以表示程序步骤与逻辑电路、模块和功能的组合。计算机程序可以存储在存储器上。存储器可以具有任何适合于本地技术环境的类型并且可以使用任何适合的数据存储技术实现,例如但不限于只读存储器(ROM)、随机访问存储器(RAM)、光存储器装置和系统(数码多功能光碟DVD或CD光盘)等。计算机可读介质可以包括非瞬时性存储介质。数据处理器可以是任何适合于本地技术环境的类型,例如但不限于通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(AS IC)、可编程逻辑器件(FGPA)以及基于多核处理器架构的处理器。
通过示范性和非限制性的示例,上文已提供了对本申请的示范实施例的详细描述。但结合附图来考虑,对以上实施例的多种修改和调整对本领域技术人员来说是显而易见的,但不偏离本发明的范围。因此,本发明的恰当范围将根据权利要求确定。
Claims (8)
1.一种专家确定方法,其特征在于,包括:
获取用户的沟通文本;
对所述沟通文本进行处理得到对应的主题,包括:
确定所述沟通文本中的关键词及每个关键词对应的词频;
根据确定的所述关键词和所述词频,得到所述沟通文本的主题;
确定所述主题对应的专家,包括:
确定所述用户在所述沟通文本中的权重,生成所述用户与所述沟通文本的第一矩阵;根据所述沟通文本和所述主题,生成所述沟通文本与所述主题的第二矩阵;将所述第一矩阵与所述第二矩阵相乘得到所述用户与所述主题的第三矩阵;对于任一所述主题,根据所述第三矩阵和第一预设阈值确定任一所述主题对应的专家;
确定所述主题在所述关键词中的分布,得到所述主题与所述关键词的第四矩阵;将所述第三矩阵和所述第四矩阵相乘得到所述用户与所述关键词的第五矩阵;对于任一所述关键词,根据所述第五矩阵和第二预设阈值确定任一所述关键词对应的专家。
2.如权利要求1所述的方法,其特征在于,所述获取用户的沟通文本,包括:
获取预设时间内所述用户对应的多个沟通记录;
对所述多个沟通记录进行合并生成所述沟通文本。
3.如权利要求1所述的方法,其特征在于,所述确定所述沟通文本中的关键词及每个关键词对应的词频,包括:
对所述沟通文本进行拆分,得到多个分词以及每个分词的词频;
过滤所述分词中的无用分词,得到所述关键词以及每个关键词对应的词频。
4.如权利要求3所述的方法,其特征在于,在过滤所述分词中的无用分词之后,所述方法还包括:
判断剩余的一个或多个所述分词是否存储在预先设置的数据库中;
在判断结果为是的情况下,对存储在所述数据库中的分词的词频进行调整。
5.如权利要求1所述的方法,其特征在于,所述确定所述用户在所述沟通文本中的权重,包括:
确定所述沟通文本对应的沟通过程中的用户数量;
根据所述用户数量确定所述用户的权重。
6.如权利要求1所述的方法,其特征在于,所述确定所述用户在所述沟通文本中的权重,包括:
确定所述沟通文本对应的沟通过程中的用户数量;
在所述沟通过程中存在主持人的情况下,确定所述主持人的第一权重;
根据所述用户数量和所述第一权重确定所述用户中除所述主持人之外的其他用户的第二权重。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的方法。
8.一种电子装置,包括存储器和处理器,其特征在于,所述处理器通过执行所述存储器中的计算机程序实现如权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010792352.0A CN112052666B (zh) | 2020-08-09 | 2020-08-09 | 一种专家确定方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010792352.0A CN112052666B (zh) | 2020-08-09 | 2020-08-09 | 一种专家确定方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112052666A CN112052666A (zh) | 2020-12-08 |
CN112052666B true CN112052666B (zh) | 2024-05-17 |
Family
ID=73601417
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010792352.0A Active CN112052666B (zh) | 2020-08-09 | 2020-08-09 | 一种专家确定方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112052666B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102184225A (zh) * | 2011-05-09 | 2011-09-14 | 北京奥米时代生物技术有限公司 | 一种在问答系统中搜索优选专家信息的方法 |
CN108399228A (zh) * | 2018-02-12 | 2018-08-14 | 平安科技(深圳)有限公司 | 文章分类方法、装置、计算机设备及存储介质 |
CN109165290A (zh) * | 2018-06-21 | 2019-01-08 | 太原理工大学 | 一种基于全覆盖粒计算的文本特征选择方法 |
CN111061866A (zh) * | 2019-08-20 | 2020-04-24 | 河北工程大学 | 一种基于特征扩展和T-oBTM的弹幕文本聚类方法 |
CN111061877A (zh) * | 2019-12-10 | 2020-04-24 | 厦门市美亚柏科信息股份有限公司 | 文本主题提取方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10832142B2 (en) * | 2016-06-20 | 2020-11-10 | International Business Machines Corporation | System, method, and recording medium for expert recommendation while composing messages |
US10229184B2 (en) * | 2016-08-01 | 2019-03-12 | International Business Machines Corporation | Phenomenological semantic distance from latent dirichlet allocations (LDA) classification |
-
2020
- 2020-08-09 CN CN202010792352.0A patent/CN112052666B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102184225A (zh) * | 2011-05-09 | 2011-09-14 | 北京奥米时代生物技术有限公司 | 一种在问答系统中搜索优选专家信息的方法 |
CN108399228A (zh) * | 2018-02-12 | 2018-08-14 | 平安科技(深圳)有限公司 | 文章分类方法、装置、计算机设备及存储介质 |
WO2019153551A1 (zh) * | 2018-02-12 | 2019-08-15 | 平安科技(深圳)有限公司 | 文章分类方法、装置、计算机设备及存储介质 |
CN109165290A (zh) * | 2018-06-21 | 2019-01-08 | 太原理工大学 | 一种基于全覆盖粒计算的文本特征选择方法 |
CN111061866A (zh) * | 2019-08-20 | 2020-04-24 | 河北工程大学 | 一种基于特征扩展和T-oBTM的弹幕文本聚类方法 |
CN111061877A (zh) * | 2019-12-10 | 2020-04-24 | 厦门市美亚柏科信息股份有限公司 | 文本主题提取方法和装置 |
Non-Patent Citations (6)
Title |
---|
Chenyi Zhang等.Large scale microblog mining using distributed MB-LDA.WWW '12 Companion: Proceedings of the 21st International Conference on World Wide Web.2012,全文. * |
Combination of Latent Dirichlet Allocation (LDA) and Term Frequency-Inverse Cluster Frequency (TFxICF) in Indonesian text clustering with labeling;Lya Hulliyyatus Suadaa等;2016 4th International Conference on Information and Communication Technology (ICoICT);20160922;全文 * |
Expert Identification Based on Dynamic LDA Topic Model;Renjun Chi等;2018 IEEE Third International Conference on Data Science in Cyberspace (DSC);20180719;全文 * |
基于主题特征的专家关系网络构建方法研究;秦雨;中国优秀硕士学位论文全文数据库;20160115;全文 * |
李莉 ; 林雨蓝 ; 姚瑞波 ; .基于LDA模型的交互式文本主题挖掘研究――以客服聊天记录为例.情报科学.2018,全文. * |
潘有能 ; 倪秀丽 ; .基于Labeled-LDA模型的在线医疗专家推荐研究.数据分析与知识发现.2020,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN112052666A (zh) | 2020-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110619506B (zh) | 一种岗位画像生成方法、岗位画像生成装置及电子设备 | |
CN108920675B (zh) | 一种信息处理的方法、装置、计算机存储介质及终端 | |
US10397157B2 (en) | Message management in a social networking environment | |
CN110929043B (zh) | 业务问题提取方法及装置 | |
US20120209605A1 (en) | Method and apparatus for data exploration of interactions | |
US20190236613A1 (en) | Semi-supervised, deep-learning approach for removing irrelevant sentences from text in a customer-support system | |
US20140129299A1 (en) | Method and apparatus for detection and analysis of first contact resolution failures | |
Marrone et al. | Relevant research areas in IT service management: An examination of academic and practitioner literatures | |
Tandel et al. | Multi-document text summarization-a survey | |
Bahrainian et al. | Modeling discrete dynamic topics | |
Joty et al. | Exploiting conversation structure in unsupervised topic segmentation for emails | |
US20190244175A1 (en) | System for Inspecting Messages Using an Interaction Engine | |
WO2023089481A1 (en) | Creation of a minute from a record of a teleconference | |
CN110750619B (zh) | 聊天记录关键词的提取方法、装置、计算机设备及存储介质 | |
CN111950729A (zh) | 一种知识库构建方法、装置、电子设备和可读存储装置 | |
CN112148841B (zh) | 一种对象分类以及分类模型构建方法和装置 | |
CN112052666B (zh) | 一种专家确定方法、装置及存储介质 | |
Muischnek et al. | Latvian tweet corpus and investigation of sentiment analysis for Latvian | |
CN111309288B (zh) | 适用于银行业务的软件需求规格文件的分析方法及装置 | |
CN110738056A (zh) | 用于生成信息的方法和装置 | |
EP4187463A1 (en) | An artificial intelligence powered digital meeting assistant | |
CN115204123B (zh) | 协同编辑文档的分析方法、分析装置以及存储介质 | |
Gomez et al. | Experimenting with a Machine Generated Annotations Pipeline | |
TWI767189B (zh) | 工作日誌登載系統 | |
CN110929085B (zh) | 基于元语义分解的电力客服留言生成模型样本处理系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |