CN112632982A - 一种能用于供应商评价的对话文本情感分析方法 - Google Patents
一种能用于供应商评价的对话文本情感分析方法 Download PDFInfo
- Publication number
- CN112632982A CN112632982A CN202011180666.1A CN202011180666A CN112632982A CN 112632982 A CN112632982 A CN 112632982A CN 202011180666 A CN202011180666 A CN 202011180666A CN 112632982 A CN112632982 A CN 112632982A
- Authority
- CN
- China
- Prior art keywords
- emotion
- evaluation
- words
- word
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种能用于供应商评价的对话文本情感分析方法,涉及电力运维领域。对话文本往往句法形式多样,口语化突出,语义情感丰富且存在情感转变,这给对话文本的情感分析带来了困难,从而影响了供应商评价的准确性。本发明在电力领域本体词典和通用词典基础上,识别与情感相关的关键词,分析情感评价基础单元和辅助单元的语义情感,不仅克服句法多样化困难,而且能识别对话文本语义情感转变。基于情感分析结果,根据建立的情感分析评价模型计算得到情感评价值。本技术方案能够解决对话文本句法形式多样、口语化突出、语义情感丰富且存在情感转变难以挖掘等问题,实现可靠的基于对话文本情感分析的供应商评价方法。
Description
技术领域
本发明涉及电力运维领域,尤其涉及一种能用于供应商评价的对话文 本情感分析方法。
背景技术
我国电网企业在电力设备供应商评价过程中,通常以履约情况、售后 服务和质量监督作为评价内容。今年,国网公司发布的2020年第一次供 应商评价评分细则中新增了满意度评价,要求项目单位通过人工统计、直 接计算的评分方式,根据供应商质量、服务、供货情况进行评分。然而, 这种评分方式不仅效率较低,准确性受评分人员经验、评价材料范围等影 响较大,还可能出现供应商仅重视评价内容的质量而轻视其他质量所造成 的评价结果失真问题。随着腾讯通(Real Time eXpert,RTX)、QQ等通讯 软件的广泛应用,电网企业逐渐在各类业务平台建立起了工作群,管理人 员和技术人员通过文字(语音可转文字)在工作群中进行技术交流时,会 提及供应商更为细粒度的设备质量、服务等信息。这类信息来自一线人员, 具有基础性、广泛性和高可信度等特点,可作为评价设备供应商的支撑数 据之一。目前尚未对这些文本进行挖掘利用。主要的困难有:对话文本往 往句法形式多样,口语化突出,语义情感丰富且存在情感转变,这给对话 文本的情感分析带来了困难,从而影响了供应商评价的准确性。因此准确 分析电力对话文本情感十分重要。
电力对话文本特点
1)含有无关冗余内容。由于文本是以聊天对话的形式产生,因此对 话内容既包含电力领域工作中遇到的问题和解决办法,以及对产品质量的 倾向性评价,也会掺杂无关内容,如讨论社会新闻、行业前景等。
2)句法形式多样,口语化突出。对话文本的句法往往比较个性化, 形式自由,没有固定格式,而且以短句居多,口语化突出,包括有较多网 络用语以及常用简称。
3)存在隐式评价对象。在上下句语义背景下会出现评价对象省略的 情况,如连续对话文本“A厂家表计时钟异常有一串英文怎么办?”“他们 的表计经常出现时钟异常情况啊”,第二句中“他们”指代“A厂家”,因 此存在隐式评价对象。
4)对话存在交叉中断现象。定义多句对话文本为多轮对话,有且仅 有上下两句的对话文本为单轮对话。多轮对话中语义相关的内容为同一主 题,其中讨论同一供应商的对话内容为同一供应商主题。多轮对话的特点 是在长度上较长,跨度较广,由于聊天对话的自由度高、主题灵活,往往 会出现对话交叉或中断现象。如在几个工作人员讨论表计故障问题时,会 交叉其他人员的闲聊内容,或相隔较长对话通过链接@用户ID进行互动, 此时多轮对话文本的同主题划分较为困难。
5)语义情感丰富且存在情感转变。对话文本中的情感词丰富多样, 情感表达更为灵活,且存在情感转变情况。如“轮换表计之前还挺好的, 怎么换完之后就不行了”,一句中表达了两种相反的情感,对该句进行准 确的情感挖掘具有一定难度。
对话文本往往句法形式多样,口语化突出,语义情感丰富且存在情感 转变,这给对话文本的情感分析带来了困难,从而影响了供应商评价的准 确性。
发明内容
本发明要解决的技术问题和提出的技术任务是对现有技术方案进行 完善与改进,提供一种能用于供应商评价的对话文本情感分析方法,以达 到准确分析电力对话文体情感的目的。为此,本发明采取以下技术方案。
一种能用于供应商评价的对话文本情感分析方法,包括以下步骤:
1)对话文本预处理;
获取对话文本,并在电力领域本体词典和通用词典基础上进行对话文 本预处理,包括分词、词性检索提取和标注;
2)识别情感关键词并归类;
找出句子中与情感相关的关键词,并对其进行归类,具体为:
201)在电力领域本体词典的基础上,以分词和词性标注后的单句对 话文本为分析对象,设置事件词Inc与情感词Sen为情感评价基础单元; 设置连词Conj、程度副词Ad和否定词Neg为情感评价辅助单元,用于后 续文本情感分析的修正;基础单元和辅助单元一起构成对话文本情感评价 的主要单元;
202)在单句对话文本中,基础单元事件词Inc和情感词Sen中出现 至少一个时,认为该句有情感倾向和评价意见,否则认为该句对设备供应 商评价无价值;当句中仅出现Inc时,计入事件分;当句中仅有Sen时, 计入情感分;当句中Inc和Sen并存时,考虑优先级的情况下同时计入情 感分和事件分;当句中不存在Inc和Sen时,认为该句为中性,对情感评 价无直接影响,作为冗余句子删除;
3)根据建立的对话情感分析规则,进行语义情感分析;
对话文本中情感评价的主要单元包括:事件词Inc、情感词Sen、连 词Conj、程度副词Ad和否定词Neg;基于评价对象和主要单元的逻辑关 系,得到情感关键词计分值:其中,对话情感分析规则为:
301)单句文本中存在事件词Inc;
事件词Inc作为专业性强且多为描述负面事件发生时的词汇,根据严 重程度设定评分;Inci为第i个事件的情感评分,按一般、严重两种事件 严重程度定值;
302)单句文本中存在情感词Sen;
情感词Sen参考Bosonnlp开源计算机语义分析处理库根据情感正向 和负向设定评分,Senj为第j个情感词的情感评分;
303)单句文本中存在程度副词Ad;根据程度副词的极性强度设定极 性系数,Adk为第k个程度副词的情感极性系数;若无程度副词,则用Ad0表示并定值;
304)单句文本中存在否定词Neg;根据是否存在否定词确定否定系 数值,其中Negl为第l个否定词的否定系数;若无否定词,则用Neg0表 示;
305)当句中存在多个事件词Inc或情感词Sen,需要对句子情感语 义和转变进行判断;当存在连词Conj时,根据连词和基础单元的位置关 系及连词转折关系判断情感语义评价优先级,确定连词关系语义评价优 先系数ηC;其中,以连词为界限,连词前的基础单元优先系数为ηCb,连 词后的基础单元优先系数为ηCa;
306)当句中同时存在事件词Inc和情感词Sen时,事件词作为客观 陈述事实类词语,其评价信服力高于主观情感词,事件词Inc和情感词 Sen基础单元的关系评价优先系数ηY分别为ηYI=1.2和ηYS=0.8;
307)对于句中每个基础单元,综合前述方法305)和方法306),其 评价优先系数η为:η=ηC×ηY;其中,ηC为连词关系语义评价优先系数,ηY为基础单元关系评价优先系数;根据基础单元类型,用ηI表示事件词的优 先系数;用ηS表示情感词的优先系数;
308)基础单元事件词Inc和情感词Sen与程度副词Ad和否定词Neg 的依附关系,如有连词Conj则以连词为划分界限,如无连词以每个基础 单元为划分界限;
4)根据建立的情感分析评价模型计算得到情感评价值;
针对同主题对话集合,情感分析评价结合情感评价基础单元和辅助单 元的关系特征来给出;每个基础单元受该单元优先系数、程度副词和否定 词系数直接影响,通过系数串联乘积对基础单元评分直接修正;基础单元 之间互相独立,通过并联加法联系;对于同主题下同评价对象供应商,计 算其以句为单位的情感评分值,该值的正负直观反映对话者的正向或负向 评价,该值的大小则反映了情感的强度;由此,得到单句的情感分析评价模型:
其中,SMANu为第u个单句供应商评分情感评价值;I表示句中事件词 的数量;ηIi表示第i个事件词的优先系数,由步骤3中的307)计算得到; K表示每个事件词附属程度副词的数量;L表示每个事件词附属否定词的 数量;J表示句中情感词的数量;ηSj表示第j个情感词的优先系数,也由 步骤3中的307)计算得到;P表示每个情感词附属程度副词的数量;Q表示每个情感词附属否定词的数量;其中k、l、p、q取值从0开始,表 示不存在对应辅助单元时该系数取其初始值1;
其中,SMAN为总供应商的情感评价值;U为评价句的数量;
5)根据未来语言发展,遵循自然规律,定期对词典进行扩充,并对 评价模型进行校验修正;
获取多个电力对话文本,并通过情感分析评价模型分别进行评价计 算及人工进行分析得到计算对应的理论评价值及实际评价值;比较理论 计算评价值及实际评价值,当两者差值超过设定阈值时,则返回步骤3) 对情感分析评价模型进行修正,并扩充词典;若否,则认为情感分析评价 模型合理。
作为优选技术手段:在步骤301)中,Inci为第i个事件的情感评分, 按一般、严重两种事件严重程度分别取-1或-2。
作为优选技术手段:在步骤303)中,根据程度副词的极性强度设定 极性系数为0.5、1、2三档,Adk为第k个程度副词的情感极性系数;若 无程度副词,则用Ad0表示,并取Ad0=1。
作为优选技术手段:在步骤304)中,当存在否定词则取否定系数为 -1,若无否定词,则用Neg0表示,并取Neg0=1;
作为优选技术手段:在步骤305)中,对于多个基础单元间的连词, 两侧的优先级设置如下:
表示转折和因果关系的连词,包括“但是”、“所以”,连词两侧基础 单元的评价优先系数为:ηCb=0.8,ηCa=1.2;
表示并列和承接关系连词,包括“而且”、“然后”,连词两侧基础单 元的评价优先系数为:ηCb=ηCa=1;
表示让步关系的连词,包括“尽管”、“虽然”,连词两侧基础单元的 评价优先系数为:ηCb=1.2,ηCa=0.8;如无连词,则对于所有基础单元,ηC=1。
作为优选技术手段:在步骤306)中,事件词Inc和情感词Sen基础 单元的关系评价优先系数ηY分别为ηYI和ηYS。
作为优选技术手段:在进行语义情感分析之前,还包括对话中断交叉 处理步骤,在进行对话中断交叉处理时,包括步骤
A1)获取对话文体集合D;
A2)顺序取出D中两条对话文本di和dj;
A3)判断di和dj是否满足单轮对话文本轮次间隔条件;若是,则进入 步骤A4),若否,则进入步骤A5);
A4)对两条文本进行单轮对话相关性匹配度计算;
A5)判断是否存在链接,若是,就将含链接语句di依次和被链接用户 间隔轮次最近的上下两条对话文本分别进行相关性匹配度计算;若否,则 认为该条文本所属主题对话集合已归纳完毕,则进入步骤A7);
A6)根据匹配度判断结果进行同主题对话集合归纳;
A7)判断对话文体集合D是否为空,若否,则进入步骤A2);若是, 则结束,从而获得全部同主题对话集合。
作为优选技术手段:当需要对供应商进行评价时,在获得相同主题对 话集合后,进行供应商识别,依据电力业务本体词典中的供应商信息类别, 对每个主题对话集合提取其中供应商信息,采用向上就近原则识别其中隐 式评价对象,然后去除无关的冗余主题内容;
供应商识别采用以下三种规则:
B1)未识别到供应商信息,则认为该对话集合谈论对象为无关冗余 内容,对设备供应商评价无价值,可筛除;
B2)识别到一个供应商信息或多个相同供应商信息,则认为该对话 集合评价对象为被识别供应商;
B3)出现两个及以上不同供应商信息,如按出现顺序分别为厂家A,B,…,X;对集合内每条文本采用向上就近原则确定对应供应商,定义该 对话集合自第一句至厂家B出现句之前评价对象为厂家A,厂家B出现句 至厂家C出现句之前评价对象为厂家B,以此类推;若某厂家重复出现, 则对该厂家的对话集进行合并;
至此,实现各供应商的主题文本归纳。
作为优选技术手段:还包括电力本体词典扩充步骤,电力本体词典扩 充采用半监督的分词方法,在电力设备缺陷领域本体词典和通用词典基础 上,以对话的电力业务领域文本为语料库基于HMM模型进行分词,按照词 频排序筛选新的领域本体词汇,由人工核查确定是否成为本体词以及近义 词,补充本体词典。随着语料库的不断增加,重复上述步骤进行多次校正, 实现了电力领域本体词典的补充与丰富。新增的本体词典包括供应商名称、 业务领域事件,扩充供应商名称及其常用简称以应对对话文本口语化突出 的特点。
有益效果:本技术方案针对电力领域对话文本内容,识别与情感相关 的关键词,通过分析情感评价基础单元和辅助单元的语义情感,克服句法 多样化困难,识别对话文本语义情感转变;解决对话文本句法形式多样、 口语化突出、语义情感丰富且存在情感转变难以进行情感挖掘等问题,建 立可靠情感分析评价模型,实现对话文本的准确情感分析评价。
附图说明
图1是本发明的流程图。
图2是本发明的供应商评价流程图。
图3是本发明的对话中断交叉处理流程图。
具体实施方式
以下结合说明书附图对本发明的技术方案做进一步的详细说明。
实施例一:
如图1所示本发明包括以下步骤:
1)对话文本预处理;
获取对话文本,并在电力领域本体词典和通用词典基础上进行对话文 本预处理,包括分词、词性检索提取和标注;
2)识别情感关键词并归类;
找出句子中与情感相关的关键词,并对其进行归类,具体为:
201)在电力领域本体词典的基础上,以分词和词性标注后的单句对 话文本为分析对象,设置事件词Inc与情感词Sen为情感评价基础单元; 设置连词Conj、程度副词Ad和否定词Neg为情感评价辅助单元,用于后 续文本情感分析的修正;基础单元和辅助单元一起构成对话文本情感评价 的主要单元;
202)在单句对话文本中,基础单元事件词Inc和情感词Sen中出现 至少一个时,认为该句有情感倾向和评价意见,否则认为该句对设备供应 商评价无价值;当句中仅出现Inc时,计入事件分;当句中仅有Sen时, 计入情感分;当句中Inc和Sen并存时,考虑优先级的情况下同时计入情 感分和事件分;当句中不存在Inc和Sen时,认为该句为中性,对情感评 价无直接影响,作为冗余句子删除;
3)根据建立的对话情感分析规则,进行语义情感分析;
对话文本中情感评价的主要单元包括:事件词Inc、情感词Sen、连 词Conj、程度副词Ad和否定词Neg;基于评价对象和主要单元的逻辑关 系,得到情感关键词计分值:其中,对话情感分析规则为:
301)单句文本中存在事件词Inc;
事件词Inc作为专业性强且多为描述负面事件发生时的词汇,根据严 重程度设定评分;Inci为第i个事件的情感评分,按一般、严重两种事件 严重程度分别取-1或-2;
302)单句文本中存在情感词Sen;
情感词Sen参考Bosonnlp开源计算机语义分析处理库根据情感正向 和负向设定评分,Senj为第j个情感词的情感评分;
303)单句文本中存在程度副词Ad;根据程度副词的极性强度设定极 性系数为0.5、1、2三档,Adk为第k个程度副词的情感极性系数;若无 程度副词,则用Ad0表示,并取Ad0=1;
304)单句文本中存在否定词Neg;根据是否存在否定词确定否定系 数值,当存在否定词则取否定系数为-1,其中Negl为第l个否定词的否 定系数;若无否定词,则用Neg0表示,并取Neg0=1;
305)当句中存在多个事件词Inc或情感词Sen,需要对句子情感语 义和转变进行判断;当存在连词Conj时,根据连词和基础单元的位置关 系及连词转折关系判断情感语义评价优先级,确定连词关系语义评价优 先系数ηC;其中,以连词为界限,连词前的基础单元优先系数为ηCb,连 词后的基础单元优先系数为ηCa;
表示转折和因果关系的连词,包括“但是”、“所以”,连词两侧基础 单元的评价优先系数为:ηCb=0.8,ηCa=1.2;
表示并列和承接关系连词,包括“而且”、“然后”,连词两侧基础单 元的评价优先系数为:ηCb=ηCa=1;
表示让步关系的连词,包括“尽管”、“虽然”,连词两侧基础单元的 评价优先系数为:ηCb=1.2,ηCa=0.8;如无连词,则对于所有基础单元,ηC=1;
306)当句中同时存在事件词Inc和情感词Sen时,事件词作为客观 陈述事实类词语,其评价信服力高于主观情感词,事件词Inc和情感词Sen基础单元的关系评价优先系数ηY分别为ηYI=1.2和ηYS=0.8;
307)对于句中每个基础单元,综合前述方法305)和方法306),其 评价优先系数η为:η=ηC×ηY;其中,ηC为连词关系语义评价优先系数,ηY为基础单元关系评价优先系数;
308)基础单元事件词Inc和情感词Sen与程度副词Ad和否定词Neg 的依附关系,如有连词Conj则以连词为划分界限,如无连词以每个基础 单元为划分界限;
4)根据建立的情感分析评价模型计算得到情感评价值;
针对同主题对话集合,情感分析评价结合情感评价基础单元和辅助单 元的关系特征来给出;每个基础单元受该单元优先系数、程度副词和否定 词系数直接影响,通过系数串联乘积对基础单元评分直接修正;基础单元 之间互相独立,通过并联加法联系;对于同主题下同评价对象供应商,计 算其以句为单位的情感评分值,该值的正负直观反映对话者的正向或负向 评价,该值的大小则反映了情感的强度;由此,得到单句的情感分析评价模型:
其中,SMANu为第u个单句供应商评分情感评价值;I表示句中事件词 的数量;ηIi表示第i个事件词的优先系数,由步骤3中的307)计算得到; K表示每个事件词附属程度副词的数量;L表示每个事件词附属否定词的 数量;J表示句中情感词的数量;ηSj表示第j个情感词的优先系数,也由 步骤3中的307)计算得到;P表示每个情感词附属程度副词的数量;Q表示每个情感词附属否定词的数量;其中k、l、p、q取值从0开始,表 示不存在对应辅助单元时该系数取其初始值1;
其中,SMAN为总供应商的情感评价值;U为评价句的数量;
5)定时对情感分析评价模型进行校验、修正;
获取多个电力对话文本,并通过情感分析评价模型分别进行评价计 算及人工进行分析得到计算对应的理论评价值及实际评价值;比较理论 计算评价值及实际评价值,当两者差值超过设定阈值时,则返回步骤3) 对情感分析评价模型进行修正;若否,则认为情感分析评价模型合理。
本技术方案针对电力领域对话文本内容,识别与情感相关的关键词, 通过分析情感评价基础单元和辅助单元的语义情感,克服句法多样化困难, 识别对话文本语义情感转变;解决对话文本句法形式多样、口语化突出、 语义情感丰富且存在情感转变难以进行情感挖掘等问题,建立可靠情感分 析评价模型,实现对话文本的准确情感分析评价。
实施例二:
与实施例一相同处不再赘述,不同之处在于:
如图2所示,为了更准确地进行语义情感分析,并进行供应商的评价, 本实施例还包括电力本体词典扩充、单轮对话相关性分析、对话中断交叉 处理、供应商识别;其中单轮对话相关性分析、对话中断交叉处理、供应 商识别为对话文本预处理步骤。具体为:
首先进行电力本体词典扩充研究。由于电力对话文本中存在专业性强 的特点,与常用词库存在一定差别,为提升文本理解的准确率,需要建立 对话业务领域的本体词典,并对词典新增属性条目,包括电力专有词汇、 供应商名称词汇和事件关键词汇,为后续的主题归纳和情感分析评价奠定 基础。本技术方案采用半监督的分词方法,在初步建立的电力设备缺陷领 域本体词典和通用词典基础上,以对话的电力业务领域文本为语料库基于HMM模型进行分词,按照词频排序筛选新的领域本体词汇,由人工核查确 定是否成为本体词以及近义词,补充本体词典。随着语料库的不断增加, 重复上述步骤进行多次校正,实现了电力领域本体词典的补充与丰富。新 增的本体词典主要包括供应商名称、业务领域事件等词汇,扩充供应商名 称及其常用简称以应对对话文本口语化突出的特点。
然后进行主题归纳研究。由于多轮对话主题的灵活性,难以得出对供 应商准确的情感倾向,需要将多轮对话拆解为多个独立的对话主题,是否 语义相关可由上下句的连贯性来判断,故将多轮对话拆解为多个单轮对话 进行相关性判断,作为对话文本同主题归纳的重要依据。然而,单轮对话 相关性判断的不相关,并不一定标志着该主题的结束。有可能是由于存在 对话中断交叉情况,故应在满足对话中断交叉处理规则基础上进行对话主 题归纳。对同一主题出现多供应商或无供应商的情况,需要进行针对供应 商的主题划分,识别对话集合内隐式评价对象,同时去除对话中无关供应 商的冗余内容。
最后进行基于情感分析的评价建模研究。情感分析是在供应商主题归 纳完成后,识别与情感相关的关键词,通过分析情感评价基础单元和辅助 单元的语义情感,克服句法多样化困难,识别对话文本语义情感转变。最 后基于情感分析结果,得到基于对话文本的供应商评价模型。
以下对部分步骤,再作进一步的说明:
一、基于BERT-NSP与余弦相似度加权的单轮对话相关性分析
为了便于对多轮对话文本进行同主题归类分析,先将多轮对话文本拆 解为仅有上下两句对话的单轮对话文本,以单轮对话为分析单位进行下句 预测,并以此为基础进行对话中断交叉处理及供应商识别。
BERT-NSP是通过维基百科语料训练得到的一种用于判断上下句连贯 性的模型,在多项自然语言处理任务中取得了较好的结果。BERT在GLUE 基准数据集上的任务,相对BiLSTM和OpenAI GPT等算法具有更好的表现, 同时比较了BERT-NSP和去除NSP情况下利用LTR、LTR+BiLSTM等算法进 行训练的表现,得到了BERT-NSP最优的训练结果。本技术方案采用基于 BERT-NSP的上下句连贯性预测微调模型,该模型是在BERT预训练模型基 础上,在有监督的训练过程中对训练参数进行微调的模型,结构如图2所 示。
模型以两条对话文本为输入,添加第一个标记[CLS],并在两条对话 文本中间插入标记[SEP],作为特殊分隔符;输入层各项Tok是输入语句 中每个字的向量化,由标记词嵌入、分段词嵌入、位置词嵌入三种词嵌 入方式相加得到一一对应的E[CLS],E1,…,EN,E[SEP],E1',…,EM',传入 双向Transformer层中,对其进行变换输出每个字对应的隐藏向量C, T1,…,TN,T[SEP],T1',…,TM'。模型输出具体如下式所示:
p=softmax(CWT) (1)
其中,p为下句预测匹配概率矩阵;C为BERT模型第一个标志[CLS] 的最终隐藏状态;W为全连接层权重矩阵。本模型实际是一个二分类问题, 因此p为一个二维向量,分别表示下句预测为0和1的概率值,即不相关 和相关的概率,下句预测概率PNS取该向量中表示两句相关的数值。
从图2过程可知,BERT-NSP模型是以字为单位进行的深度特征预测, 无形中忽略了词语级特征。而文本分析中较为常用的余弦相似度,则具备 从词语层面探索两句文本相关性的因素,为此可以构建基于BERT-NSP与 余弦相似度加权的下句预测算法,目的是融合BERT-NSP深度分布分析的 优点和余弦相似度词语级分析的优点,从而提升对话文本下句预测的准确 性。
余弦相似度方法在判断对话文本上下连贯性时,文本中重复出现的内 容往往会作为连贯评判标准,因此对单轮对话文本进行分词,采用式(2) 可计算得到相邻对话的余弦相似度:
其中,S为相邻对话的余弦相似度;A=(a1,a2,…,an)和B=(b1,b2,…,bn) 分别为两句文本词频向量化表示后获得的n维词频特征向量。在得到深度 特征和语言相似度特征的基础上,本技术方案定义单轮对话语义相关性匹 配度,由式(3)来对这两类特征做一融合:
M=(1-α)PNS+αS (3)
其中,M为单轮对话语义相关性匹配度;α为余弦相似度权重系数。M 值是一个大于等于0的数,M越大表示两句匹配相关性越大,参考PNS的二 分类取值标准,该值大于等于0.5认为上下句相关,将上下俩句划归为同 一对话主题,小于0.5认为不相关,其意义在于能够融合深度特征和相似 度特征,综合考虑上下句的语言联系,提高匹配判断的准确性。α的作用 是平衡深度特征和相似度特征的权重比例,对该系数进行寻优可获得单轮 对话文本判断最优模型。
二、对话中断交叉处理
在电力对话文本中,往往会出现多轮对话文本的主题中断交叉情况, 为了在单轮对话下句匹配基础上实现对话主题归纳,如图3所示的对话中 断交叉处理流程。
分别设对话文本集合D中顺序取出的两条文本di和dj,判断两条文本 的间隔轮次。根据对话文本研究经验,认为间隔轮次在3轮之外的对话一 般无直接相关关系。如果两条文本在间隔允许范围内,则对两条文本进行 单轮对话相关性匹配度M值判断;如果两条文本不在间隔允许范围内,则 对di进行链接@用户ID信息判断。如果含有链接信息,就将含链接语句di依次和被链接用户间隔轮次最近的上下两条对话文本分别进行相关性匹 配度M值判断,根据匹配度判断结果进行同主题对话集合归纳;如果不含 链接信息,则认为该条文本所属主题对话集合已归纳完毕。继续按照上述 步骤重复递归调用,直至对话文本集合D为空,获得全部同主题对话集合。
三、供应商识别规则
获得相同主题对话集合后,依据电力业务本体词典中的供应商信息类 别,对每个主题对话集合提取其中供应商信息,采用向上就近原则识别其 中隐式评价对象,然后去除无关的冗余主题内容。具体采用以下三种规则:
1)未识别到供应商信息,则认为该对话集合谈论对象为无关冗余 内容,对设备供应商评价无价值,可筛除;
2)识别到一个供应商信息或多个相同供应商信息,则认为该对话 集合评价对象为被识别供应商;
3)出现两个及以上不同供应商信息,如按出现顺序分别为厂家A, B,…,X。对集合内每条文本采用向上就近原则确定对应供应商,定义该 对话集合自第一句至厂家B出现句(不包括)之前评价对象为厂家A,厂 家B出现句至厂家C出现句(不包括)之前评价对象为厂家B,以此类推。 若某厂家重复出现,则对该厂家的对话集进行合并。
至此,实现各供应商的主题文本归纳。
以下通过算例分析对本技术方案进行验证:
一、算例语料库及本体词典扩充情况
以电力采集运维领域对话文本为例进行验证研究。首先建立语料库, 搜集了包括电力采集运维RTX工作群聊对话、《电网企业一线员工作业采 集异常一本通》导则、采集异常文本在内的共23.8M文本数据。然后基于 隐马尔科夫模型(hidden Markov model,HMM)对语料库进行分词、整理 并调整。该过程是在通用词典和已有的电力设备缺陷本体词典基础上,识 别新的本体词,由人工核查后补充形成了新的领域本体词典。对本体词标 注了词条属性和同义词、近义词,属性包括专有领域名词、供应商名称和 事件关键词汇。新增采集运维领域本体词典共计752条,包括在采集运维 语料库中出现的专业词汇但原有本体词典未包含的专有领域名词词条539 条,供应商名称类词汇106条,事件关键词汇107条。
二、主题归纳方法验证
数据集选取电力采集运维RTX工作群聊对话文本中的347对单轮对话 文本。BERT-NSP模型参数使用12层Transformer单元110M个参数的 BERT-Chinese预训练模型结构,自我注意力机制为12头,隐含层维度为 768维,最大序列长度为128,学习率为3e-5,批量大小为32。基于BERT-NSP 与余弦相似度加权的单轮对话下句预测分析对347对电力供应商的主题对 话内容进行实验,对单轮对话语义相关性匹配度M中的余弦相似度权重系 数α进行寻优。当α取值为0和1时分别代表BERT-NSP模型和余弦相似度 模型,单轮对话判断准确率在α取0.04时最大为80.69%,超过0.04后准 确率单调递减,模型准确率指标如表1所示。因此下述BERT-NSP与余弦 相似度加权模型取余弦相似度权重系数α为0.04。
表1单轮对话文本判断准确率
模型 | 单轮对话判断准确率/% |
余弦相似度<sub>(α=1)</sub> | 57.35 |
BERT-NSP<sub>(α=0)</sub> | 78.67 |
BERT-NSP与余弦相似度加权<sub>(α=0.04)</sub> | 80.69 |
单轮对话相关性分析采用余弦相似度、BERT-NSP、或BERT-NSP与余弦相似度 加权模型进行单轮对话相关性分析,从表1可知,本技术方案的模型在 BERT-NSP判断两句深度特征相关性的基础上与语言特征相似度加权,能 够提高单轮对话判断的准确性。该加权模型的确立同时也具有一定可解 释性,对话过程中出现相同文本内容更倾向于为相同主题的讨论。
在单轮对话文本下句预测分析基础上,处理对话交叉中断情况。以 电力对话文本为例,该段对话包含两个对话主题,分别为表计异常供应 商讨论主题和陶瓷杯性价比讨论主题,比较对话交叉中断处理通过无处 理、余弦相似度、BERT-NSP、BERT-NSP与余弦相似度加权模型后得到 的多轮对话主题划分情况如表2所示,其中同供应商识别情况下不同对话主题以斜杠划分。从表2可以看出,在多轮对话主题划分方面,仅使 用余弦相似度计算的模型主题划分准确率最低,加权模型准确率最高。 相比较而言,余弦相似度模型主要看重两句对话间的文本重复率,仅依 靠两句中的重复内容来判断连贯性,忽视内在联系;仅使用BERT模型 虽然能够达到较高准确率,但仍出现划分不完整的情况,针对划分错误 的第4、7、13句分析可知,通过相同关键词“陶瓷杯”可以判断两句为 同一主题;因此加权模型综合以上两者的优点,克服BERT模型忽略词 语级联系的不足,更准确划分各主题的范围。从加权模型的对话集合匹 配结果可见,采用图3对话交叉中断处理流程划分同主题内容,不仅对 话间隔轮次在3句以内的同主题可以正确划分,如第4、13句那样通过 链接@用户ID远距离对话也能准确划分主题。此外,供应商识别规则能 够正确识别同主题下对应厂家信息,并将冗余对话从对话主题中删除。
表2不同模型多轮对话主题划分情况
三、情感分析与供应商评价验证
为了展示对话文本情感分析流程,以“A厂家原来挺好的,但是现 在咋经常出来时钟异常?”一句为例进行关键词提取,在电力采集运维 领域本体词典和通用词典基础上对文本进行文本预处理,分词并进行关 键词提取标注,如下表3所示。
表3对话文本情感分析关键词
该句共有两个基础单元,情感词“好”和事件词“时钟异常”,通过 连词“但是”连接,同时辅助单元程度副词“原来”、“挺”和“经常” 分别对其修正。根据公式(5),对于情感词“好”和事件词“时钟异常” 来说,它们的优先系数η是由事件词优先性ηYS<ηYI和连词“但是”优先性 ηCb<ηCa决定的,在优先级判定条件下二者为并联加法关系;情感词“好” 受程度副词“原来”“挺”影响;“时钟异常”同时受程度副词“经常” 直接影响,各自具有串联乘积关系。
在此基础上进行横向对比,以语义转变、语义顺延和普通单句为例, 测试本技术方案方法对于语义转折的判断准确性,得到如下表4分析评 分结果。语义转变句中存在有正面评价“好”和事件词“时钟异常”,通 过情感分析得到负向评分;正向语义顺延句则在正向单句评分基础上有 更高的评分值。因此本技术方案方法对于语义丰富的对话文本能够做到 较为准确的评分,对于含有语义转变的内容也能在评分上体现出明显的 区别。
表4对话文本情感分析语义对比评分
表5对话文本情感分析供应商评分
根据划分结果,进行情感分析验证供应商评价效果,如表5所示。 可以看出BERT-NSP和BERT-NSP与余弦相似度加权得到的评分结果相 似,与无处理和余弦相似度计算模型下评分相比差别较大。对于A厂家 评分,BERT-NSP和加权模型的评分与文本表达负面情感程度更为相近, 无处理模型仅选取句中含有A厂家信息的句子作为评分对象,其他相关 句缺失,而余弦相似度模型同样缺失部分信息,导致评分结果不佳;对 于B厂家评分,由于仅涉及一句对话,因此评分未受影响。由此可见, 基于情感分析的供应商评价结果受主题划分正确性影响较大,加权模型 在主题划分上的准确性可以有效提高供应商评价的真实性和可靠性。
针对电力对话文本特点,基于BERT-NSP和余弦相似度加权模型进 行单轮对话相关性分析,构建了基于多轮对话交叉中断的多轮对话主题 划分,并识别供应商主题,在此基础上建立基于情感分析的供应商评价 模型。大量算例表明,本技术方案方法在多轮对话主题划分上具有优越 性,供应商评价模型具有可靠性,为供应商评价的常态化提供了方法。
此外,基于文本挖掘技术的电力设备供应商评价模型具有很好的移 植能力。本技术方案以电力采集运维业务对话文本为例进行本体词典的 补充及评价模型的建立,可结合电力其他业务文本语料库进行相应移植 研究,不仅为业务对话文本的深度利用提供了新思路,而且为电网企业 设备供应商满意度评价提供了新的支撑依据,进而帮助电网企业更客观 地了解供应商的设备质量及服务能力,做出合理决策,同时有益于设备 供应商有针对性地改善不足,提升竞争力。
以上图1-3所示的一种能用于供应商评价的对话文本情感分析方法 是本发明的具体实施例,已经体现出本发明实质性特点和进步,可根据 实际的使用需要,在本发明的启示下,对其进行形状、结构等方面的等 同修改,均在本方案的保护范围之列。
Claims (9)
1.一种能用于供应商评价的对话文本情感分析方法,其特征在于包括以下步骤:
1)对话文本预处理;
获取对话文本,并在电力领域本体词典和通用词典基础上进行对话文本预处理,包括分词、词性检索提取和标注;
2)识别情感关键词并归类;
找出句子中与情感相关的关键词,并对其进行归类,具体为:
201)在电力领域本体词典的基础上,以分词和词性标注后的单句对话文本为分析对象,设置事件词Inc与情感词Sen为情感评价基础单元;设置连词Conj、程度副词Ad和否定词Neg为情感评价辅助单元,用于后续文本情感分析的修正;基础单元和辅助单元一起构成对话文本情感评价的主要单元;
202)在单句对话文本中,基础单元事件词Inc和情感词Sen中出现至少一个时,认为该句有情感倾向和评价意见,否则认为该句对设备供应商评价无价值;当句中仅出现Inc时,计入事件分;当句中仅有Sen时,计入情感分;当句中Inc和Sen并存时,考虑优先级的情况下同时计入情感分和事件分;当句中不存在Inc和Sen时,认为该句为中性,对情感评价无直接影响,作为冗余句子删除;
3)根据建立的对话情感分析规则,进行语义情感分析;
对话文本中情感评价的主要单元包括:事件词Inc、情感词Sen、连词Conj、程度副词Ad和否定词Neg;基于评价对象和主要单元的逻辑关系,得到情感关键词计分值:其中,对话情感分析规则为:
301)单句文本中存在事件词Inc;
事件词Inc作为专业性强且多为描述负面事件发生时的词汇,根据严重程度设定评分;Inci为第i个事件的情感评分,按一般、严重两种事件严重程度定值;
302)单句文本中存在情感词Sen;
情感词Sen参考Bosonnlp开源计算机语义分析处理库根据情感正向和负向设定评分,Senj为第j个情感词的情感评分;
303)单句文本中存在程度副词Ad;根据程度副词的极性强度设定极性系数,Adk为第k个程度副词的情感极性系数;若无程度副词,则用Ad0表示;
304)单句文本中存在否定词Neg;根据是否存在否定词确定否定系数值,其中Negl为第l个否定词的否定系数;若无否定词,则用Neg0表示;
305)当句中存在多个事件词Inc或情感词Sen,需要对句子情感语义和转变进行判断;当存在连词Conj时,根据连词和基础单元的位置关系及连词转折关系判断情感语义评价优先级,确定连词关系语义评价优先系数ηC;其中,以连词为界限,连词前的基础单元优先系数为ηCb,连词后的基础单元优先系数为ηCa;
306)当句中同时存在事件词Inc和情感词Sen时,事件词作为客观陈述事实类词语,其评价信服力高于主观情感词,事件词Inc和情感词Sen基础单元的关系评价优先系数ηY分别为ηYI和ηYS;
307)对于句中每个基础单元,综合前述方法305)和方法306),其评价优先系数η为:η=ηC×ηY;其中,ηC为连词关系语义评价优先系数,ηY为基础单元关系评价优先系数;根据基础单元类型,用ηI表示事件词的优先系数;用ηS表示情感词的优先系数;
308)基础单元事件词Inc和情感词Sen与程度副词Ad和否定词Neg的依附关系,如有连词Conj则以连词为划分界限,如无连词以每个基础单元为划分界限;
4)根据建立的情感分析评价模型计算得到情感评价值;
针对同主题对话集合,情感分析评价结合情感评价基础单元和辅助单元的关系特征来给出;每个基础单元受该单元优先系数、程度副词和否定词系数直接影响,通过系数串联乘积对基础单元评分直接修正;基础单元之间互相独立,通过并联加法联系;对于同主题下同评价对象供应商,计算其以句为单位的情感评分值,该值的正负直观反映对话者的正向或负向评价,该值的大小则反映了情感的强度;由此,得到单句的情感分析评价模型:
其中,SMANu为第u个单句供应商评分情感评价值;I表示句中事件词的数量;ηIi表示第i个事件词的优先系数,由步骤3中的307)计算得到;K表示每个事件词附属程度副词的数量;L表示每个事件词附属否定词的数量;J表示句中情感词的数量;ηSj表示第j个情感词的优先系数,也由步骤3中的307)计算得到;P表示每个情感词附属程度副词的数量;Q表示每个情感词附属否定词的数量;其中k、l、p、q取值从0开始,表示不存在对应辅助单元时该系数取其初始值1;
其中,SMAN为总供应商的情感评价值;U为评价句的数量;
5)根据未来语言发展,遵循自然规律,定期对词典进行扩充,并对评价模型进行校验修正;
获取多个电力对话文本,并通过情感分析评价模型分别进行评价计算及人工进行分析得到计算对应的理论评价值及实际评价值;比较理论计算评价值及实际评价值,当两者差值超过设定阈值时,则返回步骤3)对情感分析评价模型进行修正,并扩充词典;若否,则认为情感分析评价模型合理。
2.根据权利要求1所述的一种能用于供应商评价的对话文本情感分析方法,其特征在于:在步骤301)中,Inci为第i个事件的情感评分,按一般、严重两种事件严重程度分别取-1或-2。
3.根据权利要求1所述的一种能用于供应商评价的对话文本情感分析方法,其特征在于:在步骤303)中,根据程度副词的极性强度设定极性系数为0.5、1、2三档,Adk为第k个程度副词的情感极性系数;若无程度副词,则用Ad0表示,并取Ad0=1。
4.根据权利要求1所述的一种能用于供应商评价的对话文本情感分析方法,其特征在于:在步骤304)中,当存在否定词则取否定系数为-1,若无否定词,则用Neg0表示,并取Neg0=1。
5.根据权利要求1所述的一种能用于供应商评价的对话文本情感分析方法,其特征在于:在步骤305)中,对于多个基础单元间的连词,两侧的优先级设置如下:
表示转折和因果关系的连词,包括“但是”、“所以”,连词两侧基础单元的评价优先系数为:ηCb=0.8,ηCa=1.2;
表示并列和承接关系连词,包括“而且”、“然后”,连词两侧基础单元的评价优先系数为:ηCb=ηCa=1;
表示让步关系的连词,包括“尽管”、“虽然”,连词两侧基础单元的评价优先系数为:ηCb=1.2,ηCa=0.8;如无连词,则对于所有基础单元,ηC=1。
6.根据权利要求1所述的一种能用于供应商评价的对话文本情感分析方法,其特征在于:在步骤306)中,事件词Inc和情感词Sen基础单元的关系评价优先系数ηY分别为ηYI=1.2和ηYS=0.8。
7.根据权利要求6所述的一种能用于供应商评价的对话文本情感分析方法,其特征在于:在进行语义情感分析之前,还包括对话中断交叉处理步骤,在进行对话中断交叉处理时,包括步骤
A1)获取对话文体集合D;
A2)顺序取出D中两条对话文本di和dj;
A3)判断di和dj是否满足单轮对话文本轮次间隔条件;若是,则进入步骤A4),若否,则进入步骤A5);
A4)对两条文本进行单轮对话相关性匹配度计算;
A5)判断是否存在链接,若是,就将含链接语句di依次和被链接用户间隔轮次最近的上下两条对话文本分别进行相关性匹配度计算;若否,则认为该条文本所属主题对话集合已归纳完毕,则进入步骤A7);
A6)根据匹配度判断结果进行同主题对话集合归纳;
A7)判断对话文体集合D是否为空,若否,则进入步骤A2);若是,则结束,从而获得全部同主题对话集合。
8.根据权利要求7所述的一种能用于供应商评价的对话文本情感分析方法,其特征在于:当需要对供应商进行评价时,在获得相同主题对话集合后,进行供应商识别,依据电力业务本体词典中的供应商信息类别,对每个主题对话集合提取其中供应商信息,采用向上就近原则识别其中隐式评价对象,然后去除无关的冗余主题内容;
供应商识别采用以下三种规则:
B1)未识别到供应商信息,则认为该对话集合谈论对象为无关冗余内容,对设备供应商评价无价值,可筛除;
B2)识别到一个供应商信息或多个相同供应商信息,则认为该对话集合评价对象为被识别供应商;
B3)出现两个及以上不同供应商信息,如按出现顺序分别为厂家A,B,…,X;对集合内每条文本采用向上就近原则确定对应供应商,定义该对话集合自第一句至厂家B出现句之前评价对象为厂家A,厂家B出现句至厂家C出现句之前评价对象为厂家B,以此类推;若某厂家重复出现,则对该厂家的对话集进行合并;至此,实现各供应商的主题文本归纳。
9.根据权利要求1所述的一种能用于供应商评价的对话文本情感分析方法,其特征在于:电力本体词典扩充采用半监督的分词方法,在电力设备缺陷领域本体词典和通用词典基础上,以对话的电力业务领域文本为语料库基于HMM模型进行分词,按照词频排序筛选新的领域本体词汇,由人工核查确定是否成为本体词以及近义词,补充本体词典;随着语料库的不断增加,重复上述步骤进行多次校正,实现了电力领域本体词典的补充与丰富;新增的本体词典包括供应商名称、业务领域事件,扩充供应商名称及其常用简称以应对对话文本口语化突出的特点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011180666.1A CN112632982A (zh) | 2020-10-29 | 2020-10-29 | 一种能用于供应商评价的对话文本情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011180666.1A CN112632982A (zh) | 2020-10-29 | 2020-10-29 | 一种能用于供应商评价的对话文本情感分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112632982A true CN112632982A (zh) | 2021-04-09 |
Family
ID=75304213
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011180666.1A Pending CN112632982A (zh) | 2020-10-29 | 2020-10-29 | 一种能用于供应商评价的对话文本情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112632982A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113641778A (zh) * | 2020-10-30 | 2021-11-12 | 浙江华云信息科技有限公司 | 一种对话文本的主题识别方法 |
WO2022095376A1 (zh) * | 2020-11-06 | 2022-05-12 | 平安科技(深圳)有限公司 | 方面级别情感分类方法、装置、设备及可读存储介质 |
CN114639489A (zh) * | 2022-03-21 | 2022-06-17 | 广东莲藕健康科技有限公司 | 基于相互学习的问诊快捷回复推荐方法、装置及电子设备 |
-
2020
- 2020-10-29 CN CN202011180666.1A patent/CN112632982A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113641778A (zh) * | 2020-10-30 | 2021-11-12 | 浙江华云信息科技有限公司 | 一种对话文本的主题识别方法 |
WO2022095376A1 (zh) * | 2020-11-06 | 2022-05-12 | 平安科技(深圳)有限公司 | 方面级别情感分类方法、装置、设备及可读存储介质 |
CN114639489A (zh) * | 2022-03-21 | 2022-06-17 | 广东莲藕健康科技有限公司 | 基于相互学习的问诊快捷回复推荐方法、装置及电子设备 |
CN114639489B (zh) * | 2022-03-21 | 2023-03-24 | 广东莲藕健康科技有限公司 | 基于相互学习的问诊快捷回复推荐方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10007658B2 (en) | Multi-stage recognition of named entities in natural language text based on morphological and semantic features | |
CN108304468B (zh) | 一种文本分类方法以及文本分类装置 | |
CN106649260B (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
Tur et al. | What is left to be understood in ATIS? | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN109815336B (zh) | 一种文本聚合方法及系统 | |
CN112632982A (zh) | 一种能用于供应商评价的对话文本情感分析方法 | |
CN114547329A (zh) | 建立预训练语言模型的方法、语义解析方法和装置 | |
CN108304372A (zh) | 实体提取方法和装置、计算机设备和存储介质 | |
CN112069298A (zh) | 基于语义网和意图识别的人机交互方法、设备及介质 | |
CN108763402A (zh) | 基于依存关系、词性和语义词典的类中心向量文本分类法 | |
CN104881402A (zh) | 中文网络话题评论文本语义倾向分析的方法及装置 | |
CN107180026B (zh) | 一种基于词嵌入语义映射的事件短语学习方法及装置 | |
CN113704451A (zh) | 一种电力用户诉求筛选方法、系统、电子设备和存储介质 | |
CN110472203B (zh) | 一种文章的查重检测方法、装置、设备及存储介质 | |
CN113282701B (zh) | 作文素材生成方法、装置、电子设备及可读存储介质 | |
CN105095430A (zh) | 构建词语网络及抽取关键词的方法和装置 | |
CN111832281A (zh) | 作文评分方法、装置、计算机设备及计算机可读存储介质 | |
CN107341142B (zh) | 一种基于关键词提取分析的企业关系计算方法及系统 | |
CN110287493B (zh) | 风险短语识别方法、装置、电子设备及存储介质 | |
CN111737475B (zh) | 一种无监督的网络舆情垃圾长文本识别方法 | |
CN110929509B (zh) | 一种基于louvain社区发现算法的领域事件触发词聚类方法 | |
CN110162615A (zh) | 一种智能问答方法、装置、电子设备和存储介质 | |
CN113158669B (zh) | 一种用工平台正负面评论识别的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |