CN109101486A - 一种对话角色区分方法、装置、终端设备及存储介质 - Google Patents

一种对话角色区分方法、装置、终端设备及存储介质 Download PDF

Info

Publication number
CN109101486A
CN109101486A CN201810763294.1A CN201810763294A CN109101486A CN 109101486 A CN109101486 A CN 109101486A CN 201810763294 A CN201810763294 A CN 201810763294A CN 109101486 A CN109101486 A CN 109101486A
Authority
CN
China
Prior art keywords
dialogue
word
distinction
conversation content
distinguished
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810763294.1A
Other languages
English (en)
Inventor
英高海
赵舒阳
李冬梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GCI Science and Technology Co Ltd
Original Assignee
GCI Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GCI Science and Technology Co Ltd filed Critical GCI Science and Technology Co Ltd
Priority to CN201810763294.1A priority Critical patent/CN109101486A/zh
Publication of CN109101486A publication Critical patent/CN109101486A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种对话角色区分方法、装置、终端设备及计算机可读存储介质,其方法包括:根据待区分对话及区分性词语库,获取所述待区分对话的所有区分性词语;其中,所述区分性词语库用于存储预先获取的区分性词语;所述待区分对话包括至少一句对话内容;根据所述待区分对话的所有区分性词语及预先通过决策树算法建立的对话角色判别模型,获取所述待区分对话中每一句对话内容对应的角色标签;根据所述待区分对话中每一句对话内容对应的角色标签,确定所述待区分对话中每一句对话内容所对应的角色;本发明能够提高对话角色识别的效率及准确率。

Description

一种对话角色区分方法、装置、终端设备及存储介质
技术领域
本发明涉及计算机数据处理领域,尤其涉及一种对话角色区分方法、装置、终端设备及计算机可读存储介质。
背景技术
通常对话内容会涉及两个以上的对话角色,在一些场合需要针对某个对话角色的对白进行分析,以获取对应的信息,例如客服质检,即客服对客户服务的质量检验,它是一个客服中心进行自我问题发现并改进客服质量的基础性工作。在进行分析之前,首先需要将对话角色进行区分,例如客服质量与客服态度的评价等都需要预先区分客服与客户的对话内容,以保证后续自然语言处理的正确性。
传统的对话角色区分方法主要包括以下两种:第一种:通过识别说话者的声纹特征来区分说话者身份,并在语音转化为文本时根据说话者身份将对话内容的文本进行标签;第二种:收集对话内容数据,通过关键字匹配算法确定对话内容对应的对话角色。
在实施本发明的过程中,发明人发现:在上述的第一种对话角色区分方法中,需要对不同人的声纹特征进行采集,花费的精力和成本比较高,而且其易受不同人的身体状况、年龄、情绪等因素的影响以及环境噪音的干扰,此外,在混合说话人的情形下人的声纹特征不易提取,导致对话角色区分方法实现难度大,准确性低;在上述的第二种对话角色区分方法中,通过关键字匹配算法确定对话内容对应的对话角色的方法,由于关键字确定的范围较小或者不准确,容易导致其总体识别准确率较低。
发明内容
针对上述问题,本发明的目的在于提供一种对话角色区分方法、装置、终端设备及计算机可读存储介质,提高对话角色识别的效率及准确率。
第一方面,本发明实施例提供了一种对话角色区分方法,包括以下步骤:
根据待区分对话及区分性词语库,获取所述待区分对话的所有区分性词语;其中,所述区分性词语库用于存储预先获取的区分性词语;所述待区分对话包括至少一句对话内容;
根据所述待区分对话的所有区分性词语及预先通过决策树算法建立的对话角色判别模型,获取所述待区分对话中每一句对话内容对应的角色标签;
根据所述待区分对话中每一句对话内容对应的角色标签,确定所述待区分对话中每一句对话内容所对应的角色。
在第一方面的第一种实现方式中,所述根据待区分对话及区分性词语库,获取所述待区分对话的所有区分性词语,具体为:
响应于接收的角色区别操作,获取待区分对话;
对所述待区别对话中的每一句对话内容进行分词,以获取待区分词语;
将所述待区分词语与所述区分性词语库中的所有区分性词语进行匹配,获取所述待区分对话的所有区分性词语。
根据第一方面的第一种实现方式,在第一方面的第二种实现方式中,所述区分性词语库的建立过程包括以下步骤:
对获取的目标领域的对话语料库中的所有对话内容进行分词,以获取所述对话语料库的所有词语;其中,所述对话语料库包括超过第一预设数量的标准对话内容,和对应于每一句标准对话内容的角色标签;
基于所述对话语料库的所有词语,计算每一句标准对话内容中的各个词语的词频与逆文档频率;
根据所述每一句标准对话内容中的各个词语的词频与逆文档频率,获取所述每一句标准对话内容的原始特征向量;
根据每一句标准对话内容对应的角色标签及对应的原始特征向量,计算每一句标准对话内容中的各个词语的信息增益比;
根据所述每一句标准对话内容中的各个词语的信息增益比,获取第二预设数量的词语作为区分性词语,以建立所述区分性词语库;其中,从所述对话语料库的所有词语中获取的所述区分性词语的信息增益比大于剩余词语的信息增益比。
根据第一方面的第二种实现方式,在第一方面的第三种实现方式中,所述对话角色判别模型的训练过程包括以下步骤:
根据所述对话语料库中的每一句标准对话内容的原始特征向量及所述区分性词语库,获取所述每一句标准对话内容的区分特征向量;
根据所有标准对话内容的区分特征向量及对应于每一句标准对话内容的角色标签,通过决策树算法进行对话角色判别模型训练,以获取包括区分特征向量与角色标签对应关系的对话角色判别模型。根据第一方面的第三种实现方式,在第一方面的第四种实现方式中,所述根据所述待区分对话的所有区分性词语及预先通过决策树算法建立的对话角色判别模型,获取所述待区分对话中每一句对话内容对应的角色标签,具体为:
基于所述对话语料库的所有词语,计算所述待区分对话的每一句对话内容中的所有区分性词语的词频与逆文档频率;
基于所述区分性词语库,通过所述每一句对话内容的所有区分性词语的词频与逆文档频率,计算所述待区分对话中的每一句对话内容的区分特征向量;
将所述待区分对话中的每一句对话内容的区分特征向量输入所述对话角色判别模型中进行分析,以获取所述待区分对话中的每一句对话内容对应的角色标签。
根据第一方面的第四种实现方式,在第一方面的第五种实现方式中,所述基于所述对话语料库的所有词语,计算所述待区分对话的每一句对话内容中的所有区分性词语的词频与逆文档频率,具体为:
根据所述对话语料库中的所有词语,计算所述待区分对话的每一句对话内容中的所有区分性词语的词频;
对于所述待区分对话的每一句对话内容中的各个区分性词语,分别获取所述对话语料库中具有对应的区分性词语的标准对话内容的数量;
对于所述待区分对话的每一句对话内容中的各个区分性词语,分别根据所述对话语料库中的标准对话内容的总数及所述对话语料库中具有对应的区分性词语的标准对话内容的数量,获取所述待区分对话的每一句对话内容中的各个区分性词语的逆文档频率。
第二方面,本发明实施例提供了一种对话角色区分装置,包括:
区分性词语获取模块,用于根据待区分对话及区分性词语库,获取所述待区分对话的所有区分性词语;其中,所述区分性词语库用于存储预先获取的区分性词语;所述待区分对话包括至少一句对话内容;
角色标签获取模块,用于根据所述待区分对话的所有区分性词语及预先通过决策树算法建立的对话角色判别模型,获取所述待区分对话中每一句对话内容对应的角色标签;
对话角色确定模块,用于根据所述待区分对话中每一句对话内容对应的角色标签,确定所述待区分对话中每一句对话内容所对应的角色。
在第二方面的第一种实现方式中,所述区分性词语获取模块具体包括:
待区分对话获取单元,用于响应于接收的角色区别操作,获取待区分对话;
待区分词语获取单元,用于对所述待区别对话中的每一句对话内容进行分词,以获取待区分词语;
区分性词语获取单元,用于将所述待区分词语与所述区分性词语库中的所有区分性词语进行匹配,获取所述待区分对话的所有区分性词语。
根据第二方面的第一种实现方式,在第二方面的第二种实现方式中,所述区分性词语库的建立过程包括以下步骤:
词语获取模块,用于对获取的目标领域的对话语料库中的所有对话内容进行分词,以获取所述对话语料库的所有词语;其中,所述对话语料库包括超过第一预设数量的标准对话内容,和对应于每一句标准对话内容的角色标签;
TF-IDF计算模块,用于基于所述对话语料库的所有词语,计算每一句标准对话内容中的各个词语的词频与逆文档频率;
原始特征向量获取模块,用于根据所述每一句标准对话内容中的各个词语的词频与逆文档频率,获取所述每一句标准对话内容的原始特征向量;
信息增益比计算模块,用于根据每一句标准对话内容对应的角色标签及对应的原始特征向量,计算每一句标准对话内容中的各个词语的信息增益比;
区分性词语库获取模块,用于根据所述每一句标准对话内容中的各个词语的信息增益比,获取第二预设数量的词语作为区分性词语,以建立所述区分性词语库;其中,从所述对话语料库的所有词语中获取的所述区分性词语的信息增益比大于剩余词语的信息增益比。
根据第二方面的第二种实现方式,在第二方面的第三种实现方式中,所述对话角色判别模型的训练过程包括以下步骤:
区分特征向量获取模块,用于根据所述对话语料库中的每一句标准对话内容的原始特征向量及所述区分性词语库,获取所述每一句标准对话内容的区分特征向量;
模型训练模块,用于根据所有标准对话内容的区分特征向量及对应于每一句标准对话内容的角色标签,通过决策树算法进行对话角色判别模型训练,以获取包括区分特征向量与角色标签对应关系的对话角色判别模型。根据第二方面的第三种实现方式,在第二方面的第四种实现方式中,所述角色标签获取模块具体包括:
参量计算单元,用于基于所述对话语料库的所有词语,计算所述待区分对话的每一句对话内容中的所有区分性词语的词频与逆文档频率;
区分特征向量计算单元,用于基于所述区分性词语库,通过所述每一句对话内容的所有区分性词语的词频与逆文档频率,计算所述待区分对话中的每一句对话内容的区分特征向量;
标签获取单元,用于将所述待区分对话中的每一句对话内容的区分特征向量输入所述对话角色判别模型中进行分析,以获取所述待区分对话中的每一句对话内容对应的角色标签。
根据第二方面的第四种实现方式,在第二方面的第五种实现方式中,所述参量计算单元具体包括:
词频计算子单元,用于根据所述对话语料库中的所有词语,计算所述待区分对话的每一句对话内容中的所有区分性词语的词频;
数量获取子单元,用于对于所述待区分对话的每一句对话内容中的各个区分性词语,分别获取所述对话语料库中具有对应的区分性词语的标准对话内容的数量;
逆文档频率计算子单元,用于对于所述待区分对话的每一句对话内容中的各个区分性词语,分别根据所述对话语料库中的标准对话内容的总数及所述对话语料库中具有对应的区分性词语的标准对话内容的数量,获取所述待区分对话的每一句对话内容中的各个区分性词语的逆文档频率。
第三方面,本发明实施例提供了一种对话角色区分终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现第一方面中任意一项所述的对话角色区分方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行第一方面中任意一项所述的对话角色区分方法。
上述实施例具有如下有益效果:
首先根据待区分对话及区分性词语库,获取所述待区分对话的所有区分性词语,通过对待区分对话的预先处理,降低对待分析对话中区分性词语进行判断的复杂度,提高处理效率,然后根据所述待区分对话的所有区分性词语及预先通过决策树算法建立的对话角色判别模型,获取所述待区分对话中每一句对话内容对应的角色标签,从而确定所述待区分对话中每一句对话内容所对应的角色,使用了决策树算法来构建对话角色判别模型,该算法基于最大似然估计的原理,可以构建出一个泛化能力更强、更健壮的模型,实现准确地权衡各个区分性词语对对话角色的贡献,以更准确地识别对话角色的标签,从而提高对话角色区分的准确性。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例提供的对话角色区分方法的流程示意图。
图2是本发明另一实施例提供的对话角色区分方法的区分性词语库建立的流程示意图。
图3是本发明另一实施例提供的原始特征向量的示意图。
图4是本发明另一实施例提供的区分特征向量的示意图。
图5是本发明第二实施例提供的对话角色区分装置的结构示意图。
图6是本发明第三实施例提供的对话角色区分终端设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明第一实施例提供了一种对话角色区分方法,其可由终端设备来执行,并包括以下步骤:
S11,根据待区分对话及区分性词语库,获取所述待区分对话的所有区分性词语;其中,所述区分性词语库用于存储预先获取的区分性词语;所述待区分对话包括至少一句对话内容。
在本发明实施例中,所述终端设备包括,但不限于电脑、笔记本、智能平板、手机、平板电脑或者云端服务器等计算设备,所述对话角色区分方法集成与所述终端设备中。
在本发明实施例中,用户根据实际需要对于待区分对话发起角色区分操作,所述终端设备响应于接收的角色区别操作,获取待区分对话,然后对所述待区别对话中的每一句对话内容进行分词及替换同义词,以获取待区分词语,在分词及替换同义词的预处理过程,保留待区分对话内容中的停用词,避免因去停用词而降低对区分性词语进行选取的准确性,从而提高了对话角色区分的准确性,最后所述终端设备选取与所述待区分对话所属目标领域相同的区分性词语库,例如当所述待区分对话属于客服质检领域,则相应获取的区分性词语库也属于客户质检领域,所述终端设备将所述待区分词语与所述区分性词语库中的所有区分性词语进行匹配,获取所述待区分对话的所有区分性词语。
S12,根据所述待区分对话的所有区分性词语及预先通过决策树算法建立的对话角色判别模型,获取所述待区分对话中每一句对话内容对应的角色标签。
在本发明实施例中,需要说明的是,在对所述待区分对话进行角色区分之前,所述终端设备获取所述待区分对话对应目标领域的对话语料库,所述对话语料库包括超过第一预设数量的标准对话内容,和对应于每一句标准对话内容的角色标签,例如当所述待区分对话属于客服质检领域,则所述对话语料库存储有对应于客服质检领域的标准对话内容,及对应于每一句标准对话内容的客服或者客户标签,所述终端设备根据所述对话语料库,通过决策树算法建立对话角色判别模型。
在本发明实施例中,所述终端设备基于所述对话语料库中通过分词等预处理过程之后的所有词语,计算所述待区分对话的每一句对话内容中的所有区分性词语的词频与逆文档频率,具体地,所述终端设备根据所述对话语料库中的所有词语,计算所述待区分对话的每一句对话内容中的所有区分性词语的词频(TF),词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的频率;对于所述待区分对话的每一句对话内容中的各个区分性词语,分别获取所述对话语料库中具有对应的区分性词语的标准对话内容的数量;对于所述待区分对话的每一句对话内容中的各个区分性词语,分别根据所述对话语料库中的标准对话内容的总数及所述对话语料库中具有对应的区分性词语的标准对话内容的数量,获取所述待区分对话的每一句对话内容中的各个区分性词语的逆文档频率(IDF),逆文档频率(inverse document frequency,IDF)是一个词语普遍重要性的度量,某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到,设逆文档频率为idf,所述对话语料库中的标准对话内容的总数为D,所述对话语料库中具有对应的区分性词语的标准对话内容的数量d,则特殊情况下,当存储区分性词语不在语料库中时,会导致分母为0的情况发生,此时根据的形式计算所有区分性词语的逆文档频率;然后所述终端设备基于所述区分性词语库,通过所述每一句对话内容的所有区分性词语的词频与逆文档频率,计算所述待区分对话中的每一句对话内容的区分特征向量,设所述区分性词语库中有N个区分性词语,则对应的每一句对话内容的区分特征向量为一个N维向量,对于每一句对话内容对应的N维向量,其中,N维向量中所述每一句对话内容所包含的区分性词语所对应的第i(1≤i≤n)个参数为该区分性词语的词频与逆文档频率的乘积(TDIDF),例如所述区分性词语库中有4个区分性词语A、B、C、D,则每一句对话内容的区分特征向量为一个4维向量,存在一句对话内容包括A、C的区分性词语,则该对话内容对应的区分特征向量为(TDIDFA,0,TDIDFC,0),可以理解的是,上述仅仅是对于本发明的每一句对话内容的区分特征向量的计算过程进行举例说明,本发明对于所述区分性词语库中包含的区分性词语不做任何限定,用户可根据实际情况进行具体设定;最后所述终端设备将所述待区分对话中的每一句对话内容的区分特征向量输入所述对话角色判别模型中进行分析,以获取所述待区分对话中的每一句对话内容对应的角色标签。
S13,根据所述待区分对话中每一句对话内容对应的角色标签,确定所述待区分对话中每一句对话内容所对应的角色。
在本发明实施例,所述终端设备根据所述待区分对话中每一句对话内容对应的角色标签,确定所述待区分对话中每一句对话内容所对应的角色,并向用户输出所述待区分对话及对应于每一句对话内容的角色。
综上所述,本发明第一实施例提供了一种对话角色区分方法,首先根据待区分对话及区分性词语库,获取所述待区分对话的所有区分性词语,通过对待区分对话的预先处理,降低对待分析对话中区分性词语进行判断的复杂度,提高处理效率,然后根据所述待区分对话的所有区分性词语及预先通过决策树算法建立的对话角色判别模型,获取所述待区分对话中每一句对话内容对应的角色标签,从而确定所述待区分对话中每一句对话内容所对应的角色,使用了决策树ID3算法来构建对话角色判别模型,该算法基于最大似然估计的原理,可以构建出一个泛化能力更强、更健壮的模型,实现准确地权衡各个区分性词语对对话角色的贡献,以更准确地识别对话角色的标签,从而提高对话角色区分的准确性。
在本发明另一实施例中:
请参阅图2,所述区分性词语库的建立过程包括以下步骤:
S21,对获取的目标领域的对话语料库中的所有对话内容进行分词,以获取所述对话语料库的所有词语;其中,所述对话语料库包括超过第一预设数量的标准对话内容,和对应于每一句标准对话内容的角色标签。
在本发明实施例中,所述终端设备对获取的目标领域的对话语料库中的所有对话内容进行分词、替换同义词等预处理过程,获取所述对话语料库的所有词语,其中,所述目标领域即为所述待区分对话所属目标领域,例如当所述待区分对话属于客服质检领域,则所述对话语料库存储有对应于客服质检领域的标准对话内容,及对应于每一句标准对话内容的客服标签或者客户标签,可以理解的是,本发明对于所述第一预设数量的具体数目不做任何限制,在保证对话语料库中的标准对话内容足够丰富的情况下可依据实际情况进行设定,需要说明的是,所述终端设备在对所述对话语料库中的所有标准对话内容进行分词的预处理过程中,保留标准对话内容中的停用词,避免因去停用词而降低对区分性词语进行选取的准确性,从而提高了对话角色区分的准确性,同时使用一个文本数据量巨大的对话语料库作为提取区分性词语的语料背景,使得获取的“区分性词语”更具有代表性,更有利于区分对话角色,克服了从小语料库中区分性词语不全面,代表性不足的缺陷。
S22,基于所述对话语料库的所有词语,计算每一句标准对话内容中的各个词语的词频与逆文档频率。
在本发明实施例中,所述终端设备基于预处理后的所述对话语料库的所有词语,计算所述对话语料库中每一句标准对话内容中的各个词语的词频(TF),词频(termfrequency,TF)指的是某一个给定的词语在该文件中出现的频率;对于所述每一句标准对话内容中的各个词语,分别获取所述对话语料库中具有对应的词语的标准对话内容的数量;对于所述每一句标准对话内容中的各个词语,分别根据所述对话语料库中的标准对话内容的总数及所述对话语料库中具有对应的词语的标准对话内容的数量,获取所述每一句标准对话内容中的各个词语的逆文档频率(IDF),逆文档频率(inverse documentfrequency,IDF)是一个词语普遍重要性的度量,某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到,设逆文档频率为idf,所述对话语料库中的标准对话内容的总句数为D,所述对话语料库中具有相应的词语的标准对话内容的数量d,则特殊情况下,当存储区分性词语不在语料库中时,会导致分母为0的情况发生,此时根据的形式计算所有词语的逆文档频率。
S23,根据所述每一句标准对话内容中的各个词语的词频与逆文档频率,获取所述每一句标准对话内容的原始特征向量。
在本发明实施例中,所述终端设备根据所述每一句标准对话内容中的各个词语的词频与逆文档频率的乘积(TDIDF),及设定的特征向量的维数,获取所述每一句标准对话内容的原始特征向量;需要说明的是,本发明对于维数的设定不做任何限制,可依据实际情况进行具体设置,所述TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类;TFIDF实际上是:TF*IDF,TF词频(Term Frequency),IDF逆向文件频率(InverseDocument Frequency),TF表示词条在文档或者文库中出现的频率;IDF的主要思想是:如果包含词条t的文档越少,IDF越大,则说明词条t具有很好的类别区分能力,;需要说明的是,每个标准对话内容的原始特征向量的维度是相同的,比如都是100维,有1000个对话文本,就有1000个100维的原始特征向量,请参阅图3,例如设置的维数为5维,对话1包括有词语A、C,且TDIDFA=2,TDIDFC=1,则对话1的原始特征向量为(2,0,1,0,0)。
S24,根据每一句标准对话内容对应的角色标签及对应的原始特征向量,计算每一句标准对话内容中的各个词语的信息增益比。
在本发明实施例中,所述终端设备根据每一句标准对话内容对应的角色标签及对应的原始特征向量,计算每一句标准对话内容中的各个词语的信息增益比,则每一句标准对话内容中的每个词语的信息增益比为信息增益比体现各个维度对最终区分对话角色的贡献程度大小,贡献大的维度,相应的,这个维度的信息增益比就比较大,说明这个维度对应的词语比较重要,应该保留下来,并当作区分性词语,其中,每一句标准对话内容中的每个词语的信息增益IG(X,Z)=H(X)-H(X|Z),表示观察到词语Z对于我们预知角色标签X提供了多少信息,其中熵对于一个事件i,它发生的概率是p,则I(p)=-log(p),熵H(X)表示角色标签X确定后我们获得的期望信息量,如果H(X)越大,那么说明我们获得的信息量越大,同时也说明X更趋向于均匀分布,条件熵表示词语Z的存在对于我们角色标签X有什么贡献。
S25,根据所述每一句标准对话内容中的各个词语的信息增益比,获取第二预设数量的词语作为区分性词语,以建立所述区分性词语库;其中,从所述对话语料库的所有词语中获取的所述区分性词语的信息增益比大于剩余词语的信息增益比。
在本发明实施例中,所述终端设备在计算了所述每一句标准对话内容中的各个词语的信息增益比之后,根据信息增益比的大小对于获取的所述每一句标准对话内容中的各个词语进行排序,从而获取信息增益比较大的第二预设数量的词语作为区分性词语,以建立所述区分性词语库,信息增益比会根据各个词语与对话角色之间的关联性,筛选出若干对角色认定贡献最大的词语,以此构成一个“区分性词语”;实现通过信息增益比来筛选区分性词语,克服了人工筛选的主观随意性与片面性,从而使得筛选的区分性词语与对话角色之间的关联性更大,需要说明的是,所述第二预设数量小于所述预料库中的标准对话内容预处理后的所有词语的数量,在此基础上本发明对于第二预设数量的设置不做任何限制,可以获取全部词语的信息增益比较大的20%或者30%或者15%或者40%等等作为区分性词语,可依据实际情况进行具体设置。
在本发明另一实施例中:
在以上实施例的基础上,所述对话角色判别模型的训练过程包括以下步骤:
根据所述对话语料库中的每一句标准对话内容的原始特征向量及所述区分性词语库,获取所述每一句标准对话内容的区分特征向量。
根据所有标准对话内容的区分特征向量及对应于每一句标准对话内容的角色标签,通过决策树算法进行对话角色判别模型训练,以获取包括区分特征向量与角色标签对应关系的对话角色判别模型。
在本发明实施例中,所述终端设备根据筛选出来的区分性词语,及所述对话语料库中的每一句标准对话内容的原始特征向量,通过对所述原始特征向量进行特征选择从而获取所述每一句标准对话内容的区分特征向量,具体地,对于对话语料库中每一句标准对话内容的原始特征向量,提取它在相应“区分性词语”位置上的TFIDF值,形成一个与标准对话内容相对的区分特征向量,假如原始特征向量是100维,区分性词语有100*20%=20个,则最终每一句标准对话内容都转化成一个20维的特征向量,每个元素的值就是原始特征向量相应位置的值,即新特征向量是从原始特征向量抽取一部分元素(区分性词语所在位置上的元素)构成的;请参阅图3及图4,原始特征向量为5维(A,B,C,D,E),筛选出的区分性词语有4个,则相应的区分特征向量为4维(A,B,C,E),所述终端设备相应获取原始特征向量上的相应的区分性词语的TFIDF值构成区分特征向量。在本发明实施例中,所述终端设备将所有标准对话内容的区分特征向量及对应于每一句标准对话内容的角色标签作为输入值,通过决策树算法进行对话角色判别模型训练,以获取包括区分特征向量与角色标签对应关系的对话角色判别模型。决策树算法包括ID3算法、C4.5算法及CART算法等等,决策树构造的输入是一组带有类别标记的例子,构造的结果是一棵二叉树或多叉树。二叉树的内部节点(非叶子节点)一般表示为一个逻辑判断,如形式为a=aj的逻辑判断,其中a是属性,aj是该属性的所有取值:树的边是逻辑判断的分支结果,多叉树(ID3)的内部结点是属性,边是该属性的所有取值,有几个属性值就有几条边,树的叶子节点都是类别标记,由于数据表示不当、有噪声或者由于决策树生成时产生重复的子树等原因,都会造成产生的决策树过大,因此,简化决策树是一个不可缺少的环节,寻找一棵最优决策树,主要应解决以下3个最优化问题:①生成最少数目的叶子节点;②生成的每个叶子节点的深度最小;③生成的决策树叶子节点最少且每个叶子节点的深度最小;本发明使用了决策树算法来构建对话角色判别模型,该算法基于最大似然估计的原理,可以构建出一个泛化能力更强、更健壮的模型,使得最终确定的对话角色具有很高的准确性。
请参阅图5,本发明第二实施例提供了一种对话角色区分装置,包括:
区分性词语获取模块11,用于根据待区分对话及区分性词语库,获取所述待区分对话的所有区分性词语;其中,所述区分性词语库用于存储预先获取的区分性词语;所述待区分对话包括至少一句对话内容。
角色标签获取模块12,用于根据所述待区分对话的所有区分性词语及预先通过决策树算法建立的对话角色判别模型,获取所述待区分对话中每一句对话内容对应的角色标签。
对话角色确定模块13,用于根据所述待区分对话中每一句对话内容对应的角色标签,确定所述待区分对话中每一句对话内容所对应的角色。
在第二实施例的第一种实现方式中,所述区分性词语获取模块11具体包括:
待区分对话获取单元,用于响应于接收的角色区别操作,获取待区分对话。
待区分词语获取单元,用于对所述待区别对话中的每一句对话内容进行分词,以获取待区分词语。
区分性词语获取单元,用于将所述待区分词语与所述区分性词语库中的所有区分性词语进行匹配,获取所述待区分对话的所有区分性词语。
根据第二实施例的第一种实现方式,在第二实施例的第二种实现方式中,所述区分性词语库的建立过程包括以下步骤:
词语获取模块,用于对获取的目标领域的对话语料库中的所有对话内容进行分词,以获取所述对话语料库的所有词语;其中,所述对话语料库包括超过第一预设数量的标准对话内容,和对应于每一句标准对话内容的角色标签。
TF-IDF计算模块,用于基于所述对话语料库的所有词语,计算每一句标准对话内容中的各个词语的词频与逆文档频率。
原始特征向量获取模块,用于根据所述每一句标准对话内容中的各个词语的词频与逆文档频率,获取所述每一句标准对话内容的原始特征向量。
信息增益比计算模块,用于根据每一句标准对话内容对应的角色标签及对应的原始特征向量,计算每一句标准对话内容中的各个词语的信息增益比。
区分性词语库获取模块,用于根据所述每一句标准对话内容中的各个词语的信息增益比,获取第二预设数量的词语作为区分性词语,以建立所述区分性词语库;其中,从所述对话语料库的所有词语中获取的所述区分性词语的信息增益比大于剩余词语的信息增益比。
根据第二实施例的第二种实现方式,在第二实施例的第三种实现方式中,所述对话角色判别模型的训练过程包括以下步骤:
区分特征向量获取模块,用于根据所述对话语料库中的每一句标准对话内容的原始特征向量及所述区分性词语库,获取所述每一句标准对话内容的区分特征向量。
模型训练模块,用于根据所有标准对话内容的区分特征向量及对应于每一句标准对话内容的角色标签,通过决策树算法进行对话角色判别模型训练,以获取包括区分特征向量与角色标签对应关系的对话角色判别模型。根据第二实施例的第三种实现方式,在第二实施例的第四种实现方式中,所述角色标签获取模块12具体包括:
参量计算单元,用于基于所述对话语料库的所有词语,计算所述待区分对话的每一句对话内容中的所有区分性词语的词频与逆文档频率。
区分特征向量计算单元,用于基于所述区分性词语库,通过所述每一句对话内容的所有区分性词语的词频与逆文档频率,计算所述待区分对话中的每一句对话内容的区分特征向量。
标签获取单元,用于将所述待区分对话中的每一句对话内容的区分特征向量输入所述对话角色判别模型中进行分析,以获取所述待区分对话中的每一句对话内容对应的角色标签。
根据第二实施例的第四种实现方式,在第二实施例的第五种实现方式中,所述参量计算单元具体包括:
词频计算子单元,用于根据所述对话语料库中的所有词语,计算所述待区分对话的每一句对话内容中的所有区分性词语的词频。
数量获取子单元,用于对于所述待区分对话的每一句对话内容中的各个区分性词语,分别获取所述对话语料库中具有对应的区分性词语的标准对话内容的数量。
逆文档频率计算子单元,用于对于所述待区分对话的每一句对话内容中的各个区分性词语,分别根据所述对话语料库中的标准对话内容的总数及所述对话语料库中具有对应的区分性词语的标准对话内容的数量,获取所述待区分对话的每一句对话内容中的各个区分性词语的逆文档频率。
参见图6,是本发明第三实施例提供的对话角色区分终端设备的示意图。该实施例的对话角色区分终端设备包括:处理器31、存储器32以及存储在所述存储器32中并可在所述处理器31上运行的计算机程序,例如对话角色区分程序。所述处理器31执行所述计算机程序时实现上述各个对话角色区分方法实施例中的步骤,例如图1所示的步骤S11。或者,所述处理器31执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能,例如区分性词语获取模块。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器32中,并由所述处理器31执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述对话角色区分终端设备中的执行过程。
所述对话角色区分终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述对话角色区分终端设备可包括,但不仅限于,处理器31、存储器32。本领域技术人员可以理解,所述示意图仅仅是对话角色区分终端设备的示例,并不构成对对话角色区分终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述对话角色区分终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器31可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器31是所述对话角色区分终端设备的控制中心,利用各种接口和线路连接整个对话角色区分终端设备的各个部分。
所述存储器32可用于存储所述计算机程序和/或模块,所述处理器31通过运行或执行存储在所述存储器32内的计算机程序和/或模块,以及调用存储在存储器32内的数据,实现所述对话角色区分终端设备的各种功能。所述存储器32可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据手机的使用所创建的数据等。此外,存储器32可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述对话角色区分终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器31执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种对话角色区分方法,其特征在于,包括以下步骤:
根据待区分对话及区分性词语库,获取所述待区分对话的所有区分性词语;其中,所述区分性词语库用于存储预先获取的区分性词语;所述待区分对话包括至少一句对话内容;
根据所述待区分对话的所有区分性词语及预先通过决策树算法建立的对话角色判别模型,获取所述待区分对话中每一句对话内容对应的角色标签;
根据所述待区分对话中每一句对话内容对应的角色标签,确定所述待区分对话中每一句对话内容所对应的角色。
2.根据权利要求1所述的对话角色区分方法,其特征在于,所述根据待区分对话及区分性词语库,获取所述待区分对话的所有区分性词语,具体为:
响应于接收的角色区别操作,获取待区分对话;
对所述待区别对话中的每一句对话内容进行分词,以获取待区分词语;
将所述待区分词语与所述区分性词语库中的所有区分性词语进行匹配,获取所述待区分对话的所有区分性词语。
3.根据权利要求2所述的对话角色区分方法,其特征在于,所述区分性词语库的建立过程包括以下步骤:
对获取的目标领域的对话语料库中的所有对话内容进行分词,以获取所述对话语料库的所有词语;其中,所述对话语料库包括超过第一预设数量的标准对话内容,和对应于每一句标准对话内容的角色标签;
基于所述对话语料库的所有词语,计算每一句标准对话内容中的各个词语的词频与逆文档频率;
根据所述每一句标准对话内容中的各个词语的词频与逆文档频率,获取所述每一句标准对话内容的原始特征向量;
根据每一句标准对话内容对应的角色标签及对应的原始特征向量,计算每一句标准对话内容中的各个词语的信息增益比;
根据所述每一句标准对话内容中的各个词语的信息增益比,获取第二预设数量的词语作为区分性词语,以建立所述区分性词语库;其中,从所述对话语料库的所有词语中获取的所述区分性词语的信息增益比大于剩余词语的信息增益比。
4.根据权利要求3所述的对话角色区分方法,其特征在于,所述对话角色判别模型的训练过程包括以下步骤:
根据所述对话语料库中的每一句标准对话内容的原始特征向量及所述区分性词语库,获取所述每一句标准对话内容的区分特征向量;
根据所有标准对话内容的区分特征向量及对应于每一句标准对话内容的角色标签,通过决策树算法进行对话角色判别模型训练,以获取包括区分特征向量与角色标签对应关系的对话角色判别模型。
5.根据权利要求4所述的对话角色区分方法,其特征在于,所述根据所述待区分对话的所有区分性词语及预先通过决策树决策树算法建立的对话角色判别模型,获取所述待区分对话中每一句对话内容对应的角色标签,具体为:
基于所述对话语料库的所有词语,计算所述待区分对话的每一句对话内容中的所有区分性词语的词频与逆文档频率;
基于所述区分性词语库,通过所述每一句对话内容的所有区分性词语的词频与逆文档频率,计算所述待区分对话中的每一句对话内容的区分特征向量;
将所述待区分对话中的每一句对话内容的区分特征向量输入所述对话角色判别模型中进行分析,以获取所述待区分对话中的每一句对话内容对应的角色标签。
6.根据权利要求5所述的对话角色区分方法,其特征在于,所述基于所述对话语料库的所有词语,计算所述待区分对话的每一句对话内容中的所有区分性词语的词频与逆文档频率,具体为:
根据所述对话语料库中的所有词语,计算所述待区分对话的每一句对话内容中的所有区分性词语的词频;
对于所述待区分对话的每一句对话内容中的各个区分性词语,分别获取所述对话语料库中具有对应的区分性词语的标准对话内容的数量;
对于所述待区分对话的每一句对话内容中的各个区分性词语,分别根据所述对话语料库中的标准对话内容的总数及所述对话语料库中具有对应的区分性词语的标准对话内容的数量,获取所述待区分对话的每一句对话内容中的各个区分性词语的逆文档频率。
7.一种对话角色区分装置,其特征在于,包括:
区分性词语获取模块,用于根据待区分对话及区分性词语库,获取所述待区分对话的所有区分性词语;其中,所述区分性词语库用于存储预先获取的区分性词语;所述待区分对话包括至少一句对话内容;
角色标签获取模块,用于根据所述待区分对话的所有区分性词语及预先通过决策树算法建立的对话角色判别模型,获取所述待区分对话中每一句对话内容对应的角色标签;
对话角色确定模块,用于根据所述待区分对话中每一句对话内容对应的角色标签,确定所述待区分对话中每一句对话内容所对应的角色。
8.根据权利要求7所述的对话角色区分装置,其特征在于,所述区分性词语获取模块具体包括:
待区分对话获取单元,用于响应于接收的角色区别操作,获取待区分对话;
待区分词语获取单元,用于对所述待区别对话中的每一句对话内容进行分词,以获取待区分词语;
区分性词语获取单元,用于将所述待区分词语与所述区分性词语库中的所有区分性词语进行匹配,获取所述待区分对话的所有区分性词语。
9.一种对话角色区分终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6中任意一项所述的对话角色区分方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至6中任意一项所述的对话角色区分方法。
CN201810763294.1A 2018-07-11 2018-07-11 一种对话角色区分方法、装置、终端设备及存储介质 Pending CN109101486A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810763294.1A CN109101486A (zh) 2018-07-11 2018-07-11 一种对话角色区分方法、装置、终端设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810763294.1A CN109101486A (zh) 2018-07-11 2018-07-11 一种对话角色区分方法、装置、终端设备及存储介质

Publications (1)

Publication Number Publication Date
CN109101486A true CN109101486A (zh) 2018-12-28

Family

ID=64846196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810763294.1A Pending CN109101486A (zh) 2018-07-11 2018-07-11 一种对话角色区分方法、装置、终端设备及存储介质

Country Status (1)

Country Link
CN (1) CN109101486A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106453033A (zh) * 2016-08-31 2017-02-22 电子科技大学 基于邮件内容的多层次邮件分类方法
CN107436922A (zh) * 2017-07-05 2017-12-05 北京百度网讯科技有限公司 文本标签生成方法和装置
CN107679110A (zh) * 2017-09-15 2018-02-09 广州唯品会研究院有限公司 结合文本分类与图片属性提取完善知识图谱的方法及装置
CN107704764A (zh) * 2017-10-18 2018-02-16 广州华多网络科技有限公司 构建训练集的方法、装置、设备及人机识别的方法
CN107885723A (zh) * 2017-11-03 2018-04-06 广州杰赛科技股份有限公司 对话角色区分方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106453033A (zh) * 2016-08-31 2017-02-22 电子科技大学 基于邮件内容的多层次邮件分类方法
CN107436922A (zh) * 2017-07-05 2017-12-05 北京百度网讯科技有限公司 文本标签生成方法和装置
CN107679110A (zh) * 2017-09-15 2018-02-09 广州唯品会研究院有限公司 结合文本分类与图片属性提取完善知识图谱的方法及装置
CN107704764A (zh) * 2017-10-18 2018-02-16 广州华多网络科技有限公司 构建训练集的方法、装置、设备及人机识别的方法
CN107885723A (zh) * 2017-11-03 2018-04-06 广州杰赛科技股份有限公司 对话角色区分方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
唐明等: "基于Word2Vec的一种文档向量表示", 《计算机科学》 *

Similar Documents

Publication Publication Date Title
CN110209764B (zh) 语料标注集的生成方法及装置、电子设备、存储介质
WO2021047186A1 (zh) 咨询对话处理的方法、装置、设备及存储介质
CN110427610A (zh) 文本分析方法、装置、计算机装置及计算机存储介质
CN108874921A (zh) 提取文本特征词的方法、装置、终端设备及存储介质
CN104915327A (zh) 一种文本信息的处理方法及装置
CN110555206A (zh) 一种命名实体识别方法、装置、设备及存储介质
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN110929520B (zh) 非命名实体对象抽取方法、装置、电子设备及存储介质
CN112527958A (zh) 用户行为倾向识别方法、装置、设备及存储介质
CN110321562A (zh) 一种基于bert的短文本匹配方法及装置
CN109101487A (zh) 对话角色区分方法、装置、终端设备及存储介质
CN110309234A (zh) 一种基于知识图谱的客户持仓预警方法、装置及存储介质
CN109977225A (zh) 舆情分析方法及装置
CN114818643A (zh) 一种保留特定业务信息的日志模板提取方法
CN109214445A (zh) 一种基于人工智能的多标签分类方法
CN107305640A (zh) 一种不均衡数据分类的方法
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
CN112732910B (zh) 跨任务文本情绪状态评估方法、系统、装置及介质
CN104699819A (zh) 一种义原的分类方法及装置
CN110765266A (zh) 一种裁判文书相似争议焦点合并方法及系统
CN109471953A (zh) 一种语音数据检索方法及终端设备
CN114444514B (zh) 语义匹配模型训练、语义匹配方法及相关装置
CN110321557A (zh) 一种文本分类方法、装置、电子设备及存储介质
CN109101486A (zh) 一种对话角色区分方法、装置、终端设备及存储介质
CN116029280A (zh) 一种文档关键信息抽取方法、装置、计算设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181228