CN107885723B - 对话角色区分方法和系统 - Google Patents
对话角色区分方法和系统 Download PDFInfo
- Publication number
- CN107885723B CN107885723B CN201711077745.8A CN201711077745A CN107885723B CN 107885723 B CN107885723 B CN 107885723B CN 201711077745 A CN201711077745 A CN 201711077745A CN 107885723 B CN107885723 B CN 107885723B
- Authority
- CN
- China
- Prior art keywords
- dialogue
- analyzed
- word
- corpus
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Abstract
本发明公开了一种对话角色区分方法,所述方法包括:根据待分析对话的对白和区分性词语库获取所述待分析对话的对白的所有区分性词语;其中,所述区分性词语库包括预先获取的数量为第一设定数量的区分性词语;根据所述待分析对话的对白的所有区分性词语和预先根据对话语料库建立的对话角色判决模型获取与所述待分析对话的对白对应的对话角色的标签;其中,所述对话语料库包括多句标准对白和对应于各句所述标准对白的对话角色的标签;根据识别到的所述待分析对话的所有对白对应的对话角色的标签区分所述待分析对话中的对话角色。本发明的对话角色区分方法实现了对话角色的区分,同时本发明还提供了一种对话角色区分系统。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及对话角色区分方法和系统。
背景技术
通常对话内容会涉及两个以上的对话角色,在一些场合需要针对某个对话角色的对白进行分析,因此,需要将对话角色进行区分。
传统的对话角色区分方法主要通过识别说话者的声纹特征来区分说话者身份,并在语音转化为文本时根据说话者身份将对话内容的文本进行标签。
发明人在实施本发明的过程中,发现现有的对话角色区分方法具有如下缺点:
现有的对话角色区分方法需要对不同人的声纹特征进行采集,其易受不同人的身体状况、年龄、情绪等因素的影响以及环境噪音的干扰,此外,在混合说话人的情形下人的声纹特征不易提取,导致对话角色区分方法实现难度大,准确性低。
发明内容
本发明提出对话角色区分方法和系统,实现对话角色的区分,提高准确性。
本发明一方面提供一种对话角色区分方法,所述方法包括:
根据待分析对话的对白和区分性词语库获取所述待分析对话的对白的所有区分性词语;其中,所述区分性词语库包括预先获取的数量为第一设定数量的区分性词语;
根据所述待分析对话的对白的所有区分性词语和预先根据对话语料库建立的对话角色判决模型获取与所述待分析对话的对白对应的对话角色的标签;其中,所述对话语料库包括多句标准对白和对应于各句所述标准对白的对话角色的标签;
分别获取所述待分析对话的对白的各个区分性词语在所述待分析对话的对白中的词频,作为第一组参量;
对所述待分析对话的对白的各个所述区分性词语,分别获取对话语料库中具有对应的区分性词语的标准对白的数量;
对所述待分析对话的对白的各个所述区分性词语,分别根据所述对话语料库的标准对白的总数和所述对话语料库中具有对应的区分性词语的标准对白的数量获取第二组参量;
根据所述第一组参量和所述第二组参量生成所述待分析对话的对白的特征向量;
将所述待分析对话的对白的特征向量输入至所述对话角色判别模型,以识别出与所述待分析对话的对白对应的对话角色的标签;
根据识别到的所述待分析对话的所有对白对应的对话角色的标签区分所述待分析对话中的对话角色。
在一种可选的实施方式中,所述方法还包括:
响应于训练所述对话角色判别模型的指令,对所述区分性词语库的各个区分性词语,分别获取对应的区分性词语在所述对话语料库的各句所述标准对白中的词频,作为第三组参量;
对所述区分性词语库的各个区分性词语,分别获取所述对话语料库中具有对应的区分性词语的标准对白的数量;
对所述区分性词语库的各个区分性词语,分别根据所述对话语料库的标准对白的总数和所述对话语料库中具有对应的区分性词语的标准对白的数量获取第四组参量;
根据所述第三组参量和所述第四组参量生成各句所述标准对白的特征向量;
基于朴素贝叶斯算法,根据所述各句所述标准对白的特征向量和所述对应于各句所述标准对白的对话角色的标签训练所述对话角色判别模型。
在一种可选的实施方式中,所述方法还包括:
响应于获取所述区分性词语库的指令,对所述对话语料库的所有标准对白进行预处理,以得到所述对话语料库的所有词语;
对所述对话语料库的各个词语,分别获取对应的词语在所述对话语料库的各句所述标准对白中的词频,作为第五组参量;
对所述对话语料库的各个词语,分别获取所述对话语料库中具有对应的词语的标准对白的数量;
对所述对话语料库的各个词语,分别根据所述对话语料库的标准对白的总数和所述对话语料库中具有对应的词语的标准对白的数量获取第六组参量;
根据所述第五组参量和所述第六组参量生成各句所述标准对白的特征向量;
基于信息增益法,根据各句所述标准对白的特征向量和所述对应于各句所述标准对白的对话角色的标签在所述对话语料库的所有词语中选取数量为所述第一设定数量的词语,以得到所述区分性词语库。
在一种可选的实施方式中,所述根据待分析对话的对白和区分性词语库获取所述待分析对话的对白的所有区分性词语,包括:
对所述待分析对话的对白进行分词,以得到所述待分析对话的对白的所有词语;
将所述待分析对话的对白的所有词语与所述区分性词语库的所有区分性词语进行匹配,以获取所述待分析对话的对白的区分性词语。
本发明另一方面还提供一种对话角色区分系统,所述系统包括:
第一获取模块,用于根据待分析对话的对白和区分性词语库获取所述待分析对话的对白的所有区分性词语;其中,所述区分性词语库包括预先获取的数量为第一设定数量的区分性词语;
标签获取模块,用于根据所述待分析对话的对白的所有区分性词语和预先根据对话语料库建立的对话角色判决模型获取与所述待分析对话的对白对应的对话角色的标签;其中,所述对话语料库包括多句标准对白和对应于各句所述标准对白的对话角色的标签;
第一获取单元,用于分别获取所述待分析对话的对白的各个区分性词语在所述待分析对话的对白中的词频,作为第一组参量;
第二获取单元,用于对所述待分析对话的对白的各个所述区分性词语,分别获取对话语料库中具有对应的区分性词语的标准对白的数量;
第一计算单元,用于对所述待分析对话的对白的各个所述区分性词语,分别根据所述对话语料库的标准对白的总数和所述对话语料库中具有对应的区分性词语的标准对白的数量获取第二组参量;
第一特征向量生成模块,用于根据所述第一组参量和所述第二组参量生成所述待分析对话的对白的特征向量;
标签识别单元,用于将所述待分析对话的对白的特征向量输入至所述对话角色判别模型,以识别出与所述待分析对话的对白对应的对话角色的标签;角色区分模块,用于根据识别到的所述待分析对话的所有对白对应的对话角色的标签区分所述待分析对话中的对话角色。
在一种可选的实施方式中,所述系统还包括:
第二获取模块,用于响应于训练所述对话角色判别模型的指令,对所述区分性词语库的各个区分性词语,分别获取对应的区分性词语在所述对话语料库的各句所述标准对白中的词频,作为第三组参量;
第四获取模块,用于对所述区分性词语库的各个区分性词语,分别获取所述对话语料库中具有对应的区分性词语的标准对白的数量;
第一计算模块,用于对所述区分性词语库的各个区分性词语,分别根据所述对话语料库的标准对白的总数和所述对话语料库中具有对应的区分性词语的标准对白的数量获取第四组参量;
第二特征向量生成模块,用于根据所述第三组参量和所述第四组参量生成各句所述标准对白的特征向量;
模型建立模块,用于基于朴素贝叶斯算法,根据所述各句所述标准对白的特征向量和所述对应于各句所述标准对白的对话角色的标签训练所述对话角色判别模型。
在一种可选的实施方式中,所述系统还包括:
预处理模块,用于响应于获取所述区分性词语库的指令,对所述对话语料库的所有标准对白进行预处理,以得到所述对话语料库的所有词语;
第五获取模块,用于对所述对话语料库的各个词语,分别获取对应的词语在所述对话语料库的各句所述标准对白中的词频,作为第五组参量;
第六获取模块,用于对所述对话语料库的各个词语,分别获取所述对话语料库中具有对应的词语的标准对白的数量;
第二计算模块,用于对所述对话语料库的各个词语,分别根据所述对话语料库的标准对白的总数和所述对话语料库中具有对应的词语的标准对白的数量获取第六组参量;
第三特征向量生成模块,用于根据所述第五组参量和所述第六组参量生成各句所述标准对白的特征向量;
词语选取模块,用于基于信息增益法,根据各句所述标准对白的特征向量和所述对应于各句所述标准对白的对话角色的标签在所述对话语料库的所有词语中选取数量为所述第一设定数量的词语,以得到所述区分性词语库。
在一种可选的实施方式中,所述第一获取模块包括:
分词单元,用于对所述待分析对话的对白进行分词,以得到所述待分析对话的对白的所有词语;
词语匹配单元,用于将所述待分析对话的对白的所有词语与所述区分性词语库的所有区分性词语进行匹配,以获取所述待分析对话的对白的区分性词语。
相比于现有技术,本发明具有如下突出的有益效果:本发明提供了一种对话角色区分方法和系统,其中方法包括:根据待分析对话的对白和区分性词语库获取所述待分析对话的对白的所有区分性词语;其中,所述区分性词语库包括预先获取的数量为第一设定数量的区分性词语;根据所述待分析对话的对白的所有区分性词语和预先根据对话语料库建立的对话角色判决模型获取与所述待分析对话的对白对应的对话角色的标签;其中,所述对话语料库包括多句标准对白和对应于各句所述标准对白的对话角色的标签;根据识别到的所述待分析对话的所有对白对应的对话角色的标签区分所述待分析对话中的对话角色。本发明提供的对话角色区分方法和系统,通过区分性词语库获得待分析对话的对白的区分性词语,降低对待分析对话的对白中区分性词语进行判断的复杂度,提高处理效率;通过结合对话语料库,不仅仅根据待分析对话的对白本身去区分对话角色,提高对话角色特征提取的准确性,便于通过提供更全面的对话语料库得到对话语料库的对话角色判别模型,以更准确地识别对话角色的标签,从而提高对话角色区分的准确性。
附图说明
图1是本发明提供的对话角色区分方法的第一实施例的流程示意图;
图2是本发明提供的对话角色区分系统的第一实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明提供的对话角色区分方法的第一实施例的流程示意图,所述方法包括:
S101,根据待分析对话的对白和区分性词语库获取所述待分析对话的对白的所有区分性词语;其中,所述区分性词语库包括预先获取的数量为第一设定数量的区分性词语;
S102,根据所述待分析对话的对白的所有区分性词语和预先根据对话语料库建立的对话角色判决模型获取与所述待分析对话的对白对应的对话角色的标签;其中,所述对话语料库包括多句标准对白和对应于各句所述标准对白的对话角色的标签;
S103,根据识别到的所述待分析对话的所有对白对应的对话角色的标签区分所述待分析对话中的对话角色。
需要说明的是,在实际应用中,所述对话语料库为所述待分析对话所属领域的对话语料库;所述对话语料库的标准对白为所述对话语料库中包含的所有对话的对白;所述对话语料库存储的对应于各句所述标准对白的对话角色的标签应包括所述待分析对话的对白的所有对话角色的标签;例如,若所述待分析对话的对话角色包括客服与客户,则对话语料库存储的对应于所述标准对白的对话角色的标签应为客服或客户的标签。
即通过区分性词语库获得待分析对话的对白的区分性词语,降低对待分析对话的对白中区分性词语进行判断的复杂度,提高处理效率;通过结合对话语料库,不仅仅根据待分析对话的对白本身去区分对话角色,提高对话角色特征提取的准确性,便于通过提供更全面的对话语料库得到对话语料库的对话角色判别模型,以更准确地识别对话角色的标签,从而提高对话角色区分的准确性。
在一种可选的实施方式中,所述方法还包括:在根据待分析对话的对白和区分性词语库获取所述待分析对话的对白的所有区分性词语前,获取对话语音;将所述对话语音转化为文本,以得到所述待分析对话。
在一种可选的实施方式中,所述根据待分析对话的对白和区分性词语库获取所述待分析对话的对白的所有区分性词语,包括:
对所述待分析对话的对白进行预处理,以得到所述待分析对话的对白的所有词语;
根据所述待分析对话的对白的所有词语与所述区分性词语库的所有区分性词语获取所述待分析对话的对白的区分性词语。
在一种可选的实施方式中,所述对所述待分析对话的对白进行预处理,以得到所述待分析对话的对白的所有词语,包括:
对所述待分析对话的对白进行分词、替换奇异词,以得到所述待分析对话的对白的所有词语。
在一种可选的实施方式中,所述根据待分析对话的对白和区分性词语库获取所述待分析对话的对白的所有区分性词语,包括:
对所述待分析对话的对白进行分词,以得到所述待分析对话的对白的所有词语;
将所述待分析对话的对白的所有词语与所述区分性词语库的所有区分性词语进行匹配,以获取所述待分析对话的对白的区分性词语。
即通过对所述待分析对话的对白进行分词得到所述待分析对话的对白的所有词语,保留了所述待分析对话的对白中的停用词,避免因去停用词而降低对区分性词语进行选取的准确性,从而提高了对话角色区分的准确性。
在一种可选的实施方式中,所述根据所述待分析对话的对白的所有区分性词语和对话语料库获取与所述待分析对话的对白对应的对话角色的标签,包括:
分别获取所述待分析对话的对白的各个区分性词语在所述待分析对话的对白中的词频,作为第一组参量;
对所述待分析对话的对白的各个所述区分性词语,分别获取对话语料库中具有对应的区分性词语的标准对白的数量;
对所述待分析对话的对白的各个所述区分性词语,分别根据所述对话语料库的标准对白的总数和所述对话语料库中具有对应的区分性词语的标准对白的数量获取第二组参量;根据所述第一组参量和所述第二组参量生成所述待分析对话的对白的特征向量;
将所述待分析对话的对白的特征向量输入至所述对话语料库的对话角色判别模型,以识别出与所述待分析对话的对白对应的对话角色的标签。
在一种可选的实施方式中,所述对所述待分析对话的对白的各个所述区分性词语,分别根据所述对话语料库的标准对白的总数和所述对话语料库中具有对应的区分性词语的标准对白的数量获取第二组参量,包括:
对所述待分析对话的对白的各个所述区分性词语,分别对所述对话语料库中具有对应的区分性词语的标准对白的数量进行加1,作为第一有效分母;
对所述待分析对话的对白的各个所述区分性词语,分别计算所述对话语料库的标准对白的总数与所述第一有效分母的比值,作为第二组参量。
需要说明的是,所述词频是指词语出现的次数;所述待分析对话的对白的所有区分性词语在所述待分析对话的对白中的词频,即所述待分析对话的对白的所有区分性词语在所述待分析对话的对白中出现的次数。通过将所述对话语料库中具有对应的区分性词语的标准对白的数量进行加1,以使所述第二组参量的分母不为0。
在一种可选的实施方式中,所述根据所述第一组参量和所述第二组参量生成所述待分析对话的对白的特征向量包括:
对所述第二组参量进行对数变换,以得到对数变换后的第二组参量;
根据所述第一组参量和所述对数变换后的第二组参量生成所述待分析对话的对白的特征向量。
即通过所述区分性词语在待分析对话的对白中的词频和所述比值获得特征向量,再结合基于所述对话语料库建立的对话角色判别模型来获取对话角色的标签,充分考虑了所述区分性词语在待分析对话的对白中的重要程度,以及所述区分性词语在所述对话语料库中的重要程度,提高了对话角色区分的准确性。
在一种可选的实施方式中,所述根据所述待分析对话的对白的所有区分性词语和预先根据对话语料库建立的对话角色判决模型获取与所述待分析对话的对白对应的对话角色的标签,还包括:
在分别获取所述第一组参量之前,计算所述第一设定数量与所述待分析对话的对白的区分性词语的数量之间的数量差值;
所述根据所述第一组参量和所述第二组参量生成所述待分析对话的对白的特征向量,包括:
生成个数为所述数量差值的填充词频;所述填充词频为0;
生成个数为所述数量差值的填充比值;所述填充比值为0;
根据所述填充词频和所述第一组参量生成参量个数为所述第一设定数量的第一特征参数;
根据所述填充比值和所述第二组参量生成参量个数为所述第一设定数量的第二特征参数;
根据所述第一特征参数和第二特征参数生成所述待分析对话的对白的特征向量。
例如,若所述待分析对话的对白为“您好,请问您是收件人吗”,且假设其区分性词语为“您”和“吗”,则“您”这个词语在待分析对话的对白中的词频为2,“吗”这个词语在待分析对话的对白中的词频为1;若所述对话语料库中所有对话角色的标准对白的总数为100,假设所述对话语料库中具有“您”这个词语的标准对白的数量为60,具有“吗”这个词语的标准对白的数量为58,则所述对话语料库的标准对白的总数与所述对话语料库中具有“您”这个词语的标准对白的数量的比值为所述对话语料库的标准对白的总数与所述对话语料库中具有“吗”这个词语的标准对白的数量的比值为假设所述第一设定数量为3,则第一特征参数为(2,1,0),第二特征参数为(0.6,0.58,0),所述待分析对话的对白的特征向量为(2,1,0;0.6,0.58,0)。
即通过生成填充词频和填充比值,便于通过具有确定参数个数的特征向量,降低处理难度;通过生成空值的填充词频和填充比值,减少参数的代入计算,提高计算速度,从而提高处理效率。
在一种可选的实施方式中,所述方法还包括:
响应于训练所述对话角色判别模型的指令,对所述区分性词语库的各个区分性词语,分别获取对应的区分性词语在所述对话语料库的各句所述标准对白中的词频,作为第三组参量;
对所述区分性词语库的各个区分性词语,分别获取所述对话语料库中具有对应的区分性词语的标准对白的数量;
对所述区分性词语库的各个区分性词语,分别根据所述对话语料库的标准对白的总数和所述对话语料库中具有对应的区分性词语的标准对白的数量获取第四组参量;
根据所述第三组参量和所述第四组参量生成各句所述标准对白的特征向量;
基于朴素贝叶斯算法,根据所述各句所述标准对白的特征向量和所述对应于各句所述标准对白的对话角色的标签训练所述对话角色判别模型。
在一种可选的实施方式中,所述对所述区分性词语库的各个区分性词语,分别根据所述对话语料库的标准对白的总数和所述对话语料库中具有对应的区分性词语的标准对白的数量获取第四组参量,包括:
对所述区分性词语库的各个区分性词语,分别对所述对话语料库中具有对应的区分性词语的标准对白的数量进行加1,作为第二有效分母;
对所述区分性词语库的各个区分性词语,分别计算所述对话语料库的标准对白的总数与所述第二有效分母的比值,作为第四组参量。
即基于朴素贝叶斯算法来训练对话角色判别模型,能够更准确地权衡各个区分性词语对区分对话角色的贡献,提高了对话角色区分的准确性;通过对所述对话语料库中具有对应的区分性词语的标准对白的数量进行加1,以使所述第二组参量的分母不为0。
在一种可选的实施方式中,所述方法还包括:
响应于获取所述区分性词语库的指令,对所述对话语料库的所有标准对白进行预处理,以得到所述对话语料库的所有词语;
对所述对话语料库的各个词语,分别获取对应的词语在所述对话语料库的各句所述标准对白中的词频,作为第五组参量;
对所述对话语料库的各个词语,分别获取所述对话语料库中具有对应的词语的标准对白的数量;
对所述对话语料库的各个词语,分别根据所述对话语料库的标准对白的总数和所述对话语料库中具有对应的词语的标准对白的数量获取第六组参量;
根据所述第五组参量和所述第六组参量生成各句所述标准对白的特征向量;
基于信息增益法,根据各句所述标准对白的特征向量和所述对应于各句所述标准对白的对话角色的标签在所述对话语料库的所有词语中选取数量为所述第一设定数量的词语,以得到所述区分性词语库。
在一种可选的实施方式中,对所述对话语料库的各个词语,分别根据所述对话语料库的标准对白的总数和所述对话语料库中具有对应的词语的标准对白的数量获取第六组参量,包括:
对所述对话语料库的各个词语,分别对所述对话语料库中具有对应的词语的标准对白的数量进行加1,作为第三有效分母;
对所述对话语料库的各个词语,分别计算所述对话语料库的标准对白的总数与所述第三有效分母的比值,作为第六组参量。
即通过信息增益法来选取区分性词语,克服了人工筛选的主观随意性与片面性,从而使得筛选的区分性词语与对话角色之间的关联性更大,进一步提高了对话角色区分的准确性;通过对所述对话语料库中具有对应的词语的标准对白的数量进行加1,以使所述第二组参量的分母不为0。
参见图2,其是本发明提供的对话角色区分系统的第一实施例的结构示意图,所述系统包括:
第一获取模块201,用于根据待分析对话的对白和区分性词语库获取所述待分析对话的对白的所有区分性词语;其中,所述区分性词语库包括预先获取的数量为第一设定数量的区分性词语;
标签获取模块202,用于根据所述待分析对话的对白的所有区分性词语和对话语料库获取与所述待分析对话的对白对应的对话角色的标签;其中,所述对话语料库包括多句标准对白和对应于各句所述标准对白的对话角色的标签;
角色区分模块203,用于根据识别到的所述待分析对话的所有对白对应的对话角色的标签区分所述待分析对话中的对话角色。
需要说明的是,在实际应用中,所述对话语料库为所述待分析对话所属领域的对话语料库;所述对话语料库的标准对白为所述对话语料库中包含的所有对话的对白;所述对话语料库存储的对应于各句所述标准对白的对话角色的标签应包括所述待分析对话的对白的所有对话角色的标签;例如,若所述待分析对话的对话角色包括客服与客户,则对话语料库存储的对应于所述标准对白的对话角色的标签应为客服或客户的标签。
即通过区分性词语库获得待分析对话的对白的区分性词语,降低对待分析对话的对白中区分性词语进行判断的复杂度,提高处理效率;通过结合对话语料库,不仅仅根据待分析对话的对白本身去区分对话角色,提高对话角色特征提取的准确性,便于通过提供更全面的对话语料库得到对话语料库的对话角色判别模型,以更准确地识别对话角色的标签,从而提高对话角色区分的准确性。
在一种可选的实施方式中,所述系统还包括:对话获取模块,用于在根据待分析对话的对白和区分性词语库获取所述待分析对话的对白的所有区分性词语前,获取对话语音;语音转化模块,用于将所述对话语音转化为文本,以得到所述待分析对话。
在一种可选的实施方式中,所述第一获取模块包括:
预处理单元,用于对所述待分析对话的对白进行预处理,以得到所述待分析对话的对白的所有词语;
第三获取单元,用于根据所述待分析对话的对白的所有词语与所述区分性词语库的所有区分性词语获取所述待分析对话的对白的区分性词语。
在一种可选的实施方式中,所述预处理单元包括:
预处理子单元,用于对所述待分析对话的对白进行分词、替换奇异词,以得到所述待分析对话的对白的所有词语。
在一种可选的实施方式中,所述第一获取模块包括:
分词单元,用于对所述待分析对话的对白进行分词,以得到所述待分析对话的对白的所有词语;
词语匹配单元,用于将所述待分析对话的对白的所有词语与所述区分性词语库的所有区分性词语进行匹配,以获取所述待分析对话的对白的区分性词语。
即通过对所述待分析对话的对白进行分词得到所述待分析对话的对白的所有词语,保留了所述待分析对话的对白中的停用词,避免因去停用词而降低对区分性词语进行选取的准确性,从而提高了对话角色区分的准确性。
在一种可选的实施方式中,所述标签获取模块包括:
第一获取单元,用于分别获取所述待分析对话的对白的各个区分性词语在所述待分析对话的对白中的词频,作为第一组参量;
第二获取单元,用于对所述待分析对话的对白的各个所述区分性词语,分别获取对话语料库中具有对应的区分性词语的标准对白的数量;
第一计算单元,用于对所述待分析对话的对白的各个所述区分性词语,分别根据所述对话语料库的标准对白的总数和所述对话语料库中具有对应的区分性词语的标准对白的数量获取第二组参量;
第一特征向量生成模块,用于根据所述第一组参量和所述第二组参量生成所述待分析对话的对白的特征向量;
标签识别单元,用于将所述待分析对话的对白的特征向量输入至所述对话语料库的对话角色判别模型,以识别出与所述待分析对话的对白对应的对话角色的标签。
在一种可选的实施方式中,所述第一计算单元包括:
第一有效分母获取子单元,用于对所述待分析对话的对白的各个所述区分性词语,分别对所述对话语料库中具有对应的区分性词语的标准对白的数量进行加1,作为第一有效分母;
第二组参量获取子单元,用于对所述待分析对话的对白的各个所述区分性词语,分别计算所述对话语料库的标准对白的总数与所述第一有效分母的比值,作为第二组参量。
需要说明的是,所述词频是指词语出现的次数;所述待分析对话的对白的所有区分性词语在所述待分析对话的对白中的词频,即所述待分析对话的对白的所有区分性词语在所述待分析对话的对白中出现的次数。通过将所述对话语料库中具有对应的区分性词语的标准对白的数量进行加1,以使所述第二组参量的分母不为0。
在一种可选的实施方式中,所述根据所述第一组参量和所述第二组参量生成所述待分析对话的对白的特征向量包括:
对所述第二组参量进行对数变换,以得到对数变换后的第二组参量;
根据所述第一组参量和所述对数变换后的第二组参量生成所述待分析对话的对白的特征向量。
即通过所述区分性词语在待分析对话的对白中的词频和所述比值获得特征向量,再结合基于所述对话语料库建立的对话角色判别模型来获取对话角色的标签,充分考虑了所述区分性词语在待分析对话的对白中的重要程度,以及所述区分性词语在所述对话语料库中的重要程度,提高了对话角色区分的准确性。
在一种可选的实施方式中,所述标签获取模块还包括:
第二计算单元,用于在分别获取所述待分析对话的对白的各个区分性词语在所述待分析对话的对白中的词频之前,计算所述第一设定数量与所述待分析对话的对白的区分性词语的数量之间的数量差值;
所述第一特征向量生成模块包括:
第一生成单元,用于生成个数为所述数量差值的填充词频;所述填充词频为0;
第二生成单元,用于生成个数为所述数量差值的填充比值;所述填充比值为0;
第三生成单元,用于根据所述填充词频和所述第一组参量生成参量个数为所述第一设定数量的第一特征参数;
第四生成单元,用于根据所述填充比值和所述第二组参量生成参量个数为所述第一设定数量的第二特征参数;
第五生成单元,用于根据所述第一特征参数和第二特征参数生成所述待分析对话的对白的特征向量。
例如,若所述待分析对话的对白为“您好,请问您是收件人吗”,且假设其区分性词语为“您”和“吗”,则“您”这个词语在待分析对话的对白中的词频为2,“吗”这个词语在待分析对话的对白中的词频为1;若所述对话语料库中所有对话角色的标准对白的总数为100,假设所述对话语料库中具有“您”这个词语的标准对白的数量为60,具有“吗”这个词语的标准对白的数量为58,则所述对话语料库的标准对白的总数与所述对话语料库中具有“您”这个词语的标准对白的数量的比值为所述对话语料库的标准对白的总数与所述对话语料库中具有“吗”这个词语的标准对白的数量的比值为假设所述第一设定数量为3,则第一特征参数为(2,1,0),第二特征参数为(0.6,0.58,0),所述待分析对话的对白的特征向量为(2,1,0;0.6,0.58,0)。
即通过生成填充词频和填充比值,便于通过具有确定参数个数的特征向量,降低处理难度;通过生成空值的填充词频和填充比值,减少参数的代入计算,提高计算速度,从而提高处理效率。
在一种可选的实施方式中,所述系统还包括:
第二获取模块,用于响应于训练所述对话角色判别模型的指令,对所述区分性词语库的各个区分性词语,分别获取对应的区分性词语在所述对话语料库的各句所述标准对白中的词频,作为第三组参量;
第四获取模块,用于对所述区分性词语库的各个区分性词语,分别获取所述对话语料库中具有对应的区分性词语的标准对白的数量;
第一计算模块,用于对所述区分性词语库的各个区分性词语,分别根据所述对话语料库的标准对白的总数和所述对话语料库中具有对应的区分性词语的标准对白的数量获取第四组参量;
第二特征向量生成模块,用于根据所述第三组参量和所述第四组参量生成各句所述标准对白的特征向量;
模型建立模块,用于基于朴素贝叶斯算法,根据所述各句所述标准对白的特征向量和所述对应于各句所述标准对白的对话角色的标签训练所述对话角色判别模型。
在一种可选的实施方式中,所述第一计算模块包括:
第二有效分母获取子单元,用于对所述区分性词语库的各个区分性词语,分别对所述对话语料库中具有对应的区分性词语的标准对白的数量进行加1,作为第二有效分母;
第四组参量获取子单元,用于对所述区分性词语库的各个区分性词语,分别计算所述对话语料库的标准对白的总数与所述第二有效分母的比值,作为第四组参量。
即基于朴素贝叶斯算法来训练对话角色判别模型,能够更准确地权衡各个区分性词语对区分对话角色的贡献,提高了对话角色区分的准确性;通过对所述对话语料库中具有对应的区分性词语的标准对白的数量进行加1,以使所述第二组参量的分母不为0。
在一种可选的实施方式中,所述系统还包括:
预处理模块,用于响应于获取所述区分性词语库的指令,对所述对话语料库的所有标准对白进行预处理,以得到所述对话语料库的所有词语;
第五获取模块,用于对所述对话语料库的各个词语,分别获取对应的词语在所述对话语料库的各句所述标准对白中的词频,作为第五组参量;
第六获取模块,用于对所述对话语料库的各个词语,分别获取所述对话语料库中具有对应的词语的标准对白的数量;
第二计算模块,用于对所述对话语料库的各个词语,分别根据所述对话语料库的标准对白的总数和所述对话语料库中具有对应的词语的标准对白的数量获取第六组参量;
第三特征向量生成模块,用于根据所述第五组参量和所述第六组参量生成各句所述标准对白的特征向量;
词语选取模块,用于基于信息增益法,根据各句所述标准对白的特征向量和所述对应于各句所述标准对白的对话角色的标签在所述对话语料库的所有词语中选取数量为所述第一设定数量的词语,以得到所述区分性词语库。
在一种可选的实施方式中,所述第二计算模块包括:
第三有效分母获取子单元,用于对所述对话语料库的各个词语,分别对所述对话语料库中具有对应的词语的标准对白的数量进行加1,作为第三有效分母;
第六组参量获取子单元,用于对所述对话语料库的各个词语,分别计算所述对话语料库的标准对白的总数与所述第三有效分母的比值,作为第六组参量。
即通过信息增益法来选取区分性词语,克服了人工筛选的主观随意性与片面性,从而使得筛选的区分性词语与对话角色之间的关联性更大,进一步提高了对话角色区分的准确性;通过对所述对话语料库中具有对应的词语的标准对白的数量进行加1,以使所述第二组参量的分母不为0。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (8)
1.一种对话角色区分方法,其特征在于,所述方法包括:
根据待分析对话的对白和区分性词语库获取所述待分析对话的对白的所有区分性词语;其中,所述区分性词语库包括预先获取的数量为第一设定数量的区分性词语;
根据所述待分析对话的对白的所有区分性词语和预先根据对话语料库建立的对话角色判决模型获取与所述待分析对话的对白对应的对话角色的标签;其中,所述对话语料库包括多句标准对白和对应于各句所述标准对白的对话角色的标签;
分别获取所述待分析对话的对白的各个区分性词语在所述待分析对话的对白中的词频,作为第一组参量;
对所述待分析对话的对白的各个所述区分性词语,分别获取对话语料库中具有对应的区分性词语的标准对白的数量;
对所述待分析对话的对白的各个所述区分性词语,分别根据所述对话语料库的标准对白的总数和所述对话语料库中具有对应的区分性词语的标准对白的数量获取第二组参量;
根据所述第一组参量和所述第二组参量生成所述待分析对话的对白的特征向量;
将所述待分析对话的对白的特征向量输入至所述对话角色判别模型,以识别出与所述待分析对话的对白对应的对话角色的标签;
根据识别到的所述待分析对话的所有对白对应的对话角色的标签区分所述待分析对话中的对话角色。
2.如权利要求1所述的对话角色区分方法,其特征在于,所述方法还包括:
响应于训练所述对话角色判别模型的指令,对所述区分性词语库的各个区分性词语,分别获取对应的区分性词语在所述对话语料库的各句所述标准对白中的词频,作为第三组参量;
对所述区分性词语库的各个区分性词语,分别获取所述对话语料库中具有对应的区分性词语的标准对白的数量;
对所述区分性词语库的各个区分性词语,分别根据所述对话语料库的标准对白的总数和所述对话语料库中具有对应的区分性词语的标准对白的数量获取第四组参量;
根据所述第三组参量和所述第四组参量生成各句所述标准对白的特征向量;
基于朴素贝叶斯算法,根据所述各句所述标准对白的特征向量和所述对应于各句所述标准对白的对话角色的标签训练所述对话角色判别模型。
3.如权利要求2所述的对话角色区分方法,其特征在于,所述方法还包括:
响应于获取所述区分性词语库的指令,对所述对话语料库的所有标准对白进行预处理,以得到所述对话语料库的所有词语;
对所述对话语料库的各个词语,分别获取对应的词语在所述对话语料库的各句所述标准对白中的词频,作为第五组参量;
对所述对话语料库的各个词语,分别获取所述对话语料库中具有对应的词语的标准对白的数量;
对所述对话语料库的各个词语,分别根据所述对话语料库的标准对白的总数和所述对话语料库中具有对应的词语的标准对白的数量获取第六组参量;
根据所述第五组参量和所述第六组参量生成各句所述标准对白的特征向量;
基于信息增益法,根据各句所述标准对白的特征向量和所述对应于各句所述标准对白的对话角色的标签在所述对话语料库的所有词语中选取数量为所述第一设定数量的词语,以得到所述区分性词语库。
4.如权利要求1-2任一项所述的对话角色区分方法,其特征在于,所述根据待分析对话的对白和区分性词语库获取所述待分析对话的对白的所有区分性词语,包括:
对所述待分析对话的对白进行分词,以得到所述待分析对话的对白的所有词语;
将所述待分析对话的对白的所有词语与所述区分性词语库的所有区分性词语进行匹配,以获取所述待分析对话的对白的区分性词语。
5.一种对话角色区分系统,其特征在于,所述系统包括:
第一获取模块,用于根据待分析对话的对白和区分性词语库获取所述待分析对话的对白的所有区分性词语;其中,所述区分性词语库包括预先获取的数量为第一设定数量的区分性词语;
标签获取模块,用于根据所述待分析对话的对白的所有区分性词语和预先根据对话语料库建立的对话角色判决模型获取与所述待分析对话的对白对应的对话角色的标签;其中,所述对话语料库包括多句标准对白和对应于各句所述标准对白的对话角色的标签;
所述标签获取模块包括:
第一获取单元,用于分别获取所述待分析对话的对白的各个区分性词语在所述待分析对话的对白中的词频,作为第一组参量;
第二获取单元,用于对所述待分析对话的对白的各个所述区分性词语,分别获取对话语料库中具有对应的区分性词语的标准对白的数量;
第一计算单元,用于对所述待分析对话的对白的各个所述区分性词语,分别根据所述对话语料库的标准对白的总数和所述对话语料库中具有对应的区分性词语的标准对白的数量获取第二组参量;
第一特征向量生成模块,用于根据所述第一组参量和所述第二组参量生成所述待分析对话的对白的特征向量;
标签识别单元,用于将所述待分析对话的对白的特征向量输入至所述对话角色判别模型,以识别出与所述待分析对话的对白对应的对话角色的标签;
角色区分模块,用于根据识别到的所述待分析对话的所有对白对应的对话角色的标签区分所述待分析对话中的对话角色。
6.如权利要求5所述的对话角色区分系统,其特征在于,所述系统还包括:
第二获取模块,用于响应于训练所述对话角色判别模型的指令,对所述区分性词语库的各个区分性词语,分别获取对应的区分性词语在所述对话语料库的各句所述标准对白中的词频,作为第三组参量;
第四获取模块,用于对所述区分性词语库的各个区分性词语,分别获取所述对话语料库中具有对应的区分性词语的标准对白的数量;
第一计算模块,用于对所述区分性词语库的各个区分性词语,分别根据所述对话语料库的标准对白的总数和所述对话语料库中具有对应的区分性词语的标准对白的数量获取第四组参量;
第二特征向量生成模块,用于根据所述第三组参量和所述第四组参量生成各句所述标准对白的特征向量;
模型建立模块,用于基于朴素贝叶斯算法,根据所述各句所述标准对白的特征向量和所述对应于各句所述标准对白的对话角色的标签训练所述对话角色判别模型。
7.如权利要求6所述的对话角色区分系统,其特征在于,所述系统还包括:
预处理模块,用于响应于获取所述区分性词语库的指令,对所述对话语料库的所有标准对白进行预处理,以得到所述对话语料库的所有词语;
第五获取模块,用于对所述对话语料库的各个词语,分别获取对应的词语在所述对话语料库的各句所述标准对白中的词频,作为第五组参量;
第六获取模块,用于对所述对话语料库的各个词语,分别获取所述对话语料库中具有对应的词语的标准对白的数量;
第二计算模块,用于对所述对话语料库的各个词语,分别根据所述对话语料库的标准对白的总数和所述对话语料库中具有对应的词语的标准对白的数量获取第六组参量;
第三特征向量生成模块,用于根据所述第五组参量和所述第六组参量生成各句所述标准对白的特征向量;
词语选取模块,用于基于信息增益法,根据各句所述标准对白的特征向量和所述对应于各句所述标准对白的对话角色的标签在所述对话语料库的所有词语中选取数量为所述第一设定数量的词语,以得到所述区分性词语库。
8.如权利要求5-6任一项所述的对话角色区分系统,其特征在于,所述第一获取模块包括:
分词单元,用于对所述待分析对话的对白进行分词,以得到所述待分析对话的对白的所有词语;
词语匹配单元,用于将所述待分析对话的对白的所有词语与所述区分性词语库的所有区分性词语进行匹配,以获取所述待分析对话的对白的区分性词语。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711077745.8A CN107885723B (zh) | 2017-11-03 | 2017-11-03 | 对话角色区分方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711077745.8A CN107885723B (zh) | 2017-11-03 | 2017-11-03 | 对话角色区分方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107885723A CN107885723A (zh) | 2018-04-06 |
CN107885723B true CN107885723B (zh) | 2021-04-09 |
Family
ID=61778797
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711077745.8A Active CN107885723B (zh) | 2017-11-03 | 2017-11-03 | 对话角色区分方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107885723B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109101486A (zh) * | 2018-07-11 | 2018-12-28 | 广州杰赛科技股份有限公司 | 一种对话角色区分方法、装置、终端设备及存储介质 |
CN109101487A (zh) * | 2018-07-11 | 2018-12-28 | 广州杰赛科技股份有限公司 | 对话角色区分方法、装置、终端设备及存储介质 |
CN109256128A (zh) * | 2018-11-19 | 2019-01-22 | 广东小天才科技有限公司 | 一种根据用户语料自动判定用户角色的方法及系统 |
CN110634336A (zh) * | 2019-08-22 | 2019-12-31 | 北京达佳互联信息技术有限公司 | 有声电子书生成方法及装置 |
CN110580899A (zh) * | 2019-10-12 | 2019-12-17 | 上海上湖信息技术有限公司 | 语音识别方法及装置、存储介质、计算设备 |
CN112270169B (zh) * | 2020-10-14 | 2023-07-25 | 北京百度网讯科技有限公司 | 对白角色预测方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104216876A (zh) * | 2013-05-29 | 2014-12-17 | 中国电信股份有限公司 | 信息文本过滤方法及系统 |
CN105868184A (zh) * | 2016-05-10 | 2016-08-17 | 大连理工大学 | 一种基于循环神经网络的中文人名识别方法 |
CN106683661A (zh) * | 2015-11-05 | 2017-05-17 | 阿里巴巴集团控股有限公司 | 基于语音的角色分离方法及装置 |
CN106782545A (zh) * | 2016-12-16 | 2017-05-31 | 广州视源电子科技股份有限公司 | 一种将音视频数据转化成文字记录的系统和方法 |
CN107295149A (zh) * | 2016-03-30 | 2017-10-24 | 北京搜狗科技发展有限公司 | 一种陌生电话的处理方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030191625A1 (en) * | 1999-11-05 | 2003-10-09 | Gorin Allen Louis | Method and system for creating a named entity language model |
-
2017
- 2017-11-03 CN CN201711077745.8A patent/CN107885723B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104216876A (zh) * | 2013-05-29 | 2014-12-17 | 中国电信股份有限公司 | 信息文本过滤方法及系统 |
CN106683661A (zh) * | 2015-11-05 | 2017-05-17 | 阿里巴巴集团控股有限公司 | 基于语音的角色分离方法及装置 |
CN107295149A (zh) * | 2016-03-30 | 2017-10-24 | 北京搜狗科技发展有限公司 | 一种陌生电话的处理方法和装置 |
CN105868184A (zh) * | 2016-05-10 | 2016-08-17 | 大连理工大学 | 一种基于循环神经网络的中文人名识别方法 |
CN106782545A (zh) * | 2016-12-16 | 2017-05-31 | 广州视源电子科技股份有限公司 | 一种将音视频数据转化成文字记录的系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107885723A (zh) | 2018-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107885723B (zh) | 对话角色区分方法和系统 | |
Zamil et al. | Emotion detection from speech signals using voting mechanism on classified frames | |
CN108198574B (zh) | 变声检测方法及装置 | |
WO2021128741A1 (zh) | 语音情绪波动分析方法、装置、计算机设备及存储介质 | |
CN110473566A (zh) | 音频分离方法、装置、电子设备及计算机可读存储介质 | |
CN105261367B (zh) | 一种说话人识别方法 | |
CN111243602A (zh) | 基于性别、国籍和情感信息的声纹识别方法 | |
CN108447471A (zh) | 语音识别方法及语音识别装置 | |
CN111640418B (zh) | 一种韵律短语识别方法、装置及电子设备 | |
CN110390946A (zh) | 一种语音信号处理方法、装置、电子设备和存储介质 | |
CN103474065A (zh) | 基于自动分类技术的语音意图判定识别方法 | |
CN107766560B (zh) | 客服服务流程的评价方法和系统 | |
CN111128128B (zh) | 一种基于互补模型评分融合的语音关键词检测方法 | |
CN101887722A (zh) | 快速声纹认证方法 | |
CN109036454A (zh) | 基于dnn的说话人无关单通道录音分离的方法和系统 | |
CN112732871A (zh) | 一种机器人催收获取客户意向标签的多标签分类方法 | |
CN112927679A (zh) | 一种语音识别中添加标点符号的方法及语音识别装置 | |
CN111274390A (zh) | 一种基于对话数据的情感原因确定方法及装置 | |
CN114446284A (zh) | 说话人日志生成方法、装置、计算机设备及可读存储介质 | |
CN107886232B (zh) | 客服的服务质量评价方法和系统 | |
CN107798480B (zh) | 客服的服务质量评价方法与系统 | |
Liu et al. | Supra-Segmental Feature Based Speaker Trait Detection. | |
CN112131369A (zh) | 一种业务类别确定方法和装置 | |
CN111429921A (zh) | 声纹识别方法、系统、移动终端及存储介质 | |
ChinnaRao et al. | Emotion recognition system based on skew gaussian mixture model and MFCC coefficients |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |