CN107886955B - 一种语音会话样本的身份识别方法、装置及设备 - Google Patents

一种语音会话样本的身份识别方法、装置及设备 Download PDF

Info

Publication number
CN107886955B
CN107886955B CN201610865036.5A CN201610865036A CN107886955B CN 107886955 B CN107886955 B CN 107886955B CN 201610865036 A CN201610865036 A CN 201610865036A CN 107886955 B CN107886955 B CN 107886955B
Authority
CN
China
Prior art keywords
conversation
voice
identity
sample
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610865036.5A
Other languages
English (en)
Other versions
CN107886955A (zh
Inventor
雷成军
高建忠
陈鑫
程涛远
杨琳琳
黄晓梅
吴冬雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Priority to CN201610865036.5A priority Critical patent/CN107886955B/zh
Publication of CN107886955A publication Critical patent/CN107886955A/zh
Application granted granted Critical
Publication of CN107886955B publication Critical patent/CN107886955B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building

Abstract

本发明实施例公开了一种语音会话样本的身份识别方法、装置及设备。该方法包括:识别语音会话样本的声学特征,并依据识别结果,确定所述语音会话样本中包含的会话语句;依据所述语音会话样本中包含的会话语句的声学特征,对不同用户的会话语句进行聚类;将每一用户的会话语句翻译成会话文本,并基于预先训练得到的身份分类器,确定所述每一用户的身份信息。本发明实施例的技术方案,实现了对语音会话样本中不同会话语句所属用户的身份识别,为后续为不同身份用户提供个性化服务奠定了基础。

Description

一种语音会话样本的身份识别方法、装置及设备
技术领域
本发明涉及数据处理技术领域,尤其涉及一种语音会话样本的身份识别方法、装置及设备。
背景技术
公司的发展往往是靠业务拉动的,销售和客服积累了公司的众多业务信息,销售/客服和客户的沟通电话,汇集了众多的动态业务信息,对于公司来说,如果能从这些录音中挖掘有用的商业线索数据,对于公司把握市场,洞察先机,能够赢得客户,至关重要。
然而,目前销售、客服与客户的会话内容融合在一起,无法对语音会话内容进行身份识别。
发明内容
有鉴于此,本发明实施例提供一种语音会话样本的身份识别方法、装置及设备,以对语音会话样本中会话语句所属用户进行身份识别。
第一方面,本发明实施例提供了一种语音会话样本的身份识别方法,包括:
识别语音会话样本的声学特征,并依据识别结果,确定所述语音会话样本中包含的会话语句;
依据所述语音会话样本中包含的会话语句的声学特征,对不同用户的会话语句进行聚类;
将每一用户的会话语句翻译成会话文本,并基于预先训练得到的身份分类器,确定所述每一用户的身份信息。
第二方面,本发明实施例提供了一种语音会话样本的身份识别装置,包括:
语句确定模块,用于识别语音会话样本的声学特征,并依据识别结果,确定所述语音会话样本中包含的会话语句;
语句聚类模块,用于依据所述语音会话样本中包含的会话语句的声学特征,对不同用户的会话语句进行聚类;
身份信息确定模块,用于将每一用户的会话语句翻译成会话文本,并基于预先训练得到的身份分类器,确定所述每一用户的身份信息。
第三方面,本发明实施例提供了一种设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例所述的方法。
本发明实施例提供的技术方案,通过对语音会话样本进行声学特征识别,确定语音会话样本中包含的会话语句,并依据会话语句的声学特征对不同用户的会话语句进行聚类,随后,将每一用户的会话语句翻译成会话文本并基于身份分类器确定每一用户的身份信息,即实现了对语音会话样本中不同会话语句所属用户的身份识别,为后续为不同身份用户提供个性化服务奠定了基础。
附图说明
图1是本发明实施例一提供的一种语音会话样本的身份识别方法的流程图;
图2是本发明实施例二提供的一种语音会话样本的身份识别方法的流程图;
图3是本发明实施例二提供的一种语音会话样本的身份识别方法的示意图;
图4是本发明实施例三提供的一种语音会话样本的身份识别装置的结构图;
图5是本发明实施例四中的一种电子设备的结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一提供的一种语音会话样本的身份识别方法的流程图。本实施例的方法可以由语音会话样本的身份识别装置来执行,该装置可通过硬件和/或软件的方式实现。本实施例的方法一般可适用于对语音会话样本所属用户进行身份识别的情形。参考图1,本实施例提供的语音会话样本的身份识别方法具体可以包括如下:
S11、识别语音会话样本的声学特征,并依据识别结果,确定所述语音会话样本中包含的会话语句。
在本实施例中,语音会话样本指的是不同身份用户之间的语音会话内容,且不同身份用户的语音会话内容混杂在一起,用户身份信息可以包括客户、销售和客服等。例如,语音会话样本可以是企业呼叫中心收集的客户与销售或客服的电话沟通内容。
可选的,声学特征可以包括时长、基频、能量、共振峰频率、宽带、频率微扰、振幅微扰、过零率和梅尔频率倒谱参数中的至少一种。其中,时长、基频和能量属于语音的韵律特征,共振峰频率、宽带、频率微扰和振幅微扰属于语音的声音质量特征。
具体的,对语音会话样本进行声学特征提取,依据语音会话样本的声学特征对语音会话样本进行语音切分,得到语音会话样本中包含的会话语句。
S12、依据所述语音会话样本中包含的会话语句的声学特征,对不同用户的会话语句进行聚类。
由于不同用户的语音的声学特征不同,因而依据语音会话样本中包含的会话语句的时长、基频和能量等韵律特征,共振峰频率、宽带、频率微扰和振幅微扰等声音质量特征,梅尔倒谱参数等结合支持向量机(Support Vector Machine,SVM)对不同用户的会话语句进行聚类,得到不同用户的所有会话语句。例如,一段语音会话样本中包含100个会话语句,经过基于声学特征的语句聚类,得到100个会话语句中有60个会话语句属于第一用户,另外40个会话语句属于第二用户。
S13、将每一用户的会话语句翻译成会话文本,并基于预先训练得到的身份分类器,确定所述每一用户的身份信息。
在本实施例中,身份分类器是依据不同预设身份用户的会话文本训练得到的,用于区分会话文本所属用户的身份信息。
具体的,依据聚类结果得到每一用户的会话语句,并可以采用光学字符识别(Optical Character Recognition,OCR)技术将每一用户的会话语句处理成会话文本,并基于身份分类器确定会话文本所属用户的身份信息,即确定每一用户的身份信息。
本实施例提供的技术方案,通过对语音会话样本进行声学特征识别,确定语音会话样本中包含的会话语句,并依据会话语句的声学特征对不同用户的会话语句进行聚类,随后,将每一用户的会话语句翻译成会话文本并基于身份分类器确定每一用户的身份信息,即实现了对语音会话样本中不同会话语句所属用户的身份识别,为后续为不同身份用户提供个性化服务奠定了基础。
示例性的,确定所述每一用户的身份信息之后,可以包括:
获取任一身份用户的所有语音内容;
依据获取的语音内容,为所述任一身份用户提供服务。
具体的,可以分析同一客户类用户的全国通话,得到客户的需求,了解客户的疑虑等;也可以通过分析同一销售类用户的通话,得到销售类用户的话术,或者识别销售类用户是否存在非法词等。例如,通过对同一客户的全部通话进行分析,可以洞察这个客户的谈单流程,每个阶段的问题,便于销售确定后续应该从哪些方向进行突破,提高成单机会。
实施例二
本实施例在上述实施例一的基础上提供了一种新的语音会话样本的身份识别方法。图2是本发明实施例二提供的一种语音会话样本的身份识别方法的流程图。参考图2,本实施例提供的语音会话样本的身份识别方法具体可以包括如下:
S21、识别语音会话样本的声学特征。
其中,语音会话样本指的是不同身份用户的语音会话内容,且不同身份用户的语音会话内容混杂在一起。可选的,声学特征可以包括时长、基频、能量、共振峰频率、宽带、频率微扰、振幅微扰、过零率和梅尔频率倒谱参数中的至少一种。
S22、依据识别结果,确定所述语音会话样本中包含的停顿信息。
其中,停顿信息指的是语音会话样本中的短暂停歇,停顿信息可以包含停顿起点信息和停顿终点信息。例如,可以将时长在预设范围内的静音确定为短暂停歇。
具体的,可以依据语音会话样本的能量和过零率对语音会话样本进行静音识别,依据静音识别结果确定语音会话样本中包含的停顿信息。
S23、依据所述停顿信息对所述语音会话样本进行语音切分,以确定所述语音会话样本中包含的会话语句。
S24、依据所述语音会话样本中包含的会话语句的声学特征,对不同用户的会话语句进行聚类。
依据语音会话样本中包含的会话语句的时长、基频和能量等韵律特征,共振峰频率、宽带、频率微扰和振幅微扰等声音质量特征,梅尔倒谱参数等结合支持向量机(SupportVector Machine,SVM)对不同用户的会话语句进行聚类,得到不同用户的所有会话语句。
S25、将每一用户的会话语句翻译成会话文本,并基于预先训练得到的身份分类器,确定所述每一用户的身份信息。
示例性的,所述身份分类器通过如下方式得到:依据不同身份用户的会话文本中包含的关键字以及关键字频次,训练得到所述身份分类器。具体的,获取不同身份用户的大量会话文本,对不同身份用户的会话文本进行切词,确定不同身份用户的会话文本中包含的关键字以及关键词频次,并且依据不同身份用户对应的关键字以及关键字频次进行分类训练得到身份分类器。
例如,获取10000句销售类用户的会话文本以及10000句客户类用户的会话文本,经处理确定销售类会话文本中包含“我是某某公司销售”、“您有什么需要”、“有什么可以帮您”和“能耽误您几分钟吗”等关键字,并统计不同关键字的出现频次;相应的,客户类会话文本中包含“推荐几款产品”、“有什么优惠”、“保修吗”和“包退货吗”等关键字,并统计不同关键字的出行频次。随后,依据销售类会话文本中包含关键字以及关键字频次以及客户类会话文本中包含关键字以及关键字频次进行分类训练得到身份分类器。
综上,参考图3,该方法依据客户类用户与销售类用户之间的电话沟通内容,确定语音会话样本,在语音分离阶段:对语音会话样本进行声学特征提取,依据提取结果对语音会话样本进行静音识别,并依据静音识别结果对语音会话样本进行语音切分,得到语音会话样本中包含的会话语句;在身份识别阶段:将语音会话样本中包含的会话语句翻译成会话文本,并通过身份分类器确定会话文本所属用户的身份信息。在身份识别之后的语音分析阶段:可以依据销售类用户的语音内容分析销售所处的阶段,为销售类用户提供销售话术,以及识别销售类用户的语音内容中是否包含异常内容;也可以依据客户类用户的语音内容对客户信息进行分析,以了解客户的行业、情绪和意愿等,进行为下一通电话的策略打下基础。
本实施例提供的技术方案,通过识别语音会话样本的声学特征,依据识别结果,确定语音会话样本中包含的停顿信息,并依据停顿信息对语音会话样本进行语音切分,得到语音会话样本中包含的会话语句。随后,依据会话语句的声学特征对不同用户的会话语句进行聚类,将每一用户的会话语句翻译成会话文本并基于身份分类器确定每一用户的身份信息,即实现了对语音会话样本中不同会话语句所属用户的身份识别,为后续为不同身份用户提供个性化服务奠定了基础。并且,本实施例中还具体提供了身份分类器的训练方法。
实施例三
图4是本发明实施例三提供的一种语音会话样本的身份识别装置的结构图。该装置一般可适用于对语音会话样本所属用户进行身份识别的情形。参见图4,本实施例提供的语音会话样本的身份识别装置的具体结构如下:
语句确定模块31,用于识别语音会话样本的声学特征,并依据识别结果,确定所述语音会话样本中包含的会话语句;
语句聚类模块32,用于依据所述语音会话样本中包含的会话语句的声学特征,对不同用户的会话语句进行聚类;
身份信息确定模块33,用于将每一用户的会话语句翻译成会话文本,并基于预先训练得到的身份分类器,确定所述每一用户的身份信息。
示例性的,上述装置可以包括:
分类器训练模块,用于依据不同身份用户的会话文本中包含的关键字以及关键字频次,训练得到所述身份分类器。
示例性的,所述语句确定模块31可以包括:
声学特征识别单元,用于识别所述语音会话样本的声学特征;
停顿信息确定单元,用于依据识别结果,确定所述语音会话样本中包含的停顿信息;
语音切分单元,用于依据所述停顿信息对所述语音会话样本进行语音切分,以确定所述语音会话样本中包含的会话语句。
示例性的,所述声学特征可以包括时长、基频、能量、共振峰频率、宽带、频率微扰、振幅微扰、过零率和梅尔频率倒谱参数中的至少一种。
示例性的,上述装置可以包括服务提供模块,具体用于:
在确定所述每一用户的身份信息之后,获取任一身份用户的所有语音内容;
依据获取的语音内容,为所述任一身份用户提供服务。
本实施例提供的语音会话样本的身份识别装置,与本发明任意实施例所提供的语音会话样本的身份识别方法属于同一发明构思,可执行本发明任意实施例所提供的语音会话样本的身份识别方法,具备执行语音会话样本的身份识别方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例提供的语音会话样本的身份识别方法。
实施例四
如图5所示,为本发明实施例四提供的设备的硬件结构示意图,如图5所示,该设备包括:
一个或多个处理器410,图5中以一个处理器410为例;
存储器420;
所述电子设备还可以包括:输入装置430和输出装置440。
所述电子设备中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或者其他方式连接,图5中以通过总线连接为例。
存储器420作为一种非暂态计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本申请实施例中的数据存储方法对应的程序指令/模块(例如,附图4所示的语句确定模块31、语句聚类模块32和身份信息确定模块33)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的语音会话样本的身份识别方法。
存储器420可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非暂态性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中,存储器420可选包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置430可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。
也即:上述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现时,进行如下操作:
识别语音会话样本的声学特征,并依据识别结果,确定所述语音会话样本中包含的会话语句;
依据所述语音会话样本中包含的会话语句的声学特征,对不同用户的会话语句进行聚类;
将每一用户的会话语句翻译成会话文本,并基于预先训练得到的身份分类器,确定所述每一用户的身份信息。
进一步的,所述身份分类器通过如下方式得到:
依据不同身份用户的会话文本中包含的关键字以及关键字频次,训练得到所述身份分类器。
进一步的,识别语音会话样本的声学特征,并依据识别结果,确定所述语音会话样本中包含的会话语句,包括:
识别所述语音会话样本的声学特征;
依据识别结果,确定所述语音会话样本中包含的停顿信息;
依据所述停顿信息对所述语音会话样本进行语音切分,以确定所述语音会话样本中包含的会话语句。
进一步的,所述声学特征包括时长、基频、能量、共振峰频率、宽带、频率微扰、振幅微扰、过零率和梅尔频率倒谱参数中的至少一种。
进一步的,确定所述每一用户的身份信息之后,包括:
获取任一身份用户的所有语音内容;
依据获取的语音内容,为所述任一身份用户提供服务。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (9)

1.一种语音会话样本的身份识别方法,包括:
识别语音会话样本的声学特征,并依据识别结果,确定所述语音会话样本中包含的会话语句;
依据所述语音会话样本中包含的会话语句的声学特征,对不同用户的会话语句进行聚类;
将每一用户的会话语句翻译成会话文本,并基于预先训练得到的身份分类器,确定所述每一用户的身份信息;
所述身份分类器通过如下方式得到:
依据不同身份用户的会话文本中包含的关键字以及关键字频次,训练得到所述身份分类器。
2.根据权利要求1所述的方法,其特征在于,识别语音会话样本的声学特征,并依据识别结果,确定所述语音会话样本中包含的会话语句,包括:
识别所述语音会话样本的声学特征;
依据识别结果,确定所述语音会话样本中包含的停顿信息;
依据所述停顿信息对所述语音会话样本进行语音切分,以确定所述语音会话样本中包含的会话语句。
3.根据权利要求1所述的方法,其特征在于,所述声学特征包括时长、基频、能量、共振峰频率、宽带、频率微扰、振幅微扰、过零率和梅尔频率倒谱参数中的至少一种。
4.根据权利要求1所述的方法,其特征在于,确定所述每一用户的身份信息之后,包括:
获取任一身份用户的所有语音内容;
依据获取的语音内容,为所述任一身份用户提供服务。
5.一种语音会话样本的身份识别装置,包括:
语句确定模块,用于识别语音会话样本的声学特征,并依据识别结果,确定所述语音会话样本中包含的会话语句;
语句聚类模块,用于依据所述语音会话样本中包含的会话语句的声学特征,对不同用户的会话语句进行聚类;
身份信息确定模块,用于将每一用户的会话语句翻译成会话文本,并基于预先训练得到的身份分类器,确定所述每一用户的身份信息;
分类器训练模块,用于依据不同身份用户的会话文本中包含的关键字以及关键字频次,训练得到所述身份分类器。
6.根据权利要求5所述的装置,其特征在于,所述语句确定模块包括:
声学特征识别单元,用于识别所述语音会话样本的声学特征;
停顿信息确定单元,用于依据识别结果,确定所述语音会话样本中包含的停顿信息;
语音切分单元,用于依据所述停顿信息对所述语音会话样本进行语音切分,以确定所述语音会话样本中包含的会话语句。
7.根据权利要求5所述的装置,其特征在于,所述声学特征包括时长、基频、能量、共振峰频率、宽带、频率微扰、振幅微扰、过零率和梅尔频率倒谱参数中的至少一种。
8.根据权利要求5所述的装置,其特征在于,包括服务提供模块具体用于:
在确定所述每一用户的身份信息之后,获取任一身份用户的所有语音内容;
依据获取的语音内容,为所述任一身份用户提供服务。
9.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。
CN201610865036.5A 2016-09-29 2016-09-29 一种语音会话样本的身份识别方法、装置及设备 Active CN107886955B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610865036.5A CN107886955B (zh) 2016-09-29 2016-09-29 一种语音会话样本的身份识别方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610865036.5A CN107886955B (zh) 2016-09-29 2016-09-29 一种语音会话样本的身份识别方法、装置及设备

Publications (2)

Publication Number Publication Date
CN107886955A CN107886955A (zh) 2018-04-06
CN107886955B true CN107886955B (zh) 2021-10-26

Family

ID=61769083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610865036.5A Active CN107886955B (zh) 2016-09-29 2016-09-29 一种语音会话样本的身份识别方法、装置及设备

Country Status (1)

Country Link
CN (1) CN107886955B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033257A (zh) * 2018-07-06 2018-12-18 中国平安人寿保险股份有限公司 话术推荐方法、装置、计算机设备和存储介质
CN109599116B (zh) * 2018-10-08 2022-11-04 中国平安财产保险股份有限公司 基于语音识别的监管保险理赔的方法、装置和计算机设备
CN111312256A (zh) * 2019-10-31 2020-06-19 平安科技(深圳)有限公司 语音身份识别的方法、装置及计算机设备
CN111144091B (zh) * 2019-12-02 2024-04-05 支付宝(杭州)信息技术有限公司 客服成员的确定方法、装置以及群成员身份的确定方法
CN111128223B (zh) * 2019-12-30 2022-08-05 科大讯飞股份有限公司 一种基于文本信息的辅助说话人分离方法及相关装置
CN112562682A (zh) * 2020-12-02 2021-03-26 携程计算机技术(上海)有限公司 基于多人通话的身份识别方法、系统、设备及存储介质
CN113327617B (zh) * 2021-05-17 2024-04-19 西安讯飞超脑信息科技有限公司 声纹判别方法、装置、计算机设备和存储介质
CN113327618B (zh) * 2021-05-17 2024-04-19 西安讯飞超脑信息科技有限公司 声纹判别方法、装置、计算机设备和存储介质
CN113792140A (zh) * 2021-08-12 2021-12-14 南京星云数字技术有限公司 文本处理方法、装置及计算机可读存储介质
CN113676394B (zh) * 2021-08-19 2023-04-07 维沃移动通信(杭州)有限公司 信息处理方法和信息处理装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1283843A (zh) * 1999-08-10 2001-02-14 国际商业机器公司 会话数据开采
CN1852354A (zh) * 2005-10-17 2006-10-25 华为技术有限公司 收集用户行为特征的方法和装置
CN102543063A (zh) * 2011-12-07 2012-07-04 华南理工大学 基于说话人分割与聚类的多说话人语速估计方法
CN103530432A (zh) * 2013-09-24 2014-01-22 华南理工大学 一种具有语音提取功能的会议记录器及语音提取方法
CN103971700A (zh) * 2013-08-01 2014-08-06 哈尔滨理工大学 语音监控方法及装置
CN105006231A (zh) * 2015-05-08 2015-10-28 南京邮电大学 基于模糊聚类决策树的分布式大型人口语者识别方法
CN105427869A (zh) * 2015-11-02 2016-03-23 北京大学 一种基于深度学习的会话情感自动分析方法
CN105469784A (zh) * 2014-09-10 2016-04-06 中国科学院声学研究所 概率线性鉴别分析模型生成方法和说话人聚类方法及系统
CN105933413A (zh) * 2016-04-21 2016-09-07 深圳前海大数点科技有限公司 一种基于用户声音交互的个性化实时内容推送系统

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5839103A (en) * 1995-06-07 1998-11-17 Rutgers, The State University Of New Jersey Speaker verification system using decision fusion logic
US8321220B1 (en) * 2005-11-30 2012-11-27 At&T Intellectual Property Ii, L.P. System and method of semi-supervised learning for spoken language understanding using semantic role labeling
US9257115B2 (en) * 2012-03-08 2016-02-09 Facebook, Inc. Device for extracting information from a dialog
CN103151039A (zh) * 2013-02-07 2013-06-12 中国科学院自动化研究所 一种基于向量机svm的说话者年龄段识别方法
CN103198833B (zh) * 2013-03-08 2015-10-21 北京理工大学 一种高精度说话人确认方法
US9460722B2 (en) * 2013-07-17 2016-10-04 Verint Systems Ltd. Blind diarization of recorded calls with arbitrary number of speakers
CN104732974B (zh) * 2013-12-19 2019-05-24 国家电网公司 智能录音识别系统
US8812320B1 (en) * 2014-04-01 2014-08-19 Google Inc. Segment-based speaker verification using dynamically generated phrases
CN105632498A (zh) * 2014-10-31 2016-06-01 株式会社东芝 生成会议记录的方法、装置和系统
CN104462066B (zh) * 2014-12-24 2017-10-03 北京百度网讯科技有限公司 语义角色标注方法及装置
CN105096938A (zh) * 2015-06-30 2015-11-25 百度在线网络技术(北京)有限公司 一种用于获取用户的用户特征信息的方法和装置
US9858923B2 (en) * 2015-09-24 2018-01-02 Intel Corporation Dynamic adaptation of language models and semantic tracking for automatic speech recognition
CN105761720B (zh) * 2016-04-19 2020-01-07 北京地平线机器人技术研发有限公司 一种基于语音属性分类的交互系统及其方法
US10147438B2 (en) * 2017-03-02 2018-12-04 International Business Machines Corporation Role modeling in call centers and work centers

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1283843A (zh) * 1999-08-10 2001-02-14 国际商业机器公司 会话数据开采
CN1852354A (zh) * 2005-10-17 2006-10-25 华为技术有限公司 收集用户行为特征的方法和装置
CN102543063A (zh) * 2011-12-07 2012-07-04 华南理工大学 基于说话人分割与聚类的多说话人语速估计方法
CN103971700A (zh) * 2013-08-01 2014-08-06 哈尔滨理工大学 语音监控方法及装置
CN103530432A (zh) * 2013-09-24 2014-01-22 华南理工大学 一种具有语音提取功能的会议记录器及语音提取方法
CN105469784A (zh) * 2014-09-10 2016-04-06 中国科学院声学研究所 概率线性鉴别分析模型生成方法和说话人聚类方法及系统
CN105006231A (zh) * 2015-05-08 2015-10-28 南京邮电大学 基于模糊聚类决策树的分布式大型人口语者识别方法
CN105427869A (zh) * 2015-11-02 2016-03-23 北京大学 一种基于深度学习的会话情感自动分析方法
CN105933413A (zh) * 2016-04-21 2016-09-07 深圳前海大数点科技有限公司 一种基于用户声音交互的个性化实时内容推送系统

Also Published As

Publication number Publication date
CN107886955A (zh) 2018-04-06

Similar Documents

Publication Publication Date Title
CN107886955B (zh) 一种语音会话样本的身份识别方法、装置及设备
CN112804400B (zh) 客服呼叫语音质检方法、装置、电子设备及存储介质
CN107886951B (zh) 一种语音检测方法、装置及设备
CN104867492B (zh) 智能交互系统及方法
WO2021128741A1 (zh) 语音情绪波动分析方法、装置、计算机设备及存储介质
US8311824B2 (en) Methods and apparatus for language identification
CN110782920B (zh) 音频识别方法、装置及数据处理设备
US8306814B2 (en) Method for speaker source classification
US9711167B2 (en) System and method for real-time speaker segmentation of audio interactions
Maghilnan et al. Sentiment analysis on speaker specific speech data
CN110136749A (zh) 说话人相关的端到端语音端点检测方法和装置
US20110004473A1 (en) Apparatus and method for enhanced speech recognition
US9311914B2 (en) Method and apparatus for enhanced phonetic indexing and search
CN112530408A (zh) 用于识别语音的方法、装置、电子设备和介质
US11783808B2 (en) Audio content recognition method and apparatus, and device and computer-readable medium
CN110956955B (zh) 一种语音交互的方法和装置
CN112562682A (zh) 基于多人通话的身份识别方法、系统、设备及存储介质
CN114155853A (zh) 一种拒识方法、装置、设备及存储介质
CN107680584B (zh) 用于切分音频的方法和装置
CN113779208A (zh) 用于人机对话的方法和装置
CN112331217A (zh) 声纹识别方法和装置、存储介质、电子设备
US8892444B2 (en) Systems and methods for improving quality of user generated audio content in voice applications
CN112102807A (zh) 语音合成方法、装置、计算机设备和存储介质
CN111949778A (zh) 一种基于用户情绪的智能语音对话方法、装置及电子设备
CN113744742A (zh) 对话场景下的角色识别方法、装置和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant