CN107993665B - 多人会话场景中发言人角色确定方法、智能会议方法及系统 - Google Patents

多人会话场景中发言人角色确定方法、智能会议方法及系统 Download PDF

Info

Publication number
CN107993665B
CN107993665B CN201711341133.5A CN201711341133A CN107993665B CN 107993665 B CN107993665 B CN 107993665B CN 201711341133 A CN201711341133 A CN 201711341133A CN 107993665 B CN107993665 B CN 107993665B
Authority
CN
China
Prior art keywords
speaker
role
information
conference
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711341133.5A
Other languages
English (en)
Other versions
CN107993665A (zh
Inventor
高建清
王智国
胡国平
胡郁
刘庆峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201711341133.5A priority Critical patent/CN107993665B/zh
Publication of CN107993665A publication Critical patent/CN107993665A/zh
Application granted granted Critical
Publication of CN107993665B publication Critical patent/CN107993665B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Toys (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明公开了一种多人会话场景中发言人角色确定方法,该方法包括:预先构建发言人角色识别模型;接收发言人语音数据;对所述发言人语音数据进行识别,得到发言人文本数据;从所述发言人文本数据、或者所述发言人文本数据及所述发言人语音数据中提取角色识别特征;将提取的角色识别特征输入所述发言人角色识别模型,根据所述发言人角色识别模型的输出确定发言人角色。利用本发明,可以自动识别发言人的角色。本发明还公开一种智能会议方法及系统,可以向会议系统用户提供更丰富的会议相关信息,方便会议系统用户更好、更快地掌握会议内容。

Description

多人会话场景中发言人角色确定方法、智能会议方法及系统
技术领域
本发明涉及语音信号处理领域,具体涉及一种多人会话场景中发言人角色确定方法,还涉及一种智能会议方法及系统。
背景技术
近年来,随着人工智能逐渐成为新时代科技发展的方向,整个语音行业也迅速成长,尤其是听写技术发展最为迅速,目前已广泛在语音输入、语音搜索、语音助手等产品中得到应用并日臻成熟。
音频、视频、文字作为文化信息传播的不同表现形式,其中文字这种载体表现形式最为直观。无论是政企会议、公检法办案,还是教学培训、记者采访、个人录音等场合均需要形成完整的文字记录材料,音视频文件也需要形成字幕。为解决这些场景下的音频转文字问题,让各行各业的人不再为速记费用昂贵、人工整理录音复杂、录音质量低劣等问题而苦恼,自动进行语音转文本功能的产品应运而生,其中最具代表性的产品即会议转写系统。
现有的会议转写系统方案大致如下:接收会议中发言人语音数据,并提取所述语音数据的识别特征;根据提取的识别特征及预先训练好的识别模型,对语音数据进行识别,得到识别文本;对识别文本进行后处理,如断句、加标点、顺滑等,并将最终结果展示出来。
现有的会议转写系统中,其关注的重点一般是发言人的讲话内容,因而最终显示的也仅仅是对会议现场中各发言人语音进行转写得到的文本及相应标点,这样的显示内容及显示方式,由于没有更多的会议相关信息,因而对于一些事先未了解会议相关内容的用户或者中途加入的用户,难以较好、较快地融入会议中。
发明内容
本发明实施例一方面提供一种多人会话场景中发言人角色确定方法,能够根据发言人的语音数据自动识别发言人的角色。
本发明实施例另一方面提供一种智能会议方法及系统,可以向会议系统用户提供更丰富的会议相关信息,方便会议系统用户更好、更快地掌握会议内容。
为此,本发明提供如下技术方案:
一种多人会话场景中发言人角色确定方法,所述方法包括:
预先构建发言人角色识别模型;
接收发言人语音数据;
对所述发言人语音数据进行识别,得到发言人文本数据;
从所述发言人文本数据、或者所述发言人文本数据及所述发言人语音数据中提取角色识别特征;
将提取的角色识别特征输入所述发言人角色识别模型,根据所述发言人角色识别模型的输出确定发言人角色。
优选地,所述构建发言人角色识别模型包括:
确定发言人角色识别模型的拓扑结构;
收集大量相关会话场景数据作为训练数据,所述相关会话场景数据为标注发言人角色信息的语音数据及文本数据;
从所述训练数据中提取角色识别特征;
利用所述角色识别特征及标注信息训练得到模型参数。
优选地,所述角色识别特征包括:每个分析单元的讲话内容的语义;所述分析单元为短语、或句子、或段落、或篇章。
优选地,所述角色识别特征还包括以下任意一种或多种信息:每个分析单元的语音识别置信度、讲话语速、声音平均能量、说话人风格特征、语音信噪比。
一种智能会议方法,所述方法包括:
接收会议发言人语音数据;
对所述语音数据进行识别转写,得到语音转写结果;
从所述发言人文本数据、或者所述发言人文本数据及所述发言人语音数据中提取角色识别特征;
将所述角色识别特征输入预先构建的发言人角色识别模型,根据所述发言人角色识别模型的输出确定发言人角色;
展现所述语音转写结果和/或发言人角色信息。
优选地,按以下方式构建发言人角色识别模型:
确定发言人角色识别模型的拓扑结构;
收集大量会议场景数据作为训练数据,所述会议场景数据为会议中标注发言人角色信息的语音数据及文本数据;
从所述训练数据中提取角色识别特征;
利用所述角色识别特征训练得到模型参数。
优选地,所述角色识别特征包括:每个分析单元的讲话内容的语义;所述分析单元为短语、或句子、或段落、或篇章。
优选地,所述角色识别特征还包括以下任意一种或多种信息:每个分析单元的语音识别置信度、讲话语速、声音平均能量、说话人风格特征、语音信噪比。
优选地,所述方法还包括:
获取以下任意一种或多种信息并显示所述信息,所述信息包括:所述发言人语音数据对应的发言人信息、所述发言人语音数据对应的主题信息、会议当前所处流程信息。
一种智能会议系统,所述系统包括:
接收模块,用于接收会议发言人语音数据;
识别转写模块,用于对所述语音数据进行识别转写,得到语音转写结果;
特征提取模块,用于从发言人文本数据、或者发言人文本数据及语音数据中提取角色识别特征;
角色分析模块,用于将所述特征提取模块提取的角色识别特征输入发言人角色识别模型,根据所述发言人角色识别模型的输出得到发言人角色信息;
展现模块,用于展现所述语音转写结果和/或发言人角色信息。
优选地,所述角色识别特征包括:每个分析单元的讲话内容的语义;所述分析单元为短语、或句子、或段落、或篇章。
优选地,所述角色识别特征还包括以下任意一种或多种信息:
每个分析单元的语音识别置信度、讲话语速、声音平均能量、说话人风格特征、语音信噪比。
优选地,所述系统还包括以下任意一种或多种模块:
发言人信息获取模块,用于获取所述发言人语音数据对应的发言人信息;
主题信息获取模块,用于从所述发言人语音数据对应的文本数据中提取主题信息;
会议状态信息获取模块,用于获取会议当前所处流程信息;
所述展现模块,还用于展现所述发言人信息、所述主题信息、以及所述会议当前所处流程信息。
本发明实施例提供的多人会话场景中发言人角色确定方法,基于预先构建发言人角色识别模型,从发言人文本数据、或者从发言人文本数据及发言人语音数据中提取角色识别特征,根据提取的角色识别特征及发言人角色识别模型,可以自动识别发言人的角色。
本发明实施例提供的智能会议方法及系统,针对会议发言人的语音数据,不仅对其进行识别转写,而且还可进一步根据识别得到的文本数据,或者根据所述文本数据及语音数据,分析发言人角色,而且可以根据应用需求,展现语音转写结果和/或发言人角色信息,即可以分析、展现更多元化的会议信息,提供给智能会议系统用户,从而可以使一些事先未了解会议相关内容的用户或者中途加入的用户,根据这些多元化的会议信息,较好、较快地融入会议中,提升用户体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例多人会话场景中发言人角色确定方法的流程图;
图2是本发明实施例中构建发言人角色识别模型的流程图;
图3是本发明实施例智能会议方法的一种流程图;
图4是本发明实施例智能会议系统的一种结构示意图;
图5是本发明实施例中角色识别模型构建模块的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
如图1所示,是本发明实施例多人会话场景中发言人角色确定方法的流程图,包括以下步骤:
步骤101,预先构建发言人角色识别模型。
所述发言人角色识别模型的构建可以针对会话场景的特点,收集相关会话场景数据作为训练数据,所述训练数据标注有发言人角色信息,从所述训练数据中提取角色识别特征,利用提取的角色识别特征及标注信息训练得到模型参数。
需要说明的是,所述角色识别特征可以根据不同会话场景中发言人讲话内容的特点来确定,比如,可以包括其语义信息、进一步还可包括:语音信息。
所述发言人角色识别模型的构建过程将在后面详细说明。
步骤102,接收发言人语音数据。
步骤103,对所述发言人语音数据进行识别,得到发言人文本数据。
语音数据的识别可采用现有技术,对此本发明实施例不做限定。
步骤104,从所述发言人文本数据、或者所述发言人文本数据及所述发言人语音数据中提取角色识别特征。
比如,从发言人文本数据中可以提取到以下角色识别特征:每个分析单元的讲话内容的语义;所述分析单元为短语、或句子、或段落、或篇章。进一步地,还可以从发言人语音数据中提取到以下角色识别特征:每个分析单元的语音识别置信度、讲话语速、声音平均能量、说话人风格特征(IVector)、语音信噪比。
下面对上述各角色识别特征的含义及具体提取方法分别加以说明。
1.讲话内容的语义
可以通过词嵌入(word embedding)的方法,将发言人文本数据转化为连续空间的固定维数的特征向量(如词向量维数为128维,每个分析单元规整为含N个词,则分析单元的词向量为N×128维),再基于深度神经网络,对提取出的分析单元原始向量进行多层的特征提取,获得高层的抽象语义特征(如经过3×3卷积的,每层步长(stride)2×2的CNN网络,得到32×N/4维)。
具体地,先对文本数据进行分词,然后利用预先训练好的词嵌入模型,得到文本数据的向量,然后再经过深度神经网络(比如CNN)得到高层的抽象语义特征。所述词嵌入模型的训练可采用现有相关技术实现,在此不再详细阐述。
2.语音识别置信度
具体可以将分析单元中每个词的后验概率积作为分析单元的语音识别置信度。
3.讲话语速
由于不同角色的发言人语速通常不一样,比如会议场景中,主持人经验丰富,讲话流利;演讲嘉宾准备充分,有演讲文稿,语速次之;提问者一般语速较慢。通过语速特征可以对角色的判断起到辅助作用。
具体可以采用分析单元语音帧数F除以分析单元字数N,即F/N表示讲话人语速的快慢,F/N越大表明语速越快。
4.声音平均能量
比如会议场景中主持人讲话感情丰富,能量饱满,演讲嘉宾次之,一般提问者能量较小。在会议中断或者茶歇期间,能量值最小,噪声较大。基于该特点,语音能量分析时,以帧为单位,计算分析单元所有帧语音数据的平均能量幅度值,作为当前发言人讲当前内容时的平均能量。
5.说话人风格特征
说话人风格特征可以用来表示语音中除了说话内容外的发言人的风格,比如与说话人、方言、信道等相关的信息。说话人风格特征的提取可以采用现有技术,在此不再详细描述。所述说话人风格特征可以为128维向量。
6.语音信噪比
计算当前语音的信噪比,如果信噪比较低,则当前会议流程多处于茶歇或者讨论阶段。在主持人和嘉宾演讲过程中,语音的信噪比是比较高的。对于判断会议角色可以起到一定的参考。
需要说明的是:
(1)在实际应用中,上述从发言人语音数据中提取到角色识别特征可以选用其中的一种或多种,对此本案不做限定。
(2)上述语音识别置信度、讲话语速、声音平均能量、语音信噪比特征,可以直接为其数值,即一维向量。但考虑到由于语义特征及说话人风格特征为高维特征,如果上述四个特征采用一维向量,可能出现被稀释的问题,为此,在实际应用中,可以优先采用将上述4个特征值进行向量化,得到一个较高维特征,如64维。
步骤105,将提取的角色识别特征输入所述发言人角色识别模型,根据所述发言人角色识别模型的输出确定发言人角色。
在本发明实施例中,发言人角色识别模型的拓扑结构可以采用DNN、RNN、CNN、SVM(支持向量机)等,以DNN为例,所述拓扑结构包括输入层、隐层、输出层。
假设角色识别特征包括上述六种具体特征,则输入层包含6个节点(具体维度为各部分特征维度之和),分别输入讲话内容的语义、语音识别置信度、讲话语速、声音平均能量、说话人风格特征、语音信噪比;隐层同于常见DNN模型,一般为3-8层;输出层可以是3个节点,如果为分类模型,输出为主持人、演讲嘉宾、提问者的分类结果,如属于主持人,则主持人输出节点为1,其余为0;如果是回归模型,输出为属于主持人、演讲嘉宾、提问者三类的概率得分,根据概率得分可以得到最终角色识别结果,取得分最高的角色类别作为对应的发言人角色。
图2示出了本发明实施例发言人角色识别模型的构建过程,包括以下步骤:
步骤201,确定发言人角色识别模型的拓扑结构。
在本发明实施例中,发言人角色识别模型的拓扑结构可以采用DNN、RNN、CNN、SVM(支持向量机)等,以DNN为例,所述拓扑结构包括输入层、隐层、输出层。
步骤202,收集大量相关会话场景数据作为训练数据,所述相关会话场景数据为标注发言人角色信息的语音数据及文本数据。
步骤203,从所述训练数据中提取角色识别特征。
所述角色识别特征可以包括:每个分析单元的讲话内容的语义,所述分析单元可以为短语、或句子、或段落、或篇章。
进一步地,所述角色识别特征还可以包括以下任意一种或多种辅助信息:每个分析单元的语音识别置信度、讲话语速、声音平均能量、说话人风格特征、语音信噪比。
需要说明的是:上述语音识别置信度、讲话语速、声音平均能量、语音信噪比特征,可以直接为其数值,即一维向量。但考虑到由于语义特征及说话人风格特征为高维特征,如果上述四个特征采用一维向量,可能出现被稀释的问题,为此,在实际应用中,可以优先采用将上述4个特征值进行向量化,得到一个较高维特征,如64维。
上述角色识别特征包括:每个分析单元的讲话内容的语义信息;相应地,在步骤203中,在提取角色识别特征时只需用到上述文本数据。当然,为了进一步提高角色识别的准确性,还可以增加一些辅助信息,比如,每个分析单元的语音识别置信度、讲话语速、声音平均能量、说话人风格特征、语音信噪比这些信息中的一种或多种;相应地,在步骤203中,在提取角色识别特征时,不仅需要用到上述文本数据,还要用到所述语音数据。
步骤204,利用所述角色识别特征及标注信息训练得到模型参数。
本发明实施例提供的多人会话场景中发言人角色确定方法,基于预先构建发言人角色识别模型,从发言人文本数据、或者从发言人文本数据及发言人语音数据中提取角色识别特征,根据提取的角色识别特征及发言人角色识别模型,可以自动识别发言人的角色。
相应地,针对现有会议转写系统展现信息单一,用户根据单一信息难以较快融入会议的问题,本发明实施例还提供一种智能会议方法及系统,不仅可以对会议发言人语音数据进行识别转写,而且还可进一步分析发言人角色,从而可以根据应用需求,展现语音转写结果和/或发言人角色信息,即可以分析、展现更多元化的会议信息,以提供给智能会议系统用户,提升用户体验。
如图3所示,是本发明实施例智能会议方法的一种流程图,包括以下步骤:
步骤301,接收会议发言人语音数据。
步骤302,对所述语音数据进行识别转写,得到语音转写结果。
具体识别转写可以采用现有技术,对此不再详述。
步骤303,从所述发言人文本数据、或者所述发言人文本数据及所述发言人语音数据中提取角色识别特征。
步骤304,将所述角色识别特征输入预先构建的发言人角色识别模型,根据所述发言人角色识别模型的输出确定发言人角色。
所述发言人角色识别模型的构建过程在前面已有详细说明,在此不再赘述。
会议场景中,发言人按照角色来划分主要有以下几种:主持人、演讲嘉宾、提问者,而且这三者在讲话方式、讲话内容上具有明显的区分,各具特点。根据不同角色发言人的上述特点,本发明实施例可以利用发言人讲话内容的语义,或者基于发言人讲话内容的语义并增加一些辅助信息,如识别置信度、讲话语速、声音平均能量大小、说话人风格特征(IVector)等信息,进行发言人角色分析,确定相应语音数据对应的发言人角色。
步骤305,展现所述语音转写结果和/或发言人角色信息。
基于预先构建的发言人角色识别模型,在确定发言人角色时,首先从所述发言人语音数据及对应的文本数据中提取角色识别特征,然后将所述角色识别特征输入所述发言人角色识别模型,根据所述发言人角色识别模型的输出即可确定发言人角色。
本发明实施例提供的智能会议方法,针对会议发言人的语音数据,不仅对其进行识别转写,而且还可进一步基于预先构建的发言人角色识别模型,根据该语音数据及识别得到的文本数据分析发言人角色,并根据应用需求,展现语音转写结果和/或发言人角色信息,即分析、展现更多元化的会议信息,提供给智能会议系统用户,从而可以使一些事先未了解会议相关内容的用户或者中途加入的用户,根据这些多元化的会议信息,较好、较快地融入会议中,提升用户体验。
另外,在本发明方法另一实施例中,还可以获取以下任意一种或多种信息并显示所述信息,所述信息包括:所述发言人语音数据对应的发言人信息、所述发言人语音数据对应的主题信息、会议当前所处流程信息。相应地,在展现会议相关信息时,可以根据需要展现上述信息中的一种或多种,从而提供给用户更加丰富的会议相关信息,进一步提升用户体验。
相应地,本发明实施例还提供一种智能会议系统,如图4所示,是本发明实施例智能会议系统的一种结构示意图。
在该实施例中,所述系统包括:
接收模块401,用于接收会议发言人语音数据;
识别转写模块402,用于对所述语音数据进行识别转写,得到语音转写结果;
特征提取模块403,用于从发言人文本数据、或者发言人文本数据及语音数据中提取角色识别特征;
角色分析模块404,用于将所述特征提取模块403提取的角色识别特征输入发言人角色识别模型,根据所述发言人角色识别模型的输出得到发言人角色信息;
展现模块405,用于展现所述语音转写结果和/或发言人角色信息。
本发明系统在进行信息展现时,可以根据应用需要,选择展现的内容,比如针对会议现场用户,只展现语音转写结果,或者只展现发言人角色信息,对于非现场用户,可以同时展现语音转写结果及对应的发言人角色信息。另外,考虑到展现空间的限制及发言人讲话会持续一定的时间,因此,发言人角色信息的展现方式可以是连续的,也可以是间断的,而且,发言人角色信息可以采用与转写结果不同的字体、大小、颜色等方式进行显示,对此本发明实施例不做限定。
另外,在实际应用中,可以在所述系统中设置显示方式选择模块(未图示),为用户提供不同的显示选项,并接收用户的选择指令,根据用户的选择来控制上述展现模块405进行相应信息的显示。相应地,系统终端或设备上设置用户界面,方便用户对显示选项的选择。
上述识别转写模块402具体可以采用现有相关技术实现对会议发言人语音数据的识别转写,比如,利用预先训练的语音识别模型,所述语音识别模型一般包括声学模型和语言模型,所述声学模型如DNN(深度神经网络)、RNN(循环神经网络)、CNN(卷积神经网络)等,语言模型如RNN等,搭建低延迟的语音识别引擎;提取所述语音数据的识别特征,所述识别特征可以是MFCC(梅尔域倒谱系数)等,与训练声学模型的特征保持一致;根据语音数据的识别特征及语音识别模型,对语音数据进行识别,得到识别文本。
需要说明的是,对于会议场景下的语音进行识别时,通常还需要场景、专有名词的自适应优化,具体可采用现有技术,在此不再详述。另外,为了使后续显示的文本内容更加清晰明了,还需要对语音识别得到的识别文本进行后处理,如断句、加标点、顺滑等。
上述的语音识别及识别文本的后处理,均可以由上述识别转写模块402采用现有技术来实现,当然,也可以在识别转写模块402中设置相应的功能单元,分别实现上述语音识别及后处理的功能,对此本发明实施例不做限定。
在一般会议中,发言人按照角色来划分主要有以下几种:主持人、演讲嘉宾、提问者。一般而言,这三者在讲话方式、讲话内容上具有明显的区分,各自具有以下特点:
主持人发音清晰饱满流利,语速适中,识别率高,讲话内容具有明显的主持人性,如开场白,讲述会议的论题,介绍邀请到的嘉宾,陈述会议时间安排等。而且主持人在一次会议中是会在多个不同时间段多次讲话的。
演讲嘉宾的演讲内容与其专业高度相关,具有很强的专业性,主题集中,识别率稍低。由于需要讲解过程中思考,一般而言语速较慢,会有较多的重复,修改等。
提问者一般会对演讲者提出问题,多采用请教的语气,多用敬语等。
根据不同角色发言人的上述特点,本发明实施例可以利用发言人讲话内容的语义,或者基于发言人讲话内容的语义并增加一些辅助信息,所述辅助信息如识别置信度、讲话语速、声音平均能量大小、说话人风格特征(IVector)中的一种或多种,进行发言人角色分析,确定相应语音数据对应的发言人角色。
具体地,可以预先构建发言人角色识别模型,该模型可以采用分类模型或者回归模型。相应地,上述角色分析模块404可以基于该模型,利用特征提取模块403从发言人语音数据及对应的文本数据(即识别转写过程中得到的文本数据)中提取上述这些能够体现不同角色发言人特点的信息,进行发言人角色判断。比如,角色分析模块404的一种具体结构可以包括:第一特征提取单元和分析单元,其中,所述第一特征提取单元用于从所述发言人文本数据、或者发言人文本数据及语音数据中提取角色识别特征;所述分析单元用于将所述第一特征提取单元提取的角色识别特征输入所述发言人角色识别模型,根据所述发言人角色识别模型的输出得到发言人角色信息。
当然,在实际应用中,也不排除上述角色分析模块103采用其它方式进行发言人角色的判断。而且,无论采用哪种判断方式,均能够在展现语音转写结果时,同时展现发言人角色信息,起到提升用户体验的作用。
所述发言人角色识别模型可以由角色识别模型构建模块采用离线方式构建,所述角色识别模型构建模块可以作为所述智能会议系统的一部分,也可以作为独立的部分,对此本发明实施例不做限定。
如图5所示,是本发明实施例中角色识别模型构建模块的结构示意图。
该角色识别模型构建模块包括:
拓扑结构确定单元51,用于确定发言人角色识别模型的拓扑结构;
数据收集单元52,用于收集大量会议场景数据作为训练数据,所述会议场景数据为会议中标注发言人角色信息的语音数据和/或文本数据;需要说明的是,收集的语音数据和文本数据可以是一一对应的,也可以是不对应的,对此不做限定;
特征提取单元53,用于从所述训练数据中提取角色识别特征;
参数训练单元54,用于利用所述特征提取单元53提取的角色识别特征训练得到模型参数。
所述角色识别特征可以包括:每个分析单元的讲话内容的语义,所述分析单元可以为短语、或句子、或段落、或篇章。
进一步地,所述角色识别特征还可以包括以下任意一种或多种辅助信息:每个分析单元的语音识别置信度、讲话语速、声音平均能量、说话人风格特征、语音信噪比。
上述各角色识别特征的含义及具体提取方法前面已有详细说明,在此不再赘述。
发言人角色识别模型的拓扑结构可以采用DNN、RNN、CNN、SVM(支持向量机)等,以DNN为例,所述拓扑结构包括输入层、隐层、输出层。假设角色识别特征包括上述六种具体特征,则输入层包含6个节点(具体维度为各部分特征维度之和),分别输入讲话内容的语义、语音识别置信度、讲话语速、声音平均能量、说话人风格特征、语音信噪比;隐层同于常见DNN模型,一般为3-8层;输出层可以是3个节点,如果为分类模型,输出为主持人、演讲嘉宾、提问者的分类结果,如属于主持人,则主持人输出节点为1,其余为0;如果是回归模型,输出为属于主持人、演讲嘉宾、提问者三类的概率得分,根据概率得分可以得到最终角色识别结果,取得分最高的角色类别作为对应的发言人角色。
本发明实施例提供的智能会议系统,针对会议发言人的语音数据,不仅对其进行识别转写,而且还可进一步根据识别得到的文本数据或者进一步结合发言人的语音数据,分析发言人角色,而且在展现语音转写结果时,可以根据应用需求,展现语音转写结果和/或发言人角色信息,即分析、展现更多元化的会议信息,提供给智能会议系统用户,从而可以使一些事先未了解会议相关内容的用户或者中途加入的用户,根据这些多元化的会议信息,较好、较快地融入会议中,提升用户体验。
进一步地,为了向用户提供更多元化的会议信息,在本发明系统另一实施例中,所述系统还可包括以下任意一种或多种模块:发言人信息获取模块、主题信息获取模块、会议状态信息获取模块,其中:
所述发言人信息获取模块用于获取所述发言人语音数据对应的发言人信息,比如,可根据发言人角色信息以及预先已知的各角色人员信息(如会议介绍提供),得到各发言人的信息,如照片、教育工作履历等简介。
所述主题信息获取模块用于从所述发言人语音数据对应的文本数据中提取主题信息,比如,可对发言人所讲内容进行主题提取,也可以根据发言人的PPT文档等其他额外信息获取关键词,得到主题信息等。
所述会议状态信息获取模块用于获取会议当前所处流程信息,比如,可以根据预先已知的会议流程、角色识别结果以及时间信息等,得到会议当前所处流程信息。
当然,上述各信息获取模块还可以采用其它现有方法获取相应的信息;另外,需要说明的是,上述各信息获取模块可以作为独立的实体,也可以与前述角色分析模块或识别转写模块集成为一体,对此本发明实施例不做限定。
相应地,在该实施例中,上述展现模块405还用于展现所述发言人信息、所述主题信息、以及所述会议当前所处流程信息中的一种或多种,从而提供给用户更加丰富的会议相关信息,提升用户体验。
需要说明的是,在实际应用中,所述展现模块405可以设置在会议现场,也可以不在会议现场,即远程展现相关信息。另外,对语音转写结果及会议相关信息(如前面提到的发言人角色信息、发言人信息、主题信息、会议当前所处流程信息)的展现形式及格式不做限定,比如,在转写显示屏主体部分展现语音转写结果,在转写结果头部分展现相应发言人角色信息;而且,会议相关信息不仅可以通过视觉形式展现,也可以通过声觉形式展现,当然也可以通过视觉和声觉相结合的形式进行综合展现。
需要说明的是,本发明实施例提供的智能会议方法及系统,不仅可以针对会议进行实时转写及讲话内容和会议信息显示,而且可以针对会议录音实现转写及相关信息显示,满足不同应用的需求。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。而且,以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及装置;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种多人会话场景中发言人角色确定方法,其特征在于,所述方法包括:
预先构建发言人角色识别模型;
接收发言人语音数据;
对所述发言人语音数据进行识别,得到发言人文本数据;
从所述发言人文本数据、或者所述发言人文本数据及所述发言人语音数据中提取角色识别特征;所述角色识别特征至少包括:每个分析单元的讲话内容的语义、语音识别置信度;所述分析单元为短语、或句子、或段落、或篇章;
将提取的角色识别特征输入所述发言人角色识别模型,根据所述发言人角色识别模型的输出确定发言人角色,所述发言人角色是指所述发言人在会议中所担任的角色。
2.根据权利要求1所述的方法,其特征在于,所述构建发言人角色识别模型包括:
确定发言人角色识别模型的拓扑结构;
收集大量相关会话场景数据作为训练数据,所述相关会话场景数据为标注发言人角色信息的语音数据及文本数据;
从所述训练数据中提取角色识别特征;
利用所述角色识别特征及标注信息训练得到模型参数。
3.根据权利要求1或2所述的方法,其特征在于,所述角色识别特征还包括以下任意一种或多种信息:每个分析单元的讲话语速、声音平均能量、说话人风格特征、语音信噪比。
4.一种智能会议方法,其特征在于,所述方法包括:
接收会议发言人语音数据;
对所述语音数据进行识别转写,得到语音转写结果;
从所述发言人文本数据、或者所述发言人文本数据及所述发言人语音数据中提取角色识别特征;所述角色识别特征至少包括:每个分析单元的讲话内容的语义、语音识别置信度;所述分析单元为短语、或句子、或段落、或篇章;
将所述角色识别特征输入预先构建的发言人角色识别模型,根据所述发言人角色识别模型的输出确定发言人角色,所述发言人角色是指所述发言人在会议中所担任的角色;
展现所述语音转写结果和/或发言人角色信息。
5.根据权利要求4所述的方法,其特征在于,按以下方式构建发言人角色识别模型:
确定发言人角色识别模型的拓扑结构;
收集大量会议场景数据作为训练数据,所述会议场景数据为会议中标注发言人角色信息的语音数据及文本数据;
从所述训练数据中提取角色识别特征;
利用所述角色识别特征训练得到模型参数。
6.根据权利要求4或5所述的方法,其特征在于,所述角色识别特征还包括以下任意一种或多种信息:每个分析单元的讲话语速、声音平均能量、说话人风格特征、语音信噪比。
7.根据权利要求4或5所述的方法,其特征在于,所述方法还包括:
获取以下任意一种或多种信息并显示所述信息,所述信息包括:所述发言人语音数据对应的发言人信息、所述发言人语音数据对应的主题信息、会议当前所处流程信息。
8.一种智能会议系统,其特征在于,所述系统包括:
接收模块,用于接收会议发言人语音数据;
识别转写模块,用于对所述语音数据进行识别转写,得到语音转写结果;
特征提取模块,用于从发言人文本数据、或者发言人文本数据及语音数据中提取角色识别特征;所述角色识别特征至少包括:每个分析单元的讲话内容的语义、语音识别置信度;所述分析单元为短语、或句子、或段落、或篇章;
角色分析模块,用于将所述特征提取模块提取的角色识别特征输入发言人角色识别模型,根据所述发言人角色识别模型的输出得到发言人角色,所述发言人角色是指所述发言人在会议中所担任的角色;
展现模块,用于展现所述语音转写结果和/或发言人角色信息。
9.根据权利要求8所述的系统,其特征在于,所述角色识别特征还包括以下任意一种或多种信息:
每个分析单元的讲话语速、声音平均能量、说话人风格特征、语音信噪比。
10.根据权利要求8所述的系统,其特征在于,所述系统还包括以下任意一种或多种模块:
发言人信息获取模块,用于获取所述发言人语音数据对应的发言人信息;
主题信息获取模块,用于从所述发言人语音数据对应的文本数据中提取主题信息;
会议状态信息获取模块,用于获取会议当前所处流程信息;
所述展现模块,还用于展现所述发言人信息、所述主题信息、以及所述会议当前所处流程信息。
CN201711341133.5A 2017-12-14 2017-12-14 多人会话场景中发言人角色确定方法、智能会议方法及系统 Active CN107993665B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711341133.5A CN107993665B (zh) 2017-12-14 2017-12-14 多人会话场景中发言人角色确定方法、智能会议方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711341133.5A CN107993665B (zh) 2017-12-14 2017-12-14 多人会话场景中发言人角色确定方法、智能会议方法及系统

Publications (2)

Publication Number Publication Date
CN107993665A CN107993665A (zh) 2018-05-04
CN107993665B true CN107993665B (zh) 2021-04-30

Family

ID=62038528

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711341133.5A Active CN107993665B (zh) 2017-12-14 2017-12-14 多人会话场景中发言人角色确定方法、智能会议方法及系统

Country Status (1)

Country Link
CN (1) CN107993665B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10621991B2 (en) * 2018-05-06 2020-04-14 Microsoft Technology Licensing, Llc Joint neural network for speaker recognition
CN109101487A (zh) * 2018-07-11 2018-12-28 广州杰赛科技股份有限公司 对话角色区分方法、装置、终端设备及存储介质
CN110019744A (zh) * 2018-08-17 2019-07-16 深圳壹账通智能科技有限公司 辅助生成会议纪要的方法、装置、设备及计算机存储介质
CN109256128A (zh) * 2018-11-19 2019-01-22 广东小天才科技有限公司 一种根据用户语料自动判定用户角色的方法及系统
CN111354356B (zh) * 2018-12-24 2024-04-30 北京搜狗科技发展有限公司 一种语音数据处理方法及装置
CN110459233B (zh) * 2019-03-19 2022-02-11 深圳壹秘科技有限公司 语音的处理方法、装置和计算机可读存储介质
CN110300001B (zh) * 2019-05-21 2022-03-15 深圳壹账通智能科技有限公司 会议音频控制方法、系统、设备及计算机可读存储介质
CN110807370B (zh) * 2019-10-12 2024-01-30 南京星耀智能科技有限公司 一种基于多模态的会议发言人身份无感确认方法
CN110931013B (zh) * 2019-11-29 2022-06-03 北京搜狗科技发展有限公司 一种语音数据的处理方法及装置
CN111341318B (zh) * 2020-01-22 2021-02-12 北京世纪好未来教育科技有限公司 说话者角色确定方法、装置、设备及存储介质
CN111400489B (zh) * 2020-04-08 2022-12-02 科大讯飞股份有限公司 对话文本摘要生成方法、装置、电子设备和存储介质
CN111627446A (zh) * 2020-05-29 2020-09-04 国网浙江省电力有限公司信息通信分公司 一种基于智能语音识别技术的通信会议系统
CN113744742B (zh) * 2020-05-29 2024-01-30 中国电信股份有限公司 对话场景下的角色识别方法、装置和系统
CN111985231B (zh) * 2020-08-07 2023-12-26 中移(杭州)信息技术有限公司 无监督角色识别方法、装置、电子设备及存储介质
CN112233680B (zh) * 2020-09-27 2024-02-13 科大讯飞股份有限公司 说话人角色识别方法、装置、电子设备及存储介质
CN113192516B (zh) * 2021-04-22 2024-05-07 平安科技(深圳)有限公司 语音角色分割方法、装置、计算机设备及存储介质
CN113992972A (zh) * 2021-10-28 2022-01-28 维沃移动通信有限公司 一种字幕显示方法、装置、电子设备和可读存储介质
CN114186559B (zh) * 2021-12-09 2022-09-13 北京深维智信科技有限公司 一种从销售会话中确定会话主体角色标签的方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102985965A (zh) * 2010-05-24 2013-03-20 微软公司 声纹标识
CN104094132A (zh) * 2012-01-30 2014-10-08 国际商业机器公司 经由声波纹位置感知的基于区域的存在确定
CN104639777A (zh) * 2013-11-14 2015-05-20 中兴通讯股份有限公司 一种会议控制方法、装置及会议系统
CN105632498A (zh) * 2014-10-31 2016-06-01 株式会社东芝 生成会议记录的方法、装置和系统
CN106164921A (zh) * 2014-07-18 2016-11-23 谷歌公司 利用协同定位信息的发言人验证
CN106301811A (zh) * 2015-05-19 2017-01-04 华为技术有限公司 实现多媒体会议的方法及装置
CN106504744A (zh) * 2016-10-26 2017-03-15 科大讯飞股份有限公司 一种语音处理方法及装置
CN106657865A (zh) * 2016-12-16 2017-05-10 联想(北京)有限公司 会议纪要的生成方法、装置及视频会议系统
CN106683661A (zh) * 2015-11-05 2017-05-17 阿里巴巴集团控股有限公司 基于语音的角色分离方法及装置
CN107430858A (zh) * 2015-03-20 2017-12-01 微软技术许可有限责任公司 传送标识当前说话者的元数据

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9070360B2 (en) * 2009-12-10 2015-06-30 Microsoft Technology Licensing, Llc Confidence calibration in automatic speech recognition systems
US9691379B1 (en) * 2014-06-26 2017-06-27 Amazon Technologies, Inc. Selecting from multiple content sources
CN104618616B (zh) * 2015-01-16 2018-04-13 四川联友电讯技术有限公司 基于语音特征提取的电话会议与会者身份识别系统及方法
CN106682090B (zh) * 2016-11-29 2020-05-15 上海智臻智能网络科技股份有限公司 主动交互实现装置、方法及智能语音交互设备
CN106782551B (zh) * 2016-12-06 2020-07-24 北京华夏电通科技有限公司 一种语音识别系统及方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102985965A (zh) * 2010-05-24 2013-03-20 微软公司 声纹标识
CN104094132A (zh) * 2012-01-30 2014-10-08 国际商业机器公司 经由声波纹位置感知的基于区域的存在确定
CN104639777A (zh) * 2013-11-14 2015-05-20 中兴通讯股份有限公司 一种会议控制方法、装置及会议系统
CN106164921A (zh) * 2014-07-18 2016-11-23 谷歌公司 利用协同定位信息的发言人验证
CN105632498A (zh) * 2014-10-31 2016-06-01 株式会社东芝 生成会议记录的方法、装置和系统
CN107430858A (zh) * 2015-03-20 2017-12-01 微软技术许可有限责任公司 传送标识当前说话者的元数据
CN106301811A (zh) * 2015-05-19 2017-01-04 华为技术有限公司 实现多媒体会议的方法及装置
CN106683661A (zh) * 2015-11-05 2017-05-17 阿里巴巴集团控股有限公司 基于语音的角色分离方法及装置
CN106504744A (zh) * 2016-10-26 2017-03-15 科大讯飞股份有限公司 一种语音处理方法及装置
CN106657865A (zh) * 2016-12-16 2017-05-10 联想(北京)有限公司 会议纪要的生成方法、装置及视频会议系统

Also Published As

Publication number Publication date
CN107993665A (zh) 2018-05-04

Similar Documents

Publication Publication Date Title
CN107993665B (zh) 多人会话场景中发言人角色确定方法、智能会议方法及系统
CN110097894B (zh) 一种端到端的语音情感识别的方法和系统
CN105427858B (zh) 实现语音自动分类的方法及系统
CN110728997B (zh) 一种基于情景感知的多模态抑郁症检测系统
CN107437415B (zh) 一种智能语音交互方法及系统
US11222627B1 (en) Exploring ASR-free end-to-end modeling to improve spoken language understanding in a cloud-based dialog system
CN107972028B (zh) 人机交互方法、装置及电子设备
KR20210070213A (ko) 음성 사용자 인터페이스
CN112233680A (zh) 说话人角色识别方法、装置、电子设备及存储介质
Wang et al. Comic-guided speech synthesis
CN112837401A (zh) 一种信息处理方法、装置、计算机设备及存储介质
CN113592251A (zh) 一种多模态融合的教态分析系统
CN108986785A (zh) 一种文本改编方法及装置
CN114898779A (zh) 融合多模态的语音情感识别方法及系统
CN114254096A (zh) 一种基于交互机器人对话的多模态情感预测方法及系统
CN114254587A (zh) 主题段落划分方法、装置、电子设备及存储介质
Jia et al. A deep learning system for sentiment analysis of service calls
Farooq et al. Mispronunciation detection in articulation points of Arabic letters using machine learning
CN112185357A (zh) 一种同时识别人声和非人声的装置及方法
CN113393841A (zh) 语音识别模型的训练方法、装置、设备及存储介质
CN112767961B (zh) 一种基于云端计算的口音矫正方法
Reddy et al. Indian sign language generation from live audio or text for tamil
CN112700796A (zh) 一种基于交互式注意力模型的语音情感识别方法
Chen et al. A new learning scheme of emotion recognition from speech by using mean fourier parameters
Zhang An automatic assessment method for spoken English based on multimodal feature fusion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant