CN111739541A

CN111739541A - 一种基于语音的会议协助方法及系统、存储介质及终端

Info

Publication number: CN111739541A
Application number: CN201910208823.6A
Authority: CN
Inventors: 杨进玉; 许佑骏; 刘旭峰
Original assignee: Shanghai Yunsi Intelligent Information Technology Co ltd
Current assignee: Shanghai Yunsi Intelligent Information Technology Co ltd
Priority date: 2019-03-19
Filing date: 2019-03-19
Publication date: 2020-10-02
Anticipated expiration: 2039-03-19
Also published as: CN111739541B

Abstract

本发明提供一种基于语音的会议协助方法及系统、存储介质及终端，包括以下步骤：接收用户发送来的第一语音信息；将所述第一语音信息转换为第一文本信息；基于所述第一文本信息向会议交互服务终端发出请求信息，并接收所述会议交互服务终端发送来的反馈信息；将所述反馈信息转换为第二文本信息；将所述第二文本信息转换为第二语音信息，并输出所述第二语音信息。本发明的基于语音的会议协助方法及系统、存储介质及终端基于语音识别为会议提供智能化的辅助，极大地提升了用户体验。

Description

一种基于语音的会议协助方法及系统、存储介质及终端

技术领域

本发明涉及智能会议的技术领域，特别是涉及一种基于语音的会议协助方法及系统、存储介质及终端。

背景技术

人工智能(Artificial Intelligence，AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学，是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能可以对人的意识、思维的信息过程的模拟。

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。随着语音识别技术的不断成熟，其广泛应用于语音控制的各个领域当中。

现有技术中，人与会议设备的交互越来越频繁。因此，如何基于人工智能和语音识别技术实现对会议的智能化辅助成为当前研究的热点课题。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于语音的会议协助方法及系统、存储介质及终端，基于语音识别为会议提供智能化的辅助，极大地提升了用户体验。

为实现上述目的及其他相关目的，本发明提供一种基于语音的会议协助方法，包括以下步骤：接收用户发送来的第一语音信息；将所述第一语音信息转换为第一文本信息；基于所述第一文本信息向会议交互服务终端发出请求信息，并接收所述会议交互服务终端发送来的反馈信息；将所述反馈信息转换为第二文本信息；将所述第二文本信息转换为第二语音信息，并输出所述第二语音信息。

于本发明一实施例中，所述请求信息包括会议信息查询请求、会议场景模式切换请求、会议设备控制请求、会务服务请求、会议任务督办请求和会议增值服务请求中的一种或多种组合。

于本发明一实施例中，所述会议信息查询请求包括时间查询请求、地点查询请求、议题查询请求和参与者查询请求中的一种或多种组合；所述会议场景模式切换请求包括开始会议请求、结束会议请求、视频会议请求和投影模式请求中的一种或多种组合；所述会议设备控制请求包括设备开启请求和设备关闭请求。

于本发明一实施例中，还包括基于所述第一语音信息进行用户识别。

于本发明一实施例中，基于PaddlePaddle框架利用循环神经网络生成第二文本信息；基于隐马尔可夫模型的语音合成模型生成所述第二语音信息。

对应地，本发明提供一种基于语音的会议协助系统，包括接收模块、第一转换模块、管理模块、第二转换模块和输出模块；

所述接收模块用于接收用户发送来的第一语音信息；

所述第一转换模块用于将所述第一语音信息转换为第一文本信息；

所述管理模块用于基于所述第一文本信息向会议交互服务终端发出请求信息，并接收所述会议交互服务终端发送来的反馈信息；

所述第二转换模块用于将所述反馈信息转换为第二文本信息；

所述输出模块用于将所述第二文本信息转换为第二语音信息，并输出所述第二语音信息。

本发明提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的基于语音的会议协助方法。

本发明提供一种会议协助终端，包括：处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述会议协助终端执行上述的基于语音的会议协助方法。

最后，本发明提供一种基于语音的会议协助系统，包括上述的会议协助终端和会议交互服务终端；

所述会议交互服务终端用于接收所述会议协助终端发送来的请求信息，生成反馈信息并发送至所述会议协助终端。

于本发明一实施例中，所述会议交互服务终端包括中控类设备、分布式控制器和交互接口中的一种或多种组合。

如上所述，本发明所述的基于语音的会议协助方法及系统、存储介质及终端，具有以下有益效果：

(1)基于语音识别为会议提供智能化的辅助，极大地提升了用户体验；

(2)能够与用户进行自然过渡的，更加智能聪明、流畅的多轮对话；能够提供丰富的知识推送和增值服务；能够实现持续进行学习训练，从而能够不断自我学习、更新迭代以满足用户所需的各种需求；

(3)能够通过语音方式与控制会议设备、资源(投影仪、会议平板、智能灯光、电动窗帘等)，能够实现智能对话问答，实现多个会议场景的灵活切换，甚至能够进行任务分配(或创建会议过程记录、并提取摘要、以及会议纪要共享发送参会人员等，从而颠覆传统的会议过程与体验，使得用户将能够摆脱乏味的会议设置和其他后勤工作，转而从事更有创造性的工作。

附图说明

图1显示为本发明的基于语音的会议协助方法于一实施例中的流程图；

图2显示为本发明的基于语音的会议协助系统于一实施例中的结构示意图；

图3显示为本发明的会议协助终端于一实施例中的结构示意图；

图4显示为本发明的基于语音的会议协助系统于另一实施例中的结构示意图；

图5显示为本发明的基于语音的会议协助系统于又一实施例中的框架图。

元件标号说明

21 接收模块

22 第一转换模块

23 管理模块

24 第二转换模块

25 输出模块

31 处理器

32 存储器

41 会议协助终端

42 会议交互服务终端

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

本发明的基于语音的会议协助方法及系统、存储介质及终端基于语音识别为会议提供智能化的辅助，如控制会议设备、资源(投影仪、会议平板、智能灯光、电动窗帘等)，进行智能对话问答、多个会议场景的灵活切换、任务分配、创建会议过程记录并提取摘要、会议纪要共享发送参会人员等，极大的丰富了会议场景下语音识别的应用，减少了用户的手动操作，提升了用户体验。

如图1所示，于一实施例中，本发明的基于语音的会议协助方法包括以下步骤：

步骤S1、接收用户发送来的第一语音信息。

具体地，在会议过程中，用户通过语音发出第一语音信息，会议协助终端通过麦克风、音箱等语音接收装置接收用户发送来的第一语音信息。优选地，还包括设置特定唤醒词，采用所述特定唤醒词来执行所述会议协助终端的唤醒操作。仅当所述会议协助终端唤醒之后才能接收用户发送来的第一语音信息。同时，将所述第一语音信息的结束时间信息一并进行记录，以实现语音信息之间的区分。

步骤S2、将所述第一语音信息转换为第一文本信息。

具体地，所述转换采用一一对应转换或语义转换。

于本发明一实施例中，基于自然语言理解(Natural Language Understanding，NLU)实现所述第一语音信息到所述第一文本信息的转换。自然语言理解的语义表示主要有分布语义表示(Distributional semantics)、框架语义表示(Frame semantics)和模型论语义表示(Model-theoretic semantics)三种方式。在本发明中，自然语言理解采用的是框架语义表示的一种变形，即采用领域(domain)、意图(intent)和属性槽(slots)来表示语义结果。领域(domain)聚焦在主题域，抽象了6类会议场景的主题，包含会议信息查询服务类、会议场景模式切换类、会议设备控制类、会务服务请求类、会议任务督办类、会议增值服务类。

步骤S3、基于所述第一文本信息向会议交互服务终端发出请求信息，并接收所述会议交互服务终端发送来的反馈信息。

具体地，所述会议协助终端对第一文本信息进行语义分析，基于语义分析结果生成所述请求信息，并向会议交互服务终端发出所述请求信息。优选地，本发明对KBQA(基于知识图谱的QA)和IRQA(基于信息检索的QA)进行了融合，能够基于语义的匹配算法，在检索、回答模板和知识库两方面进行更加精准地语义识别和分析，并基于分析结果生成所述请求信息。其中，KBQA支持结构化数据的高精准和多角度查询，从时态推理、上下位推理等方面深度设计知识图谱，结合从问句中所含的KB的元素中抽象出拓扑结构，以及问题类型，答案类型，用户意图等信息，进行问题模板的匹配，从而支持更多的查询。IRQA支持非结构化数据的查询(会议音频数据、视频数据、快照图片、历史会议纪要文档数据等)。故KBQA面向主题的高准确率，比如可负责schema覆盖的部分；IRQA面向高召回率，可负责schema未能覆盖的部分，回答KBQA未能回答的问题。

其中，所述会议协助终端在进行语义理解建模时，从意图理解分类、问题类型分类、答案类型分类和多轮判定分类这四个角度去考虑。其中，问题类型是指用户问的是观点类的问题还是事实性的问题，是「yes or no」的问题还是「why」的问题，即从问句本身的一些语言特征和问法特征去分析。意图理解是指用户想要什么。答案类型是指答案到底是什么方面的，比如说「多少」或者「数目」。答案类型是指用户所需答案的实体，比如是「人」、「地点」、「报告」。多轮判定是指当前这个问题是否接续了上一轮。

于本发明一实施例中，所述请求信息包括会议信息查询请求、会议场景模式切换请求、会议设备控制请求、会务服务请求、会议任务督办请求和会议增值服务请求中的一种或多种组合。其中，所述会议信息查询请求包括时间查询请求、地点查询请求、议题查询请求和参与者查询请求中的一种或多种组合；所述会议场景模式切换请求包括开始会议请求、结束会议请求、视频会议请求和投影模式请求中的一种或多种组合；所述会议设备控制请求包括设备开启请求和设备关闭请求。所述会议任务督办请求包括会议过程记录、会议过程摘要提取、会议纪要共享中的一种或多种组合。所述会议增值服务请求包括餐饮查询请求、人员查询请求、天气查询请求中的一种或多种组合。

所述会议交互服务终端在接收到所述请求信息后，执行相应的操作，并返回反馈信息至所述会议协助终端。例如，当所述请求信息为会议场景模式切换请求时，所述会议交互服务终端进行所请求的会议场景模式切换，并将切换结果反馈回来；当所述请求信息为会议设备开启请求时，所述会议交互服务终端控制对应的会议设备开启，并将开启结果反馈回来；当所述请求信息为议题查询请求时，所述会议交互服务终端查询对应的会议议题，并将会议议题反馈回来。

步骤S4、将所述反馈信息转换为第二文本信息。

具体地，所述转换采用一一对应转换或语义转换。

于本发明一实施例中，基于自然语音生成(Natural Language Generation，NLG)实现所述反馈信息到所述第二文本信息的转换。优选地，基于PaddlePaddle框架利用循环神经网络(Recurrent Neural Network，RNN)生成第二文本信息。其中，模型的构建需要经过三个阶段：一、定义模型结构&参数；二、训练模型；三、生成文本。

步骤S5、将所述第二文本信息转换为第二语音信息，并输出所述第二语音信息。

具体地，将所述第二文本信息基于隐马尔可夫模型的语音合成模型生成所述第二语音信息，并输出至用户，从而完成流畅的人机语音交互。

于本发明一实施例中，本发明的基于语音的会议协助方法还包括基于所述第一语音信息进行用户识别。优选地，采用声纹识别系统对识别到的第一语音信息的声纹特征与声纹模型库中的所有声纹信息相匹配，高于特定匹配阀值则识别为发言人。通过用户识别，有助于会议协助终端执行相应功能，如进行会议记录、有针对性返回第二语音信息。

如图2所示，于一实施例中，本发明的基于语音的会议协助系统包括依次连接的接收模块21、第一转换模块22、管理模块23、第二转换模块24和输出模块25。

所述接收模块21用于接收用户发送来的第一语音信息。

所述第一转换模块22用于将所述第一语音信息转换为第一文本信息。

所述管理模块23用于基于所述第一文本信息向会议交互服务终端发出请求信息，并接收所述会议交互服务终端发送来的反馈信息。

所述第二转换模块24用于将所述反馈信息转换为第二文本信息。

所述输出模块25用于将所述第二文本信息转换为第二语音信息，并输出所述第二语音信息。

需要说明的是，接收模块21、第一转换模块22、管理模块23、第二转换模块24和输出模块25的结构和原理与上述基于语音的会议协助方法的步骤一一对应，故在此不再赘述。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现，也可以全部以硬件的形式实现，还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如：x模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现。此外，x模块也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，一个或多个微处理器(Digital Singnal Processor，简称DSP)，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，如中央处理器(CentralProcessing Unit，简称CPU)或其它可以调用程序代码的处理器。这些模块可以集成在一起，以片上系统(System-on-a-chip，简称SOC)的形式实现。

本发明的存储介质上存储有计算机程序，该程序被处理器执行时实现上述的基于语音的会议协助方法。

如图3所示，于一实施例中，本发明的会议协助终端包括：处理器31及存储器32。

所述存储器32用于存储计算机程序。

所述存储器32包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

所述处理器31与所述存储器32相连，用于执行所述存储器32存储的计算机程序，以使所述会议协助终端执行上述的基于语音的会议协助方法。

优选地，所述处理器31可以是通用处理器，包括中央处理器(CentralProcessingUnit，简称CPU)、网络处理器(NetworkProcessor，简称NP)等；还可以是数字信号处理器(DigitalSignalProcessor，简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，简称ASIC)、现场可编程门阵列(Field－ProgrammableGateArray，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

如图4所示，于一实施例中，本发明的基于语音的会议协助系统包括上述的会议协助终端41和会议交互服务终端42。

所述会议交互服务终端42与所述会议协助终端41通信连接，用于接收所述会议协助终端发送来的请求信息，生成反馈信息并发送至所述会议协助终端41。

如图5所示，于本发明一实施例中，所述会议交互服务终端42包括中控类设备、分布式控制器和交互接口中的一种或多种组合。其中，所述中控类设备和所述分布式控制器用于控制会议设备，所述交互接口用于进行数据查询。

综上所述，本发明的基于语音的会议协助方法及系统、存储介质及终端基于语音识别为会议提供智能化的辅助，极大地提升了用户体验；能够与用户进行自然过渡的，更加智能聪明、流畅的多轮对话；能够提供丰富的知识推送和增值服务；能够实现持续进行学习训练，从而能够不断自我学习、更新迭代以满足用户所需的各种需求；能够通过语音方式与控制会议设备、资源(投影仪、会议平板、智能灯光、电动窗帘等)，能够实现智能对话问答，实现多个会议场景的灵活切换，甚至能够进行任务分配或创建会议过程记录、并提取摘要、以及会议纪要共享发送参会人员等，从而颠覆传统的会议过程与体验，使得用户将能够摆脱乏味的会议设置和其他后勤工作，转而从事更有创造性的工作。因此，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于语音的会议协助方法，其特征在于，包括以下步骤：

接收用户发送来的第一语音信息；

将所述第一语音信息转换为第一文本信息；

基于所述第一文本信息向会议交互服务终端发出请求信息，并接收所述会议交互服务终端发送来的反馈信息；

将所述反馈信息转换为第二文本信息；

将所述第二文本信息转换为第二语音信息，并输出所述第二语音信息。

2.根据权利要求1所述的基于语音的会议协助方法，其特征在于，所述请求信息包括会议信息查询请求、会议场景模式切换请求、会议设备控制请求、会务服务请求、会议任务督办请求和会议增值服务请求中的一种或多种组合。

3.根据权利要求2所述的基于语音的会议协助方法，其特征在于，所述会议信息查询请求包括时间查询请求、地点查询请求、议题查询请求和参与者查询请求中的一种或多种组合；所述会议场景模式切换请求包括开始会议请求、结束会议请求、视频会议请求和投影模式请求中的一种或多种组合；所述会议设备控制请求包括设备开启请求和设备关闭请求。

4.根据权利要求1所述的基于语音的会议协助方法，其特征在于，还包括基于所述第一语音信息进行用户识别。

5.根据权利要求1所述的基于语音的会议协助方法，其特征在于，基于PaddlePaddle框架利用循环神经网络生成第二文本信息；基于隐马尔可夫模型的语音合成模型生成所述第二语音信息。

6.一种基于语音的会议协助系统，其特征在于，包括接收模块、第一转换模块、管理模块、第二转换模块和输出模块；

所述接收模块用于接收用户发送来的第一语音信息；

7.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至5中任一项所述的基于语音的会议协助方法。

8.一种会议协助终端，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述会议协助终端执行权利要求1至5中任一项所述的基于语音的会议协助方法。

9.一种基于语音的会议协助系统，其特征在于，包括权利要求9所述的会议协助终端和会议交互服务终端；

10.根据权利要求9所述的基于语音的会议协助系统，其特征在于，所述会议交互服务终端包括中控类设备、分布式控制器和交互接口中的一种或多种组合。