CN104902112A

CN104902112A - 会议纪要的生成方法和装置

Info

Publication number: CN104902112A
Application number: CN201510249780.8A
Authority: CN
Inventors: 魏建强; 郭启行; 姜俊; 王昕�; 张洪彬
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-05-15
Filing date: 2015-05-15
Publication date: 2015-09-09
Anticipated expiration: 2035-05-15
Also published as: CN104902112B

Abstract

本发明提出一种会议纪要的生成方法和装置，该会议纪要的生成方法包括：在通过多媒体会议终端进行多媒体会议的过程中，接收使用所述多媒体会议终端的用户输入的指令；记录所述用户在输入所述指令之后输入的语音；将所述语音识别为文字信息，并根据所述文字信息生成所述多媒体会议的会议纪要。本发明可以在多媒体会议终端中提供良好的人机交互，提高多媒体会议终端的易用性和用户体验。

Description

会议纪要的生成方法和装置

技术领域

本发明涉及音频会议技术领域，尤其涉及一种会议纪要的生成方法和装置。

背景技术

在目前各种音频会议系统的产品中，毫无疑问，音频通讯功能都是其核心诉求，而且，随着音频处理技术的日益发展，音频通讯质量也越来越好，逐步从最初的电话音质(8KHz采样率)发展到了当前的超高清音质(48KHz采样率)。但是，广大用户使用音频会议系统的方式却还停留在初始阶段，例如：电话拨号键盘、复杂的组会流程及拙劣的人机交互系统等等。

在现有的各种音频会议系统的产品中，良好的人机交互系统基本都是空白的，甚至连基本的文字输入都需要用户基于音频会议系统自带的一些极其不便利的输入法以及软硬件键盘来完成，用户体验较差，不方便用户使用。

发明内容

本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种会议纪要的生成方法。该方法可以在多媒体会议终端中提供良好的人机交互，提高多媒体会议终端的易用性和用户体验。

本发明的第二个目的在于提出一种会议纪要的生成装置。

为了实现上述目的，本发明第一方面实施例的会议纪要的生成方法，包括：在通过多媒体会议终端进行多媒体会议的过程中，接收使用所述多媒体会议终端的用户输入的指令；记录所述用户在输入所述指令之后输入的语音；将所述语音识别为文字信息，并根据所述文字信息生成所述多媒体会议的会议纪要。

本发明实施例的会议纪要的生成方法，在通过多媒体会议终端进行多媒体会议的过程中，接收使用多媒体会议终端的用户输入的指令，然后记录上述用户在输入上述指令之后输入的语音，最后将上述语音识别为文字信息，并根据上述文字信息生成多媒体会议的会议纪要，从而可以有效地减轻了会议纪要的撰写负担，在多媒体会议终端中提供了良好的人机交互，提高了多媒体会议终端的易用性、便利性和用户体验。

为了实现上述目的，本发明第二方面实施例的会议纪要的生成装置，设置在多媒体会议终端中，包括：接收模块，用于在通过所述多媒体会议终端进行多媒体会议的过程中，接收使用所述多媒体会议终端的用户输入的指令；记录模块，用于记录所述用户在输入所述指令之后输入的语音；识别模块，用于将所述记录模块记录的语音识别为文字信息；生成模块，用于根据所述识别模块识别的文字信息生成所述多媒体会议的会议纪要。

本发明实施例的会议纪要的生成装置，在通过多媒体会议终端进行多媒体会议的过程中，接收模块接收使用多媒体会议终端的用户输入的指令，然后记录模块记录上述用户在输入上述指令之后输入的语音，最后识别模块将上述语音识别为文字信息，生成模块根据上述文字信息生成多媒体会议的会议纪要，从而可以有效地减轻了会议纪要的撰写负担，在多媒体会议终端中提供了良好的人机交互，提高了多媒体会议终端的易用性、便利性和用户体验。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明会议纪要的生成方法一个实施例的流程图；

图2为本发明会议纪要的生成装置一个实施例的结构示意图；

图3为本发明会议纪要的生成装置另一个实施例的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1为本发明会议纪要的生成方法一个实施例的流程图，如图1所示，该会议纪要的生成方法可以包括：

步骤101，在通过多媒体会议终端进行多媒体会议的过程中，接收使用上述多媒体会议终端的用户输入的指令。

具体地，接收使用上述多媒体会议终端的用户输入的指令可以为：接收使用多媒体会议终端的用户通过上述多媒体会议终端输入的语音指令(例如：“生成会议纪要”)；或者，接收使用上述多媒体会议终端的用户通过点击上述多媒体会议终端的显示界面上的功能按键输入的指令，举例来说，上述功能按键可以是多媒体会议终端的显示界面上的“语音会议纪要”功能按键。

步骤102，记录上述用户在输入上述指令之后输入的语音。

步骤103，将上述语音识别为文字信息，并根据上述文字信息生成多媒体会议的会议纪要。

具体地，将上述语音识别为文字信息可以为：通过连续语音识别技术将上述语音识别为文字信息。

进一步地，本实施例中，在通过多媒体会议终端进行多媒体会议的过程中，还可以将上述多媒体会议的参与者输入的语音识别为文字信息，并将上述文字信息翻译为指定语种的文字信息。

本实施例中，步骤101之前，还可以接收用户通过多媒体会议终端输入的语音指令；其中，上述语音指令可以包括与会者的姓名，用于邀请与会者参加上述多媒体会议；和/或，上述语音指令可以包括会议室的名称，用于预定上述会议室。

本实施例中，多媒体会议终端可以为音频会议终端，也可以为视音频会议终端，对应地，上述多媒体会议可以为音频会议，也可以为视音频会议；本实施例对此不作限定。

上述会议纪要的生成方法，在通过多媒体会议终端进行多媒体会议的过程中，接收使用多媒体会议终端的用户输入的指令，然后记录上述用户在输入上述指令之后输入的语音，最后将上述语音识别为文字信息，并根据上述文字信息生成多媒体会议的会议纪要，从而可以有效地减轻了会议纪要的撰写负担，在多媒体会议终端中提供了良好的人机交互，提高了多媒体会议终端的易用性、便利性和用户体验。

本发明针对现有的音频会议系统产品存在的用户交互体验的问题，在多媒体会议终端中引入了语音搜索(例如搜索人名和/或会议室等)、会议纪要生成以及会议翻译等功能，从而可以显著提高多媒体会议终端的易用性、便利性和用户体验。

本发明中，多媒体会议终端接收用户输入的语音指令之后，利用语音识别技术，可以识别出上述语音指令中包括的与会者的姓名和/或会议室的名称，从而可以对应地搜索并邀请上述与会者参加多媒体会议和/或预定上述会议室，更加方便用户使用，显著提高了多媒体会议终端的易用性和交互体验。

并且，本发明利用连续语音识别技术，可以有效地为多媒体会议终端增加会议纪要生成功能，在通过多媒体会议终端进行多媒体会议的过程中，接收用户通过点击多媒体会议终端的显示界面上的功能按键(例如：“语音会议纪要”功能按键)输入的指令，或者接收用户通过多媒体会议终端输入的语音指令之后，多媒体会议终端记录该用户在输入上述指令之后输入的语音，将上述语音识别为文字信息，并根据上述文字信息生成多媒体会议的会议纪要，然后可以将生成的会议纪要共享给各个与会者，从而可以有效地减轻会议纪要的撰写负担，提供了极大的使用便利性。

另外，利用连续语音识别技术可以自动地、实时地对会议中不同讲话人输入的语音进行识别，并转换为对应的文字信息，进一步地，可以利用机器翻译技术，将识别出的文字信息翻译为用户指定语种的文字信息(例如：英文到中文的翻译等)。从而有助于不同母语的与会者通过多媒体会议终端进行交流，极大地降低了上述与会者的交流成本，并可以进一步提升多媒体会议终端的易用性和便利性。

图2为本发明会议纪要的生成装置一个实施例的结构示意图，本实施例中的会议纪要的生成装置可以设置在多媒体会议终端中，实现本发明图1所示实施例的流程，如图2所示，上述会议纪要的生成装置包括：接收模块21、记录模块22、识别模块23和生成模块24；

其中，接收模块21，用于在通过多媒体会议终端进行多媒体会议的过程中，接收使用上述多媒体会议终端的用户输入的指令；本实施例中，接收模块21，具体用于接收使用上述多媒体会议终端的用户通过上述多媒体会议终端输入的语音指令(例如：“生成会议纪要”)；或者，接收使用上述多媒体会议终端的用户通过点击上述多媒体会议终端的显示界面上的功能按键输入的指令，举例来说，上述功能按键可以是多媒体会议终端的显示界面上的“语音会议纪要”功能按键。

记录模块22，用于记录上述用户在输入上述指令之后输入的语音。

识别模块23，用于将记录模块22记录的语音识别为文字信息；本实施例中，识别模块23，具体用于通过连续语音识别技术将上述语音识别为文字信息。

生成模块24，用于根据识别模块23识别的文字信息生成多媒体会议的会议纪要。

上述会议纪要的生成装置中，在通过多媒体会议终端进行多媒体会议的过程中，接收模块21接收使用多媒体会议终端的用户输入的指令，然后记录模块22记录上述用户在输入上述指令之后输入的语音，最后识别模块23将上述语音识别为文字信息，生成模块24根据上述文字信息生成多媒体会议的会议纪要，从而可以有效地减轻了会议纪要的撰写负担，在多媒体会议终端中提供了良好的人机交互，提高了多媒体会议终端的易用性、便利性和用户体验。

图3为本发明会议纪要的生成装置另一个实施例的结构示意图，与图2所示的会议纪要的生成装置相比，不同之处在于，图3所示的会议纪要的生成装置还可以包括：翻译模块25；

本实施例中，识别模块23，还用于在通过多媒体会议终端进行多媒体会议的过程中，将上述多媒体会议的参与者输入的语音识别为文字信息；

翻译模块25，用于将识别模块23识别的文字信息翻译为指定语种的文字信息。

进一步地，接收模块21，还用于在接收使用上述多媒体会议终端的用户输入的指令之前，接收上述用户通过上述多媒体会议终端输入的语音指令；其中，上述语音指令包括与会者的姓名，用于邀请与会者参加上述多媒体会议；和/或，上述语音指令包括会议室的名称，用于预定上述会议室。

上述会议纪要的生成装置可以对应地搜索并邀请上述与会者参加多媒体会议和/或预定上述会议室，更加方便用户使用，显著提高了多媒体会议终端的易用性和交互体验，并可以有效地减轻会议纪要的撰写负担，提供了极大的使用便利性，另外，有助于不同母语的与会者通过多媒体会议终端进行交流，极大地降低了上述与会者的交流成本，并可以进一步提升多媒体会议终端的易用性和便利性。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(Programmable Gate Array；以下简称：PGA)，现场可编程门阵列(Field ProgrammableGate Array；以下简称：FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种会议纪要的生成方法，其特征在于，包括：

在通过多媒体会议终端进行多媒体会议的过程中，接收使用所述多媒体会议终端的用户输入的指令；

记录所述用户在输入所述指令之后输入的语音；

将所述语音识别为文字信息，并根据所述文字信息生成所述多媒体会议的会议纪要。

2.根据权利要求1所述的方法，其特征在于，所述接收使用所述多媒体会议终端的用户输入的指令包括：

接收使用所述多媒体会议终端的用户通过所述多媒体会议终端输入的语音指令；或者，接收使用所述多媒体会议终端的用户通过点击所述多媒体会议终端的显示界面上的功能按键输入的指令。

3.根据权利要求1所述的方法，其特征在于，所述将所述语音识别为文字信息包括：

通过连续语音识别技术将所述语音识别为文字信息。

4.根据权利要求1-3任意一项所述的方法，其特征在于，还包括：

在通过多媒体会议终端进行多媒体会议的过程中，将所述多媒体会议的参与者输入的语音识别为文字信息，并将所述文字信息翻译为指定语种的文字信息。

5.根据权利要求1-3任意一项所述的方法，其特征在于，所述接收使用所述多媒体会议终端的用户输入的指令之前，还包括：

接收所述用户通过所述多媒体会议终端输入的语音指令；

其中，所述语音指令包括与会者的姓名，用于邀请所述与会者参加所述多媒体会议；和/或所述语音指令包括会议室的名称，用于预定所述会议室。

6.一种会议纪要的生成装置，其特征在于，设置在多媒体会议终端中，包括：

接收模块，用于在通过所述多媒体会议终端进行多媒体会议的过程中，接收使用所述多媒体会议终端的用户输入的指令；

记录模块，用于记录所述用户在输入所述指令之后输入的语音；

识别模块，用于将所述记录模块记录的语音识别为文字信息；

生成模块，用于根据所述识别模块识别的文字信息生成所述多媒体会议的会议纪要。

7.根据权利要求6所述的装置，其特征在于，

所述接收模块，具体用于接收使用所述多媒体会议终端的用户通过所述多媒体会议终端输入的语音指令；或者，接收使用所述多媒体会议终端的用户通过点击所述多媒体会议终端的显示界面上的功能按键输入的指令。

8.根据权利要求6所述的装置，其特征在于，

所述识别模块，具体用于通过连续语音识别技术将所述语音识别为文字信息。

9.根据权利要求6-8任意一项所述的装置，其特征在于，还包括：翻译模块；

所述识别模块，还用于在通过多媒体会议终端进行多媒体会议的过程中，将所述多媒体会议的参与者输入的语音识别为文字信息；

所述翻译模块，用于将所述识别模块识别的文字信息翻译为指定语种的文字信息。

10.根据权利要求6-8任意一项所述的装置，其特征在于，

所述接收模块，还用于在接收使用所述多媒体会议终端的用户输入的指令之前，接收所述用户通过所述多媒体会议终端输入的语音指令；