CN113782026A

CN113782026A - 一种信息处理方法、装置、介质和设备

Info

Publication number: CN113782026A
Application number: CN202010517410.9A
Authority: CN
Inventors: 王磊; 陈孝良; 冯大航
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-06-09
Filing date: 2020-06-09
Publication date: 2021-12-10

Abstract

本发明涉及一种信息处理方法、装置、介质和设备。根据本发明实施例提供的方案，可以根据启动消息，自动获取采集装置采集到的音频信息，将获取到的音频信息装换为文本信息，并保存为该采集装置对应的用户标识所对应的文本信息，从而实现音频信息对应的文本信息的自动记录。本实施例提供的方案适用于任何需要对音频信息对应的文本信息进行自动记录的场景，如果将其应用于会议进行过程中，对每个人的发言内容对应的文本信息进行自动记录，则可以实现会议内容的高效准确记录，解决人工记录会议内容时，低效，且容易产生错误的问题。

Description

一种信息处理方法、装置、介质和设备

技术领域

本发明涉及通信技术领域，特别涉及一种信息处理方法、装置、介质和设备。

背景技术

会议是指有组织、有领导、有目的的议事活动，在限定的时间和地点，按照一定的程序进行。生活中很多场景都会用到会议，如投票选举会议、公司年度会议等等。

在会议进行过程中，通常需要人工将会议内容记录为文本，会议内容包括每个人的发言内容。这样会耗费大量的人力，且容易产生漏记录、误记录等问题。

如何高效准确地实现会议内容的记录，成为目前急需解决的问题。

发明内容

本发明实施例提供一种信息处理方法、装置、介质和设备，用于解决无法高效准确地记录会议内容的问题。

本发明提供了一种信息处理方法，所述方法包括：

接收启动消息，所述启动消息中携带采集装置标识；

获取与所述采集装置标识相对应的采集装置所采集到的音频信息；

将所述音频信息转换为文本信息；

确定所述采集装置标识对应的用户标识，将所述文本信息保存为该用户标识对应的文本信息。

本发明还提供了一种信息处理装置，所述装置包括：

音频接收模块，用于接收启动消息，所述启动消息中携带采集装置标识，获取与所述采集装置标识相对应的采集装置所采集到的音频信息；

语音识别模块，用于将所述音频信息转换为文本信息，确定所述采集装置标识对应的用户标识，将所述文本信息保存为该用户标识对应的文本信息。

本发明还提供了一种非易失性计算机存储介质，所述计算机存储介质存储有可执行程序，该可执行程序被处理器执行实现如上所述的方法。

本发明还提供了一种信息处理设备，包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存储的程序时，实现如上所述的方法步骤。

根据本发明实施例提供的方案，可以根据启动消息，自动获取采集装置采集到的音频信息，将获取到的音频信息装换为文本信息，并保存为该采集装置对应的用户标识所对应的文本信息，从而实现音频信息对应的文本信息的自动记录。本实施例提供的方案适用于任何需要对音频信息对应的文本信息进行自动记录的场景，如果将其应用于会议进行过程中，对每个人的发言内容对应的文本信息进行自动记录，则可以实现会议内容的高效准确记录，解决人工记录会议内容时，低效，且容易产生错误的问题。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的信息处理方法的流程示意图；

图2为本发明实施例二提供的信息处理装置的结构示意图；

图3为本发明实施例二提供的信息处理过程示意图；

图4为本发明实施例三提供的信息处理设备的结构示意图。

具体实施方式

考虑到对会议内容进行人工记录存在的不足，本发明实施例提供一种对会议内容进行自动记录的方案。

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本文中提及的“多个或者若干个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

本发明实施例一提供一种信息处理方法，该方法的步骤流程可以如图1所示，包括：

步骤101、接收启动消息。

在本步骤中，可以接收启动消息，所述启动消息中携带采集装置标识。在本发明实施例中，采集装置可以理解为任意可以实现音频采集的装置，例如，麦克风等。

启动消息可以通过任意形式触发，例如，通过按下指定按键触发。

步骤102、获取音频信息。

若在步骤101中接收到启动消息，在本步骤中，可以获取与采集装置标识对应的采集装置采集到的音频信息，实现音频信息的自动获取。

步骤103、进行文本转换。

在本步骤中，可以将接收到的音频信息转换为文本信息。

在一种可能的实现方式中，将接收到的音频信息转换为文本信息，可以包括：

对所述音频信息进行语音端点检测，确定所述音频信息对应的语音信息；

确定所述语音信息对应的语音特征向量；

根据确定出的所述语音特征向量，确定对应的文本信息。

在本实施例中，对音频信息进行语音端点检测，可以但不限于基于语音活动检测(VAD)来实现。基于VAD进行语音端点检测时，可以将音频信息中的静音段切除，保留有效语音段，从而可以从接收到的音频信息中，确定出对应的语音信息来进行后续处理，提高后续处理的效率。

确定出的语音特征向量，可以但不限于为滤波器组(Fbank)特征向量，或者梅尔频率倒谱系数(MFCC)特征向量。

此外，根据确定出的所述语音特征向量，确定对应的文本信息的过程中，声学模型可以采用深度神经网络和隐马尔可夫混合(HMM-DNN)模型，以提高确定出文本信息的准确性。

另外，根据确定出的所述语音特征向量，确定对应的文本信息的过程中，解码器可以采用基于加权的有限状态转换器(WFST)的解码器，以提高确定出文本信息的准确性。

步骤104、进行信息保存。

在本步骤中，可以确定接收到的采集装置标识对应的用户标识，将转换得到的文本信息保存为该用户标识对应的文本信息。

在一种可能的实现方式中，可以根据预先保存的采集装置标识与用户标识的对应关系，确定采集装置标识对应的用户标识。

即在本实施例中，在将音频信息转换为文本信息进行保存时，可以根据采集装置与用户之间的对应关系，建立文本信息与用户的对应关系，将文本信息保存为某个用户对应的文本信息，实现文本信息的分类保存，使得信息记录较为精确，并有利于后续根据用户标识，进行文本信息查找。

进一步的，所述方法还可以进一步包括以下步骤：

步骤105、接收关闭消息。

需要说明的是，在本实施例中，步骤105可以在步骤101之后执行，此时步骤102尚未执行，则可以在步骤105之后，结束本流程。

步骤105还可以在步骤102之后、步骤104之前执行，如果步骤105在步骤102之后、步骤104之前执行，则可以等待步骤104执行完毕之后，再执行步骤106。

步骤105还可以在步骤104之后执行，此时，可以在步骤105之后，顺序执行步骤106。

在本实施例中，以步骤105在步骤104之后执行为例进行说明。

在本步骤中，可以接收关闭消息，所述关闭消息中携带所述采集装置标识。

可以理解为，在本步骤中接收到的关闭消息，是在步骤101中接收到的启动消息对应的采集装置所对应的关闭消息。

步骤106、提取第一关键信息。

在本步骤中，可以根据接收到的关闭消息，对转换得到并保存的文本信息进行分词，根据分词结果，提取该文本信息中的第一关键信息，所述第一关键信息在所述文本信息中的重要程度满足设定要求。

在一种可能的实现方式中，所述第一关键信息可以为在所述文本信息中的重要程度满足设定要求的词语(可以简单记为关键词)，也可以为在所述文本信息中的重要程度满足设定要求的句子(可以简单记为关键句)。

以第一关键信息为关键词为例，那么，根据分词结果，提取该文本信息中的第一关键信息，可以但不限于根据分词结果，基于词频-逆文本频率指数(TF-IDF)算法来确定该文本信息中每个分词的权重，并提取权重最高的前N个分词(N为不小于1的正整数)。即，可以基于TF-IDF算法确定出的每个分词的权重来衡量每个分词的重要程度，并可以将基于TF-IDF算法确定出的权重最高的前N个分词作为该文本信息中，重要程度满足设定要求的关键词。

文本信息中，一个句子的重要程度根据该句子包括的每个分词的重要程度确定，例如，一个句子的重要程度可以对应该句子包括的每个分词的重要程度之和。以基于TF-IDF算法确定每个分词的权重来表征每个分词的重要程度为例，那么，一个句子的权重可以为该句子包括的每个分词的权重之和。

若第一关键信息为关键句，那么，根据分词结果，提取该文本信息中的第一关键信息，可以但不限于根据分词结果，基于TF-IDF算法来确定该文本信息中每个分词的权重，将每个句子包括的每个分词的权重之和作为该句子的权重，提取权重最高的前M个句子(M为不小于1的正整数)。

即，在本实施例中，可以对一条音频信息进行概括总结。若接收到的音频信息对应一个用户在会议上的一次发言，那么，提取出的第一关键信息可以理解为本次发言的第一关键信息。可以理解为，通过提取第一关键信息，可以实现对一次发言的概况总结，后续可以直接根据保存的第一关键信息，确定一次发言的核心内容。

步骤107、保存第一关键信息。

在本步骤中，可以将提取出的第一关键信息保存为步骤104中确定出的用户标识对应的第一关键信息。即，可以进一步建立第一关键信息和用户之间的对应关系，并将第一关键信息保存为用户标识对应的第一关键信息。

可以理解为，在本实施例中，不仅可以对会议进行过程中，每个人的发言内容对应的文本进行自动记录，还可以对一次发言对应的关键文本信息进行自动记录。

需要说明的是，在将提取出的第一关键信息保存为步骤104中确定出的用户标识对应的第一关键信息之后，进一步的，还可以将保存的文本信息和第一关键信息发送到指定的显示器进行显示，使得使用该显示器的用户，可以查看显示的文本信息和第一关键信息。指定的显示器可以对应保存的文本信息对应的参会人员，也可以对应其它参会人员。

当然，在步骤104之后，也可以直接将保存的文本信息发送到指定的显示器进行显示。在本步骤中，也可以仅将保存的第一关键信息发送到指定的显示器进行显示。

如果针对至少两个用户标识，分别保存了文本信息，即可以理解为步骤101～步骤104至少执行了两轮，那么，在本实施例中，还可以对保存的至少两个用户标识对应的文本信息分别进行分词，根据分词结果，提取第二关键信息，所述第二关键信息在进行分词的至少两个文本信息中的重要程度满足设定要求，并保存提取出的第二关键信息。

与第一关键信息类似的，第二关键信息可以为在进行分词文本信息中的重要程度满足设定要求的词语(可以简单记为关键词)，也可以为在进行分词的文本信息中的重要程度满足设定要求的句子(可以简单记为关键句)。

若第二关键信息为关键词或关键句，提取第二关键信息的方法与提取第一关键信息的方法类似，此处不再赘述。

即在本实施例中，还可以对不同用户对应的音频信息进行概括总结。若一个用户标识对应的文本信息对应一个用户在会议上的发言，那么，针对保存的至少两个用户标识对应的文本信息，提取出重要程度满足设定要求的第二关键信息，可以理解为，对至少两个用户发言进行总结。

如果至少两个用户标识对应的文本信息，对应一个会议中所有用户的发言，那么，针对保存的至少两个用户标识对应的文本信息，提取出重要程度满足设定要求的第二关键信息，可以理解为，对会议上所有用户发言进行总结。

而保存提取出的第二关键信息，使得后续可以直接根据保存的第二关键信息，获得对会议上所有用户发言进行的概况总结，获取会议核心内容。

可以理解为，在本实施例中，还可以对会议上所有用户发言对应的关键文本信息进行自动记录。

根据本发明实施例一提供的方案，可以有效自动地管理会议信息。包括自动将参会人员的发言内容录入为文本，并可以自动提取第一关键信息，帮助参会人员总结发言。另外，还可以根据每个参会人员的发言内容，自动提取第二关键信息，对会议内容进行总结。通过对自动获取的各项信息进行保存存档，可以大量节省人力，并有利于后续调取查询本次会议对应的各项信息。

与实施例一提供的方法对应的，提供以下的装置。

实施例二

本发明实施例二提供一种信息处理装置，该装置的结构可以如图2所示，包括：

音频接收模块11用于接收启动消息，所述启动消息中携带采集装置标识，获取与所述采集装置标识相对应的采集装置所采集到的音频信息；语音识别模块12用于将所述音频信息转换为文本信息，确定所述采集装置标识对应的用户标识，将所述文本信息保存为该用户标识对应的文本信息。

在一种可能的实现方式中，所述语音识别模块12确定所述采集装置标识对应的用户标识，包括：

根据预先保存的采集装置标识与用户标识的对应关系，确定所述采集装置标识对应的用户标识。

在一种可能的实现方式中，所述语音识别模块12将所述音频信息转换为文本信息，包括：

对所述音频信息进行语音端点检测，确定所述音频信息对应的语音信息；确定所述语音信息对应的语音特征向量；根据确定出的所述语音特征向量，确定对应的文本信息。

在一种可能的实现方式中，所述装置还包括文本主题提取模块13，用于接收关闭消息，所述关闭消息中携带所述采集装置标识；根据所述关闭消息，对保存的所述文本信息进行分词，根据分词结果，提取所述文本信息中的第一关键信息，所述第一关键信息在所述文本信息中的重要程度满足设定要求；将提取出的第一关键信息保存为所述用户标识对应的第一关键信息。

在一种可能的实现方式中，所述装置还包括显示模块14，用于将所述文本信息和所述第一关键信息发送到指定的显示器进行显示。

在一种可能的实现方式中，所述装置还包括总结存档模块15，用于对保存的至少两个用户标识对应的文本信息分别进行分词，根据分词结果，提取第二关键信息，所述第二关键信息在进行分词的至少两个文本信息中的重要程度满足设定要求；保存提取出的第二关键信息。

本发明实施例二提供的方案适用于每个参会人员对应一个麦克风和一个显示器的会议场景，此时的信息处理过程示意图可以如图3所示。假设会议场景中包括n个参会人员(n为不小于1的正整数)。

可以预先建立每个麦克风与对应参会人员的用户标识之间的对应关系，在图3中示意出了3个参会人员分别对应的麦克风(分别用麦克风1～3表示)，其他参会人员分别对应的麦克风用省略号表示。

信息处理装置可以通过每个麦克风分别采集对应参会人员的音频信息，针对获得的音频信息，通过语音识别得到对应的文本信息(图2中对麦克风1～3对应的参会人员对应的文本信息分别用参会人员1～3文本信息表示)，并可以对文本信息进行第一关键信息(可以假设为关键词)提取，获取每个参会人员对应的发言总结(图2中对麦克风1～3对应的参会人员对应的发言总结分别用参会人员1～3总结表示)。

进一步的，还可以针对每个参会人员分别对应的文本信息，进行第二关键信息(可以假设为关键句)提取，实现会议内容的自动总结。

基于同一发明构思，本发明实施例提供以下的设备和介质。

实施例三

本发明实施例三提供一种信息处理设备，该设备的结构可以如图4所示，包括处理器21、通信接口22、存储器23和通信总线24，其中，所述处理器21，所述通信接口22，所述存储器23通过所述通信总线24完成相互间的通信；

所述存储器23，用于存放计算机程序；

所述处理器21，用于执行所述存储器上所存储的程序时，实现本发明实施例一所述的方法步骤。

可选的，所述处理器21具体可以包括中央处理器(CPU)、特定应用集成电路(ASIC，Application Specific Integrated Circuit)，可以是一个或多个用于控制程序执行的集成电路，可以是使用现场可编程门阵列(FPGA，FieldProgrammable Gate Array)开发的硬件电路，可以是基带处理器。

可选的，所述处理器21可以包括至少一个处理核心。

可选的，所述存储器23可以包括只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)和磁盘存储器。存储器23用于存储至少一个处理器21运行时所需的数据。存储器23的数量可以为一个或多个。

本发明实施例四提供一种非易失性计算机存储介质，所述计算机存储介质存储有可执行程序，当可执行程序被处理器执行时，实现本发明实施例一提供的方法。

在具体的实施过程中，计算机存储介质可以包括：通用串行总线闪存盘(USB，Universal Serial Bus Flash Drive)、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的存储介质。

在本发明实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性或其它的形式。

在本发明实施例中的各功能单元可以集成在一个处理单元中，或者各个单元也可以均是独立的物理模块。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备，例如可以是个人计算机，服务器，或者网络设备等，或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：通用串行总线闪存盘(Universal Serial Bus Flash Drive)、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种信息处理方法，其特征在于，所述方法包括：

接收启动消息，所述启动消息中携带采集装置标识；

将所述音频信息转换为文本信息；

2.如权利要求1所述的方法，其特征在于，确定所述采集装置标识对应的用户标识，包括：

3.如权利要求1所述的方法，其特征在于，将所述音频信息转换为文本信息，包括：

确定所述语音信息对应的语音特征向量；

根据确定出的所述语音特征向量，确定对应的文本信息。

4.如权利要求1所述的方法，其特征在于，所述方法还包括：

接收关闭消息，所述关闭消息中携带所述采集装置标识；

根据所述关闭消息，对保存的所述文本信息进行分词，根据分词结果，提取所述文本信息中的第一关键信息，所述第一关键信息在所述文本信息中的重要程度满足设定要求；

将提取出的第一关键信息保存为所述用户标识对应的第一关键信息。

5.如权利要求4所述的方法，其特征在于，将提取出的第一关键信息保存为所述用户标识对应的第一关键信息之后，所述方法还包括：

将所述文本信息和所述第一关键信息发送到指定的显示器进行显示。

6.如权利要求1～5任一所述的方法，其特征在于，所述方法还包括：

对保存的至少两个用户标识对应的文本信息分别进行分词，根据分词结果，提取第二关键信息，所述第二关键信息在进行分词的至少两个文本信息中的重要程度满足设定要求；

保存提取出的第二关键信息。

7.一种信息处理装置，其特征在于，所述装置包括：

8.如权利要求7所述的装置，其特征在于，所述语音识别模块，确定所述采集装置标识对应的用户标识，包括：

9.如权利要求7所述的装置，其特征在于，所述语音识别模块，将所述音频信息转换为文本信息，包括：

10.如权利要求7所述的装置，其特征在于，所述装置还包括文本主题提取模块，用于接收关闭消息，所述关闭消息中携带所述采集装置标识；根据所述关闭消息，对保存的所述文本信息进行分词，根据分词结果，提取所述文本信息中的第一关键信息，所述第一关键信息在所述文本信息中的重要程度满足设定要求；将提取出的第一关键信息保存为所述用户标识对应的第一关键信息。

11.如权利要求10所述的装置，其特征在于，所述装置还包括显示模块，用于将所述文本信息和所述第一关键信息发送到指定的显示器进行显示。

12.如权利要求7～11任一所述的装置，其特征在于，所述装置还包括总结存档模块，用于对保存的至少两个用户标识对应的文本信息分别进行分词，根据分词结果，提取第二关键信息，所述第二关键信息在进行分词的至少两个文本信息中的重要程度满足设定要求；保存提取出的第二关键信息。

13.一种非易失性计算机存储介质，其特征在于，所述计算机存储介质存储有可执行程序，该可执行程序被处理器执行实现权利要求1～6任一所述的方法。

14.一种信息处理设备，其特征在于，所述设备包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存储的程序时，实现权利要求1～6任一所述的方法步骤。