CN110134756A

CN110134756A - 会议记录生成方法、电子装置及存储介质

Info

Publication number: CN110134756A
Application number: CN201910298388.0A
Authority: CN
Inventors: 谭莉
Original assignee: OneConnect Smart Technology Co Ltd
Current assignee: OneConnect Smart Technology Co Ltd
Priority date: 2019-04-15
Filing date: 2019-04-15
Publication date: 2019-08-16

Abstract

本发明涉及数据处理技术，提供了一种会议记录生成方法、电子装置及存储介质。该方法实时获取每一发言者的语音信息，将所述语音信息转换成文本信息并存储于数据库。之后，根据所述语音信息及预设识别规则对发言者身份信息进行识别，对已识别出身份信息的发言者设置不同的ID编号，建立所述ID编号与所述文本信息的映射关系。再利用预设第一算法计算出所述文本信息中所有词语的得分，根据所述得分确定所述文本信息的关键词，基于关键词及映射关系利用预设第二算法生成会议记录，并将所述会议记录以邮件形式发送给预设用户。利用本发明，通过将会议中发言者的语音转换成文本并自动生成会议记录发送给参会人员，提高了会议的效率。

Description

会议记录生成方法、电子装置及存储介质

技术领域

本发明涉及数据处理领域，尤其涉及一种会议记录生成方法、电子装置及存储介质。

背景技术

在日常办公过程中，每个工作日几乎都面临各项会议，大到重要的决策层指示会议，小到针对某个事件的讨论都由会议形式来完成。

目前，现有的记录会议内容的方法通常是利用录音笔等设备对会议过程中各人员的发言进行录音，会后通过人工回放录音整理会议记录。或者在会议中使用语音转换设备，将会议人员的发言转换为文字。但是，该记录方式只能实现语音转化成文字，并不能够对整个会议的会议记录进行自动提取和整理。

发明内容

鉴于以上内容，本发明提供一种会议记录生成方法、电子装置及存储介质，其目的在于解决会议过程中，不能自动提取和生成会议记录的问题，通过将会议中发言者的语音转换成文本并自动生成会议记录发送给参会人员。

为实现上述目的，本发明提供一种会议记录生成方法，该方法包括：

转换步骤：实时获取每一发言者的语音信息，将所述语音信息转换成文本信息并存储于数据库；

映射步骤：根据所述语音信息及预设识别规则对发言者身份信息进行识别，对已识别出身份信息的发言者设置不同的ID编号，建立所述ID编号与所述文本信息的映射关系；及

生成步骤：利用预设第一算法计算出所述文本信息中所有词语的得分，根据所述得分确定所述文本信息的关键词，基于所述关键词及所述映射关系利用预设第二算法生成会议记录，并将所述会议记录以邮件形式发送给预设用户，所述预设第一算法的公式为：

其中，V_i、V_j和V_k表示从所述文本信息中提取的词语节点，S(V_i)表示词语节点V_i的得分，S(V_j)表示词语节点V_j的得分，W_ji表示V_i和V_j两个词语节点之间边的权重，W_jk表示V_j和V_k两个词语节点之间边的权重，In(V_i)表示指向词语节点V_i的节点集合,Out(V_j)表示词语节点V_j指向的节点集合，d表示阻尼系数。

优选的，所述转换步骤包括：将所述语音信息输入到预设的动态时间归整模型中，得到每一发言者语音信息对应的文本信息。

优选的，所述映射步骤包括：获取每一发言者语音信息的特征参数，根据该特征参数在预先注册的身份索引表中查找与该特征参数对应的标识，根据所述标识识别出发言者的身份信息。

优选的，所述生成步骤包括：将所述得分由大到小排序，选取排序靠前的预设数量的词语作为所述关键词。

优选的，所述生成步骤包括：根据所述关键词及映射关系生成初始会议记录，利用自然语言算法对所述初始会议记录进行处理得到最终会议记录。

为实现上述目的，本发明还提供一种电子装置，该电子装置包括：存储器及处理器，其特征在于，所述存储器上存储自动生成会议记录程序，所述自动生成会议记录程序被所述处理器执行，实现如下步骤：

为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中包括会议记录生成程序，所述会议记录生成程序被处理器执行时，可实现如上所述会议记录生成方法中的任意步骤。

本发明提出的会议记录生成方法、电子装置及存储介质，解决了会议过程中，不能自动提取和生成会议记录的问题，通过将会议中发言者的语音转换成文本并自动生成会议记录发送给参会人员，提高了会议的效率。

附图说明

图1为本发明电子装置较佳实施例的示意图；

图2为图1中自动生成会议记录程序较佳实施例的模块示意图；

图3为本发明会议记录生成方法较佳实施例的流程图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1所示，为本发明电子装置1较佳实施例的示意图。

该电子装置1包括但不限于：存储器11、处理器12、显示器13及网络接口14。所述电子装置1通过网络接口14连接网络，获取原始数据。其中，所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobilecommunication，GSM)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器11可以是所述电子装置1的内部存储单元，例如该电子装置1的硬盘或内存。在另一些实施例中，所述存储器11也可以是所述电子装置1的外部存储设备，例如该电子装置1配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器11还可以既包括所述电子装置1的内部存储单元也包括其外部存储设备。本实施例中，存储器11通常用于存储安装于所述电子装置1的操作系统和各类应用软件，例如会议记录生成程序10的程序代码等。此外，存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器12在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子装置1的总体操作，例如执行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据，例如运行会议记录生成程序10的程序代码等。

显示器13可以称为显示屏或显示单元。在一些实施例中显示器13可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-EmittingDiode，OLED)触摸器等。显示器13用于显示在电子装置1中处理的信息以及用于显示可视化的工作界面，例如显示数据统计的结果。

网络接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口)，该网络接口14通常用于在所述电子装置1与其它电子设备之间建立通信连接。

图1仅示出了具有组件11-14以及会议记录生成程序10的电子装置1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，所述电子装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。

该电子装置1还可以包括射频(Radio Frequency，RF)电路、传感器和音频电路等等，在此不再赘述。

在上述实施例中，处理器12执行存储器11中存储的会议记录生成程序10时可以实现如下步骤：

关于上述步骤的详细介绍，请参照下述图2关于会议记录生成程序10实施例的程序模块图以及图3关于会议记录生成方法实施例的流程图的说明。

在其他实施例中，所述会议记录生成程序10可以被分割为多个模块，该多个模块被存储于存储器12中，并由处理器13执行，以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。

参照图2所示，为图1中会议记录生成程序10一实施例的程序模块图。在本实施例中，所述会议记录生成程序10可以被分割为：初始化模块110、监测模块120及切换模块130。

转换模块110，用于实时获取每一发言者的语音信息，将所述语音信息转换成文本信息并存储于数据库。

在本实施例中，可以利用诸如具有录音功能的终端设备(例如，话筒、麦克风)或者具有录像功能的录像设备(例如，数码摄像机)等的声音采集装置来对会议进行记录，以获取该会议的语音信息(例如，录音或录像)。其中，该语音信息的音频格式例如可以为mp3、wma、wav等。具体的，当终端设备一侧的发言者开始发言时，该终端设备通过声音采集装置(例如麦克风)采集语音内容。此外，还可利用语音端点检测技术分辨出发言者语音中的语音信号和非语音信号，去除无效的语音片段和噪音，确定每个有效语音片段的开始和结束端点，有利于提高后续语音识别的准确度。

将获取的会议中各个发言者的语音信息输入到预设的动态时间归整模型(Dynamic Time Warping,DTW)中，得到各个发言者的语音信息对应的文本信息。具体的，针对获取的语音信息，可从该语音信息中提取出指定参数，并将这些参数作为预设的DTW模型的输入参数进行输入，而预设的DTW模型则可根据该输入参数，输出该语音信息对应的文本信息。需要说明的是，可将语音信息转换为文本信息的模型除DTW模型外，也可以是其他的语音识别模型，例如：BLSTM模型或LSTM模型。而DTW模型在对语音信息实施转换之前，通常都需要大量的训练样本进行训练，因此，在本实施例中，可预先对该DTW模型进行训练，具体的训练过程包括：预先采集预设数量的语音样本信息以及每个语音样本信息对应的文本样本信息，然后针对每个语音样本信息，将该语音样本信息输入到该预设的DTW模型中，并通过该DTW模型得到该语音样本信息对应的文本信息，在得到该语音样本信息对应的文本信息后，可将该文本信息与该语音信息对应的文本样本信息进行比对，并根据比对的结果，对该DTW模型进行调整。经大量语音样本信息训练后的DTW模型可准确的将语音信息转换为相应的文本信息，进而为后续的会议记录生成工作提供服务。其中，文本格式可以为txt、word、pdf等。

获取的语音信息转换成文本信息后，可实时或定时的发送给数据库，或者，当终端设备这侧的发言者结束一次发言后，才将该语音信息转换的文本信息发送给数据库。

在另一实施例中，可以利用其它语音识别算法对语音信息进行识别分析，例如基于深度全序列卷积神经网络的第三方语音转换工具，将预设时间段(例如：3小时)内的音频数据转换成文本数据。

映射模块120，用于根据所述语音信息及预设识别规则对发言者身份信息进行识别，对已识别出身份信息的发言者设置不同的ID编号，建立所述ID编号与所述文本信息的映射关系。

在本实施例中，首先建立发言者的身份索引表，在该身份索引表中存储了预先注册的特征参数与发言者的标识的对应关系。其中，特征参数可以是发言者语音信息中的语调或音频。当要对发言者的身份进行识别时，从发言者的语音信息中获取该发言者语音信息的特征参数，根据该特征参数在预先注册的身份索引表中查找与该特征参数对应的标识，从而确定出发言者的标识，由此标识即可识别出发言者的身份。如果在身份索引表中没有查找到与特征参数对应的标识，则根据该特征参数生成该发言者标识，并将该特征参数与该标识的对应关系存储在身份索引表中。识别出发言者的身份之后，为已经识别出身份信息的发言者设置对应的ID编号，并将该ID编号与发言者语音信息转换的文本信息建立映射关系。

会议终端根据特征参数确定发言者的标识还可以采取另一种方式，即根据特征参数生成发言者模型，将该发言者模型与对应的标识存储在数据库中的身份索引表中。在提取到特征参数之后，会议终端将该特征参数与身份索引表中的发言者模型进行比较，并得到匹配得分。如果匹配得分达到预设分数，则表明索引表中存在该特征参数对应的发言者模型，由此可得到发言者标识，确认发言者身份。

在另一施例中，对语音信息发言者的身份进行识别，还可以采用隐马尔科夫模型(Hidden Markov Model，HMM)。具体的，针对获取的语音信息，可从该语音信息中提取出指定参数，并将这些参数作为预设的HMM模型的输入参数进行输入，而预设的HMM模型可根据该输入参数，输出该语音信息对应发言者身份信息。

生成模块130，用于利用预设第一算法计算出所述文本信息中所有词语的得分，根据所述得分确定所述文本信息的关键词，基于所述关键词及所述映射关系利用预设第二算法生成会议记录，并将所述会议记录以邮件形式发送给预设用户。

所述预设第一算法的公式为：

在本实施例中，可以采用Text Rank算法提取每一发言者的语音信息对应文本的关键词，Text Rank算法是一种用于文本的基于图的排序算法。其基本思想来源于PageRank算法,通过把文本分割成若干组成单元(例如：单词、句子)并建立图模型,对文本中的重要的词语进行排序,利用文本本身的信息即可实现关键词提取。将TextRank算法表示为一个有向有权图G＝(V,E),由节点集合V和边集合E组成，E是V×V的子集。可得知节点V_i的得分公式为：

具体地，将文本中的每个词语作为上述公式中的节点，对文本中的每个句子进行分词和词性标注处理，只保留指定词性的词语(例如：名词、动词、形容词)。构建候选关键词图G＝(V，E)，其中V由保留的指定词性的词语组成，然后采用共现关系(Co-Occurrence)构造任意两个词语之间的边，两个词语之间存在边，仅当这两个的词语在长度为K的窗口中共现，K表示窗口大小。根据上述公式，将节点之间边的权重的初值设为“1”，迭代传播权重计算各指定性词语的得分，将计算出的指定性词语的得分从大到小排序，可选取得分排前十的词语作为关键词。还可以利用投票的原理，将边作为词语之间的互相投票，经过不断迭代，每个词语的得票数会趋于稳定，然后对词语的得票数由大到小排序，可选取得票数排前六的词语作为关键词，将得到的关键词在原始文本中进行标记，若形成相邻词组则组合成多词关键词。

之后，根据得到的关键词及每个发言者对应文本信息生成初始会议记录，再根据自然语言处理(Natural Language Processing，NLP)技术对初始会议记录进行进一步处理，以生成语义更通顺的会议记录。其中，会议记录的文本格式可以为txt、word、pdf等，基于NLP自然语言处理技术建立的NLP分析引擎可以预先搜集并存储有大量的真实语料，从而可以实现对会议记录中的字词中有瑕疵或不规范的语言行为进行修订，然后将会议记录以邮件的形式发送给参会人员。

在另一实施例中，可以采用TF-IDF算法提取关键词。预先统计在文本中出现的所有词的词频,计算出IDF值，然后再对要提取关键词的文章或句子的每个词计算出TF值。其中，TF＝(词语在文章中出现次数)/(文章总词数)，将IDF值与TF值相乘，得到TF-ID值，TF-ID值可以评估字词对于发言文本中的重要程度，TF-ID值越大表示作为关键词的优先级越高。在进行TF-IDF计算时，通过对词频(TF)与逆文档频率(IDF)得出某个字词的TF-IDF值，若TF-IDF值越大，该字词对发言文本的重要性越高。因此可以将TF-IDF值排在最前面的几个字词作为该发言文本的关键词。例如，将TF-IDF值排在前五的字词作为该发言文本的关键词。

参照图3所示，是本发明会议记录生成方法较佳实施例的流程图。

步骤S10：实时获取每一发言者的语音信息，将所述语音信息转换成文本信息并存储于数据库；

之后，将获取的会议中各个发言者的语音信息输入到预设的动态时间归整模型(Dynamic Time Warping,DTW)中，得到各个发言者的语音信息对应的文本信息。具体的，针对获取的语音信息，可从该语音信息中提取出指定参数，并将这些参数作为预设的DTW模型的输入参数进行输入，而预设的DTW模型则可根据该输入参数，输出该语音信息对应的文本信息。需要说明的是，可将语音信息转换为文本信息的模型除DTW模型外，也可以是其他的语音识别模型，例如：BLSTM模型或LSTM模型。而DTW模型在对语音信息实施转换之前，通常都需要大量的训练样本进行训练，因此，在本实施例中，可预先对该DTW模型进行训练，具体的训练过程包括：预先采集预设数量的语音样本信息以及每个语音样本信息对应的文本样本信息，然后针对每个语音样本信息，将该语音样本信息输入到该预设的DTW模型中，并通过该DTW模型得到该语音样本信息对应的文本信息，在得到该语音样本信息对应的文本信息后，可将该文本信息与该语音信息对应的文本样本信息进行比对，并根据比对的结果，对该DTW模型进行调整。经大量语音样本信息训练后的DTW模型可准确的将语音信息转换为相应的文本信息，进而为后续的会议记录生成工作提供服务。其中，文本格式可以为txt、word、pdf等。

步骤S20：根据所述语音信息及预设识别规则对发言者身份信息进行识别，对已识别出身份信息的发言者设置不同的ID编号，建立所述ID编号与所述文本信息的映射关系。

在本实施例中，首先建立发言者的身份索引表，在该身份索引表中存储了预先注册的特征参数与发言者的标识的对应关系。其中，特征参数可以是发言者语音信息中的语调或音频。当要对发言者的身份进行识别时，从发言者的语音信息中获取该发言者语音信息的特征参数，根据该特征参数在预先注册的身份索引表中查找与该特征参数对应的标识，从而确定出发言者的标识，由此标识即可识别出发言者的身份。如果在身份索引表中没有查找到与特征参数对应的标识，则根据该特征参数生成该发言者标识，并将该特征参数与该标识的对应关系存储在身份索引表中。

识别出发言者的身份之后，为发言者设置对应的ID编号，并将该ID编号与发言者语音信息转换的文本信息建立映射关系。

在另一施例中，对语音信息发言者的身份进行识别，还可以采用隐马尔科夫模型(Hidden Markov Model，HMM)，具体的，针对获取的语音信息，可从该语音信息中提取出指定参数，并将这些参数作为预设的HMM模型的输入参数进行输入，而预设的HMM模型可根据该输入参数，输出该语音信息对应发言者身份信息。

步骤S30：利用预设第一算法计算出所述文本信息中所有词语的得分，根据所述得分确定所述文本信息的关键词，基于所述关键词及所述映射关系利用预设第二算法生成会议记录，并将所述会议记录以邮件形式发送给预设用户。

所述预设第一算法的公式为：

在本实施例中，可以采用Text Rank算法提取每一发言者的语音信息对应文本的关键词，Text Rank算法是一种用于文本的基于图的排序算法。其基本思想来源于PageRank算法,通过把文本分割成若干组成单元(例如：单词、句子)并建立图模型,对文本中的重要的词语进行排序,利用文本本身的信息即可实现关键词提取。将TextRank算法表示为一个有向有权图G＝(V,E),由点集合V和边集合E组成，E是V×V的子集。点V_i的得分公式为：

此外，本发明实施例还提出一种计算机可读存储介质，该计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括会议记录生成程序10，所述会议记录生成程序10被处理器执行时实现如下操作：

本发明之计算机可读存储介质的具体实施方式与上述会议记录生成方法的具体实施方式大致相同，在此不再赘述。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，电子装置，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种会议记录生成方法，应用于电子装置，其特征在于，所述方法包括：

2.如权利要求1所述的会议记录生成方法，其特征在于，所述转换步骤包括：将所述语音信息输入到预设的动态时间归整模型中，得到每一发言者语音信息对应的文本信息。

3.如权利要求1所述的会议记录生成方法，其特征在于，所述映射步骤包括：获取每一发言者语音信息的特征参数，根据该特征参数在预先注册的身份索引表中查找与该特征参数对应的标识，根据所述标识识别出发言者的身份信息。

4.如权利要求1所述的会议记录生成方法，其特征在于，所述生成步骤包括：将所述得分由大到小排序，选取排序靠前的预设数量的词语作为所述关键词。

5.如权利要求1至4任意一项所述的会议记录生成方法，其特征在于，所述生成步骤包括：根据所述关键词及映射关系生成初始会议记录，利用自然语言算法对所述初始会议记录进行处理得到最终会议记录。

6.一种电子装置，该电子装置包括存储器及处理器，其特征在于，所述存储器上存储会议记录生成程序，所述会议记录生成程序被所述处理器执行，实现如下步骤：

7.如权利要求6所述的电子装置，其特征在于，所述转换步骤包括：将所述语音信息输入到预设的动态时间归整模型中，得到每一发言者语音信息对应的文本信息。

8.如权利要求6所述的电子装置，其特征在于，所述映射步骤包括：获取每一发言者语音信息的特征参数，根据该特征参数在预先注册的身份索引表中查找与该特征参数对应的标识，根据所述标识识别出发言者的身份信息。

9.如权利要求6所述的电子装置，其特征在于，所述生成步骤包括：将所述得分由大到小排序，选取排序靠前的预设数量的词语作为所述关键词。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括会议记录生成程序，所述会议记录生成程序被处理器执行时，可实现如权利要求1至5中任一项所述会议记录生成方法的步骤。