CN109473103A

CN109473103A - 一种会议纪要生成方法

Info

Publication number: CN109473103A
Application number: CN201811366154.7A
Authority: CN
Inventors: 梅琳
Original assignee: Shanghai Jiuyue Digital Technology Co Ltd
Current assignee: Miaozhen Systems Information Technology Co Ltd
Priority date: 2018-11-16
Filing date: 2018-11-16
Publication date: 2019-03-15

Abstract

本发明实施例涉及通信技术领域，公开了一种会议纪要生成方法。本发明中，会议纪要生成方法包括以下步骤：获取多个语音录制终端录制的语音文件，为每个语音录制终端录制的所述语音文件添加不同于其他语音录制终端的标识信息；获取预先存储的会议纪要模板，所述会议纪要模板包括待填写栏位；从每个所述语音文件中提取与所述待填写栏位对应的待填写内容；将所述标识信息和所述待填写内容填入所述待填写栏位中，生成会议纪要。本发明提供的会议纪要生成方法，能够提高会议纪要的输出效率。

Description

一种会议纪要生成方法

技术领域

本发明实施例涉及通信技术领域，特别涉及一种会议纪要生成方法。

背景技术

会议纪要是用于记录会议要点、以便于存档和传递会议信息的重要手段，随着信息时代的到来，会议纪要被越来越多的企业重视。比较传统的实现会议纪要的方式就是安排书记员进行会议过程的记录，比较依赖于书记员的专注力，书记员开小差会出现漏记的现象。随着科技的发展，涌现出了录音笔、拾音器等产品帮助记录会议的录音，而后通过对录音的回放进行关键点的人工提炼，解决了会议纪要漏记的情况。

发明人发现现有技术中至少存在如下问题：录音笔、拾音器等产品仅仅是进行录音，仍然需要人根据录音的回放，手动整理出会议纪要，会议纪要的输出效率不高。

发明内容

本发明实施方式的目的在于提供一种会议纪要生成方法，能够提高会议纪要的输出效率。

为解决上述技术问题，本发明的实施方式提供了一种会议纪要生成方法，包括：获取多个语音录制终端录制的语音文件，为每个语音录制终端录制的所述语音文件添加不同于其他语音录制终端的标识信息；获取预先存储的会议纪要模板，所述会议纪要模板包括待填写栏位；从每个所述语音文件中提取与所述待填写栏位对应的待填写内容；将所述标识信息和所述待填写内容填入所述待填写栏位中，生成会议纪要。

本发明实施方式相对于现有技术而言，通过获取多个语音录制终端录制的语音文件，为每个语音录制终端录制的所述语音文件添加不同于其他语音录制终端的标识信息，为不同与会人员配备不同语音录制终端后，可以通过标识信息实现不同声音来源的区分，通过从每个所述语音文件中提取与所述待填写栏位对应的待填写内容，从而实现了语音文件中关键点的自动提炼，通过将所述标识信息和所述待填写内容填入所述待填写栏位中，实现了将语音文件中的重点内容及对应的来源填入会议纪要模板中的自动操作，即会议纪要的自动生成，提高了会议纪要的输出效率。

另外，所述语音文件包含语音录制的时间，所述将所述标识信息和所述待填写内容填入所述的待填写栏位中，具体包括：根据所述时间对所述待填写内容排列顺序；将所述待填写内容、以及与所述待填写内容对应的所述标识信息依照所述顺序填入所述的待填写栏位中。如此设置，能够将所述待填写内容按照实际会议过程中的事件发生顺序填写到所述待填写栏位中，使得会议纪要的内容更加真实地反应会议过程，便于后续的对所述会议纪要的查阅和理解。

另外，所述从每个所述语音文件中提取与所述待填写栏位对应的待填写内容，具体包括：将所述语音文件转换为文本文件；从所述会议纪要模板中提取待填写栏位的标题信息；从所述文本文件中提取与所述标题信息对应的待填写内容。如此设置，使得该方法的内容提取操作能够以标题信息为依据，当不同会纪要模板中待填写栏位的标题信息不同时，该方法能够从不同的会议纪要模板中准确的辨别出需要提取的待填写内容，生成与所述会议纪要模板匹配的会议纪要，从而能够适用于不同的会议纪要模板，提高了会议纪要模板的灵活性。

另外，从所述文本文件中提取与所述标题信息对应的待填写内容，具体为：对所述文本文件进行分词处理，得到预处理文件；计算所述预处理文件中的词的权重以及词与词之间的关联性；根据词的权重以及词与词之间的关联性，对所述预处理文件中的词进行分类或聚类处理；从分类或聚类处理后的词中获取与所述标题信息对应的待填写内容。

另外，所述计算所述预处理文件中的词的权重以及词与词之间的关联性，具体包括：标注所述预处理文件中词的词性；删除所述预处理文件中的停顿词；计算删除停顿词之后的所述预处理文件中的词的权重以及词与词之间的关联性。通过删除所述文本文件中没有实际意义的停顿词，缩短了所述文本本件的长度，从而提高了后续文本处理的效率。

另外，所述计算删除停顿词之后的所述预处理文件中的词的权重以及词与词之间的关联性，具体包括：根据TF-IDF算法计算删除停顿词之后的所述预处理文件中的预设词性的词的权重；根据PMI算法计算删除停顿词之后的所述预处理文件中的预设词性的词之间的关联性。

另外，所述从每个所述语音文件中提取与所述待填写栏位对应的待填写内容之前，还包括：对所述语音文件进行语音活动检测；所述从每个所述语音文件中提取与所述待填写栏位对应的待填写内容，具体为；将从每个语音活动检测后的语音文件中提取与所述待填写栏位对应的待填写内容。如此设置，能够从所述语音文件中识别和消除长时间的静音期，从而提高所述语音文件的识别率。

另外，所述从每个所述语音文件中提取与所述待填写栏位对应的待填写内容之前，还包括：对所述语音文件进行降噪处理；所述从每个所述语音文件中提取与所述待填写栏位对应的待填写内容，具体为：从降噪处理后的每个所述语音文件中提取与所述待填写栏位对应的待填写内容。如此设置，能够消除所述语音文件中的杂音，从而提高所述语音文件的识别率。

另外，所述标识信息为用于登录所述语音录制终端以录制所述语音文件的登录信息。通过将登录所述语音录制终端的登录信息作为识别信息，只需将所述语音录制终端临时配备给与会人员使用、而无需每人配备一个专用的所述语音录制终端，实现所述语音录制终端的通用，节省了成本。

另外，所述标识信息为录制所述语音文件的所述语音录制终端的设备识别码。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是本发明第一实施方式提供的会议纪要生成方法的流程图；

图2是图1所示步骤S3的子步骤流程图；

图3是图2所示步骤S33的子步骤流程图；

图4是本发明第二实施方式提供的会议纪要生成方法的流程图

图5是本发明第三实施方式提供的服务器的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本发明而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本发明所要求保护的技术方案。

本发明的第一实施方式涉及一种会议纪要生成方法，如图1、图2、图3所示，包括以下步骤：

S11:获取多个语音录制终端录制的语音文件，为每个语音录制终端录制的所述语音文件添加不同于其他语音录制终端的标识信息。

具体的说，在本步骤中，利用一个带有识别码(条形码、二维码等)的语音设备，使用手机等移动终端扫描该识别码，当所述识别码识别成功时，移动终端跳转至用户登陆界面，用户输入用于登录该系统的账号或授权第三方账号登录(例如，使用微信登录)，当登录成功时，发送信息至语音设备以触发语音设备开始录制语音文件。

可选的，本实施方式中，通过将所述标识信息加入所述语音文件的文件名、以实现为每个语音录制终端录制的所述语音文件添加不同于其他语音录制终端的标识信息，如此设置，简单便捷，可执行性强。

本实施方式中，所述标识信息为用于登录所述语音录制终端以录制所述语音文件的登录信息，进一步的，登录信息可以为用户登录账号、用户姓名等，即标识信息可以为用户登录账号、用户姓名等，通过将登录所述语音录制终端的登录信息作为识别信息，只需将所述语音录制终端临时配备给与会人员使用进行临时绑定、而无需每人配备一个专用的所述语音录制终端，实现所述语音录制终端的通用，节省了成本。

可以理解的是，所述标识信息也可以为录制所述语音文件的所述语音录制终端的设备识别码，具体的说，一人(多人)配备一个专用的语音录制设备，并事先获取用户与设备之间的对应关系，从而通过设备识别码来表征用户身份。当然，标识信息也可以为其他的信息，只要能表征用户身份即可。

S12:获取预先存储的会议纪要模板，所述会议纪要模板包括待填写栏位。

具体的说，在本步骤中，会议纪要模板为表格的形式，且会议纪要模板包括待填写栏位、以及待填写栏位的标题信息，标题信息可以为待填写栏位对应的行或列的表头、或者是待填写栏位的属性(例如：设置成“日期”，则该待填写栏位只能填入日期，不能填写其他内容)。

S13:从每个所述语音文件中提取与所述待填写栏位对应的待填写内容。

具体的说，步骤S3具体包括以下子步骤：

S131：将所述语音文件转换为文本文件。

具体的说，在本步骤中，利用ASR技术即自动语音识别技术，将语音文件中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列，生成文本文件。

S132：从所述会议纪要模板中提取待填写栏位的标题信息。

具体的说，在本步骤中，标题信息对应后续将会在文本文件中提取的内容，例如，当所述标题信息为“姓名”，则待填写栏位应该填写“张三、李四”等姓名，所以，在文本文件中就会提取“姓名”相关的内容，当所述标题信息为“主题”，则待填写栏位应该填写本次会议的主题的具体内容，则在文本文件中就会提取与“主题”相关的内容，标题信息还可以为“议题、遗留问题”等，通过从所述会议纪要模板中提取待填写栏位的标题信息，使得该方法的内容提取操作能够以标题信息为依据，当不同会纪要模板中待填写栏位的标题信息不同时，该方法能够从不同的会议纪要模板中准确的辨别出需要提取的待填写内容，生成与所述会议纪要模板匹配的会议纪要，从而能够适用于不同的会议纪要模板(会议纪要模板的格式、内容均可以改变)，提高了会议纪要模板的灵活性，便于后续对会议纪要模板的改进。

S133：从所述文本文件中提取与所述标题信息对应的待填写内容。

具体的说，步骤S33具体包括以下子步骤：

S1331：对所述文本文件进行分词处理，得到预处理文件。

具体的说，在本步骤中，分词处理就是搜索引擎针对用户提交查询的关键词串进行的查询处理后、根据用户的关键词串用各种匹配方法进行分词的一种技术，主要分为字符串匹配的分词方法、词义分词法以及统计分词法。

S1332：计算所述预处理文件中的词的权重以及词与词之间的关联性；

具体的说，在本步骤中，首先，标注所述预处理文件中词的词性，例如名词、形容词、停顿词、语气词、连接词等，接着，删除所述预处理文件中的停顿词，计算删除停顿词之后的所述预处理文件中的词的权重以及词与词之间的关联性，本实施方式中，根据TF-IDF算法计算删除停顿词之后的所述预处理文件中的预设词性的词的权重；根据PMI算法计算删除停顿词之后的所述预处理文件中的预设词性的词之间的关联性。

其中，TF-IDF算法是一种用于信息检索与数据挖掘的常用加权技术，TF意思是词频，IDF意思是逆文本频率指数，它是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度，字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

可以理解的是，也可以删除所述预处理文件中的其他没有实际意义的词，例如，语气词等，当然，也可以不删除所述预处理文件中的词、直接计算所述预处理文件中的词的权重以及词与词之间的关联性。

S1333：根据词的权重以及词与词之间的关联性，对所述预处理文件中的词进行分类或聚类处理。

具体的说，在本步骤中，聚类为将物理或抽象对象的集合分成由类似的对象组成的多个类的过程，由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异；分类是指按照种类、等级或性质分别归类。本实施方式为先定义几个类别，对所述预处理文件中的词进行分类，没有被分到这几个类别的中的词再进行聚类，从而提高词的分类聚类效率。当然，也可以对所述预处理文件中的词只进行分类、或只进行聚类。

S1334：从分类或聚类处理后的词中获取与所述标题信息对应的待填写内容。

S14:将所述标识信息和所述待填写内容填入所述待填写栏位中，生成会议纪要。

具体的说，在本步骤中，根据所述时间对所述待填写内容排列顺序，将所述待填写内容、以及与所述待填写内容对应的所述标识信息依照所述顺序填入所述的待填写栏位中，如此设置，能够将所述待填写内容按照实际会议过程中的事件发生顺序填写到所述待填写栏位中，使得会议纪要的内容更加真实地反应会议过程，便于后续的对所述会议纪要的查阅和理解。

本发明实施方式相对于现有技术而言，通过获取多个语音录制终端录制的语音文件，为每个语音录制终端录制的所述语音文件添加不同于其他语音录制终端的标识信息，为不同与会人员配备不同语音录制终端后，可以通过标识信息实现不同声音来源的区分，通过从每个所述语音文件中提取与所述待填写栏位对应的待填写内容，从而实现了语音文件中关键点的自动提炼，通过将所述标识信息和所述待填写内容填入所述待填写栏位中，实现了将语音文件中的重点内容及对应的来源填入会议纪要模板中的自动操作，即会议纪要的自动生成，提高了会议纪要的输出效率，并且，避免了通过人工记录会纪要时的主观因素，提高了会议纪要的准确性。

本发明的第二实施方式涉及一种会议纪要生成方法。第二实施方式与第一实施方式大致相同，主要区别之处在于：在本发明第二实施方式中，所述从每个所述语音文件中提取与所述待填写栏位对应的待填写内容之前，还包括：对所述语音文件进行语音活动检测；所述从每个所述语音文件中提取与所述待填写栏位对应的待填写内容，具体为；将从每个语音活动检测后的语音文件中提取与所述待填写栏位对应的待填写内容，如此设置，能够从所述语音文件中识别和消除长时间的静音期，从而提高所述语音文件的识别率。

可选的，所述从每个所述语音文件中提取与所述待填写栏位对应的待填写内容之前，还包括：对所述语音文件进行降噪处理；所述从每个所述语音文件中提取与所述待填写栏位对应的待填写内容，具体为：从降噪处理后的每个所述语音文件中提取与所述待填写栏位对应的待填写内容。如此设置，能够消除所述语音文件中的杂音，从而提高所述语音文件的识别率。

具体的说，本实施方式提供的会议纪要生成方法，如图4所示，包括以下步骤：

S21:获取多个语音录制终端录制的语音文件，为每个所述语音文件添加标识信息。

S22:获取预先存储的会议纪要模板，所述会议纪要模板包括待填写栏位。

S23:对所述语音文件进行降噪处理。

具体的说，在本步骤中，通过对所述语音文件进行降噪处理，从而消除所述所述语音文件中的杂音，从而提高所述语音文件的识别率。

S24:对所述语音文件进行语音活动检测。

具体的说，在本步骤中，语音活动检测又称语音端点检测、语音边界检测，其目的是从声音信号流里识别和消除长时间的静音期，也就是说，通过对所述语音文件进行语音活动检测，消去了所述语音文件中没有录到声音的部分(静音期)，从而降低了语音编码速率、节省了通信带宽、减少移动设备能耗、提高识别率的作用。

S25:从每个所述语音文件中提取与所述待填写栏位对应的待填写内容。

S26:将所述标识信息和所述待填写内容填入所述待填写栏位中，生成会议纪要。

本实施方式中的步骤S21、S22、S25、S526与第一实施方式中的步骤S11、S12、S13、S14类似，为了避免重复，此处不再赘述。

值得一提的是，本实施方式中的步骤S22与步骤S23、S24之间没有固定的先后顺序，均可以达到类似的技术效果。本实施方式中，步骤S23在步骤S24之前，通过先进行降噪处理，从而能够提高后续的语音活动检测的准确性，进而提高会议纪要的质量。

本发明实施方式相对于现有技术而言，通过获取多个语音录制终端录制的语音文件，为每个语音录制终端录制的所述语音文件添加不同于其他语音录制终端的标识信息，为不同与会人员配备不同语音录制终端后，可以通过标识信息实现不同声音来源的区分，通过从每个所述语音文件中提取与所述待填写栏位对应的待填写内容，从而实现了语音文件中关键点的自动提炼，通过将所述标识信息和所述待填写内容填入所述待填写栏位中，实现了将语音文件中的重点内容及对应的来源填入会议纪要模板中的自动操作，即会议纪要的自动生成，提高了会议纪要的输出效率，并且，避免了通过人工记录会纪要时的主观因素，提高了会议纪要的准确性；同时，通过对所述语音文件进行语音活动检测，从所述语音文件中识别和消除长时间的静音期，从而提高了所述语音文件的识别率；另外，通过对所述语音文件进行降噪处理，消除所述语音文件中的杂音，从而提高了所述语音文件的识别率。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第三实施方式涉及一种服务器，如图5所示，包括：

至少一个处理器301；以及，

与至少一个处理器301通信连接的存储器302；其中，

存储器302存储有可被至少一个处理器301执行的指令，指令被至少一个处理器301执行，以使至少一个处理器301能够执行会议纪要生成方法。

其中，存储器302和处理器301采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器301和存储器302的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器301处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器301。

处理器301负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器302可以被用于存储处理器301在执行操作时所使用的数据。

本发明第四实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种会议纪要生成方法，其特征在于，包括：

获取多个语音录制终端录制的语音文件，为每个语音录制终端录制的所述语音文件添加不同于其他语音录制终端的标识信息；

获取预先存储的会议纪要模板，所述会议纪要模板包括待填写栏位；

从每个所述语音文件中提取与所述待填写栏位对应的待填写内容；

将所述标识信息和所述待填写内容填入所述待填写栏位中，生成会议纪要。

2.根据权利要求1所述的会议纪要生成方法，其特征在于，所述语音文件包含语音录制的时间，所述将所述标识信息和所述待填写内容填入所述的待填写栏位中，具体包括：

根据所述时间对所述待填写内容排列顺序；

将所述待填写内容、以及与所述待填写内容对应的所述标识信息依照所述顺序填入所述的待填写栏位中。

3.根据权利要求1所述的会议纪要生成方法，其特征在于，所述从每个所述语音文件中提取与所述待填写栏位对应的待填写内容，具体包括：

将所述语音文件转换为文本文件；

从所述会议纪要模板中提取待填写栏位的标题信息；

从所述文本文件中提取与所述标题信息对应的待填写内容。

4.根据权利要求3所述的会议纪要生成方法，其特征在于，从所述文本文件中提取与所述标题信息对应的待填写内容，具体为：

对所述文本文件进行分词处理，得到预处理文件；

计算所述预处理文件中的词的权重以及词与词之间的关联性；

根据词的权重以及词与词之间的关联性，对所述预处理文件中的词进行分类或聚类处理；

从分类或聚类处理后的词中获取与所述标题信息对应的待填写内容。

5.根据权利要求4所述的会议纪要生成方法，其特征在于，所述计算所述预处理文件中的词的权重以及词与词之间的关联性，具体包括：

标注所述预处理文件中词的词性；

删除所述预处理文件中的停顿词；

计算删除停顿词之后的所述预处理文件中的词的权重以及词与词之间的关联性。

6.根据权利要求5所述的会议纪要生成方法，其特征在于，所述计算删除停顿词之后的所述预处理文件中的词的权重以及词与词之间的关联性，具体包括：

根据TF-IDF算法计算删除停顿词之后的所述预处理文件中的预设词性的词的权重；

根据PMI算法计算删除停顿词之后的所述预处理文件中的预设词性的词之间的关联性。

7.根据权利要求3所述的会议纪要生成方法，其特征在于，所述从每个所述语音文件中提取与所述待填写栏位对应的待填写内容之前，还包括：

对所述语音文件进行语音活动检测；

所述从每个所述语音文件中提取与所述待填写栏位对应的待填写内容，具体为；

将从每个语音活动检测后的语音文件中提取与所述待填写栏位对应的待填写内容。

8.根据权利要求1所述的会议纪要生成方法，其特征在于，所述从每个所述语音文件中提取与所述待填写栏位对应的待填写内容之前，还包括：

对所述语音文件进行降噪处理；

所述从每个所述语音文件中提取与所述待填写栏位对应的待填写内容，具体为：

从降噪处理后的每个所述语音文件中提取与所述待填写栏位对应的待填写内容。

9.根据权利要求1所述的会议纪要生成方法，其特征在于，所述标识信息为用于登录所述语音录制终端以录制所述语音文件的登录信息。

10.根据权利要求1所述的会议纪要生成方法，其特征在于，所述标识信息为录制所述语音文件的所述语音录制终端的设备识别码。