CN115270728A

CN115270728A - 会议记录处理方法、装置、设备及存储介质

Info

Publication number: CN115270728A
Application number: CN202210698112.3A
Authority: CN
Inventors: 刘嘉庆; 邓憧
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2022-06-20
Filing date: 2022-06-20
Publication date: 2022-11-01
Also published as: WO2023246719A1

Abstract

本公开涉及一种会议记录处理方法、装置、设备及存储介质。本公开通过获取会议记录中待处理的目标句子，并采用训练完成的机器学习模型至少对目标句子进行编码，得到目标句子的表示向量。根据目标句子的表示向量，确定目标句子中包括行动项的概率值，若根据概率值确定目标句子中包括行动项，则获取行动项的相关要素，相关要素用于辅助用户跟进待办事项、整理会议纪要。通过机器学习模型可以自动识别会议记录中包括行动项的目标句子，通过部署有该机器学习模型的电子设备可以自动获取行动项的相关要素，从而辅助用户跟进待办事项、整理会议纪要。节省了从会议记录到会议纪要的人工整理过程，提高了从会议记录到会议纪要的转换效率和人工成本。

Description

会议记录处理方法、装置、设备及存储介质

技术领域

本公开涉及信息技术领域，尤其涉及一种会议记录处理方法、装置、设备及存储介质。

背景技术

随着科技的不断发展，在自动语音识别(AutomaticSpeechRecognition，ASR)技术的支持下，可以将会议中的语音自动的识别为文本，从而得到会议记录。在会议记录的基础上，可以进一步整理出会议纪要。例如，从会议记录中整理出议题、结论、问题、任务等信息，根据这些信息生成会议纪要。

但是，本申请的发明人发现，从会议记录到会议纪要的整理过程通常是人工整理的，从而费时费力。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种会议记录处理方法、装置、设备及存储介质，以提高从会议记录到会议纪要的转换效率。

第一方面，本公开实施例提供一种会议记录处理方法，包括：

获取会议记录中待处理的目标句子；

采用训练完成的机器学习模型至少对所述目标句子进行编码，得到所述目标句子的表示向量；

根据所述目标句子的表示向量，确定所述目标句子中包括行动项的概率值；

若根据所述概率值确定所述目标句子中包括行动项，则获取所述行动项的相关要素，所述相关要素用于辅助用户跟进待办事项、整理会议纪要。

第二方面，本公开实施例提供一种会议记录处理装置，包括：

第一获取模块，用于获取会议记录中待处理的目标句子；

编码模块，用于采用训练完成的机器学习模型至少对所述目标句子进行编码，得到所述目标句子的表示向量；

确定模块，用于根据所述目标句子的表示向量，确定所述目标句子中包括行动项的概率值；

第二获取模块，用于在根据所述概率值确定所述目标句子中包括行动项的情况下，获取所述行动项的相关要素，所述相关要素用于辅助用户跟进待办事项、整理会议纪要。

第三方面，本公开实施例提供一种电子设备，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面所述的方法。

第四方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现第一方面所述的方法。

本公开实施例提供的会议记录处理方法、装置、设备及存储介质，通过获取会议记录中待处理的目标句子，并采用训练完成的机器学习模型至少对所述目标句子进行编码，得到所述目标句子的表示向量。进一步根据所述目标句子的表示向量，确定所述目标句子中包括行动项的概率值，若根据所述概率值确定所述目标句子中包括行动项，则获取所述行动项的相关要素，所述相关要素用于辅助用户跟进待办事项、整理会议纪要。也就是说，通过机器学习模型可以自动识别会议记录中包括行动项的目标句子，通过部署有该机器学习模型的电子设备或其他电子设备可以自动获取行动项的相关要素，从而辅助用户跟进待办事项、整理会议纪要。节省了从会议记录到会议纪要的人工整理过程，提高了从会议记录到会议纪要的转换效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的会议记录处理方法流程图；

图2为本公开实施例提供的应用场景的示意图；

图3为本公开实施例提供的机器学习模型的训练过程的示意图；

图4为本公开另一实施例提供的会议记录处理方法流程图；

图5为本公开另一实施例提供的会议记录处理方法流程图；

图6为本公开另一实施例提供的会议记录处理方法流程图；

图7为本公开另一实施例提供的会议记录处理方法流程图；

图8为本公开另一实施例提供的会议记录处理方法流程图；

图9为本公开另一实施例提供的会议记录处理方法流程图；

图10为本公开实施例提供的会议记录处理装置的结构示意图；

图11为本公开实施例提供的电子设备实施例的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

通常情况下，在自动语音识别(AutomaticSpeechRecognition，ASR)技术的支持下，可以将会议中的语音自动的识别为文本，从而得到会议记录。在会议记录的基础上，可以进一步整理出会议纪要。例如，从会议记录中整理出议题、结论、问题、任务等信息，根据这些信息生成会议纪要。但是，目前从会议记录到会议纪要的整理过程通常是人工整理的，从而费时费力。针对该问题，本公开实施例提供了一种会议记录处理方法，下面结合具体的实施例对该方法进行介绍。

图1为本公开实施例提供的会议记录处理方法流程图。该方法可以由会议记录处理装置执行，该装置可以采用软件和/或硬件的方式实现，该装置可配置于电子设备中，例如服务器或终端，其中，终端具体包括手机、电脑或平板电脑等。另外，本公开实施例提供的会议记录处理方法可以适用于图2所示的应用场景，该应用场景中包括终端21和服务器22。其中，终端21可以是用户参加线上会议时使用的终端，或者该终端21可以是用户参加线下会议时携带的终端，或者该终端21可以是线下会议室中的终端。具体的，终端21可以采集会议音频，并采用ASR技术将该会议音频转换为会议记录。进一步，终端21可以将会议记录发送给服务器22，服务器22可以采用本实施例所述的方法从会议记录中识别出包括行动项的句子，包括行动项的句子用于辅助用户跟进待办事项、整理会议纪要。或者，终端21可以采用本实施例所述的方法从会议记录中识别出包括行动项的句子。对工作会议来说，会议纪要是重要的文本总结和沉淀产物，对于会后执行效率的提升有着重要影响。另外，采用ASR技术将该会议音频转换为会议记录的过程不限于在终端21上执行，例如，终端21还可以将其采集到的会议音频发送给服务器22，使得服务器22采用ASR技术将该会议音频转换为会议记录。下面以服务器22执行本实施例所述的方法为例进行示意性说明。如图1所示，该方法具体步骤如下：

S101、获取会议记录中待处理的目标句子。

例如，终端21将会议记录发送给服务器22，服务器22从会议记录中获取待处理的目标句子。该目标句子可以是该会议记录中的任意一个句子。或者，该目标句子可以是该会议记录中满足一定条件的句子。

S102、采用训练完成的机器学习模型至少对所述目标句子进行编码，得到所述目标句子的表示向量。

例如，服务器22上可以部署有训练完成的机器学习模型，该机器学习模型可以包括已完成训练的基于转换器的双向编码器表示(Bidirectional Encoder Representationfrom Transformers，BERT)模型或其他模型。具体的，服务器22可以采用BERT模型至少对该目标句子进行编码，从而得到该目标句子的表示向量。

S103、根据所述目标句子的表示向量，确定所述目标句子中包括行动项的概率值。

例如，该机器学习模型还可以包括全连接层，当服务器22获取到该目标句子的表示向量时，服务器22可以将该目标句子的表示向量输入到全连接层，全连接层可以输出两个概率值，其中一个概率值是该目标句子中包括行动项的概率值，另一个概率值是该目标句子中不包括行动项的概率值，这两个概率值的和是1。

S104、若根据所述概率值确定所述目标句子中包括行动项，则获取所述行动项的相关要素，所述相关要素用于辅助用户跟进待办事项、整理会议纪要。

具体的，服务器22可以根据该目标句子中包括行动项的概率值，确定该目标句子是否包括行动项。例如，若该目标句子中包括行动项的概率值大于该目标句子中不包括行动项的概率值，或者该目标句子中包括行动项的概率值大于某一阈值，则可以确定该目标句子中包括行动项。当服务器22确定该目标句子中包括行动项时，可以进一步获取该行动项的相关要素，该相关要素可以包括该行动项对应的人物、时间、内容等信息。该相关要素用于辅助用户跟进待办事项、整理会议纪要。可以理解的是，该会议纪要中不仅包括行动项的相关要素，还可以包括会议议题、会议结论、会议中讨论的问题等信息。其中，行动项是指会议之后、由会议相关方执行的具体行动的事项。会议的行动项，往往需要整理在会议纪要中，例如记录在诸如下一步行动、后续行动、后续待办等条目下面，或者整理到对应负责人的待办列表中，作为会后的待办事项进行执行、跟进和反馈。行动项比如可以是“我今天晚上回去统计一下”、“接下来我们需要出一版报告”等。对于工作会议来说，行动项是必要而重要的，因此本实施例选择行动项的识别作为切入点。一方面，行动项是工作会议纪要的必需内容。工作会议经常涉及到信息分享、问题解决、计划制定、任务安排等内容，而行动项都隐含在里面，比如建议和解决方法的落实，计划和任务行动的执行等等。另一方面，行动项是提高会后执行效率的关键内容。行动项识别之后，可以打通会后行动项创建、安排、通知、同步和检查整个流程。通过对后续行动的跟进，会议纪要不只是会议的文字记录，而且还可以辅助完善会后管理平台，极大地推动会后执行效率的提高。因此，选择行动项作为切入点，既可以辅助会议纪要整理，又能提高会后执行效率。另外，会议纪要中其他内容的识别过程可以参照行动项的识别过程，具体不再赘述。

本公开实施例通过获取会议记录中待处理的目标句子，并采用训练完成的机器学习模型至少对所述目标句子进行编码，得到所述目标句子的表示向量。进一步根据所述目标句子的表示向量，确定所述目标句子中包括行动项的概率值，若根据所述概率值确定所述目标句子中包括行动项，则获取所述行动项的相关要素，所述相关要素用于辅助用户跟进待办事项、整理会议纪要。也就是说，通过机器学习模型可以自动识别会议记录中包括行动项的目标句子，通过部署有该机器学习模型的电子设备或其他电子设备可以自动获取行动项的相关要素，从而辅助用户跟进待办事项、整理会议纪要。节省了从会议记录到会议纪要的人工整理过程，提高了从会议记录到会议纪要的转换效率。

在上述实施例的基础上，根据所述目标句子的表示向量，确定所述目标句子中包括行动项的概率值，包括：根据所述目标句子的表示向量和所述目标句子在所述会议记录中的位置信息，确定所述目标句子中包括行动项的概率值。

例如，当服务器22获取到该目标句子的表示向量时，服务器22可以将该目标句子的表示向量和该目标句子在该会议记录中的位置信息输入到全连接层，全连接层可以输出两个概率值，其中一个概率值是该目标句子中包括行动项的概率值，另一个概率值是该目标句子中不包括行动项的概率值，这两个概率值的和为1。

本实施例通过根据所述目标句子的表示向量和所述目标句子在所述会议记录中的位置信息，确定所述目标句子中包括行动项的概率值。由于输入到全连接层的信息的种类更多，例如，目标句子的表示向量和所述目标句子在所述会议记录中的位置信息，使得全连接层可以更加准确的计算出所述目标句子中包括行动项的概率值。

可以理解的是，如上述实施例所述的采用机器学习模型判断目标句子中是否包括行动项的过程是该机器学习模型的使用阶段或推理阶段。在使用阶段或推理阶段中，该机器学习模型可以判断会议记录中的每句话中是否包括行动项。在本公开实施例中，可以将行动项的识别看作是二分类任务，例如，该机器学习模型的输入可以是会议记录中的一个句子，该机器学习模型的输出是该句子中是否包括行动项的判断结果。此外，在其他一些实施例中，还可以将行动项的识别看作是多分类任务，得到的行动项的相关要素包括人物(例如负责人)、时间(例如时间限制)、内容(例如行动描述)、以及是否确认行动等。

另外，在该机器学习模型的使用阶段或推理阶段之前，还需要对该机器学习模型进行训练。在本公开实施例中，该机器学习模型可以经过三个训练阶段得到。其中，第一个训练阶段可以是预训练过程，该预训练过程中采用的样本数据是中文书面文本即可，可以不是会议记录或会议文本等数据。第二个训练阶段也是预训练过程，但是这个预训练过程所采用的样本数据是会议记录或会议文本等数据，也就是说，在该机器学习模型经过第一个训练阶段的预训练之后，可以采用会议记录或会议文本等数据对该机器学习模型进行继续预训练。在预训练过程中，样本数据可以是无标注的数据。例如，在预训练过程中，可以将样本数据中的某个或某些词掩蔽(mask)掉，以使该机器学习模型预测被mask掉的词，通过该机器学习模型预测的词和真实被mask掉的词，对该机器学习模型进行训练。可以理解的是，预训练过程不限于这一种训练方法，还可以有其他的训练方法，此处不再赘述。

在该机器学习模型经过第二个训练阶段的预训练之后，可以通过第三个训练阶段来对该机器学习模型进行较为精准的训练。第三个训练阶段中的样本数据是标注数据，例如，包括行动项的句子和不包括行动项的句子，其中，包括行动项的句子可以记为正例，不包括行动项的句子可以记为负例。此外，并不限定正例个数和负例个数之间的比例。在进行数据标注的过程中，为了保护数据的安全性和隐私性，可以将一个或多个会议记录中所有句子的顺序打乱，并去除打乱顺序后的每个句子中的人名、机构名等敏感信息，然后再对每个句子进行标注，标注结果用于表示该句子是否包括行动项。另外，由于绝大多数的正例都包括时间词和动作词，因此，在数据标注的过程中，可以仅保留包含时间词和动作词的句子用于人工标注，人工标注既有对正例的标注，也有对负例的标注，从而可以减少无用标注，降低了标注成本。另外，在数据标注的过程中，可以判断一句话是否涉及会后具体行动项，如果涉及，则标注为正例即待办，如果不涉及，则标注为负例即非待办。另外，考虑到标注过程中可能会存在主观性较强的问题，本实施例还可以设置疑似待办类别，从而反映一些模棱两可的状态。另外，本实施例还可以通过多种数据增强方式，扩充正例或负例的句子数量。例如，针对已标注出的正例或负例，通过同义词替换、随机交换两个词的位置、随机删除一个词、随机插入一个词等文本数据增强方式来扩充正例或负例的句子数量。此外，还可以基于预训练语言模型的文本生成、回译等方式来扩充正例或负例的句子数量。其中，通过MLM扩充句子数量的方法可以是基于预训练的掩码语言模型(Masked Language Model，MLM)，将一个正例或负例中的一个词mask掉，以使该MLM来预测被mask掉的词，假设MLM预测出5个词，那么分别将该5个词放回到真实被mask掉的那个词的位置，从而得到5个新的句子。回译的方式可以是基于已完成训练的机器翻译模型将中文翻译为其他外语语言例如英文，然后再从英文翻译为中文，此时的中文相比于原始的中文可能会发生变化，第二次翻译后得到的中文就可以作为一个扩充出来的句子。

具体的，在第三个训练阶段中，一个样本数据可以是一个被标注过的句子，此时，可以将某个样本数据输入到该机器学习模型中，以使该机器学习模型输出该样本数据中包括行动项的概率值和不包括行动项的概率值，进一步，根据该样本数据是正例或负例、以及该机器学习模型输出的两个概率值计算损失函数，并根据损失函数对该机器学习模型的参数进行更新。

或者，在第三个训练阶段中，一个样本数据可以是一个会议记录，该会议记录中的每句话的顺序是正常的顺序，即不被打乱。该会议记录中的每句话都已被标注为正例或负例。进一步，从该会议记录中随机选取一个句子作为当前句，并获取该当前句的前一句和后一句。将前一句、当前句、后一句一起作为该机器学习模型的输入，通过前一句和后一句可以提供该当前句的上下文的相关信息。该机器学习模型输出当前句中包括行动项的概率值和不包括行动项的概率值，进一步，根据该当前句是正例或负例、以及该机器学习模型输出的两个概率值计算损失函数，并根据损失函数对该机器学习模型的参数进行更新。在损失函数方面，本实施例可以通过聚焦损失(focalloss)来缓解样本不均衡的问题，通过标签平滑(labelsmoothing)减少标注错误的影响。另外，本实施例还可以采用不同的句子级别编码表示、阈值以及超参数，以期获得最优的模型表现。此外，将固定长度输入更新为可变长输入，可以提高机器学习模型的运算速度。具体的，如上所述的三个训练阶段如图3所示。

经过如上所述的三个训练阶段后得到的机器学习模型可以是如图4所示的行动项模型，即经过如上所述的三个训练阶段后得到的机器学习模型可用于识别会议记录中包括行动项的句子。如图4所示的全文输入中的全文可以是一个会议记录，该会议记录包括多个句子。针对每个句子，可以对其进行如图4所示的预处理，该预处理包括打标和过滤。经过预处理后，该会议记录中的部分句子会被过滤掉，部分句子会被留下，留下的句子会被输入到行动项模型中。下面结合图5对预处理过程进行介绍。

在上述实施例的基础上，获取会议记录中待处理的目标句子，包括如图5所示的如下几个步骤：

S501、获取所述会议记录中的任一句子。

例如，服务器22可以从会议记录中随机选取一个句子即任一句子。首先对该任一句子进行文本预处理，例如，将该任一句子中的大写字母改成小写字母、去除空白字符等处理。

S502、识别所述任一句子中的时间词和/或动作词。

在对该任一句子进行文本预处理后，可以识别该任一句子中的时间词和/或动作词。其中，识别时间词的过程可以是如图4所示的时间词打标，识别动作词的过程可以是如图4所示的动作词打标。时间词打标是指识别出该任一句子中的时间词，并记录相关信息。例如，本实施例可以提供有时间词的词典，以及一些正则表达式的规则集合。基于该词典和规则集合，打标器可以识别出该任一句子中的时间词，并记录时间词的内容、位置、标签等信息。其中，该任一句子可能包括一个或多个时间词，或者可能不包括时间词。时间词的标签可用于表示时态，例如，某个时间词的标签用于表示该时间词是未来时间词、现在时间词、过去时间词或者是待定时间词。动作词打标是指识别任一句子中的动作词，并记录相关信息。本实施例可以调用分词器，将该任一句子进行分词，并得到每个词的词性。其中，词性是动词的词会被看作动作词，并将该词性作为该词的标签。同时，行动词的内容、位置、标签等信息也会被记录下来。

可选的，识别所述任一句子中的时间词和/或动作词，包括：在所述任一句子不包括敏感词和/或所述任一句子的长度符合预设条件的情况下，识别所述任一句子中的时间词和/或动作词。

例如，在一些实施例中，对任一句子进行文本预处理之后，可以对该任一句子进行敏感词过滤和长度限制。其中，敏感词过滤是指若该任一句子包括敏感词，则将该任一句子舍弃即过滤掉。若该任一句子不包括敏感词，则保留。长度限制是指若该任一句子的长度小于最小长度限制，或者大于最大长度限制，则舍弃，否则保留。其中，最小长度限制和最大长度限制都是预设的。在该任一句子不包括敏感词和/或该任一句子的长度符合预设条件例如介于最小长度限制和最大长度限制之间的情况下，进一步对该任一句子进行时间词打标和动作词打标。

S503、若所述任一句子中同时包括所述时间词和所述动作词，则确定所述任一句子为待处理的目标句子。

经过时间词打标和动作词打标之后，对该任一句子进行“时间词+动作词”的过滤，即判断该任一句子中是否同时包括时间词和动作词，若同时包括，则该任一句子可以被输入到行动项模型中，否则舍弃。由于行动项需要在会后的某个时间点，执行某项具体的动作，因此，“时间词+动作词”的过滤被看作必要的过滤条件。此外，如果该任一句子中的时间词均为过去时间词，则同样看作没有时间词而被舍弃。在本实施例中，经过如图4所示的过滤留下来的句子可以记为待处理的目标句子。

本实施例通过识别会议记录中任一句子中的时间词和/或动作词，并采用多个过滤条件对任一句子进行过滤，使得该会议记录中只有满足过滤条件的句子才会被输入到机器学习模型中。从而可以过滤掉一些明显不含行动项的句子，避免一些明显不含行动项的句子被输入到机器学习模型中增加模型的负荷，提高了模型表现，降低了模型的调用量，从而提高了系统性能。

图6为本公开另一实施例提供的会议记录处理方法流程图。在本实施例中，该方法具体步骤如下：

S601、获取会议记录中待处理的目标句子。

具体的，S601和S101的实现方式和具体原理一致，此处不再赘述。例如，该目标句子可以是如图7所示的当前句。

S602、在所述目标句子的首部添加第一预设字符，在所述目标句子的尾部添加第二预设字符，所述第一预设字符、所述目标句子中的每个文本单元、以及所述第二预设字符分别是第一集合中的元素。

例如，当前句包括两个文本单元，该文本单元可以是词、子词、字符、词组、预设长度的字符串等单元。在当前句的首部可以添加第一预设字符例如[CLS]。在当前句的尾部添加第二预设字符例如[SEP]。[CLS]、该两个文本单元和[SEP]可以构成第一集合，并且[CLS]、该两个文本单元和[SEP]分别是该第一集合中的元素。每个元素可以记为一个token。

S603、将所述第一集合中每个元素分别对应的词嵌入向量和位置信息、以及所述目标句子的标识信息输入到所述训练完成的机器学习模型中，使得所述机器学习模型输出所述第一集合中每个元素分别对应的隐状态向量表示。

如图7所示，训练完成的机器学习模型可以包括BERT和全连接层。当BERT的输入只有当前句的相关信息时，该机器学习模型可以记为单句级模型。具体的，如图7所示的72表示第一预设字符[CLS]对应的词嵌入(word embedding)向量，w1表示当前句中第一个文本单元的词嵌入向量，w2表示当前句中第二个文本单元的词嵌入向量，此处以两个文本单元为例进行示意性说明，在实际应用中，可能有很多个文本单元。如图7所示的73表示第二预设字符[SEP]对应的词嵌入向量。SA用于标识当前句。P0表示[CLS]的位置信息，P1表示当前句中第一个文本单元的位置信息，P2表示当前句中第二个文本单元的位置信息，P3表示[SEP]的位置信息。如图7所示，将71所示的3行数据输入到BERT中，BERT可以输出[CLS]、该两个文本单元和[SEP]分别对应的隐状态(hidden state)向量表示，可以简称为隐状态表示。在其他一些实施例中，隐状态向量表示还可以记为隐向量表示。其中，[CLS]、该两个文本单元和[SEP]分别对应的隐状态向量表示依次记为X[CLS]、X1、X2、X[SEP]。其中，从当前句到图7中71所示的3行数据的过程可以是如图4所示的输入编码。

S604、将所述第一预设字符的隐状态向量表示作为所述目标句子的表示向量。

在图7所示的情况下，可以将X[CLS]作为当前句的表示向量。

S605、根据所述目标句子的表示向量和所述目标句子在所述会议记录中的位置信息，确定所述目标句子中包括行动项的概率值。

例如，在本实施例中，还可以获取当前句在会议记录中的位置信息，例如，该会议记录一共包括100个句子，当前句是该会议记录中的第20个句子，则当前句的位置信息可以用0.2来表示，当前句的位置信息可以是如图7所示的Ps。进一步，可以将Ps和X[CLS]输入到全连接层。全连接层可以输出第一概率值和第二概率值。其中，第一概率值表示当前句中包括行动项的概率，第二概率值表示当前句中不包括行动项的概率。BERT对输入的3行数据进行处理的过程、以及全连接层对Ps和X[CLS]进行处理的过程可以是如图4所示的模型调用。全连接层输出第一概率值和第二概率值的过程可以是如图4所示的输出概率值。

S606、若根据所述概率值确定所述目标句子中包括行动项，则获取所述行动项的相关要素，所述相关要素用于辅助用户跟进待办事项、整理会议纪要。

根据第一概率值和第二概率值可以确定当前句中是否包括行动项。例如，若第一概率值大于第二概率值，则确定当前句中包括行动项。

可选的，若根据所述概率值确定所述目标句子中包括行动项，包括：若所述目标句子包括表征未来的时间词，且所述概率值大于第一阈值，则确定所述目标句子中包括行动项；若所述目标句子包括表征现在或待定的时间词，且所述概率值大于第二阈值，则确定所述目标句子中包括行动项，所述第一阈值小于所述第二阈值。

如图4所示，在行动项模型输出概率值之后，本实施例还可以通过后处理对输出的第一概率值或第二概率值进行处理。例如，本实施例设置了多级阈值。若当前句包括表征未来的时间词，即当前句中含有明确的未来时间词，则说明当前句很有可能包含行动项。在这种情况下，可以选择一个较低的阈值，该较低的阈值记为第一阈值，也就是说，在这种情况下，如果当前句对应的第一概率值大于该第一阈值，则确定该当前句包括行动项。

另外，如果当前句中包括表征现在或待定的时间词，或者当前句仅含有现在时间词或待定时间词，则需要更为严格的约束，在这种情况下可以选取一个较高的阈值，该较高的阈值记为第二阈值，也就是说，在这种情况下，如果当前句对应的第一概率值大于该第二阈值，才可以确定该当前句包括行动项。

另外，如图4所示，本实施例还设置了白名单链路和拒绝逻辑。其中，白名单链路和机器学习模型是平行的。也就是说，即使当前句子对应的第一概率值没有大于对应的阈值，但是，只要当前句符合白名单链路的规则，就可以确定当前句包括行动项。在本实施例中，白名单链路中的规则都是高置信度的行动项召回规则。同理，本实施例还设置了一些拒绝逻辑的规则。例如，若当前句符合拒绝逻辑的规则，即使当前句子对应的第一概率值大于对应的阈值，也可以认为当前句不包括行动项，从而将当前句过滤掉，即当前句不会作为包括行动项的语句而被输出。从而使得本实施例可以过滤掉一些明显的误召回结果，增强了系统的可控性。

另外，在确定当前句包括行动项的情况下，还可以获取行动项的相关要素。可选的，所述行动项的相关要素包括所述行动项的时间信息，所述时间信息包括所述目标句子中的时间词、以及所述时间词对应的时间戳。

例如，时间点对于待办事项来说，是非常重要的信息。因此，本实施例通过解析规则，可以将当前句中的时间词解析为对应的时间戳，即图7所示的时间戳解析，例如，当前句中的时间词是“明天”，假设开会时间是5月24日，那么“明天”对应的是5月25日，5月25日可以作为“明天”对应的时间戳。

可选的，所述方法还包括：若所述目标句子中所有的时间词对应的时间戳均在参考时间之前，则确定所述目标句子不包括行动项，所述参考时间与会议时间相关。

例如，若当前句中所有的时间词对应的时间戳均在参考时间之前，该参考时间与会议时间相关，例如，该参考时间是会议开始时间、会议中间时间、或会议结束时间，则说明当前句中不包括行动项，此时可以舍弃当前句，即当前句不会作为包括行动项的语句而被输出。其中，会议时间通常情况下可以是会议结束时间。假设经过时间戳解析后，当前句没有被舍弃，说明当前句符合后处理规则的要求、同时也符合时间戳解析的要求，在这种情况下，说明当前句可以被输出。具体的，可以将当前句中的时间词、以及时间词对应的时间戳作为时间信息进行返回，即如图7所示的时间信息返回。

另外，若确定当前句包括行动项，还可以进一步去除当前句中部分信息量较少的词、字或短句等，例如，“嗯”“啊”“这”等口语词。此外，还可以调用书面化方法，缓解口语中的冗余、重复、省略、碎片化等问题，将较为口语化的当前句转换为更接近于书面化的语句，即图7所示的描述书面化。最后返回行动项语句、以及对应的时间信息。其中，行动项语句是指包括行动项的句子或语句。返回的行动项语句、以及对应的时间信息可以添加到会议纪要的待办事项中，从而逐步完善会议纪要。另外，还可以发送邮件提醒行动项的负责人。

本实施例通过机器学习模型可以自动的识别出包括行动项的句子，辅助用户跟进待办事项、整理会议纪要，从而提高了会议纪要的生成效率、以及会后工作效率。在离线测试集上，该机器学习模型的F1性能指标较为理想。虽然，现有技术中的一些会议软件可以提供会议纪要的模板，但是，会议纪要还是需要用户来填写的。而本公开实施例可以通过机器学习模型自动识别出包括行动项的句子，即机器学习模型可以从会议记录中自动识别出需要整理到会议纪要中的内容。另外，现有技术中的另外一些软件允许用户在会议过程中，标记或记录重要的文本信息，例如，以高亮的方式将重要的文本信息提供给用户，但是，会议纪要的整理过程还是由用户完成的，并且对会议的顺畅性也有所破坏，而在本实施例中，用户不需要在会议过程中勾选或标记重要的文本信息，可以很好的避免这种破坏性。

在上述实施例的基础上，采用训练完成的机器学习模型至少对所述目标句子进行编码，得到所述目标句子的表示向量，包括：采用训练完成的机器学习模型对所述目标句子的上一个句子、所述目标句子、所述目标句子的下一个句子进行编码，得到所述目标句子的表示向量。

例如图8所示，BERT的输入不仅包括当前句的相关信息，同时还包括当前句的上一个句子和下一个句子的相关信息。从而使得BERT可以对上一个句子、当前句、下一个句子一起进行编码，得到当前句的表示向量。

具体的，采用训练完成的机器学习模型对所述目标句子的上一个句子、所述目标句子、所述目标句子的下一个句子进行编码，得到所述目标句子的表示向量，包括如图9所示的如下几个步骤：

S901、在所述上一个句子的首部添加第一预设字符，在所述下一个句子的尾部添加第二预设字符，在所述上一个句子和所述目标句子之间添加所述第二预设字符，在所述目标句子和所述下一个句子之间添加所述第二预设字符，所述第一预设字符、所述上一个句子中的每个文本单元、所述目标句子中的每个文本单元、所述下一个句子中的每个文本单元、以及所述第二预设字符分别是第二集合中的元素。

例如图8所示，在上一个句子的首部添加第一预设字符例如[CLS]，在下一个句子的尾部添加第二预设字符例如[SEP]，在上一个句子和当前句之间添加第二预设字符例如[SEP]，在当前句和下一个句子之间添加第二预设字符例如[SEP]。假设上一个句子、当前句、下一个句子分别包括两个文本单元。[CLS]、上一个句子中的两个文本单元(例如，此处以两个文本单元为例进行示意性说明，在实际应用中可能有很多个文本单元，后续相同内容与此类似，不再赘述)、上一个句子和当前句之间的[SEP]、当前句中的两个文本单元、当前句和下一个句子之间的[SEP]、下一个句子中的两个文本单元、下一个句子尾部的[SEP]可以构成第二集合，并且每一个[CLS]、每一个[SEP]、以及每个文本单元分别是该第二集合中的元素。

S902、将所述第二集合中每个元素分别对应的词嵌入向量和位置信息、所述上一个句子的标识信息、所述目标句子的标识信息、以及所述下一个句子的标识信息输入到所述训练完成的机器学习模型中，使得所述机器学习模型输出所述第二集合中每个元素分别对应的隐状态向量表示。

如图8所示，训练完成的机器学习模型可以包括BERT和全连接层。当BERT的输入包括上一个句子、当前句、以及下一个句子分别对应的相关信息时，该机器学习模型可以记为上下文级模型。具体的，82表示[CLS]对应的词嵌入向量(embedding)，w1表示上一个句子中第一个文本单元的词嵌入向量，w2表示上一个句子中第二个文本单元的词嵌入向量，83表示[SEP]对应的词嵌入向量。w4表示当前句中第一个文本单元的词嵌入向量，w5表示当前句中第二个文本单元的词嵌入向量，w7表示下一个句子中第一个文本单元的词嵌入向量，w8表示下一个句子中第二个文本单元的词嵌入向量。SA用于标识当前句。SB用于标识上一个句子和下一个句子。P0表示[CLS]的位置信息，P1表示上一个句子中第一个文本单元的位置信息，P2表示上一个句子中第二个文本单元的位置信息，P3表示上一个句子和当前句之间的[SEP]的位置信息，P4表示当前句中第一个文本单元的位置信息，P5表示当前句中第二个文本单元的位置信息，P6表示当前句和下一个句子之间的[SEP]的位置信息，P7表示下一个句子中第一个文本单元的位置信息，P8表示下一个句子中第二个文本单元的位置信息，P9表示下一个句子尾部的[SEP]的位置信息。如图8所示，将81所示的3行数据输入到BERT中，BERT可以输出第二集合中每个元素分别对应的隐状态向量表示。该第二集合中每个元素分别对应的隐状态向量表示依次记为X[CLS]、X1、X2、X[SEP]、X4、X5、X[SEP]、X7、X8、X[SEP]。

S903、将所述目标句子和所述下一个句子之间的所述第二预设字符的隐状态向量表示作为所述目标句子的表示向量。

例如在图8所示的情况下，本实施例可以将当前句和下一个句子之间的[SEP]的隐状态向量表示作为当前句的表示向量X[SEP]。进一步，确定当前句在会议记录中的位置信息Ps，将Ps和X[SEP]输入到全连接层。全连接层可以输出第一概率值和第二概率值。在本实施例中，上一个句子和下一个句子可以记为当前句的上下文。

本实施例通过将当前句的上一个句子、当前句、当前句的下一个句子的相关信息输入到机器学习模型中，使得该机器学习模型在计算当前句的表示向量的过程中可以参照上下文的相关信息，从而提高了当前句的表示向量的计算精度。

图10为本公开实施例提供的会议记录处理装置的结构示意图。本公开实施例提供的会议记录处理装置可以执行会议记录处理方法实施例提供的处理流程，如图10所示，会议记录处理装置100包括：

第一获取模块101，用于获取会议记录中待处理的目标句子；

编码模块102，用于采用训练完成的机器学习模型至少对所述目标句子进行编码，得到所述目标句子的表示向量；

确定模块103，用于根据所述目标句子的表示向量，确定所述目标句子中包括行动项的概率值；

第二获取模块104，用于在根据所述概率值确定所述目标句子中包括行动项的情况下，获取所述行动项的相关要素，所述相关要素用于辅助用户跟进待办事项、整理会议纪要。

可选的，确定模块103根据所述目标句子的表示向量，确定所述目标句子中包括行动项的概率值时，具体用于：

根据所述目标句子的表示向量和所述目标句子在所述会议记录中的位置信息，确定所述目标句子中包括行动项的概率值。

可选的，编码模块102采用训练完成的机器学习模型至少对所述目标句子进行编码，得到所述目标句子的表示向量时，具体用于：

在所述目标句子的首部添加第一预设字符，在所述目标句子的尾部添加第二预设字符，所述第一预设字符、所述目标句子中的每个文本单元、以及所述第二预设字符分别是第一集合中的元素；

将所述第一集合中每个元素分别对应的词嵌入向量和位置信息、以及所述目标句子的标识信息输入到所述训练完成的机器学习模型中，使得所述机器学习模型输出所述第一集合中每个元素分别对应的隐状态向量表示；

将所述第一预设字符的隐状态向量表示作为所述目标句子的表示向量。

采用训练完成的机器学习模型对所述目标句子的上一个句子、所述目标句子、所述目标句子的下一个句子进行编码，得到所述目标句子的表示向量。

可选的，编码模块102采用训练完成的机器学习模型对所述目标句子的上一个句子、所述目标句子、所述目标句子的下一个句子进行编码，得到所述目标句子的表示向量时，具体用于：

在所述上一个句子的首部添加第一预设字符，在所述下一个句子的尾部添加第二预设字符，在所述上一个句子和所述目标句子之间添加所述第二预设字符，在所述目标句子和所述下一个句子之间添加所述第二预设字符，所述第一预设字符、所述上一个句子中的每个文本单元、所述目标句子中的每个文本单元、所述下一个句子中的每个文本单元、以及所述第二预设字符分别是第二集合中的元素；

将所述第二集合中每个元素分别对应的词嵌入向量和位置信息、所述上一个句子的标识信息、所述目标句子的标识信息、以及所述下一个句子的标识信息输入到所述训练完成的机器学习模型中，使得所述机器学习模型输出所述第二集合中每个元素分别对应的隐状态向量表示；

将所述目标句子和所述下一个句子之间的所述第二预设字符的隐状态向量表示作为所述目标句子的表示向量。

可选的，第一获取模块101包括获取单元1011、识别单元1012、确定单元1013，其中，获取单元1011用于获取所述会议记录中的任一句子；识别单元1012用于识别所述任一句子中的时间词和/或动作词；确定单元1013用于在所述任一句子中同时包括所述时间词和所述动作词的情况下，确定所述任一句子为待处理的目标句子。

可选的，识别单元1012识别所述任一句子中的时间词和/或动作词时，具体用于：

在所述任一句子不包括敏感词和/或所述任一句子的长度符合预设条件的情况下，识别所述任一句子中的时间词和/或动作词。

可选的，确定模块103根据所述概率值确定所述目标句子中包括行动项时，具体用于：

若所述目标句子包括表征未来的时间词，且所述概率值大于第一阈值，则确定所述目标句子中包括行动项；

若所述目标句子包括表征现在或待定的时间词，且所述概率值大于第二阈值，则确定所述目标句子中包括行动项，所述第一阈值小于所述第二阈值。

可选的，所述行动项的相关要素包括所述行动项的时间信息，所述时间信息包括所述目标句子中的时间词、以及所述时间词对应的时间戳。

可选的，确定模块103还用于：在所述目标句子中所有的时间词对应的时间戳均在参考时间之前的情况下，确定所述目标句子不包括行动项，所述参考时间与会议时间相关。

图10所示实施例的会议记录处理装置可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

以上描述了会议记录处理装置的内部功能和结构，该装置可实现为一种电子设备。图11为本公开实施例提供的电子设备实施例的结构示意图。如图11所示，该电子设备包括存储器111和处理器112。

存储器111用于存储程序。除上述程序之外，存储器111还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器111可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器112与存储器111耦合，执行存储器111所存储的程序，以用于：

获取会议记录中待处理的目标句子；

进一步，如图11所示，电子设备还可以包括：通信组件113、电源组件114、音频组件115、显示器116等其它组件。图11中仅示意性给出部分组件，并不意味着电子设备只包括图11所示组件。

通信组件113被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件113经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件113还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

电源组件114，为电子设备的各种组件提供电力。电源组件114可以包括电源管理系统，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。

音频组件115被配置为输出和/或输入音频信号。例如，音频组件115包括一个麦克风(MIC)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器111或经由通信组件113发送。在一些实施例中，音频组件115还包括一个扬声器，用于输出音频信号。

显示器116包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

另外，本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现上述实施例所述的会议记录处理方法。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种会议记录处理方法，其中，所述方法包括：

获取会议记录中待处理的目标句子；

2.根据权利要求1所述的方法，其中，采用训练完成的机器学习模型至少对所述目标句子进行编码，得到所述目标句子的表示向量，包括：

3.根据权利要求1所述的方法，其中，采用训练完成的机器学习模型至少对所述目标句子进行编码，得到所述目标句子的表示向量，包括：

4.根据权利要求3所述的方法，其中，采用训练完成的机器学习模型对所述目标句子的上一个句子、所述目标句子、所述目标句子的下一个句子进行编码，得到所述目标句子的表示向量，包括：

5.根据权利要求1所述的方法，其中，获取会议记录中待处理的目标句子，包括：

获取所述会议记录中的任一句子；

识别所述任一句子中的时间词和/或动作词；

若所述任一句子中同时包括所述时间词和所述动作词，则确定所述任一句子为待处理的目标句子。

6.根据权利要求5所述的方法，其中，识别所述任一句子中的时间词和/或动作词，包括：

7.根据权利要求1所述的方法，其中，若根据所述概率值确定所述目标句子中包括行动项，包括：

8.根据权利要求1所述的方法，其中，所述行动项的相关要素包括所述行动项的时间信息，所述时间信息包括所述目标句子中的时间词、以及所述时间词对应的时间戳。

9.根据权利要求8所述的方法，其中，所述方法还包括：

若所述目标句子中所有的时间词对应的时间戳均在参考时间之前，则确定所述目标句子不包括行动项，所述参考时间与会议时间相关。

10.一种会议记录处理装置，其中，包括：

第一获取模块，用于获取会议记录中待处理的目标句子；

11.一种电子设备，其中，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-9中任一项所述的方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1-9中任一项所述的方法。