CN115482440B

CN115482440B - 样本数据获取方法、模型训练方法、电子设备及介质

Info

Publication number: CN115482440B
Application number: CN202211398675.7A
Authority: CN
Inventors: 吴丹枫
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-11-09
Filing date: 2022-11-09
Publication date: 2023-04-28
Anticipated expiration: 2042-11-09
Also published as: CN115482440A

Abstract

本申请涉及通信技术领域，公开了一种样本数据获取方法、模型训练方法、电子设备及介质。样本数据获取方法包括：第一电子设备获取待检测通讯信息；对应于待检测通讯信息为第一类通讯信息，将待检测通讯信息与多个不同精确度的通讯信息模板匹配，获取匹配结果，并基于匹配结果获取待检测通讯信息对应的可靠度信息，其中，可靠度信息表示待检测通讯信息能够作为样本数据的可能性，待检测通讯信息能够被用于生成训练第一模型所需的样本数据，可靠度信息能够被用于训练第一模型，第一模型训练后得到的第二模型用于解析通讯信息。基于上述方案，电子设备可以实现实时收集用于训练模型的短信样本，使得服务器可以及时更新模型，提升用户体验。

Description

样本数据获取方法、模型训练方法、电子设备及介质

技术领域

本申请涉及通信技术领域，特别涉及一种样本数据获取方法、模型训练方法、电子设备及介质。

背景技术

目前，手机等电子设备一般可以通过自然语言理解(Natural Language Understanding, NLU）模型或者短信解析规则对关于航班、车票预订等通知短信进行解析，并创建对应日程，以便提醒用户。

但由于该类短信的模板经常变更，因此用于对短信解析的模型及设定规则也需要更新。若没有及时更新模型或设定规则，用户在收到新模板的短信时，移动终端将无法进行解析以至于无法自动创建日程卡片。

常规情况下，云端服务器一般会不定时基于新采集的短信样本以进行模型训练更新或者短信解析规则的更新。目前收集短信样本的方式一般为管理人员向三方采购或通过用户有偿反馈的方式进行收集，该方法不仅需要花费大量资金，且无法保证样本收集的实时性，导致难以及时训练新的NLU模型以进行短信解析，导致用户体验较差。

发明内容

为解决上述问题，本申请提供一种样本数据获取方法、模型训练方法、电子设备及介质。

第一方面，本申请提供一种样本数据获取方法，包括：第一电子设备获取待检测通讯信息；对应于待检测通讯信息为第一类通讯信息，第一电子设备将待检测通讯信息与多个不同精确度的通讯信息模板匹配，获取匹配结果；第一电子设备基于匹配结果获取待检测通讯信息对应的可靠度信息，其中，可靠度信息表示待检测通讯信息能够作为样本数据的可能性，待检测短信能够被用于生成训练第一模型所需的样本数据，待检测短信对应的可靠度信息能够被用于训练第一模型，第一模型训练后得到的第二模型用于解析通讯信息。

基于上述方案，电子设备可以实现实时收集设定业务类型的短信，即用于训练模型的短信样本，以使得云端服务器可以及时更新模型以进行信息解析，提升用户体验。且本申请实施例中，可以根据待收集信息（即第一类通讯信息）的置信度值调节待收集信息在整体样本集合中的比重，能够提高训练后模型的精确度。

可以理解，本申请中，第一电子设备可以为手机等终端设备，第二电子设备可以为云端服务器。可靠度信息可以包括置信度值。

在一种可能的实现中，方法还包括：第一电子设备发送待检测通讯信息和待检测通讯信息对应的可靠度信息至第二电子设备；第二电子设备基于待检测通讯信息和待检测通讯信息对应的可靠度信息获取样本数据。

在一种可能的实现中，基于待检测通讯信息和待检测通讯信息对应的可靠度信息获取样本数据；包括：基于待检测通讯信息对应的可靠度信息确定待检测通讯信息对应的设定数量；基于设定数量对待检测通讯信息进行复制，以获取设定数量的待检测信息作为样本数据。

可以理解，待检测通讯信息的置信度值可以充分反映待检测通讯信息作为样本的可靠度，当待检测通讯信息的置信度值越高，则待检测通讯信息为所需样本信息的可能性越大，则可以设置待检测通讯信息的复制数量越多；当待检测通讯信息的置信度值越低，则待检测通讯信息为所需样本信息的可能性越小，可以设置待检测通讯信息的复制数量越少，如此，根据样本置信度值调节对应样本在样本集合中的比重，能够提高训练后模型的精确度。

在一种可能的实现中，基于匹配结果获取待检测通讯信息对应的可靠度信息；包括：获取与待检测通讯信息匹配的各通讯信息模板对应的置信度值；基于各通讯信息模板对应的置信度值确定待检测通通讯信息的置信度值。

可以理解，较低精确度的信息模板可以用于匹配待收集信息中的较少的关键信息，例如，对于设定业务类型的短信，低精确度的信息模板用于匹配待收集信息是否具有航班具体号码、起飞时间和到达时间等关键信息；较高精确度的模板用于匹配待收集信息中较多的关键信息，例如是否具有航班具体号码、起飞时间、到达时间、起飞地点、到达地点、订单号、预定网址链接等。可以理解，当信息样本与越高精确度的信息模板匹配，则信息样本作为所需收集的样本的可靠性越高。

在一种可能的实现中，基于各通讯信息模板对应的置信度值确定待检测通讯信息的置信度值；包括：将各通讯信息模板对应的置信度值的加和作为待检测通讯信息的置信度值。

在一种可能的实现中，通讯信息模板对应的置信度值基于通讯信息模板的精确度确定。

可以理解，通讯信息模板的精确度越高，通讯信息模板对应的置信度值越高；通讯信息模板的精确度越低，通讯信息模板对应的置信度值越低。

在一种可能的实现中，确定待检测通讯信息是否为第一类通讯信息的方式包括：在待检测信息中具有设定业务类型对应的关键信息的情况下，确定待检测通讯信息为第一类通讯信息。

本申请中，电子设备可以在判断接收到的信息中具有设定业务类型信息的关键字时，确定接收到的信息为设定业务类型的信息。例如，设定业务类型为航班类，关键字可以包括航班、出票等。设定业务类型为订单类，关键字可以包括订单、预定等。本申请实施例中，首先对电子设备接收到的信息进行关键字的匹配，可以实现对信息进行初步筛选，获取设定业务类型的信息进行后续匹配，其余不属于设定业务类型的信息不进行匹配，如此，可以有效降低后续的无效匹配，提升样本收集效率。

在一种可能的实现中，第一电子设备将待检测通讯信息与多个不同精确度的通讯信息模板匹配，获取匹配结果；包括：第一电子设备通过多个不同精确度的自然语言理解模型实现将待检测通讯信息与多个不同精确度的通讯信息模板匹配，获取匹配结果。

在一种可能的实现中，第一电子设备发送待检测通讯信息和待检测通讯信息对应的可靠度信息至第二电子设备；

第二电子设备将待检测通讯信息作为样本数据，将待检测通讯信息对应的可靠度信息作为样本数据对应的权重，训练第一模型，得到第二模型。

在一种可能的实现中，第一电子设备获取待检测通讯信息；包括：第一电子设备在充电灭屏状态时，获取待检测通讯信息。

本申请中，可以在电子设备处于充电且屏幕为灭屏状态时，获取待检测信息，进行信息样本的检测和上传云端服务器，如此，可以避免产生功耗影响电子设备的正常使用。

第二方面，本申请提供一种模型训练方法，用于电子设备，包括：获取样本数据，其中，样本数据基于上述样本数据获取方法获取；基于样本数据训练第一模型，得到第二模型，其中，第二模型能够用于解析通讯信息。

在一些实施例中，样本数据中，各样本的数量可以与各样本对应的置信度值一致。其中，样本可以为电子设备上传至云端服务器的第一类通讯信息。即以及第一类通讯信息以及第一类通讯信息对应的可靠度信息获取样本数据。

第三方面，本申请提供一种模型训练方法，用于电子设备，包括：获取样本数据，其中，样本数据为第一类通讯信息；获取第一类通讯信息对应的可靠度信息；其中，获取第一类通讯信息对应的可靠度信息，包括：将各第一类通讯信息与多个不同精确度的通讯信息模板匹配，获取匹配结果，基于匹配结果获取各第一类通讯信息对应的可靠度信息；基于样本数据和第一类通讯信息对应的可靠度信息训练第一模型，得到第二模型，其中，第二模型能够用于解析通讯信息。

本申请中，云端服务器也可以不对第一类通讯信息进行复制，而是直接将第一类通讯信息作为样本集合中的样本，且将第一类通讯信息对应的置信度值作为第一类通讯信息对应的权重，基于第一类通讯信息以及第一类通讯信息对应的权重进行第一模型训练，获取训练后的第二模型。

在一种可能的实现中，基于样本数据和第一类通讯信息对应的可靠度信息训练第一模型，得到第二模型，包括：基于第一类通讯信息对应的可靠度信息确定第一类通讯信息对应的权重；基于样本数据和第一类通讯信息对应的权重训练第一模型，得到第二模型。

在一种可能的实现中，基于样本数据和第一类通讯信息对应的可靠度信息训练第一模型，得到第二模型，包括：基于第一类通讯信息对应的可靠度信息确定训练第一模型的损失函数参数；基于样本数据和损失函数参数训练第一模型，得到第二模型。

本申请中，云端服务器也可以不对第一类通讯信息进行复制，而是直接将第一类通讯信息作为样本集合中的样本，且将第一类通讯信息对应的置信度值作为训练第一模型所需的损失函数参数，基于各第一类通讯信息以及确定出的损失函数参数进行第一模型训练，获取训练后的第二模型。

第四方面，本申请提供一种电子设备，包括：存储器，用于存储计算机程序，计算机程序包括程序指令；处理器，用于执行程序指令，以使电子设备执行上述样本数据获取方法或模型训练方法。

第五方面，本申请提供一种计算机可读取存储介质，计算机可读取存储介质存储有计算机程序，计算机程序包括程序指令，程序指令被电子设备运行以使电子设备执行上述样本数据获取方法或模型训练方法。

附图说明

图1根据本申请的一些实施例，示出了一种NLU模型/匹配规则的获取过程以及对短信进行解析的过程示意图；

图2a根据本申请的一些实施例，示出了一种短信内容的示意图；

图2b根据本申请的一些实施例，示出了一种日程卡片的示意图；

图3a根据本申请的一些实施例，示出了一种短信内容的示意图；

图3b根据本申请的一些实施例，示出了一种短信内容的示意图；

图3c根据本申请的一些实施例，示出了一种短信内容的示意图；

图3d根据本申请的一些实施例，示出了一种短信内容的示意图；

图4根据本申请的一些实施例，示出了一种电子设备的结构示意图；

图5根据本申请的一些实施例，示出了样本数据获取方法的示意图；

图6根据本申请的一些实施例，示出了一种模型训练方法的示意图。

具体实施方式

本申请的说明性实施例包括但不限于一种模型训练方法、电子设备及介质。

为更加了解本申请的方案，首先对NLU模型/匹配规则的获取过程以及对短信进行解析的过程进行简要介绍。

如图1所示，云侧服务器可以首先获取管理人员上传的短信样本集，将短信样本集输入云端的初始NLU模型进行机器学习训练或者对各短信进行特征提取，以获取NLU模型或者匹配规则。云服务器将训练后的NLU模型或者匹配规则发送至端侧，例如手机。当手机获取到新的短信，将可以通过NLU模型或者匹配规则对短信进行解析，以获取解析内容，并基于解析内容创建日程卡片，例如创建航班卡片并显示在手机屏幕。其中，解析内容可以包括时间、地点等创建日程所需的内容。

例如，手机接收到了如图2a所示的短信，短信内容为：“XX网已出票：订单：1234567{MU 5360首都机场T3-宝安机场T2 12月03日16:20-19:30,票号12345678”。手机通过NLU模型对短信内容进行解析可以获取解析内容为：时间：12月03日16:20-19:30，地点:首都机场T3-宝安机场T2，并基于解析内容生成图2b所示的日程，以提醒用户。

可以理解，第三方公司、例如航空公司或者订票应用程序等发送的短信会不定时变更，例如，可以变更为图3a-图3d任一种的模板，而当前的NLU模型只能对图2a所示的模板进行解析，若检测到图3a-图3d任一种的模板的短信，NLU 模型将难以对该短信进行解析，导致无法创建新的日程。

因此，云端服务器需要不断收集新的短信样本，以进行NLU模型的训练更新，从而实现对使用当前模板的短信的解析。而采用向第三方采购或通过用户有偿反馈的方式进行收集短信样本，需要花费大量资金，且该方式需要耗费较长时间，例如几天到几个月，无法保证样本收集的实时性，导致难以及时训练新的NLU模型以进行短信解析，导致用户体验较差。

其次，当前对短信的解析及创建对应日程的功能仅用于设定业务类型中的部分短信，当手机等电子设备获取到新的短信无法解析，将难以判断无法解析的原因是由于该短信对应的模板是NLU模型无法解析的新模板，还是由于该短信非设定业务类型的短信。因此，手机难以识别无法解析的短信是否为需要收集的新模板的样本短信，导致无法实现自动收集用于训练模型的短信样本。

为解决上述问题，本申请实施例提供一种样本收集方法，用于手机等电子设备，方法包括：电子设备首先判断接收到的信息（或称为通讯信息）是否属于设定业务类型的信息（即第一类通讯信息），以进行样本的初步筛选，其中，设定业务类型可以为航班类、订单类、还款类等，将属于设定业务类型的信息作为待收集信息。可以理解，设定业务类型的短信中也存在一些无需创建日程的短信，例如，某次航班的机票促销信息、某次航班的延误等信息，因此，本申请中可以进一步确定待收集信息作为所需收集的信息样本的可靠度（可能性）信息，将待收集信息与对应的可靠度信息上传至云端服务器。其中，信息样本的可靠度越低，则待收集信息为所需收集的短信样本的可能越小，信息样本的可靠度越高，则待收集信息为所需收集的短信样本的可能越大。

此外，一些实施例中，云端服务器可以基于信息样本的可靠度信息，确定对应信息样本在整体样本集合中的数量，如此，可以降低可靠度低的信息样本在整体训练样本中的比重，提高可靠度高的信息样本在整体训练样本中的比重，有效提高训练出的模型的精度。

其中，确定待收集信息为所需收集的信息样本的可靠度信息的方式可以为：将待收集信息与多个不同精确度的信息模板（或称为通讯信息模板）进行匹配，具体的，较低精确度的信息模板可以用于匹配待收集信息中的较少的关键信息，例如，对于设定业务类型的短信，低精确度的信息模板用于匹配待收集信息是否具有航班具体号码、起飞时间和到达时间等关键信息；较高精确度的模板用于匹配待收集信息中较多的关键信息，例如是否具有航班具体号码、起飞时间、到达时间、起飞地点、到达地点、订单号、预定网址链接等。可以理解，当信息样本与越高精确度的信息模板匹配，则信息样本作为所需收集的样本的可靠性越高。

本申请中，电子设备可以基于上述匹配结果确定待收集信息的可靠度信息，例如，可以给不同精确度的信息模板设定不同的置信度值，信息模板的精确度越低，置信度值越低；电子设备确定出与待收集信息匹配的所有信息模板，将与待收集信息匹配的各信息模板对应的置信度值的总和作为待收集信息的置信度值，即可靠度信息。

在一些实施例中，云端服务器可以基于各待收集信息的置信度值确定各待收集信息的所需数量，并根据待收集信息所需的设定数量对各待收集信息进行复制，以获取设定数量的待收集信息，并将设定数量的待收集信息作为样本。

在一些实施例中，云端服务器可以也可以舍弃部分置信度值小于设定值的待收集信息，确定出置信度值大于设定值的待收集信息的所需数量，并根据待收集信息所需数量对各待收集信息进行复制，以获取所需数量的待收集信息，并将所需数量的待收集信息作为样本。

基于上述方案，电子设备可以实现实时收集设定业务类型的短信，即用于训练模型的短信样本，以使得云端服务器可以及时更新模型以进行信息解析，提升用户体验。且本申请实施例中，可以根据待收集信息的置信度值调节待收集信息在整体样本集合中的比重，能够提高训练后模型的精确度。

在一些实施例中，电子设备可以在判断接收到的信息中具有设定业务类型信息的关键字时，确定接收到的信息为设定业务类型的信息。例如，设定业务类型为航班类，关键字可以包括航班、出票等。设定业务类型为订单类，关键字可以包括订单、预定等。本申请实施例中，首先对电子设备接收到的信息进行关键字的匹配，可以实现对信息进行初步筛选，获取设定业务类型的信息进行后续匹配，其余不属于设定业务类型的信息不进行匹配，如此，可以有效降低后续的无效匹配，提升样本收集效率。

可以理解，待收集信息的置信度值可以充分反映待收集信息作为样本的可靠度，当待收集信息的置信度值越高，则待收集信息为所需样本信息的可能性越大，则可以设置待收集信息的复制数量越多；当待收集信息的置信度值越低，则待收集信息为所需样本信息的可能性越小，可以设置待收集信息的复制数量越少，如此，根据样本置信度值调节对应样本在样本集合中的比重，能够提高训练后模型的精确度。

基于本申请的方案，可以对电子设备接收到的信息进行初步筛选，以确定接收到的信息是否属于设定业务类型的信息，即确定接收到的信息是否能够作为样本进行模型训练，其次，可以根据样本置信度值调节对应样本的比重，能够提高训练后模型的精确度。

本申请实施例中，还可以将待收集信息对应的信息模板的标识信息上传至云端服务器。标识信息可以包括信息模板对应的标号、名称等标识。如此，可以便于云端管理基于信息模板的标识确定出对应的信息模板，便于查看等其他任意需求。

本申请还提供一种模型训练方法，包括基于上述提及的样本数据获取方法获取样本集合，然后基于样本集合进行第一模型训练，获取训练后的第二模型，第一模型训练后得到的第二模型用于解析信息。

下面在详细说明本申请的样本数据获取方法之前，对本申请实施例中提及的电子设备进行说明。其中，电子设备可以包括手机、平板电脑、可穿戴设备等，本申请对电子设备的具体类型不作任何限制。

下面以手机10为例说明本申请实施例中电子设备的结构。如图4所示，手机10可以包括处理器110、电源模块140、存储器180，移动通信模块130、无线通信模块120、传感器模块190、音频模块150、摄像头170、接口模块160、按键101以及显示屏102等。

可以理解的是，本发明实施例示意的结构并不构成对手机10的具体限定。在本申请另一些实施例中，手机10可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如，可以包括中央处理器 (CentralProcessing Unit，CPU)、图像处理器 (Graphics Processing Unit，GPU)、数字信号处理器DSP、微处理器(Micro-programmed Control Unit，MCU)、人工智能(ArtificialIntelligence，AI)处理器或可编程逻辑器件(Field Programmable Gate Array,FPGA)等的处理模块或处理电路。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。处理器110中可以设置存储单元，用于存储指令和数据。在一些实施例中，处理器110中的存储单元为高速缓冲存储器180。

本申请实施例中，处理器可以用于执行本申请中提及的样本数据获取方法中手机端的步骤。

电源模块140可以包括电源、电源管理部件等。电源可以为电池。电源管理部件用于管理电源的充电和电源向其他模块的供电。在一些实施例中，电源管理部件包括充电管理模块和电源管理模块。充电管理模块用于从充电器接收充电输入；电源管理模块用于连接电源，充电管理模块与处理器110。电源管理模块接收电源和/或充电管理模块的输入，为处理器110，显示屏102，摄像头170，及无线通信模块120等供电。

移动通信模块130可以包括但不限于天线、功率放大器、滤波器、LNA（Low noiseamplify，低噪声放大器）等。移动通信模块130可以提供应用在手机10上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块130可以由天线接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块130还可以对经调制解调处理器调制后的信号放大，经天线转为电磁波辐射出去。在一些实施例中，移动通信模块130的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块130至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(codedivisionmultiple access，CDMA)，宽带码分多址(wideband code division multipleaccess，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，蓝牙 (bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，无线局域网(wireless local areanetworks，WLAN)，近距离无线通信技术(near field communication，NFC)，调频(frequency modulation，FM)和/或 field communication，NFC)，红外技术(infrared，IR)技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(globalnavigation satellite system，GLONASS)，北斗卫星导航系统(beidounavigationsatellite system，BDS)，准天顶卫星系统(quasi-zenith satellite system，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

无线通信模块120可以包括天线，并经由天线实现对电磁波的收发。无线通信模块120可以提供应用在手机10上的包括无线局域网(wireless localarea networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。手机10可以通过无线通信技术与网络以及其他设备进行通信。

在一些实施例中，手机10的移动通信模块130和无线通信模块120也可以位于同一模块中。

显示屏102用于显示人机交互界面、图像、视频等。显示屏102包括显示面板。显示面板可以采用液晶显示屏 (liquid crystal display，LCD)，有机发光二极管(organiclight-emitting diode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的，AMOLED)，柔性发光二极管(flexlight-emitting diode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot light emitting diodes，QLED)等。

传感器模块190可以包括接近光传感器、压力传感器，陀螺仪传感器，气压传感器，磁传感器，加速度传感器，距离传感器，指纹传感器，温度传感器，触摸传感器，环境光传感器，骨传导传感器等。

音频模块150用于将数字音频信息转换成模拟音频信号输出，或者将模拟音频输入转换为数字音频信号。音频模块150还可以用于对音频信号编码和解码。在一些实施例中，音频模块150可以设置于处理器110中，或将音频模块150的部分功能模块设置于处理器110中。在一些实施例中，音频模块150可以包括扬声器、听筒、麦克风以及耳机接口。

摄像头170用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件把光信号转换成电信号，之后将电信号传递给ISP（Image SignalProcessing，图像信号处理）转换成数字图像信号。手机10可以通过ISP，摄像头170，视频编解码器，GPU（Graphic Processing Unit，图形处理器），显示屏102以及应用处理器等实现拍摄功能。

接口模块160 包括外部存储器接口、通用串行总线(universal serial bus，USB)接口及用户标识模块(subscriber identification module，SIM)卡接口等。其中外部存储器接口可以用于连接外部存储卡，例如Micro SD卡，实现扩展手机10的存储能力。外部存储卡通过外部存储器接口与处理器110通信，实现数据存储功能。通用串行总线接口用于手机10和其他电子设备进行通信。用户标识模块卡接口用于与安装至手机1010的SIM卡进行通信，例如读取SIM卡中存储的电话号码，或将电话号码写入SIM卡中。

在一些实施例中，手机10还包括按键101、马达以及指示器等。其中，按键101可以包括音量键、开/关机键等。马达用于使手机10产生振动效果，例如在用户的手机10被呼叫的时候产生振动，以提示用户接听手机10来电。指示器可以包括激光指示器、射频指示器、LED指示器等。

下面结合上述电子设备，对本申请提及的样本数据获取方法进行说明。图5示出了本申请一种样本数据获取方法的示意图，如图5所示，样本数据获取方法包括：

501：电子设备获取待检测信息。

可以理解，本申请实施例中，待检测信息（或称为待检测通讯信息）可以包括未进行检测的短信、各应用程序通知信息等。

502：电子设备确定各待收集信息，其中，各待收集信息为待检测信息中属于设定业务类型的信息。

在一些实施例中，电子设备可以在判断待检测信息具备设定业务类型信息的关键信息（关键字）时，确定待检测的信息为设定业务类型的信息。例如，设定业务类型包括航班类，关键字可以包括航班、出票等。设定业务类包括订单类，关键字可以包括订单、预定等。

在一些实施例中，电子设备可以通过复杂度和精确较低的NLU算法或模型（本申请中也可称为基础NLU模型）对待检测信息进行上述关键信息的匹配，确定待检测信息是否为设定业务类型的信息。

本申请实施例中，首先对电子设备接收到的信息进行关键字的匹配，可以实现对信息进行初步筛选，获取设定业务类型的信息进行后续匹配，其余不属于设定业务类型的信息不进行匹配和收集，如此，可以有效降低后续的无效匹配，提升样本收集效率。

503：电子设备将各待收集信息与多个不同精确度的信息模板进行匹配，获取各待收集信息的置信度值。

在一些实施例中，获取各待收集信息的置信度值的方式可以为：确定出与待收集信息匹配的所有信息模板，并将该各信息模板对应的置信度值的总和作为待收集信息的置信度值。

在一些实施例中，不同精确度的信息模板可以进行不同等级的信息匹配，例如，较低精确度的模板可以进行较低等级(较少或较粗略）的信息匹配，例如，可以进行地名、时间的匹配。较高精确度的模板可以进行较高等级（较多、或较精确）的信息匹配，例如，可以进行地名、时间、机票/订单、取消、变更等信息的匹配。其中，不同精确度的信息模板对应有不同的置信度值，较低精确度的模板，置信度值较低，较高精确度的模板，置信度值较高。

可以理解，当待收集信息的置信度值越高，则待收集信息为所需样本信息的可能性越大。

在一些实施例中，信息模板可以包括有多个目标属性以及多个目标属性的设定顺序，多个目标属性可以包括地名、订单号、起飞时间、到达时间、航班号等。通过信息模板可以对短信匹配和提取，以获取不同目标属性对应的属性值。其中，在基于信息模板能够从待收集信息中提取出对应的属性值，则可以确认该信息与该信息模板匹配。

例如，对于图2a所示的，短信内容为：“XX网已出票：订单：1234567{MU 5360首都机场T3-宝安机场T2 12月03日16:20-19:30,票号12345678”。

通过包含地名和时间目标属性的信息模板M对短信可以提取出对应的地名属性值，首都机场T3、宝安机场T2，对应的时间属性值16:20-19:30、对应的航班属性值MU 5360，则可以图2a所示的短信与短信模板M 匹配。

本申请实施例中，将各待收集信息与多个不同精确度的信息模板进行匹配可以包括:通过不同复杂度和精确度的NLU算法或模型实现对待收集信息进行不同信息模板的匹配，

即不同精确度和复杂度的模型可以用于对待收集信息进行不同等级的关键信息的匹配。例如，较低精确度和复杂度的NLU模型用于对信息进行精确度较低的匹配，较高精确度和复杂度的NLU模型用于对信息进行精确度较高的匹配。在基于NLU模型能够信息中提取出对应的属性值，则可以确认该信息与该NLU模型匹配。

例如不同复杂度和精确度较低的NLU算法或模型包括第一NLU模型、第二NLU模型、第三NLU模型。其中，假设第一NLU模型、第二NLU模型、第三NLU模型的复杂度和精确度依次升高。

第一NLU模型用于实现将待收集信息与第一信息模板进行匹配以获取匹配结果，例如，第一模板可以为：[地名]{到|去|飞|飞往}[地名]{机票|飞机票|航班},且可以设置第一模板的置信度值为5。

第二NLU模型用于实现待收集信息与第二模板进行匹配以获取匹配结果，例如，第二模板可以为：[地名]{到|去|飞|飞往}[地名]{机票|飞机票|航班}{取消|变更}{登机|值机}。且可以设置第二模板的置信度值可以为20。

第三NLU模型可以为第三方（例如，航空公司等）提供的商用模型（或商用SDK），用于实现待收集信息与高精度的第三模板匹配以获取匹配结果。例如，第三模板可以包括：[地名]{到|去|飞|飞往}[地名]{机票|飞机票|航班}{取消|变更}[提前]{登机|值机}[退改点击]，且可以设置第三模板的置信度值可以为90。

在一些实施例中，若信息A与第一模板和第二模型匹配，则信息A对应的对应置信度值可以为第一模板和第二模板的置信度值的加和，即25。若信息A与第一模板、第二模板以及第三模板均匹配，则信息B对应的对应置信度值可以为第一模板、第二模板以及第三模板的置信度值的加和，即115。可以理解，本申请实施例中第一模板、第二模板以及第三模板对应的置信度值也可以为第一NLU模型、第二NLU模型、第三NLU模型对应的置信度值。

在一些实施例中，可以通过不同复杂度和精确度的规则实现对待收集信息进行上述不同信息模板的匹配。

504：电子设备将待收集信息、待收集信息的置信度值以及待收集信息对应的信息模板的标识信息上传至云端服务器。

可以理解，本申请实施例中，待收集信息对应的信息模板的标识信息可以包括信息模板对应的名称、标号等标识信息。

在一些实施例中，电子设备中的各用于匹配的信息模板可以为云端服务器发送至电子设备的，且云端服务器存储有各信息模板以及各信息模板对应的标识信息。

在一些实施例中，电子设备可以对匹配信息进行去敏感信息处理后，将待收集信息上传至云端服务器，以保证用户信息的安全性。

505：云端服务器基于各待收集信息的置信度值对各待收集信息进行不同数量的复制，以获取样本集合。

可以理解，当待收集信息的置信度值越高，则待收集信息为所需样本信息的可能性越大。因此当待收集信息的置信度值越高，则可以将待收集信息的复制数量越多，待收集信息的置信度值越低，可以将待收集信息的复制数量越低。如此，可以根据样本置信度值调节对应样本的比重，能够提高训练后模型的精确度。

在一些实施例中，最终的样本集合中，各待收集信息的数量可以与各待收集信息对应的置信度值一致。

例如，信息A对应的置信度值为25，则可以将信息复制24次，以获取25个信息A样本。信息B对应的置信度值为115，则可以将信息B复制114次，以获取115个信息B样本。

在一些实施例中，云端服务器可以基于步骤505中获取的样本集合进行模型训练，以获取训练后模型。

在一些实施例中，云端服务器也可以不对待收集信息进行复制，而是直接将待收集信息作为样本集合中的样本，且将各待收集信息对应的置信度值作为各待收集信息对应的权重，基于各待收集信息以及各待收集信息对应的权重进行第一模型训练，获取训练后的第二模型。

在一些实施例中，云端服务器也可以不对待收集信息进行复制，而是直接将待收集信息作为样本集合中的样本，且将各待收集信息对应的置信度值作为训练第一模型所需的损失函数参数，基于各待收集信息以及确定出的损失函数参数进行第一模型训练，获取训练后的第二模型。

可以理解，本申请实施例中，可以在电子设备处于充电且屏幕为灭屏状态时，获取未检测信息，进行信息样本的检测和上传云端服务器，如此，可以避免产生功耗影响电子设备的正常使用。

本申请实施例中，云端服务器可以将训练后的模型发送至手机，以进行短信的解析。

可以理解，本申请实施例中，云端服务器还可以基于样本集合获取对应的匹配规则。并下发至手机。手机可以基于匹配规则进行短信的解析。

在一些实施例中，电子设备可以直接将待收集信息发送至云端服务器，由云端服务器实现将各待收集信息与多个不同精确度的信息模板进行匹配，获取各待收集信息的置信度值。

下边以手机和云端服务器收集短信样本集合进行模型训练为例，说明本申请实施例中一种模型的训练方法示意图，如图6所示，方法可以包括：

601：手机获取当前短信。

可以理解，本申请实施例中，当前短信可以为当前待检测的短信。

602：手机判断当前短信是否与基础NLU模型匹配；

若是，转至603，将当前短信与第一NLU模型、第二NLU模型以及第三NLU模型进行匹配，获取匹配结果。

若否，转至608，对当前短信进行已检测标记。

可以理解，本申请实施例中，判断当前短信是否与基础NLU模型匹配即为判断当前短信是否为设定业务类型的短信。

其中，在一些实施例中，手机可以通过复杂度和精确较低的基础NLU模型对待检测短信进行匹配，以判断当前短信是否具备设定业务类型短信的关键信息（例如，关键字），若具备设定业务类型短信具备的关键信息，则确定当前短信为设定业务类型的短信。例如，设定业务类型包括航班类，关键字可以包括航班、出票等。设定业务类包括订单类，关键字可以包括订单、预定等。

603：手机将当前短信与第一NLU模型、第二NLU模型以及第三NLU模型进行匹配，获取匹配结果。

本申请实施例中，可以通过不同复杂度和精确度的第一NLU模型、第二NLU模型、第三NLU模型实现对待收集短信进行不同精确度的短信模板的匹配。可以理解，第一NLU模型、第二NLU模型以及第三NLU模型的复杂度和精确度均高于上述基础NLU模型。

匹配结果可以包括匹配和不匹配。例如，通过第一NLU 模型可以对当前短信进行解析，获得对应的解析内容（或者目标属性值），则当前短信与第一NLU模型匹配。通过第二NLU 模型不可以对当前短信进行解析，不能获得对应的解析内容（或者目标属性值），则当前短信与第二NLU模型不匹配；通过第三NLU 模型可以对当前短信进行解析，可以获得对应的解析内容（或者目标属性值），则当前短信与第三NLU模型匹配。

604：基于匹配结果获取当前短信的置信度值。

本申请中基于NLU模型的复杂度与准召率（或精确度）确定NLU模型的置信度值，其中，NLU模型的复杂度与准召率越高，置信度值越高。

本申请中，可以确定出与当前短信匹配的所有NLU模型，并将该NLU模型对应的置信度值的总和作为待收集短信的置信度值。例如，当前短信与第一NLU模型以及第三NLU模型匹配时，则可以将第一NLU模型以及第三NLU模型对应的置信度值的总和，作为当前短信的置信度值。

605：手机将当前短信、当前短信的置信度值以及当前短信对应的短信模板短信上传至云端服务器。

在一些实施例中，手机可以对当前短信进行去敏感信息处理后，上传至云端服务器，以保证用户信息的安全性。

606：云端服务器基于各短信的置信度值对各短信进行不同数量的复制，以获取样本集合。

可以理解，当短信的置信度值越高，则短信为所需样本信息的可能性越大。因此当短信的置信度值越高，则可以将短信的复制数量越多，短信的置信度值越低，可以将短信的复制数量越低。如此，可以根据样本置信度值调节对应样本的比重，能够提高训练后模型的精确度。

在一些实施例中，最终的样本集合中，各短信的数量可以与短信对应的置信度值一致。

607：云端服务器基于样本集合进行模型训练，获取训练后模型。

在一些实施例中，云端服务器还可以将各短信样本对应的置信度值作为训练模型的参数，基于各短信样本进行模型训练，获取训练后模型。

在一些实施例中，云端服务器也可以将各短信样本对应的置信度值作为损失函数的参数，基于各短信样本以进行模型的训练。

608：手机对当前短信进行已检测标记。

可以理解，本申请对待检测短信进行已检测标记可以避免重复检测。其中，标记的形式可以为以字符标记或分类等任意可实施的方式。

本申请提供一种电子设备，包括：存储器，用于存储计算机程序，计算机程序包括程序指令；处理器，用于执行程序指令，以使电子设备执行上述样本数据获取方法或模型训练方法。可以理解，本申请实施例中，服务器也可以称为电子设备。

本申请提供一种计算机可读取存储介质，计算机可读取存储介质存储有计算机程序，计算机程序包括程序指令，程序指令被电子设备运行以使电子设备执行上述样本数据获取方法或模型训练方法。

本申请公开的各实施例可以被实现在硬件、软件、固件或这些实现方法的组合中。本申请的实施例可实现为在可编程系统上执行的计算机程序或程序代码，该可编程系统包括至少一个处理器、存储系统（包括易失性和非易失性存储器和/或存储元件）、至少一个输入设备以及至少一个输出设备。

可将程序代码应用于输入指令，以执行本申请描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的，处理系统包括具有诸如例如数字信号处理器（DSP)、微控制器、专用集成电路（ASIC)或微处理器之类的处理器的任何系统。

程序代码可以用高级程序化语言或面向对象的编程语言来实现，以便与处理系统通信。在需要时，也可用汇编语言或机器语言来实现程序代码。事实上，本申请中描述的机制不限于任何特定编程语言的范围。在任一情形下，该语言可以是编译语言或解释语言。

在一些情况下，所公开的实施例可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读（例如，计算机可读）存储介质承载或存储在其上的指令，其可以由一个或多个处理器读取和执行。例如，指令可以通过网络或通过其他计算机可读介质分发。因此，机器可读介质可以包括用于以机器（例如，计算机）可读的形式存储或传输信息的任何机制，包括但不限于，软盘、光盘、光碟、只读存储器（CD-ROMs）、磁光盘、只读存储器（ROM）、随机存取存储器（RAM）、可擦除可编程只读存储器（EPROM）、电可擦除可编程只读存储器（EEPROM）、磁卡或光卡、闪存、或用于利用因特网以电、光、声或其他形式的传播信号来传输信息（例如，载波、红外信号数字信号等）的有形的机器可读存储器。因此，机器可读介质包括适合于以机器（例如，计算机）可读的形式存储或传输电子指令或信息的任何类型的机器可读介质。

在附图中，可以以特定布置和/或顺序示出一些结构或方法特征。然而，应该理解，可能不需要这样的特定布置和/或排序。而是，在一些实施例中，这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外，在特定图中包括结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征，并且在一些实施例中，可以不包括这些特征或者可以与其他特征组合。

需要说明的是，本申请各设备实施例中提到的各单元/模块都是逻辑单元/模块，在物理上，一个逻辑单元/模块可以是一个物理单元/模块，也可以是一个物理单元/模块的一部分，还可以以多个物理单元/模块的组合实现，这些逻辑单元/模块本身的物理实现方式并不是最重要的，这些逻辑单元/模块所实现的功能的组合才是解决本申请所提出的技术问题的关键。此外，为了突出本申请的创新部分，本申请上述各设备实施例并没有将与解决本申请所提出的技术问题关系不太密切的单元/模块引入，这并不表明上述设备实施例并不存在其它的单元/模块。

需要说明的是，在本专利的示例和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然通过参照本申请的某些优选实施例，已经对本申请进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本申请的范围。

Claims

1.一种样本数据获取方法，其特征在于，包括：

第一电子设备获取待检测通讯信息；

对应于待检测通讯信息为第一类通讯信息，所述第一电子设备将所述待检测通讯信息与多个不同精确度的通讯信息模板匹配，获取匹配结果；

所述第一电子设备基于所述匹配结果获取所述待检测通讯信息对应的可靠度信息；

所述第一电子设备发送所述待检测通讯信息和所述待检测通讯信息对应的可靠度信息至第二电子设备；

所述第二电子设备基于所述待检测通讯信息和所述待检测通讯信息对应的可靠度信息获取样本数据，基于所述样本数据和所述待检测通讯信息对应的可靠度信息训练第一模型，所述第一模型训练后得到的第二模型用于解析通讯信息；

其中，所述第一电子设备基于所述匹配结果获取所述待检测通讯信息对应的可靠度信息，包括：

获取与所述待检测通讯信息匹配的各通讯信息模板对应的置信度值；

基于所述各通讯信息模板对应的置信度值确定所述待检测通讯信息的置信度值，所述通讯信息模板对应的置信度值基于所述通讯信息模板的精确度确定。

2.根据权利要求1所述的样本数据获取方法，其特征在于，所述基于所述待检测通讯信息和所述待检测通讯信息对应的可靠度信息获取样本数据；包括：

基于所述待检测通讯信息对应的可靠度信息确定所述待检测通讯信息对应的设定数量；

基于所述设定数量对所述待检测通讯信息进行复制，以获取所述设定数量的待检测信息作为样本数据。

3.根据权利要求1-2任一项所述的样本数据获取方法，其特征在于，所述基于所述各通讯信息模板对应的置信度值确定所述待检测通讯信息的置信度值；包括：

将所述各通讯信息模板对应的置信度值的加和作为所述待检测通讯信息的置信度值。

4.根据权利要求1-2任一项所述的样本数据获取方法，其特征在于，确定所述待检测通讯信息是否为第一类通讯信息的方式包括：

在所述待检测通讯信息中具有设定业务类型对应的关键信息的情况下，确定所述待检测通讯信息为第一类通讯信息。

5.根据权利要求4所述的样本数据获取方法，其特征在于，所述第一电子设备将所述待检测通讯信息与多个不同精确度的通讯信息模板匹配，获取匹配结果；包括：

所述第一电子设备通过多个不同精确度的自然语言理解模型实现将所述待检测通讯信息与多个不同精确度的通讯信息模板匹配，获取匹配结果。

6.根据权利要求1所述的样本数据获取方法，其特征在于，包括：

所述第二电子设备将所述待检测通讯信息作为样本数据，将所述待检测通讯信息对应的可靠度信息作为所述样本数据对应的权重，训练第一模型，得到第二模型。

7.根据权利要求1所述的样本数据获取方法，其特征在于，所述第一电子设备获取待检测通讯信息；包括：

所述第一电子设备在充电灭屏状态时，获取所述待检测通讯信息。

8.一种模型训练方法，用于电子设备，其特征在于，包括：

获取样本数据，其中，所述样本数据基于权利要求1-7中任一项所述的样本数据获取方法获取；

基于所述样本数据训练第一模型，得到第二模型，其中，所述第二模型能够用于解析通讯信息。

9.一种模型训练方法，其特征在于，包括：

第一电子设备获取待检测通讯信息；

对应于待检测通讯信息为第一类通讯信息，所述第一电子设备获取所述第一类通讯信息对应的可靠度信息；其中，获取所述第一类通讯信息对应的可靠度信息，包括：将各所述第一类通讯信息与多个不同精确度的通讯信息模板匹配，获取匹配结果，基于所述匹配结果获取各所述第一类通讯信息对应的可靠度信息；所述基于所述匹配结果获取各所述第一类通讯信息对应的可靠度信息，包括：获取与所述第一类通讯信息匹配的各通讯信息模板对应的置信度值；基于所述各通讯信息模板对应的置信度值确定所述第一类通讯信息的置信度值，所述通讯信息模板对应的置信度值基于所述通讯信息模板的精确度确定；

所述第一电子设备发送所述第一类通讯信息和所述第一类通讯信息对应的可靠度信息至第二电子设备；所述第二电子设备将所述第一类通讯信息作为样本数据，基于所述样本数据和所述第一类通讯信息对应的可靠度信息训练第一模型，得到第二模型，其中，所述第二模型能够用于解析通讯信息。

10.根据权利要求9所述的模型训练方法，其特征在于，所述基于所述样本数据和所述第一类通讯信息对应的可靠度信息训练第一模型，得到第二模型，包括：

基于所述第一类通讯信息对应的可靠度信息确定所述第一类通讯信息对应的权重；

基于所述样本数据和所述第一类通讯信息对应的权重训练所述第一模型，得到所述第二模型。

11.根据权利要求9所述的模型训练方法，其特征在于，所述基于所述样本数据和所述第一类通讯信息对应的可靠度信息训练第一模型，得到第二模型，包括：

基于所述第一类通讯信息对应的可靠度信息确定训练所述第一模型的损失函数参数；

基于所述样本数据和所述损失函数参数训练所述第一模型，得到所述第二模型。

12.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序，所述计算机程序包括程序指令；

应用处理器和协处理器，用于执行所述程序指令，以使所述电子设备执行权利要求1-7任意一项所述的样本数据获取方法或权利要求8-11任意一项所述的模型训练方法。

13.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被电子设备运行以使所述电子设备执行权利要求1-7任意一项所述的样本数据获取方法或权利要求8-11任意一项所述的模型训练方法。