CN111401066A

CN111401066A - 基于人工智能的词分类模型训练方法、词处理方法及装置

Info

Publication number: CN111401066A
Application number: CN202010170529.3A
Authority: CN
Inventors: 邵纪春; 孙钟前; 胡海峰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-12
Filing date: 2020-03-12
Publication date: 2020-07-10
Anticipated expiration: 2040-03-12
Also published as: CN111401066B

Abstract

本发明提供了一种基于人工智能的词分类模型训练方法、词处理方法、装置、电子设备及存储介质；方法包括：获取由多个种子实体词组成的种子实体词集合；其中，所述多个种子实体词属于待挖掘实体类型；将所述种子实体词集合内的任意两个种子实体词进行组合，得到正例样本对；获取包括所述种子实体词的历史文本，并根据所述种子实体词和排除所述种子实体词的所述历史文本，构建负例样本对；通过所述正例样本对和所述负例样本对更新词分类模型；其中，更新后的所述词分类模型用于确定待识别实体词属于所述待挖掘实体类型的概率。通过本发明，能够提升模型训练样本的丰富性，降低实体挖掘所需要的语料标注成本，同时也能够提升词分类模型的训练效果。

Description

基于人工智能的词分类模型训练方法、词处理方法及装置

技术领域

本发明涉及人工智能技术，尤其涉及一种基于人工智能的词分类模型训练方法、词处理方法、装置、电子设备及存储介质。

背景技术

人工智能(AI，Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。自然语言处理(NLP，Nature Language Processing)是人工智能的一个重要方向，主要研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。

实体词分类是自然语言处理的一个重要应用，通过确定文本中实体词所属的实体类型，从而能从文本中提取出有意义的信息。在相关技术提供的方案中，通常是采用基于Bootstrapping的规则模板扩展方式，来识别实体词的实体类型，其核心思路是根据已知文本类型的实体词构建规则模板，通过规则模板对相关文本中的实体词进行分类，并根据分类后的实体词更新规则模板。但是，由于初始的实体词数量往往较少，导致通过该种方式构建的规则模板太过宽泛，进行实体词分类的准确性较低。

发明内容

本发明实施例提供一种基于人工智能的词分类模型训练方法、词处理方法、装置、电子设备及存储介质，能够提升进行实体词分类的准确性，便于进行实体词挖掘。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种基于人工智能的词分类模型训练方法，包括：

获取由多个种子实体词组成的种子实体词集合；其中，所述多个种子实体词属于待挖掘实体类型；

将所述种子实体词集合内的任意两个种子实体词进行组合，得到正例样本对；

获取包括所述种子实体词的历史文本，并

根据所述种子实体词和排除所述种子实体词的所述历史文本，构建负例样本对；

通过所述正例样本对和所述负例样本对更新词分类模型；

其中，更新后的所述词分类模型用于确定待识别实体词属于所述待挖掘实体类型的概率。

本发明实施例提供一种基于词分类模型的词处理方法，包括：

对待处理文本进行分词处理，得到待识别实体词；

将种子实体词集合中的种子实体词与所述待识别实体词进行组合，得到待处理样本对；其中，所述种子实体词属于待挖掘实体类型；

通过所述词分类模型对所述待处理样本对进行预测处理，得到所述待识别实体词对应的预测概率；

将预测概率满足筛选条件的所述待识别实体词，确定为属于所述待挖掘实体类型。

获取由多个医疗实体词组成的医疗实体词集合；其中，所述多个医疗实体词属于医疗实体类型；

将所述医疗实体词集合内的任意两个医疗实体词进行组合，得到正例样本对；

获取包括所述医疗实体词的历史文本，并

根据所述医疗实体词和排除所述医疗实体词的所述历史文本，构建负例样本对；

通过所述正例样本对及所述负例样本对更新词分类模型；

其中，更新后的所述词分类模型用于确定待识别实体词属于所述医疗实体类型的概率。

对病历文本进行分词处理，得到待识别实体词；

将医疗实体词集合中的医疗实体词与所述待识别实体词进行组合，得到待处理样本对；其中，所述医疗实体词属于医疗实体类型；

将预测概率满足筛选条件的所述待识别实体词，确定为属于所述医疗实体类型。

本发明实施例提供一种基于人工智能的词分类模型训练装置，包括：

集合获取模块，用于获取由多个种子实体词组成的种子实体词集合；其中，所述多个种子实体词属于待挖掘实体类型；

正例构建模块，用于将所述种子实体词集合内的任意两个种子实体词进行组合，得到正例样本对；

负例构建模块，用于获取包括所述种子实体词的历史文本，并

模型更新模块，用于通过所述正例样本对和所述负例样本对更新词分类模型；

本发明实施例提供一种基于词分类模型的词处理装置，包括：

分词模块，用于对待处理文本进行分词处理，得到待识别实体词；

样本对构建模块，用于将种子实体词集合中的种子实体词与所述待识别实体词进行组合，得到待处理样本对；其中，所述种子实体词属于待挖掘实体类型；

预测模块，用于通过所述词分类模型对所述待处理样本对进行预测处理，得到所述待识别实体词对应的预测概率；

类型确定模块，用于将预测概率满足筛选条件的所述待识别实体词，确定为属于所述待挖掘实体类型。

医疗集合获取模块，用于获取由多个医疗实体词组成的医疗实体词集合；其中，所述多个医疗实体词属于医疗实体类型；

医疗正例构建模块，用于将所述医疗实体词集合内的任意两个医疗实体词进行组合，得到正例样本对；

医疗负例构建模块，用于获取包括所述医疗实体词的历史文本，并

医疗模型更新模块，用于通过所述正例样本对及所述负例样本对更新词分类模型；

病历分词模块，用于对病历文本进行分词处理，得到待识别实体词；

医疗样本对构建模块，用于将医疗实体词集合中的医疗实体词与所述待识别实体词进行组合，得到待处理样本对；其中，所述医疗实体词属于医疗实体类型；

医疗预测模块，用于通过所述词分类模型对所述待处理样本对进行预测处理，得到所述待识别实体词对应的预测概率；

医疗类型确定模块，用于将预测概率满足筛选条件的所述待识别实体词，确定为属于所述医疗实体类型。

本发明实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的基于人工智能的词分类模型训练方法，或基于词分类模型的词处理方法。

本发明实施例提供一种存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的基于人工智能的词分类模型训练方法，或基于词分类模型的词处理方法。

本发明实施例具有以下有益效果：

本发明实施例通过种子实体词集合建立正例样本对，结合种子实体词集合和历史文本建立负例样本对，并通过正例样本对和负例样本对进行模型训练，从而可根据训练后的模型进行实体词分类，本发明实施例在初始的种子实体词数量较少的情况下，能够极大地丰富样本数量，提升模型的训练效果，并提升根据训练后的模型进行实体词分类的精度。

附图说明

图1是本发明实施例提供的基于人工智能的词分类模型训练系统的一个可选的架构示意图；

图2A是本发明实施例提供的电子设备的一个可选的架构示意图；

图2B是本发明实施例提供的电子设备的一个可选的架构示意图；

图2C是本发明实施例提供的电子设备的一个可选的架构示意图；

图2D是本发明实施例提供的电子设备的一个可选的架构示意图；

图3是本发明实施例提供的基于人工智能的词分类模型训练装置的一个可选的架构示意图；

图4A是本发明实施例提供的基于人工智能的词分类模型训练方法的一个可选的流程示意图；

图4B是本发明实施例提供的基于人工智能的词分类模型训练方法的一个可选的流程示意图；

图5A是本发明实施例提供的基于词分类模型的词处理方法的一个可选的流程示意图；

图5B是本发明实施例提供的基于词分类模型的词处理方法的一个可选的流程示意图；

图6是本发明实施例提供的基于人工智能的词分类模型训练方法的一个可选的流程示意图；

图7是本发明实施例提供的基于词分类模型的词处理方法的一个可选的流程示意图；

图8是本发明实施例提供的模型训练及实体词分类的一个可选的示意图；

图9A是本发明实施例提供的词分类模型的一个可选的架构示意图；

图9B是本发明实施例提供的词分类模型的一个可选的架构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)实体词：又称命名实体(named entity)，是人名、机构名、地名以及其他以名称为标识的实体。

2)医疗实体词：医疗场景涉及的实体词，例如可以是与人体部位、疾病、手术或药品相关的实体词。

3)种子实体词集合：包括多个种子实体词，种子实体词可以是人为设定，或通过特定规则筛选得到的。种子实体词集合内的种子实体词均属于相同的待挖掘实体类型，例如都属于人体部位，或者都属于商品名。

4)实体挖掘：指识别出更多的属于待挖掘实体类型的实体词的过程。

5)词分类模型：具有语义分析及对比能力的机器学习模型，例如，词分类模型可以是神经网络模型。

6)知识图谱：用于描述实体词及对应的实体类型，例如知识图谱包括实体词“牙龈”，其对应的实体类型为“人体部位”。

在相关技术提供的方案中，通常是通过基于Bootstrapping的规则模板扩展方式，来实现实体词分类及实体挖掘。该方式的核心思路是筛选出包含设定实体词的相关文本片段，并从文本片段中提取共现频次高的词组，组成规则模板，再利用规则模板对文本语料进行实体词分类，此时，往往需要进行人工的校验和筛选，从而得到更多的实体词。在得到更多的实体词后，继续组成更多的规则模板，进行持续迭代，从而实现实体挖掘。但是，该种方式仅单纯利用上下文的词及词频信息，泛化能力较差，同时，在初始迭代的实体词数量较少的情况下，得到的规则模板太宽泛，进行实体词分类的精度低。

本发明实施例提供一种基于人工智能的词分类模型训练方法、词处理方法、装置、电子设备及存储介质，能够提升模型样本的丰富程度，提升模型的训练效果，并提升根据训练后的模型进行实体词分类的精度。

下面说明本发明实施例提供的电子设备的示例性应用，本发明实施例提供的电子设备可以是服务器，例如部署在云端的服务器，根据用户提交的待处理文本，向用户提供远程的实体词分类功能，即确定待处理文本中属于待挖掘实体类型的实体词；也可以是终端设备，例如词处理设备，通过待处理文本中的实体词分类结果，构建相应的知识图谱(实体库)，并基于知识图谱快速识别出其他文本中出现的实体和实体类型，又例如针对病历文本的词处理设备，能够针对病历文本进行词分类，得到其中属于医疗实体类型的实体词(例如属于人体部位的实体词)，并以着重显示或其他方式突出该实体词，以加强用户对病历文本的理解程度；甚至可以是手持终端等设备。

电子设备通过运行本发明实施例提供的模型训练和词处理的方案，可以提升模型的训练效果和实体词分类的精度，提高自身性能，适用于词处理的多个应用场景。例如，在电商场景中，通过更新后的词分类模型，提升电子设备对待处理文本中的商品名或品牌名的识别精度，便于构建更准确的商品知识图谱；电子设备也可应用至医疗领域，通过更新后的词分类模型对病历文本进行实体词分类，得到病历文本中属于医疗实体类型的实体词，从而，电子设备可根据属于医疗实体类型的实体词，引导用户观看病历文本，便于用户理解病历文本的含义。

参见图1，图1是本发明实施例提供的基于人工智能的词分类模型训练系统100的一个可选的架构示意图，为实现支撑一个基于人工智能的词分类模型训练应用，终端设备400(示例性示出了终端设备400-1和终端设备400-2)通过网络300连接服务器200，服务器200连接数据库500，其中，网络300可以是广域网或者局域网，又或者是二者的组合。

在一些实施例中，终端设备400可在本地执行本发明实施例提供的基于人工智能的词分类模型训练方法，并根据更新后的词分类模型，对获取到的待处理文本进行分类，得到分类结果。例如，终端设备400可应用于问答系统，具体地，终端设备400根据对待处理文本的实体词分类结果，构建与待挖掘实体类型对应的知识图谱，并根据构建的知识图谱，确定用户输入的查询文本的语义，从而确定相应的应答文本进行应答；又例如，终端设备400可应用于医疗场景，具体对病历文本进行实体词分类，得到其中属于医疗实体类型的实体词，并通过突出该实体词的方式，加强用户对病历文本的理解程度。值得说明的是，对于训练词分类模型所需的种子实体词集合或医疗实体词集合，终端设备400可从本地获取，也可通过网络300向服务器200发送请求，从而从数据库500中获取。

除此之外，服务器200也可以执行本发明实施例提供的基于人工智能的词分类模型训练方法，具体从终端设备400和/或数据库500中获取种子实体词集合或医疗实体词集合，从而进行对词分类模型的训练。然后，服务器200可以接收终端设备400发送的待处理文本，并根据更新后的词分类模型，确定待处理文本的实体词分类结果，并将实体词分类结果发送至终端设备400。

终端设备400可以在图形界面410(示例性示出了图形界面410-1和图形界面410-2)中显示模型训练和词处理过程中的各种结果，在图1中，以医疗场景、且医疗实体类型为人体部位为例，示出了对病历文本进行实体词分类后得到的分类结果，图1中的下划线部分即为突出显示的、属于医疗实体类型的实体词，具体为“牙龈出血”中的实体词“牙龈”，通过突出显示的方式，能够使用户(如患者)更加明确、快速地了解病历文本的含义，

下面继续说明本发明实施例提供的电子设备的示例性应用。电子设备可以实施为词处理设备、笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的终端设备，也可以实施为服务器。

参见图2A，图2A是本发明实施例提供的电子设备900(例如，可以是图1所示的服务器200或终端设备400)的架构示意图，图2A所示的电子设备900包括：至少一个处理器910、存储器950、至少一个网络接口920和用户接口930。电子设备900中的各个组件通过总线系统940耦合在一起。可理解，总线系统940用于实现这些组件之间的连接通信。总线系统940除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2A中将各种总线都标为总线系统940。

处理器910可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口930包括使得能够呈现媒体内容的一个或多个输出装置931，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口930还包括一个或多个输入装置932，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器950可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器950可选地包括在物理位置上远离处理器910的一个或多个存储设备。

存储器950包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本发明实施例描述的存储器950旨在包括任意适合类型的存储器。

在一些实施例中，存储器950能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统951，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块952，用于经由一个或多个(有线或无线)网络接口920到达其他计算设备，示例性的网络接口920包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块953，用于经由一个或多个与用户接口930相关联的输出装置931(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块954，用于对一个或多个来自一个或多个输入装置932之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本发明实施例提供的基于人工智能的词分类模型训练装置可以采用软件方式实现，图2A示出了存储在存储器950中的基于人工智能的词分类模型训练装置9551，其可以是程序和插件等形式的软件，包括以下软件模块：集合获取模块95511、正例构建模块95512、负例构建模块95513及模型更新模块95514，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在一些实施例中，本发明实施例提供的基于词分类模型的词处理装置也可以采用软件方式实现，参见图2B，图2B除了示出的基于词分类模型的词处理装置9552外，其余部分可均与图2A相同，此处不再赘述。对于存储在存储器950中的基于词分类模型的词处理装置9552，其可以是程序和插件等形式的软件，包括以下软件模块：分词模块95521、样本对构建模块95522、预测模块95523及类型确定模块95524，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在一些实施例中，针对医疗场景，本发明实施例提供的基于人工智能的词分类模型训练装置可以采用软件方式实现，参见图2C，图2C除了示出的基于人工智能的词分类模型训练装置9553外，其余部分可均与图2A相同，此处不再赘述。对于存储在存储器950中的基于人工智能的词分类模型训练装置9553，其可以是程序和插件等形式的软件，包括以下软件模块：医疗集合获取模块95531、医疗正例构建模块95532、医疗负例构建模块95533及医疗模型更新模块95534，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在一些实施例中，针对医疗场景，本发明实施例提供的基于词分类模型的词处理装置也可以采用软件方式实现，参见图2D，图2D除了示出的基于词分类模型的词处理装置9554外，其余部分可均与图2A相同，此处不再赘述。对于存储在存储器950中的基于词分类模型的词处理装置9554，其可以是程序和插件等形式的软件，包括以下软件模块：病历分词模块95541、医疗样本对构建模块95542、医疗预测模块95543及医疗类型确定模块95544，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本发明实施例提供的基于人工智能的词分类模型训练装置及基于词分类模型的词处理装置可以采用硬件方式实现，作为示例，本发明实施例提供的基于人工智能的词分类模型训练装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的基于人工智能的词分类模型训练方法；本发明实施例提供的基于词分类模型的词处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的基于词分类模型的词处理方法。例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-ProgrammableGate Array)或其他电子元件。

本发明实施例提供的基于人工智能的词分类模型训练方法可以由上述的服务器执行，也可以由终端设备(例如，可以是图1所示的终端设备400-1和终端设备400-2)执行，或者由服务器和终端设备共同执行。

下面将结合上文记载的电子设备的示例性应用和结构，说明电子设备中通过嵌入的基于人工智能的词分类模型训练装置，而实现基于人工智能的词分类模型训练方法的过程。

参见图3和图4A，图3是本发明实施例提供的基于人工智能的词分类模型训练装置9551的架构示意图，示出了通过一系列模块更新词分类模型的流程，图4A是本发明实施例提供的基于人工智能的词分类模型训练方法的流程示意图，将结合图3对图4A示出的步骤进行说明。

在步骤101中，获取由多个种子实体词组成的种子实体词集合；其中，多个种子实体词属于待挖掘实体类型。

作为示例，参见图3，在集合获取模块95511中，获取种子实体词集合，这里的种子实体词集合包括多个种子实体词，且种子实体词集合内的多个种子实体词属于相同的待挖掘实体类型。待挖掘实体类型也可根据实际应用场景进行设定，如设定为人体部位、商品名或品牌名等。种子实体词可预先设定，也可通过特定规则筛选得到。举例来说，对于待挖掘实体类型为商品名的情况，可人为设定种子实体词集合包括“A商品”及“B商品”等作为商品名的实体词，也可从电商平台的文本数据中筛选出商品名，并将筛选出的商品名作为种子实体词。

在步骤102中，将种子实体词集合内的任意两个种子实体词进行组合，得到正例样本对。

作为示例，参见图3，在正例构建模块95512中，由于种子实体词集合内的多个种子实体词均属于相同的待挖掘实体类型，故将种子实体词集合内的任意两个种子实体词进行组合，得到正例样本对。举例来说，种子实体词集合包括实体词“A商品”和“B商品”，则构建的正例样本对可以包括“A商品”和“B商品”两个元素。值得说明的是，本文中的元素是指样本对的组成部分，构建的样本对包括且仅包括两个元素。

这里，可设定构建正例样本对的停止条件，例如设定为当得到的互不重复的正例样本对达到正例样本对阈值时，停止构建正例样本对，还可设定为遍历种子实体词集合内的所有组合方式，直至得到所有可能出现的正例样本对为止。

在步骤103中，获取包括种子实体词的历史文本，并根据种子实体词和排除种子实体词的历史文本，构建负例样本对。

作为示例，参见图3，在负例构建模块95513中，获取包括种子实体词的历史文本，例如，以种子实体词作为过滤条件，在数据库或电子设备的本地日志中进行过滤，将包括种子实体词的文本作为历史文本，其中，本地日志包括用户的查询文本。在此基础上，还可在过滤条件中增加文本长度阈值，从而将数据库或本地日志中包括种子实体词、且长度未超过文本长度阈值的文本，确定为历史文本。当然，历史文本还可存在其他的获取方式，本发明实施例对此不做限定。

对于获取到的历史文本，根据历史文本中的种子实体词以及排除该种子实体词的历史文本，构建负例样本对，即确定负例样本对包括的两个元素不属于同一个实体类型。同样地，可设定构建负例样本对的停止条件，例如当得到的互不重复的负例样本对达到负例样本对阈值时，停止构建负例样本对。

在一些实施例中，可以通过这样的方式来实现上述的根据种子实体词和排除种子实体词的历史文本，构建负例样本对：通过以下方式至少之一构建负例样本对：将种子实体词与排除种子实体词的历史文本进行组合，得到负例样本对；对排除种子实体词的历史文本进行分词处理，并对分词处理得到的至少两个词进行采样处理，将种子实体词与采样处理得到的词进行组合，得到负例样本对。

本发明实施例提供了构建负例样本对的两种方式，第一种方式是，直接将种子实体词与排除种子实体词的历史文本进行组合，得到负例样本对，例如种子实体词为“A商品”，历史文本为“A商品制造商的地址是什么”，则得到的负例样本对包括“A商品”及“制造商的地址是什么”两个元素；第二种方式是，对排除种子实体词的历史文本进行分词处理，并对分词处理得到的词进行采样处理，将种子实体词与采样处理得到的词进行组合，得到负例样本对，以第一种方式中的例子进行举例，则得到的负例样本对可以包括“A商品”及“制造商”两个元素，也可以包括“A商品”和“地址”两个元素。当然，若排除种子实体词的历史文本仅包括一个词，则不需经过采样处理，直接将种子实体词与排除种子实体词的历史文本进行组合，得到负例样本对。通过上述方式，提升了构建负例样本对的灵活性。

在步骤104中，通过正例样本对和负例样本对更新词分类模型；其中，更新后的词分类模型用于确定待识别实体词属于待挖掘实体类型的概率。

作为示例，参见图3，在模型更新模块95514中，通过正例样本对和负例样本对更新词分类模型，直到满足设定的更新停止条件，更新停止条件如设定的迭代次数，或设定的准确率阈值。通过更新后的词分类模型，可对待识别实体词进行实体词分类，得到待识别实体词属于待挖掘实体类型的概率，从而进行实体挖掘。例如，在待挖掘实体类型为商品名时，可通过更新后的词分类模型，对电商平台或其他平台的文本进行实体词分类处理，从而从电商平台或其他平台的文本中挖掘出更多的商品名。

通过发明实施例对于图4A的上述示例性实施可知，本发明实施例通过种子实体词集合构建正例样本对，结合种子实体词集合和历史文本构建负例样本对，在初始的种子实体词较少的情况下，能够构建较多的样本对，提升模型训练样本的丰富性，降低实体挖掘所需要的语料标注成本，同时也提升了词分类模型的训练效果。

在一些实施例中，参见图4B，图4B是本发明实施例提供的基于人工智能的词分类模型训练方法的一个可选的流程示意图，基于图4A，在步骤102之后，还可以在步骤201中，将正例样本对的实际标签设置为正例标签。

在构建了正例样本对后，将正例样本对的实际标签设置为正例标签，正例标签用于表示正例样本对包括的两个元素属于同一个实体类型。为了便于说明，可设置正例标签对应的数值为1，负例标签对应的数值为0。

基于图4A，在步骤103之后，还可以在步骤202中，将负例样本对的实际标签设置为负例标签。

同理，在构建了负例样本对后，将负例样本对的实际标签设置为负例标签，负例标签用于表示负例样本对包括的两个元素不属于同一个实体类型。

在图4B中，图4A示出的步骤104可通过步骤203至步骤204实现，将结合各步骤进行说明。

在步骤203中，通过词分类模型对训练样本对进行预测处理，得到训练样本对的预测标签；其中，训练样本对为正例样本对或负例样本对。

在更新词分类模型的过程中，将正例样本对或负例样本对作为训练样本对，通过词分类模型对训练样本对进行预测处理，得到对应正例标签的预测概率以及对应负例标签的预测概率。当对应正例标签的预测概率超过对应负例标签的预测概率时，例如对应正例标签的预测概率为60％，对应负例标签的预测概率为40％时，确定模型输出的预测标签为正例标签；当对应正例标签的预测概率未超过对应负例标签的预测概率时，例如对应负例标签的预测概率为60％，对应正例标签的预测概率为40％时，确定模型输出的预测标签为负例标签。当然，除了该方式外，也可采用其他的阈值得到预测标签，例如当对应正例标签的预测概率超过70％时，才确定模型输出的预测标签为正例标签。

在一些实施例中，可以通过这样的方式来实现上述的通过词分类模型对训练样本对进行预测处理，得到训练样本对的预测标签：对训练样本对包括的内容进行拼接处理以得到拼接文本，并在拼接文本中添加分类标识；通过词分类模型，对包括分类标识的拼接文本进行前馈处理，得到分类标识对应的输出向量；对输出向量进行分类处理，得到训练样本对的预测标签。

作为示例，参见图3，在模型更新模块95514中，词分类模型可以是基于转换器的双向编码表征(BERT，Bidirectional Encoder Representation from Transformers)模型，在该情况下，为了对训练样本对进行预测处理，对训练样本对包括的两个元素进行拼接处理，得到拼接文本，并在拼接文本的首部增加分类标识[CLS]，该分类标识用于使词分类模型执行分类任务。添加有分类标识的拼接文本，即构成了词分类模型的输入参数。通过词分类模型，可对包括分类标识的拼接文本进行前馈处理，得到分类标识对应的输出向量。然后，对分类标识对应的输出向量进行分类处理，得到对应正例标签的预测概率和对应负例标签的预测概率，从而根据预测概率确定训练样本对的预测标签，例如当对应正例标签的预测概率大于对应负例标签的预测概率时，确定预测标签为正例标签。通过上述方式，针对BERT模型对输入参数进行调整，提升了预测处理对于具体模型的适用性。

在步骤204中，根据训练样本对的实际标签与预测标签之间的差异，在词分类模型中进行反向传播，并在反向传播的过程中，更新词分类模型的权重参数；其中，更新后的词分类模型用于确定待识别实体词属于待挖掘实体类型的概率。

作为示例，参见图3，在模型更新模块95514中，根据词分类模型的损失函数，计算训练样本对的实际标签与预测标签之间的差异，其中，损失函数可为交叉熵损失函数。根据该差异在词分类模型中进行反向传播，在反向传播的过程中，根据该差异确定梯度，并沿梯度下降方向更新词分类模型的权重参数，以使得通过更新后的词分类模型输出的预测标签与实际标签之间的差异更小。

通过发明实施例对于图4B的上述示例性实施可知，本发明实施例通过对应正例标签的正例样本对和对应负例标签的负例样本对，并结合反向传播的机制进行模型训练，提升了模型训练的效果。

本发明实施例提供的基于词分类模型的词处理方法可以由上述的服务器执行，也可以由终端设备(例如，可以是图1所示的终端设备400-1和终端设备400-2)执行，或者由服务器和终端设备共同执行。

下面将结合上文记载的电子设备的示例性应用和结构，说明电子设备中通过嵌入的基于词分类模型的词处理装置，而实现基于词分类模型的词处理方法的过程。

参见图5A，图5A是本发明实施例提供的基于词分类模型的词处理方法的一个可选的流程示意图，将结合图5A示出的步骤进行说明。

在步骤301中，对待处理文本进行分词处理，得到待识别实体词。

这里，对待进行实体挖掘的待处理文本进行分词处理，得到待识别实体词。本发明实施例对分词处理的方式不做限定，例如可通过N-Gram模型或语言技术平台(LTP，Language Technology Platform)进行分词处理。

在步骤302中，将种子实体词集合中的种子实体词与待识别实体词进行组合，得到待处理样本对；其中，种子实体词属于待挖掘实体类型。

对于每个待识别实体词，将种子实体词集合中的种子实体词与待识别实体词进行组合，得到待处理样本对。其中，种子实体词集合内的所有种子实体词属于相同的待挖掘实体类型，例如都是商品名。

在一些实施例中，可以通过这样的方式来实现上述的将种子实体词集合中的种子实体词与待识别实体词进行组合，得到待处理样本对，包括：对种子实体词集合进行随机选取处理，并将选取得到的种子实体词与待识别实体词进行组合，直至得到设定数量的待处理样本对；确定种子实体词集合内的种子实体词与待识别实体词之间的文本相似度，并将文本相似度满足相似度条件的种子实体词与待识别实体词进行组合，得到待处理样本对。

本发明实施例提供了构建待处理样本对的两种方式，对于每个待识别实体词，在第一种方式中，对种子实体词集合进行随机选取处理，并将选取得到的种子实体词与待识别实体词进行组合，直至得到设定数量的待处理样本对，其中，设定数量为大于0的整数。当然，在设定数量等于种子实体词集合包括的种子实体词的总数量时，即是将种子实体词集合内的每一个种子实体词分别与待识别实体词进行组合，得到待处理样本对。在设定数量为多个，即得到多个待处理样本对，能够提升实体词分类的泛化能力，得到更为准确的实体词分类结果。

在另一种方式中，确定种子实体词集合内的每个种子实体词与待识别实体词之间的文本相似度，例如，对种子实体词和待识别实体词分别进行向量转换处理，将种子实体词对应的词向量与待识别实体词对应的词向量之间的向量相似度，作为种子实体词与待识别实体词之间的文本相似度，这里的向量相似度可以是余弦相似度或杰卡德相似系数等，本发明实施例对此不做限定。当然除了向量转换的方式外，也可采用其他的方式确定文本相似度，如将文本相似度确定为种子实体词包括的字与待识别实体词包括的字之间的交集/并集。然后，将文本相似度满足相似度条件的种子实体词与待识别实体词进行组合，得到待处理样本对，例如，将超过相似度阈值的文本相似度对应的种子实体词，与待识别实体词进行组合，得到待处理样本对，又例如，将数值最大的K个文本相似度对应的种子实体词，分别与待识别实体词进行组合，得到K个待处理样本对，其中，K为大于0的整数，可根据实际应用场景进行设定。通过优先选取与待识别实体词相似度较高的种子实体词，在另一层面上提升后续进行实体词分类的精度。在实际应用场景中，可采用上文两种方式中的任意一种来构建待处理样本对。

在步骤303中，通过词分类模型对待处理样本对进行预测处理，得到待识别实体词对应的预测概率。

通过词分类模型对构建的待处理样本进行预测处理，得到待识别实体词的预测概率，这里的预测概率可仅包括对应正例标签的预测概率，也可包括对应正例标签的预测概率及对应负例标签的预测概率。同样地，可对待处理样本对包括的内容进行拼接处理以得到拼接文本，在拼接文本中添加分类标识，并通过词分类模型，对包括分类标识的拼接文本进行前馈处理，得到分类标识对应的输出向量，然后，对输出向量进行分类处理，得到对应正例标签的预测概率及对应负例标签的预测概率。

在步骤304中，将预测概率满足筛选条件的待识别实体词，确定为属于待挖掘实体类型。

例如，当待识别实体词对应正例标签的预测概率超过正例概率阈值时，确定预测概率满足筛选条件，正例概率阈值如50％。又例如，对于待处理文本中包括至少两个待识别实体词的情况，当待识别实体词对应正例标签的预测概率是对应正例标签、且数值最大的N个预测概率中的一个时，确定该待识别实体词的预测概率满足筛选条件，其中，N为大于0的整数，可根据实际应用场景进行设定。

将预测概率满足筛选条件的待识别实体词，确定为属于待挖掘实体类型，完成实体挖掘。值得说明的是，对于预测概率满足筛选条件的待识别实体词，还可将其添加至种子实体词集合中，并根据更新后的种子实体词集合，再次进行对词分类模型的训练，进一步提升词分类模型的实体词分类能力。

在一些实施例中，步骤303之后，还包括：对待识别实体词对应的多个预测概率进行平均处理，得到平均预测概率；

可以通过这样的方式来实现上述的将预测概率满足筛选条件的待识别实体词，确定为属于待挖掘实体类型：将满足筛选条件的平均预测概率对应的待识别实体词，确定为属于待挖掘实体类型。

在步骤302中，对于每个待识别实体词，可能会构建两个以上的待处理文本，对于该情况，在得到每个待处理文本对应的预测概率后，将所有预测概率进行平均处理，得到待识别实体词对应的平均预测概率。例如，对于某个待识别实体词构建了待处理文本A和待处理文本B，经预测处理后，对于待处理文本A，其对应正例标签的预测概率为70％，对应负例标签的预测概率为30％；对于待处理文本B，其对应正例标签的预测概率为60％，对应负例标签的预测概率为40％。进行平均处理后，可得到待识别实体词对应正例标签的预测概率为65％，对应负例标签的预测概率为35％。完成平均处理后，根据筛选条件对平均预测概率进行筛选，将通过筛选的平均预测概率对应的待识别实体词，确定为属于待挖掘实体类型。通过上述的平均处理的方式，使得到的平均预测概率更为准确，提升了实体词分类的准确性。

通过发明实施例对于图5A的上述示例性实施可知，本发明实施例结合待处理文本和种子实体词集合构建待处理样本对，并通过词分类模型对待处理样本进行预测处理，根据预测处理的结果确定待处理文本中属于待挖掘实体类型的实体词，提升了实体词分类的准确性，适用于实体挖掘的多种应用场景，如商品名挖掘及品牌名挖掘等。

在一些实施例中，参见图5B，图5B是本发明实施例提供的基于分类模型的词处理方法的一个可选的流程示意图，基于图5A，在步骤304之后，还可以在步骤401中，将属于待挖掘实体类型的待识别实体词，添加至知识图谱。

在本发明实施例中，实体挖掘的结果可应用于问答场景。具体地，在确定出待处理文本中属于待挖掘实体类型的待识别实体词后，可将该待识别实体词及待挖掘实体类型添加至知识图谱。值得说明的是，知识图谱中可以仅包括对应待挖掘实体类型的实体词，也可同时包括对应不同实体类型的实体词。

在步骤402中，获取查询文本，并对查询文本进行分词处理，得到查询实体词。

例如，获取用户输入的查询文本，并对查询文本进行分词处理，为了便于区分，将分词处理得到的词命名为查询实体词。同样地，这里可通过N-Gram模型或LTP工具进行分词处理。

在步骤403中，当查询实体词与知识图谱中的实体词匹配时，将知识图谱中匹配的实体词的实体类型确定为目标实体类型。

对于查询文本中的每个查询实体词，将其与知识图谱中的实体词进行匹配，当查询实体词与知识图谱中的某个实体词相同时，确定知识图谱中匹配的实体词的实体类型。

在步骤404中，根据查询文本进行查询处理，并根据目标实体类型，对查询处理得到的文本进行过滤处理，得到应答文本。

这里，可根据搜索引擎对查询文本进行查询处理，并根据目标实体类型对得到的文本进行过滤处理，将与目标实体类型相关的文本，确定为查询文本对应的应答文本。一种实现方式是，对于知识图谱中的实体类型，设置其对应的关键词，进而在进行过滤处理时，将包括关键词的文本确定为查询文本对应的应答文本。

举例来说，查询文本中包括查询实体词“橘子”，知识图谱中存在实体词“橘子”，其对应的实体类型为手机品牌名，该实体类型对应的关键词为“手机”。在对查询文本进行查询处理后，得到多个新闻，其中，一部分新闻与水果相关，一部分新闻与手机品牌名相关，在根据实体类型进行过滤处理时，即是将包括关键词“手机”的新闻，确定为应答文本。

通过发明实施例对于图5B的上述示例性实施可知，本发明实施例将实体词分类的结果添加至知识图谱，并在获取到查询文本时，根据知识图谱对查询处理得到的文本进行过滤，从而得到响应查询文本的应答文本，提升了应答的准确性及用户体验，随着实体挖掘的不断进行，知识图谱也会不断地完善，提升对不同查询文本的准确应答能力。

特别地，本发明实施例提供的基于人工智能的词分类模型训练方法可以应用至医疗场景，针对医疗实体类型进行模型训练，这里的医疗实体类型可以是人体部位、疾病、手术名称或药品等，本发明实施例对此不做限定。

电子设备可通过嵌入基于人工智能的词分类模型训练装置，从而实现基于人工智能的词分类模型训练方法。本发明实施例提供的电子设备可以是服务器，例如部署在云端的服务器，根据用户(如患者或医生等)提交的文本数据，向用户提供远程的模型训练的功能，或实体词分类的功能；也可以是终端设备，例如词处理设备，能够根据输入的文本数据进行模型训练或实体词分类。用户可从电子设备获取到相应的处理结果，例如可获取准确率较高的实体词分类结果后，从而更加方便、快捷地了解病历文本的含义。

参见图6，图6是本发明实施例提供的基于人工智能的词分类模型训练方法的一个可选的流程示意图，以电子设备部署在云端的情况，示出了通过一系列步骤实现词分类模型的训练的过程，将结合图6示出的步骤进行说明。

在步骤501中，终端设备将由多个医疗实体词组成的医疗实体词集合发送至服务器；其中，多个医疗实体词属于医疗实体类型。

这里，医生或其他用户可在终端设备手动录入医疗实体词，并通过终端设备，将由多个医疗实体词组成的医疗实体词集合发送至服务器，其中，医疗实体词集合包括的多个医疗实体词属于相同的医疗实体类型。当然，终端设备也可实时将录入的医疗实体词及对应的医疗实体类型发送至服务器，服务器在本地将医疗实体类型相同的多个医疗实体词组合为医疗实体词集合。此外，服务器也可从数据库中获取医疗实体词集合。为了便于理解，以医疗实体类型为人体部位的情况进行举例说明，则医疗实体词集合内可包括“牙根”、“左侧大牙”及“左膝”等医疗实体词。

在步骤502中，服务器将医疗实体词集合内的任意两个医疗实体词进行组合，得到正例样本对。

与步骤102类似地，服务器将医疗实体词集合内的任意两个医疗实体词进行组合，得到正例样本对，直到满足构建正例样本对的停止条件为止。

在步骤503中，服务器获取包括医疗实体词的历史文本，并根据医疗实体词和排除医疗实体词的历史文本，构建负例样本对。

例如，服务器可从医院平台或搜索平台内的查询文本中，过滤出包括医疗实体词的查询文本，作为历史文本；又例如，服务器可从症状文本表中，过滤出包括医疗实体词的文本作为历史文本，其中，症状文本表中的症状文本通常由1个或0个人体部位词+核心异常词构成，例如“牙龈出血”的症状文本。

在得到历史文本后，根据历史文本中的医疗实体词、以及排除该医疗实体词的历史文本，构建负例样本对。同样地，本发明实施例提供了构建负例样本对的两种方式，其一是将医疗实体词与排除医疗实体词的历史文本直接进行组合，得到负例样本对；其二是对排除医疗实体词的历史文本进行分词处理，并对分词处理得到的至少两个词进行采样处理，将医疗实体词与采样处理得到的词进行组合，得到负例样本对。根据实际应用场景，可应用两种方式中的至少一种构建负例样本对。同样地，可设定构建负例样本对的停止条件，例如当得到的互不重复的负例样本对达到负例样本对阈值时，停止根据历史文本构建负例样本对。

在步骤504中，服务器通过正例样本对及负例样本对更新词分类模型；其中，更新后的词分类模型用于确定待识别实体词属于医疗实体类型的概率。

与步骤104类似地，通过构建的正例样本对和负例样本对更新词分类模型，直到满足设定的更新停止条件。服务器可将更新后的词分类模型保存在本地，可将更新后的词分类模型发送至终端设备。通过更新后的词分类模型，可对待识别实体词进行实体词分类，得到待识别实体词属于医疗实体类型的概率，从而进行医疗场景的实体挖掘，例如挖掘出更多的人体部位名。

通过发明实施例对于图6的上述示例性实施可知，本发明实施例通过医疗实体词集合构建正例样本对，结合医疗实体词集合和历史文本构建负例样本对，在初始的医疗实体词较少的情况下，能够构建较多的样本对，提升了模型训练样本的丰富性，降低了在医疗场景中进行实体挖掘所需要的语料标注成本，同时也提升了词分类模型的训练效果。

参见图7，图7是本发明实施例提供的基于词分类模型的词处理方法的一个可选的流程示意图，同样以电子设备部署在云端的情况，示出了通过一系列步骤实现对病历文本的实体词分类的过程，将结合图7示出的步骤进行说明。

在步骤601中，终端设备将获取到的病历文本发送至服务器。

随着医院信息化的普及和推广，越来越多的医院积累了大量的病历文本。病历文本中蕴含着丰富的知识，记录着病人的病程及医生的诊疗经过等，而病历文本通常以无结构化的文本形式存在，如何从中挖掘出有意义的信息至关重要。而实体词是病历文本中承载信息的重要语言单位，常见的实体词对应症状、疾病及药品等实体类型，如何从病历文本中准确、全面地识别实体，是理解病历的一个关键环节。

在本发明实施例中，终端设备获取病历文本，并将病历文本发送至服务器，其中，终端设备可获取电子文本形式的病历文本，如获取由用户(如患者等)手动录入的病历文本，也可获取包括病历文本的图像，并对图像进行光学字符识别(OCR，Optical CharacterRecognition)，得到文字形式的病历文本。

在步骤602中，服务器对病历文本进行分词处理，得到待识别实体词。

服务器对获取到的病历文本进行分词处理，如通过设定的分词工具进行分词处理，为了便于区分，将得到的词命名为待识别实体词。

在步骤603中，服务器将医疗实体词集合中的医疗实体词与待识别实体词进行组合，得到待处理样本对；其中，医疗实体词属于医疗实体类型。

对于每个待识别实体词，服务器将医疗实体词集合中的医疗实体词与待识别实体词进行组合，得到待处理样本对。其中，医疗实体词集合内的所有医疗实体词属于相同的医疗实体类型，例如都是人体部位。

在步骤604中，服务器通过词分类模型对待处理样本对进行预测处理，得到待识别实体词对应的预测概率。

服务器通过存放于本地的词分类模型，对构建的待处理样本进行预测处理，得到待识别实体词的预测概率，这里的预测概率包括对应正例标签的预测概率及对应负例标签的预测概率。

在步骤605中，服务器将预测概率满足筛选条件的待识别实体词，确定为属于医疗实体类型。

这里，根据设定的筛选条件进行筛选，将满足筛选条件的预测概率对应的待识别实体词，确定为属于医疗实体类型。例如，当待识别实体词对应正例标签的预测概率超过正例概率阈值(如50％)时，确定该待识别实体词属于医疗实体类型；又例如，在存在多个待识别实体词的情况下，当某个待识别实体词对应正例标签的预测概率是对应正例标签、且数值最大的N个预测概率中的一个时，确定该待识别实体词属于医疗实体类型，其中，N为大于0的整数，可根据实际应用场景进行设定。值得说明的是，对于预测概率满足筛选条件的待识别实体词，还可将其添加至医疗实体词集合中，并由服务器根据更新后的医疗实体词集合，再次进行对词分类模型的训练，进一步提升词分类模型在医疗场景的实体词分类能力。

在步骤606中，服务器将属于医疗实体类型的待识别实体词发送至终端设备。

服务器在完成实体词分类后，可将实体词分类的结果发送至终端设备，以便于终端设备进行后续处理。举例来说，服务器可将属于医疗实体类型的待识别实体词发送至终端设备，终端设备可在病历文本中突出显示该待识别实体词，以降低病历文本的理解难度，使用户可根据病历文本中与医疗实体类型相关的实体词，获知病历文本的含义。此外，服务器也可将属于医疗实体类型的待识别实体词添加至知识图谱，以完善知识图谱，从而在医疗场景下支持与医疗实体类型相关的问答。

通过发明实施例对于图7的上述示例性实施可知，本发明实施例结合病历文本和医疗实体词集合构建待处理样本对，并通过词分类模型对待处理样本进行预测处理，根据预测处理的结果确定病历文本中属于医疗实体类型的实体词，提升了实体词分类的准确性，适用于病历显示及问答等应用场景。

下面，将说明本发明实施例在一个实际的应用场景中的示例性应用。

本发明实施例通过将无监督的实体挖掘过程转化为一个有监督的排序过程，从而更高效地挖掘出与种子实体词集合的待挖掘实体类型相符的实体词，例如在医疗场景中，种子实体词集合(医疗实体词集合)包括“牙根”、“左侧大牙”及“左膝”等种子实体词，其对应的待挖掘实体类型为人体部位，在此基础上，目标是尽可能高效地挖掘属于人体部位的实体词，而不是属于疾病、手术、药品或人名等其他不同类型或无意义的实体词。

本发明实施例提供了如图8所示的模型训练及实体词分类的一个可选的示意图，在本发明实施例中，种子实体词集合内的所有种子实体词属于相同的待挖掘实体类型，词分类模型的训练目标是使种子实体词集合内的任意两个种子实体词之间的语义距离尽可能相近，即其对应的距离损失值尽可能小；同时，使种子实体词与属于其他实体类型的实体词之间的语义距离尽可能远，即对应的距离损失值尽可能大。

对于正例的构建，将种子实体词集合内的任意两个种子实体词进行组合，得到正例样本对。若种子实体词集合内包括n个种子实体词，则可构建得到n*(n-1)/2个正例样本对。该方式除了能够极大地扩展正例外，还能充分利用实体词的构成信息，如正例样本对包括“牙根”和“左侧大牙”两个元素，两者都含有“牙”这个部位字，当再遇到包含“牙”字的候选实体词如“牙龈”时，能够提高该候选实体词的置信度。

对于负例的构建，本发明实施例提供了两种方式。第一种方式是将种子实体词作为负例样本对的一部分，同时对排除种子实体词的历史文本进行分词处理，对分词处理得到的词进行随机采样，得到负例样本对的另一部分。该种构建方式是基于随机采样得到的词与种子实体词属于同一实体类型的概率极低的假设。其中，历史文本是指包括种子实体词的文本，历史文本可以从挖掘语料中获取，挖掘语料如查询日志或症状词表等，本发明实施例对挖掘语料的具体类型不做限定。举例来说，种子实体词为“浸润性”，从挖掘语料中得到的历史文本为“浸润性乳腺癌怎么治疗”，则构建的负例样本对可为“浸润性vs乳腺癌”。

另一种方式是，将随机采样变更为针对性屏蔽，具体先从挖掘语料中识别出包括种子实体词的历史文本，将该种子实体词作为负例样本对的一部分，同时，在历史文本中屏蔽该种子实体词，将屏蔽后的历史文本作为负例样本对的另一部分。该种构建方式是基于同一文本中同时出现两个相同实体类型的实体词的概率极低的假设。举例来说，种子实体词为“浸润性”，从挖掘语料中得到的历史文本1为“浸润性乳腺癌怎么治疗”，历史文本2为“浸润性是什么含义”，则对于历史文本1，可得到负例样本对“浸润性vs乳腺癌怎么治疗”；对于历史文本2，可得到负例样本对“浸润性vs是什么含义”。又如，在候选挖掘语料为症状文本表(症状词表)的情况下，症状文本通常由1个或0个部位词+核心异常词构成，如牙龈出血”、“肚子疼”及“牙齿疼”等，将属于人体部位的种子实体词从症状文本中屏蔽掉后，得到的文本基本就是不属于人体部位的实体词。根据实际应用场景的不同，可选用上文两种方式中的至少一种，构建负例样本对。

在完成正例样本对及负例样本对的构建后，将样本对输入至词分类模型进行训练。在本发明实施例中，词分类模型可为BERT模型，BERT模型用于将语义比较问题转化为2分类问题。在训练BERT模型时，将正例样本对如“牙根vs牙龈”的实际标签设置为正例标签，将负例样本对如“牙根vs出血”的实际标签设置为负例标签，为了便于说明，设置正例标签的数值为1，设置负例标签的数值为0。完成标签设置后，将正例样本对或负例样本对内的两个元素进行拼接，在拼接后的字符串中添加分类标识[CLS]，并输入至BERT模型，其中，拼接后的字符串即对应上文的拼接文本。

本发明实施例提供了如图9A所示的BERT模型的一个可选的架构示意图，在图9A中，“Tok”即为Token，代表拼接后的字符串中的字，“E”代表经过嵌入处理后，得到的对应的向量，下标“S”代表拼接后的字符串包括的字的数量，S为大于1的整数。另外，图9A中的“C”代表分类标识对应的输出向量，经分类处理后，可得到对应正例标签的预测概率，对应正例标签的预测概率可相当于语义相似度。通过对应正例标签的预测概率，可得到BERT模型的预测标签，如在对应正例标签的预测概率超过50％时，确定BERT模型的预测标签为正例标签。以“牙根vs牙龈”的正例样本对说明BERT模型的训练过程，如图9A所示，在将“牙根”及“牙龈”经拼接、添加分类标识后，输入BERT模型。经BERT模型的各个层处理得到预测标签后，根据BERT模型的损失函数计算“牙根vs牙龈”的实际标签(即数值1)与预测标签之间的差异，根据该差异在BERT模型中进行反向传播，并在反向传播的过程中，更新BERT模型各个层的权重参数。

以“牙根vs出血”的负例样本对说明BERT模型的训练过程，如图9B所示，在将“牙根”及“出血”经拼接、添加分类标识后，输入BERT模型。经BERT模型的各个层处理得到预测标签后，根据BERT模型的损失函数计算“牙根vs出血”的实际标签(即数值0)与预测标签之间的差异，根据该差异在BERT模型中进行反向传播，并在反向传播的过程中，更新BERT模型各个层的权重参数。

在比较两个实体词之间的语义是否相近时，可将两个实体词拼接后的字符串添加上分类标识，并输入至BERT模型，若BERT模型输出的对应正例标签的预测概率越接近1，则代表这两个实体词之间的语义相似度越高；反之，若BERT模型输出的对应正例标签的预测概率越接近0，则代表这两个实体词之间的语义相似度越低。

在完成对BERT模型的训练后，可利用BERT模型进行实体词分类，具体流程如下：

1)候选实体词的获取。这里，对待处理文本(如病历文本)进行分词处理，得到候选实体词，候选实体词即对应上文的待识别实体词，其中，分词处理可利用N-gram模型或其他的分词工具实现，N-gram模型中的滑动窗口数值N可设置为2、3、4或更高，依具体的实体挖掘任务而定。

2)从种子实体词集合中选取M个种子实体词，构建选取的种子实体词与每个候选实体词的待处理样本对，以输入至BERT模型中，得到语义相似度(对应正例标签的预测概率)。其中，选取的方式可以是随机选取，也可以是优先选取与候选实体词文本相似度更高的种子实体词，例如候选实体词为“非浸润性”，某个种子实体词为“浸润性”，两者之间的文本相似度较高，故可优先选取该种子实体词。M为大于0的整数，可根据实际应用场景设定具体数值。为了提升泛化能力，可选取多个种子实体词，从多个角度进行相似度比较。

3)在对每个候选实体词构建了多个待处理样本对的情况下，对于每个候选实体词，计算模型输出的多个语义相似度的平均值，即平均语义相似度。

4)根据平均语义相似度，确定属于待挖掘实体类型的候选实体词。例如，将大于相似度阈值的平均语义相似度对应的候选实体词，确定为属于待挖掘实体类型，又例如，根据平均语义相似度从大到小的顺序，对多个候选实体词进行排序，将位于前R位的候选实体词，确定为属于待挖掘实体类型，其中，R为大于0的整数。

下面继续说明本发明实施例提供的基于人工智能的词分类模型训练装置9551实施为软件模块的示例性结构，在一些实施例中，如图2A所示，存储在存储器950的基于人工智能的词分类模型训练装置9551中的软件模块可以包括：集合获取模块95511，用于获取由多个种子实体词组成的种子实体词集合；其中，多个种子实体词属于待挖掘实体类型；正例构建模块95512，用于将种子实体词集合内的任意两个种子实体词进行组合，得到正例样本对；负例构建模块95513，用于获取包括种子实体词的历史文本，并根据种子实体词和排除种子实体词的历史文本，构建负例样本对；模型更新模块95514，用于通过正例样本对和负例样本对更新词分类模型；其中，更新后的词分类模型用于确定待识别实体词属于待挖掘实体类型的概率。

在一些实施例中，负例构建模块95513，还用于：通过以下方式至少之一构建负例样本对：将种子实体词与排除种子实体词的历史文本进行组合，得到负例样本对；对排除种子实体词的历史文本进行分词处理，并对分词处理得到的词进行采样处理，将种子实体词与采样处理得到的词进行组合，得到负例样本对。

在一些实施例中，基于人工智能的词分类模型训练装置9551还包括：第一标签设置模块，用于将正例样本对的实际标签设置为正例标签；

第二标签设置模块，用于将负例样本对的实际标签设置为负例标签；

模型更新模块95514，还用于：通过词分类模型对训练样本对进行预测处理，得到训练样本对的预测标签；根据训练样本对的实际标签与预测标签之间的差异，在词分类模型中进行反向传播，并在反向传播的过程中，更新词分类模型的权重参数；其中，训练样本对为正例样本对或负例样本对。

在一些实施例中，模型更新模块95514，还用于：对训练样本对包括的内容进行拼接处理以得到拼接文本，并在拼接文本中添加分类标识；通过词分类模型，对包括分类标识的拼接文本进行前馈处理，得到分类标识对应的输出向量；对输出向量进行分类处理，得到训练样本对的预测标签。

下面继续说明本发明实施例提供的基于词分类模型的词处理装置9552实施为软件模块的示例性结构，在一些实施例中，如图2B所示，存储在存储器950的基于词分类模型的词处理装置9552中的软件模块可以包括：分词模块95521，用于对待处理文本进行分词处理，得到待识别实体词；样本对构建模块95522，用于将种子实体词集合中的种子实体词与待识别实体词进行组合，得到待处理样本对；其中，种子实体词属于待挖掘实体类型；预测模块95523，用于通过词分类模型对待处理样本对进行预测处理，得到待识别实体词对应的预测概率；类型确定模块95524，用于将预测概率满足筛选条件的待识别实体词，确定为属于待挖掘实体类型。

在一些实施例中，样本对构建模块95522，还用于：执行以下任意一种处理以得到待处理样本对：对种子实体词集合进行随机选取处理，并将选取得到的种子实体词与待识别实体词进行组合，直至得到设定数量的待处理样本对；确定种子实体词集合内的种子实体词与待识别实体词之间的文本相似度，并将文本相似度满足相似度条件的种子实体词与待识别实体词进行组合，得到待处理样本对。

在一些实施例中，基于词分类模型的词处理装置9552还包括：平均处理模块，用于对待识别实体词对应的预测概率进行平均处理，得到平均预测概率；

类型确定模块95524，还用于：将满足筛选条件的平均预测概率对应的待识别实体词，确定为属于待挖掘实体类型。

在一些实施例中，基于词分类模型的词处理装置9552还包括：添加模块，用于将属于待挖掘实体类型的待识别实体词，添加至知识图谱；查询获取模块，用于获取查询文本，并对查询文本进行分词处理，得到查询实体词；匹配模块，用于当查询实体词与知识图谱中的实体词匹配时，将知识图谱中匹配的实体词的实体类型确定为目标实体类型；过滤模块，用于根据查询文本进行查询处理，并根据目标实体类型，对查询处理得到的文本进行过滤处理，得到应答文本。

下面继续说明本发明实施例提供的基于人工智能的词分类模型训练装置9553实施为软件模块的示例性结构，在一些实施例中，如图2C所示，存储在存储器950的基于人工智能的词分类模型训练装置9553中的软件模块可以包括：医疗集合获取模块95531，用于获取由多个医疗实体词组成的医疗实体词集合；其中，多个医疗实体词属于医疗实体类型；医疗正例构建模块95532，用于将医疗实体词集合内的任意两个医疗实体词进行组合，得到正例样本对；医疗负例构建模块95533，用于获取包括医疗实体词的历史文本，并根据医疗实体词和排除医疗实体词的历史文本，构建负例样本对；医疗模型更新模块95534，用于通过正例样本对及负例样本对更新词分类模型；其中，更新后的词分类模型用于确定待识别实体词属于医疗实体类型的概率。

下面继续说明本发明实施例提供的基于词分类模型的词处理装置9554实施为软件模块的示例性结构，在一些实施例中，如图2D所示，存储在存储器950的基于词分类模型的词处理装置9554中的软件模块可以包括：病历分词模块95541，用于对病历文本进行分词处理，得到待识别实体词；医疗样本对构建模块95542，用于将医疗实体词集合中的医疗实体词与待识别实体词进行组合，得到待处理样本对；其中，医疗实体词属于医疗实体类型；医疗预测模块95543，用于通过词分类模型对待处理样本对进行预测处理，得到待识别实体词对应的预测概率；医疗类型确定模块95544，用于将预测概率满足筛选条件的待识别实体词，确定为属于医疗实体类型。

本发明实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本发明实施例提供的方法，例如，如图4A或图4B示出的基于人工智能的词分类模型训练方法，或如图5A或图5B示出的基于词分类模型的词处理方法，或如图6示出的基于人工智能的词分类模型训练方法，或如图7示出的基于词分类模型的词处理方法。

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上，通过本发明实施例能够实现以下技术效果：

1)在初始的种子实体词集合包括的种子实体词较少的情况下，能够构建较多的样本对，提升模型训练样本的丰富性，降低实体挖掘所需要的语料标注成本，同时，也能够提升词分类模型的训练效果。

2)通过更新后的词分类模型进行实体词分类，能够提升实体词分类的准确性，适用于实体挖掘的多种应用场景，如商品名挖掘及品牌名挖掘等。

3)挖掘出的实体词可添加至知识图谱，从而基于知识图谱实现对查询文本的准确响应，提升应答场景的应答能力。

4)针对于医疗场景，同样能够实现基于医疗实体类型的实体词挖掘，通过挖掘结果，能够降低病历文本的理解难度，使患者或其他用户充分地理解病历文本的含义。

以上，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种基于人工智能的词分类模型训练方法，其特征在于，包括：

获取包括所述种子实体词的历史文本，并

通过所述正例样本对和所述负例样本对更新词分类模型；

2.根据权利要求1所述的词分类模型训练方法，其特征在于，所述根据所述种子实体词和排除所述种子实体词的所述历史文本，构建负例样本对，包括：

通过以下方式至少之一构建负例样本对：

将所述种子实体词与排除所述种子实体词的所述历史文本进行组合，得到负例样本对；

对排除所述种子实体词的所述历史文本进行分词处理，并

对分词处理得到的词进行采样处理，将所述种子实体词与采样处理得到的词进行组合，得到负例样本对。

3.根据权利要求1至2任一项所述的词分类模型训练方法，其特征在于，

所述将所述种子实体词集合内的任意两个种子实体词进行组合，得到正例样本对之后，还包括：

将所述正例样本对的实际标签设置为正例标签；

所述根据所述种子实体词和排除所述种子实体词的所述历史文本，构建负例样本对之后，还包括：

将所述负例样本对的实际标签设置为负例标签；

所述通过所述正例样本对和所述负例样本对更新词分类模型，包括：

通过所述词分类模型对训练样本对进行预测处理，得到所述训练样本对的预测标签；

根据所述训练样本对的实际标签与预测标签之间的差异，在所述词分类模型中进行反向传播，并

在反向传播的过程中，更新所述词分类模型的权重参数；

其中，所述训练样本对为所述正例样本对或所述负例样本对。

4.根据权利要求3所述的词分类模型训练方法，其特征在于，所述通过所述词分类模型对训练样本对进行预测处理，得到所述训练样本对的预测标签，包括：

对所述训练样本对包括的内容进行拼接处理以得到拼接文本，并在所述拼接文本中添加分类标识；

通过所述词分类模型，对包括所述分类标识的所述拼接文本进行前馈处理，得到所述分类标识对应的输出向量；

对所述输出向量进行分类处理，得到所述训练样本对的预测标签。

5.一种基于权利要求1至4任一项所述的词分类模型的词处理方法，其特征在于，包括：

对待处理文本进行分词处理，得到待识别实体词；

6.根据权利要求5所述的词处理方法，其特征在于，所述将种子实体词集合中的种子实体词与所述待识别实体词进行组合，得到待处理样本对，包括：

执行以下任意一种处理以得到待处理样本对：

对所述种子实体词集合进行随机选取处理，并将选取得到的所述种子实体词与所述待识别实体词进行组合，直至得到设定数量的待处理样本对；

确定所述种子实体词集合内的所述种子实体词与所述待识别实体词之间的文本相似度，并

将文本相似度满足相似度条件的所述种子实体词与所述待识别实体词进行组合，得到待处理样本对。

7.根据权利要求5所述的词处理方法，其特征在于，

所述通过所述词分类模型对所述待处理样本对进行预测处理，得到所述待识别实体词对应的预测概率之后，还包括：

对所述待识别实体词对应的预测概率进行平均处理，得到平均预测概率；

所述将预测概率满足筛选条件的所述待识别实体词，确定为属于所述待挖掘实体类型，包括：

将满足筛选条件的平均预测概率对应的所述待识别实体词，确定为属于所述待挖掘实体类型。

8.根据权利要求5至7任一项所述的词处理方法，其特征在于，还包括：

将属于所述待挖掘实体类型的所述待识别实体词，添加至知识图谱；

获取查询文本，并对所述查询文本进行分词处理，得到查询实体词；

当所述查询实体词与所述知识图谱中的实体词匹配时，将所述知识图谱中匹配的实体词的实体类型确定为目标实体类型；

根据所述查询文本进行查询处理，并

根据所述目标实体类型，对查询处理得到的文本进行过滤处理，得到应答文本。

9.一种基于人工智能的词分类模型训练方法，其特征在于，包括：

获取包括所述医疗实体词的历史文本，并

通过所述正例样本对及所述负例样本对更新词分类模型；

10.一种基于权利要求9所述的词分类模型的词处理方法，其特征在于，包括：

对病历文本进行分词处理，得到待识别实体词；

11.一种基于人工智能的词分类模型训练装置，其特征在于，包括：

12.一种基于词分类模型的词处理装置，其特征在于，包括：

13.一种基于人工智能的词分类模型训练装置，其特征在于，包括：

14.一种基于词分类模型的词处理装置，其特征在于，包括：

15.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至4任一项所述的基于人工智能的词分类模型训练方法，或权利要求5至8任一项所述的基于词分类模型的词处理方法，或权利要求9所述的基于人工智能的词分类模型训练方法，或权利要求10所述的基于词分类模型的词处理方法。