CN113269271B

CN113269271B - 用于人工智能文本分析的双词典模型的初始化方法及设备

Info

Publication number: CN113269271B
Application number: CN202110667864.9A
Authority: CN
Inventors: 邓柯; 徐嘉泽
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-04-30
Filing date: 2021-06-16
Publication date: 2022-11-15
Anticipated expiration: 2041-06-16
Also published as: CN113269271A

Abstract

本申请提供一种用于人工智能文本分析的双词典模型的初始化方法及设备，其中，所述方法包括：获取目标文本；构建所述目标文本的双词典模型，所述双词典模型包括初始词语词典

与初始超模式词典

及初始参数体系(γ,θ_w∣c)。本申请可以辅助生成双词典模型，提高文本分析模型的适用性、稳健性和可解释性。

Description

用于人工智能文本分析的双词典模型的初始化方法及设备

技术领域

本申请涉及文本分析领域，特别是指一种用于人工智能文本分析的双词典模型的初始化方法及设备。

背景技术

中文自然语言理解是人工智能的重要研究问题和方向。在特定领域的中文文本分析中，如古文、医疗电子病历、散文、诗歌等，标注数据集通常难以获得，深度学习算法所需要的训练数据规模难以在现实项目和分析中达到，标注过程需要消耗大量人力物力。除此之外，由于深度学习方法的端到端的特性，在实际案例中无法有效地调整模型的参数。深度学习模型以及传统的统计分析模型在处理中文文本数据时，忽略了文本数据的句法和语义结构信息，对数据的建模和理解不够充分，不能利用结构信息对算法进行改进。

发明内容

鉴于以上内容，有必要提供一种用于人工智能文本分析的双词典模型的初始化方法及设备，可以辅助生成具有较高的适用性、稳健性和可解释性的双词典模型，以解决上述问题。

所述用于人工智能文本分析的双词典模型的初始化方法，包括：获取目标文本；构建所述目标文本的双词典模型，所述双词典模型包括初始词语词典

与初始超模式词典

及初始参数体系(γ,θ_w∣c)。

可选地，对所述初始词语词典

的构建包括：获取所述目标文本中的每个字符a_l，获得所述目标文本中所有字符组成的字符集合

其中，1≤l≤L；根据所述目标文本中词语的先验信息，设定词语集合

按照预设的第一规则获得词语集合

按照预设的第二规则获得词语集合

所述初始词语词典

其中，

1≤n≤N，i，

表示正整数；w_n是由所述集合

中字符组成的词语。

可选地，所述预设的第一规则包括：设定

为词语中字符的最大长度阈值，

为词语出现的最低频率阈值，利用TopWORDS算法提取所述目标文本中长度不超过所述

且频率不低于所述

的词语，获得所述词语集合

可选地，所述预设的第二规则包括：利用预先训练的弱分类器，对所述目标文本中长度不超过所述

且频率不低于所述

的词语进行提取；确定先验分类概率π_c∣w，其中，c表示所述目标文本中的词语类别，w表示所述弱分类器提取的词语，π_c∣w表示给定词语w的情况下，词语类别c的先验分类概率；及选择所述弱分类器提取的词语中，所述先验分类概率π_c∣w超过预设的分类阈值的词语，获得所述词语集合

可选地，所述初始超模式词典

其中，e表示终止符，

1≤m≤M，p_m表示由形符t_m组成的超模式，所述形符t_j∈

其中，j表示正整数。

可选地，初始超模式词典

的构建包括：设定对所述目标文本中的超模式进行提取时的终止符e；设定词语类别的集合为词语类别集合

1≤k≤K，其中c_k表示命名实体的类别，c_O表示区别于所述命名实体的背景词的类别；根据所述目标文本中超模式的先验信息，设定超模式集合

按照预设的第三规则获得超模式集合

所述初始超模式词典

可选地，对初始参数体系(γ,θ_w∣c)的构建包括：获取所述初始词语词典

中的词语在所述目标文本中的计数词频θ_w；根据所述计数词频θ_w和所述先验分类概率π_c∣w，确定给定词语类别c的情况下，所述初始词语词典

中词语的抽样概率分布的初始值

其中

表示给定词语类别c的情况下词语的抽样概率分布；根据所述初始超模式词典

中的超模式在所述目标文本中的抽样概率，获得所述

中超模式的抽样概率分布的初始值

其中γ_p表示超模式p的抽样概率。

可选地，所述预设的第三规则包括：基于所述初始词语词典

对所述目标文本中的词语进行识别和分割，并标记所述目标文本中词语的置信度满足

的命名实体，其中，

为预先设定的置信度阈值；设定

为超模式中形符的最大长度阈值，

为超模式出现的最低频率阈值，扫描并提取所述目标文本中长度不超过所述

且频率不低于所述

的相邻的被标记的命名实体，获得所述超模式集合

所述计算机可读存储介质存储有至少一个指令，所述至少一个指令被处理器执行时实现所述用于人工智能文本分析的双词典模型的初始化方法。

所述计算机装置包括存储器和至少一个处理器，所述存储器中存储有至少一个指令，所述至少一个指令被所述至少一个处理器执行时实现所述用于人工智能文本分析的双词典模型的初始化方法。

相较于现有技术，所述用于人工智能文本分析的双词典模型的初始化方法及设备，利用文本结构信息基于贝叶斯逻辑对文本数据进行统计建模，可以有效地进行词语发现、命名实体识别和超模式(Meta-pattern)提取，生成的双词典模型具有较高的适用性、稳健性和可解释性，为安全可信的人工智能研究提供了有效的方法。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本申请实施例提供的用于人工智能文本分析的双词典模型的初始化方法的流程图。

图2是本申请实施例提供的计算机装置的架构图。

图3A是本申请实施例提供的对目标文本中的词语进行分割的示例图。

图3B是本申请实施例提供的用不同的标记区分目标文本中的命名实体的示例图。

图3C是本申请实施例提供的长度不超过超模式中形符的最大长度阈值的超模式及其频率的示例图。

图3D是本申请实施例提供的频率低于超模式出现的最低频率阈值的超模式的示例图。

图3E是本申请实施例提供的频率不低于超模式出现的最低频率阈值的超模式的示例图。

主要元件符号说明

计算机装置	3
		处理器	32
存储器	31
		模型初始化系统	30

如下具体实施方式将结合上述附图进一步说明本申请。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施例对本申请进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本申请，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

参阅图1所示，为本申请较佳实施例的用于人工智能文本分析的双词典模型的初始化方法的流程图。

在本实施例中，所述用于人工智能文本分析的双词典模型的初始化方法可以应用于计算机装置中，对于需要进行模型初始化的计算机装置，可以直接在计算机装置上集成本申请的方法所提供的用于模型初始化的功能，或者以软件开发工具包(SoftwareDevelopment Kit，SDK)的形式运行在计算机装置上。

如图1所示，所述用于人工智能文本分析的双词典模型的初始化方法具体包括以下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些步骤可以省略。

步骤S1、计算机装置获取目标文本。

在一个实施例中，计算机装置可以接收用户输入的目标文本；所述目标文本可以是特定领域的中文文本，例如，古文、医疗电子病历、散文、诗歌等。

步骤S2、计算机装置基于贝叶斯逻辑，构建所述目标文本的双词典模型，所述双词典模型包括初始词语词典

与初始超模式(Meta-pattern)词典

及初始参数体系(γ,θ_w∣c)。

在一个实施例中，所述贝叶斯逻辑包括贝叶斯定理和贝叶斯统计，是一种概率论系统。

在一个实施例中，计算机装置对所述目标文本中的字符进行文本分割，获取所述目标文本中的每个字符a_l，获得所述目标文本中所有字符组成的字符集合

其中，1≤l≤L。

在一个实施例中，计算机装置根据所述目标文本中词语的先验信息，设定词语集合

所述目标文本中词语的先验信息，可以是预先保存在计算机装置中的已知词库，所述已知词库中包含所述目标文本中的词语，所述词语包括字符集合

中的字符组成的字符序列，例如，王安石、为、参知政事等。

在一个实施例中，计算机装置按照预设的第一规则获得词语集合

所述预设的第一规则包括：设定

为词语中字符的最大长度阈值，

为词语出现的最低频率阈值，利用TopWORDS算法对所述目标文本进行文本挖掘，提取所述目标文本中长度不超过所述

且频率不低于所述

的词语，获得所述词语集合

所述TopWORDS算法是一个无监督的中文文本分析工具，它可以在文本分割的同时实现高效的词语发现，但有一定的局限性:(1)学习过程中只使用字符序列计数信息；(2)不能自动区分词语类别；(3)遗漏低频词语。例如，设定

那么利用TopWORDS算法对目标文本“AABBABCCABCD”中的词语进行提取后，获得的词语集合

C(3)，AB(3)，BC(2)，ABC(2)}，其中，括号中的数字代表该词语的出现频率。

在一个实施例中，计算机装置根据所述目标文本中词语类别的先验信息，设定目标文本中词语类别的集合为

1≤K≤K，所述目标文本中的每个词语都属于特定的词语类别，所述词语类别包括命名实体的类别和区别于所述命名实体的类别的背景词的类别，其中c_k表示命名实体的类别，c_o表示区别于所述命名实体的背景词的类别。所述目标文本中词语类别的先验信息，可以是预先保存在计算机装置中的已知词语类别库，所述已知词语类别库中包含所有所述目标文本中的词语类别。所述命名实体包括人名、官职、地名以及其他所有以名称为标识的实体，例如，王安石、参知政事等；所述背景词包括所有区别于命名实体的词语，例如，王、安、石、为、参、知、政、事等。

在一个实施例中，计算机装置按照预设的第二规则获得词语集合

所述预设的第二规则包括：利用预先训练的弱分类器对所述目标文本中长度不超过所述

并且频率不低于所述

的词语进行提取；确定先验分类概率π_c∣w，其中，c表示所述目标文本中的词语类别，w表示所述弱分类器提取的词语，π_c∣w表示给定词语w的情况下，词语类别c的先验分类概率，所述先验分类概率π_c∣w表示一个条件概率(例如，词语“王安石”是一个“人名”的概率)；及选择所述弱分类器提取的词语中，所述先验分类概率π_c∣w超过预设的分类阈值(例如，0.5)的词语，获得所述词语集合

所述预先训练的弱分类器是一个词语分类器(或文本分类器)，可以利用预先保存在计算机装置中的已知词库中的词语训练模型，获得所述弱分类器，所述弱分类器的分类准确率在60％至80％。

在一个实施例中，计算机装置整合所述字符集合

词语集合

词语集合

词语集合

获得初始词语词典

所述初始词语词典

其中，

1≤n≤N，i，

表示正整数；w_n是由所述集合

中字符组成的词语。

在一个实施例中，所述初始超模式词典

其中，e表示终止符，

1≤m≤m，p_m表示由形符(Token)t_j组成的超模式，“|”表示分隔符，所述形符

其中，j表示正整数。举例而言，所述形符t_j可以是人名(Name，N)、官职(Office title，O)、背景词(Background，B)、为(视作

中字符)等，那么所述超模式p_m可以是N、O、B、N为O等。所述终止符e表示对所述目标文本中的超模式进行提取时的停止准则，当抽取到所述终止符e时，停止抽取超模式。例如，考虑基于双词典模型的文本片段“王安石为参知政事”的生成过程时，首先抽取到超模式“N为O”和终止符得到超模式序列，之后根据抽取到的超模式序列抽取词语，获得词语序列，最后得到词语序列对应的文本片段“王安石为参知政事”。

在一个实施例中，计算机装置根据所述目标文本中超模式的先验信息，设定超模式集合

所述目标文本中超模式的先验信息，可以是预先保存在计算机装置中的已知超模式库，所述已知超模式库中包含所有所述目标文本中的超模式。

在一个实施例中，计算机装置按照预设的第三规则获得超模式集合

所述预设的第三规则包括：例如图3A至图3E所示，基于所述初始词语词典

对所述目标文本中的词语进行识别和分割，并用不同的标记区分所述目标文本中词语置信度满足

的命名实体(例如图3中利用粗体和斜体对人名和官职进行区分：N、O，还可以用不同的颜色进行区分)，其中

为预先设定的置信度阈值(例如，0.85)；设定

为超模式中形符的最大长度阈值(例如，3)，

为超模式出现的最低频率阈值(例如，2)，按顺序扫描(例如，利用文字识别算法或图像识别算法，对具有相同标记特征的文字进行依序扫描识别)并提取所述目标文本中长度不超过所述

并且频率不低于所述

的相邻的被标记的命名实体(例如，超模式“王N为”的频率为1，低于超模式出现的最低频率阈值2，不对其进行提取；超模式“N为O”的频率为2，不低于超模式出现的最低频率阈值2，对其进行提取)，整合该过程提取到的超模式，获得所述超模式集合

在一个实施例中，计算机装置整合所述终止符e、词语类别集合

超模式集合

超模式集合

获得所述初始超模式词典

所述初始超模式词典

在一个实施例中，计算机装置对初始参数体系(γ,θ_w∣c)的构建包括：获取所述初始词语词典

中词语的抽样概率分布的初始值

其中

表示给定词语类别c的情况下词语的抽样概率分布，θ_w∣c∝θ_w·π_c∣w，θ_w∣c表示给定词语类别c的情况下词语w的抽样概率；

中的超模式在所述目标文本中的抽样概率，获得所述

中超模式的抽样概率分布的初始值γ，其中，

γ_p表示超模式p的抽样概率(例如，超模式“N为O”的抽样概率为0.01)。

上述图1详细介绍了本申请的用于人工智能文本分析的双词典模型的初始化方法，下面结合图2，对实现所述用于人工智能文本分析的双词典模型的初始化方法的硬件装置架构进行介绍。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

参阅图2所示，为本申请较佳实施例提供的计算机装置的结构示意图。在本申请较佳实施例中，所述计算机装置3包括存储器31、至少一个处理器32。本领域技术人员应该了解，图2示出的计算机装置的结构并不构成本申请实施例的限定，既可以是总线型结构，也可以是星形结构，所述计算机装置3还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置。

在一些实施例中，所述计算机装置3包括一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的终端，其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。

需要说明的是，所述计算机装置3仅为举例，其他现有的或今后可能出现的电子产品如可适应于本申请，也应包含在本申请的保护范围以内，并以引用方式包含于此。

在一些实施例中，所述存储器31用于存储程序代码和各种数据，例如已知词库、已知词语类别库、安装在所述计算机装置3中的模型初始化系统30等，并在计算机装置3的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器31包括只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者任何其他能够用于携带或存储数据的计算机可读的存储介质。

在一些实施例中，所述至少一个处理器32可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器32是所述计算机装置3的控制核心(Control Unit)，利用各种接口和线路连接整个计算机装置3的各个部件，通过运行或执行存储在所述存储器31内的程序或者模块，以及调用存储在所述存储器31内的数据，以执行计算机装置3的各种功能和处理数据，例如执行双词典模型初始化的功能。

在一些实施例中，所述模型初始化系统30运行于计算机装置3中。所述模型初始化系统30可以包括多个由程序代码段所组成的功能模块。所述模型初始化系统30中的各个程序段的程序代码可以存储于计算机装置3的存储器31中，并由至少一个处理器32所执行，以实现双词典模型初始化功能(详见图1描述)。

本实施例中，所述模型初始化系统30根据其所执行的功能，可以被划分为多个功能模块。本申请所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。

尽管未示出，所述计算机装置3还可以包括给各个部件供电的电源(比如电池)，优选的，电源可以通过电源管理装置与所述至少一个处理器32逻辑相连，从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机装置3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是服务器、个人电脑等)或处理器(processor)执行本申请各个实施例所述方法的部分。

在进一步的实施例中，结合图2，所述至少一个处理器32可执行所述计算机装置3的操作系统以及安装的各类应用程序(如所述的模型初始化系统30)、程序代码等，例如，上述的各个模块。

在本申请的一个实施例中，所述存储器31存储一个或多个指令(即至少一个指令)，所述至少一个指令被所述至少一个处理器32所执行以实现图1所示的双词典模型初始化的目的。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后所应说明的是，以上实施例仅用以说明本申请的技术方案而非限制，尽管参照以上较佳实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，可以对本申请的技术方案进行修改或等同替换，而不脱离本申请技术方案的精神和范围。