CN112597760A

CN112597760A - 文档中的领域词提取方法和装置

Info

Publication number: CN112597760A
Application number: CN202011403634.3A
Authority: CN
Inventors: 朱学锋; 田然; 吴强; 铁力; 田江; 向小佳; 丁永建; 李璠
Original assignee: Everbright Technology Co ltd
Current assignee: Everbright Technology Co ltd
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2021-04-02

Abstract

本发明公开了一种文档中的领域词提取方法和装置。其中，该方法包括：获取待提取领域词的多个文档；获取多个文档的候选词集合，其中，候选词集合中包括多个文档中每个文档的文本内容；根据候选词集合与多个文档，确定出一个目标列表，其中，目标列表中包括多个候选词；根据多个候选词中每一个候选词的目标凝固度和目标自由度，从目标列表中确定出领域词；将领域词保存到领域词库中。本发明解决了提取文档中的领域词效率低的技术问题。

Description

文档中的领域词提取方法和装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种文档中的领域词提取方法和装置。

背景技术

现有技术中，在从文档中提取领域词的过程中，通常是由工作人员人为识别，打标签，然后由系统从文档中提取工作人员已经打好标签的词汇。

上述方法需要消耗大量的人力，造成提取文档领域词的效率低。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种文档中的领域词提取方法和装置，以至少解决提取文档中的领域词效率低的技术问题。

根据本发明实施例的一个方面，提供了一种文档中的领域词提取方法，包括：获取待提取领域词的多个文档；获取上述多个文档的候选词集合，其中，上述候选词集合中包括上述多个文档中每个文档的文本内容；根据上述候选词集合与上述多个文档，确定出一个目标列表，其中，上述目标列表中包括多个候选词；根据上述多个候选词中每一个候选词的目标凝固度和目标自由度，从上述目标列表中确定出上述领域词；将上述领域词保存到领域词库中。

根据本发明实施例的另一方面，还提供了一种文档中的领域词提取装置，包括：第一获取单元，用于获取待提取领域词的多个文档；第二获取单元，用于获取上述多个文档的候选词集合，其中，上述候选词集合中包括上述多个文档中每个文档的文本内容；第一确定单元，用于根据上述候选词集合与上述多个文档，确定出一个目标列表，其中，上述目标列表中包括多个候选词；第二确定单元，用于根据上述多个候选词中每一个候选词的目标凝固度和目标自由度，从上述目标列表中确定出上述领域词；保存单元，用于将上述领域词保存到领域词库中。

在本发明实施例中，采用了获取待提取领域词的多个文档；获取上述多个文档的候选词集合，其中，上述候选词集合中包括上述多个文档中每个文档的文本内容；根据上述候选词集合与上述多个文档，确定出一个目标列表，其中，上述目标列表中包括多个候选词；根据上述多个候选词中每一个候选词的目标凝固度和目标自由度，从上述目标列表中确定出上述领域词；将上述领域词保存到领域词库中的方法，由于在上述方法中，再从文档中提取领域词的过程中，是获取文档的候选词集合，然后根据候选词集合和多个文档确定出目标列表，并从目标列表中根据候选词的目标凝固度和目标自由度确定出领域词，从而实现了准确自动确定领域词的效果，进而解决了提取文档中的领域词效率低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的文档中的领域词提取方法的应用环境的示意图；

图2是根据本发明实施例的另一种可选的文档中的领域词提取方法的应用环境的示意图；

图3是根据本发明实施例的一种可选的文档中的领域词提取方法的流程的示意图；

图4是根据本发明实施例的一种可选的文档中的领域词提取方法的系统模型示意图；

图5是根据本发明实施例的一种可选的文档中的领域词提取装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种文档中的领域词提取方法，可选地，作为一种可选的实施方式，上述文档中的领域词提取方法可以但不限于应用于如图1所示的环境中。

如图1所示，终端设备102包括了存储器104，用于存储终端设备102运行过程中产生的各项数据、处理器106，用于处理运算上述各项数据、显示器108，用于显示多个文档的文档内容与确定出的领域词。终端设备102可以通过网络110与服务器112之间进行数据交互。服务器112包括数据库114，用于存储各项数据，处理引擎116，用于处理上述各项数据。通过步骤S102到步骤S106，终端设备102将多个文档发送到服务器112，服务器112提取文档中的领域词，然后将领域词下发给终端设备102。

作为一种可选的实施方式，上述文档中的领域词提取方法可以但不限于应用于如图2所示的环境中。

如图2所示，终端设备202包括了存储器204，用于存储终端设备202运行过程中产生的各项数据、处理器206，用于处理运算上述各项数据、显示器208，用于显示多个文档的文档内容与确定出的领域词。终端设备202可以执行步骤S202到步骤S208。与图1的不同之处在于，终端设备202完成领域词的提取。

可选地，在本实施例中，上述终端设备可以是配置有目标客户端的终端设备，可以包括但不限于以下至少之一：手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices，移动互联网设备)、PAD、台式电脑、智能电视等。目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。上述仅是一种示例，本实施例中对此不作任何限定。

可选地，作为一种可选的实施方式，如图3所示，上述文档中的领域词提取方法包括：

S302，获取待提取领域词的多个文档；获取多个文档的候选词集合，其中，候选词集合中包括多个文档中每个文档的文本内容；

S302，根据候选词集合与多个文档，确定出一个目标列表，其中，目标列表中包括多个候选词；

S302，根据多个候选词中每一个候选词的目标凝固度和目标自由度，从目标列表中确定出领域词；

S302，将领域词保存到领域词库中。

可选地，上述文档中的领域词提取方法可以当不限于应用于自动提取文档中的领域词的过程中。上述文档可以为包括文字或图片或表格等内容的文档。如果包括图片或表格，可以将图片中的文字识别出来，与文档中的文字与表格中的文字一同作为待提取领域词的文字。

可选地，在获取到多个文档后，首先获取多个文档中的文字内容。文字内容包括文本内容，还可以包括表格中的文本、识别图片得到的文本等。将多个文档的文本内容分词拼接为候选词集合。根据候选词集合和多个文档，确定出一个目标列表，目标列表中包括有多个候选词。根据目标列表中每一个词的目标凝固度和目标自由度，从目标列表中确定出领域词，然后将领域词保存到领域词库中。

作为一种可选的示例，根据候选词集合与多个文档，确定出一个目标列表包括：

将多个文档拆分为多个文档集合，其中，每一个文档集合中包括至少一个文档；

根据每一个文档集合与候选词集合，确定出一个候选词列表；

从确定的多个候选词列表中确定出目标列表。

作为一种可选的示例，根据每一个文档集合与候选词集合，确定出一个候选词列表包括：

计算候选词集合中每一个候选词在文档集合中的词频-拟文档频率；

按照词频-拟文档频率对候选词集合中的每一个候选词进行排序，得到候选词列表。

作为一种可选的示例，从确定的多个候选词列表中确定出目标列表包括：

按照舒尔茨方法从多个候选词列表中确定出目标列表。

作为一种可选的示例，根据多个候选词中每一个候选词的目标凝固度和目标自由度，从目标列表中确定出领域词包括：

确定每一个候选词的目标凝固度和目标自由度；

在目标凝固度大于第一阈值且目标自由度大于第二阈值的情况下，确定每一个候选词为领域词。

作为一种可选的示例，确定每一个候选词的目标凝固度包括：

将候选词拆分为第一词和第二词；

计算候选词的第一频率与第二频率，其中，第一频率为第一词与第二词同时出现的频率，第二频率为第一词与第二词组合出现的频率；

将第一频率与第二频率的比值确定为目标凝固度。

作为一种可选的示例，获取多个文档的候选词集合包括：

获取多个文档中每一个文档的文本内容；

将文本内容拼接为文本集合；

删除文本集合中的标点符号；

将删除标点符号后的文本集合中的文本进行分词，得到分词集合；

将分词集合中的在领域词库中出现的领域词删除，得到候选词集合。

可选地，结合一个具体示例解释上述文档中的领域词提取方法。

本申请实施例中使用一个MAS系统实现领域词的提取。上述领域词可以指代在专有领域出现的词汇。Multi-Agent系统(MAS系统)是多个Agent组成的集合，其多个Agent成员之间相互协调，相互服务，共同完成一个任务。它的目标是将大而复杂的系统建设成小的、彼此互相通信和协调的，易于管理的系统。是多个Agent组成的集合，其多个Agent成员之间相互协调，相互服务，共同完成一个任务。它的目标是将大而复杂的系统建设成小的、彼此互相通信和协调的，易于管理的系统。

MAS系统的特点：

(1)分布性。计算环境由运行于多种异构平台上的分布软件系统组成。

(2)协同性。一般情况下，协同是指多个Agent围绕一个共同目标而相互作用的协同过程。MAS通过并行性提高任务完成效率；通过共享资源(信息、专家知识、物理设备等)扩展完成任务的范围；通过任务的重复分配增加任务完成的可能性；通过避免有害相互作用降低任务之间的干扰。

(3)并发性。MAS中的Agent具有并发的特性，Agent社会中的每个Agent随时随地在根据Agent环境协调自己的状态和行为，及时处理实时信息。

(4)实时性。系统能够快速地响应。

图4为本申请实施例的MAS系统的示意图。包括了调度Agent、Agent池，Agent池中包括多个Agent。文档库、候选词库和领域词库。

文档库：存储海量文档，如行业的科研论文，项目报告，规章制度，法律法规

候选词库：临时存储每一批次输入的文档切分出的n-gram候选词

领域词库：存储通过不断迭代计算出来的领域词

调度Agent：作为主控组件，让其它Agent协同起来以共同完成领域词库的构建任务。

Agent池：包含若干分布在不同机器上的Agent，通过并行性提高任务完成效率；通过共享的文档库、候选词库以及领域词库分别完成计算任务。

本申请实施例的提取领域词的过程主要分为如下几个阶段。

1、预处理阶段：包括：从文档库里获取一个全量或增量的文档集合，记为Sd，根据标点符号的不同含义将文档分隔整理为一个文本片段的集合，记为Ts，例如可以将不同的标点符号的文本记录在不同的文本片段中，将多个文本片段拼接为文本片段集合。清理掉上述文本片段集合Ts中每一个文本片段的标点符号，得到一个新的文本片段集合Ts’，把上述新文本片段集合Ts’转换为一个n-gram形式的候选词集合，记为Cw。这里n-gram指的是一个由n个字符组成的集合，各字符具有先后顺序，且不要求字符之间互不相同，在Cw把领域词库中已存在的词去除，记为Sw。

2、任务分配阶段：调度Agent把上述一个全量或增量的文档集合Sd随机打乱，平均切分为m个子集Sd(0),Sd(1),…,Sd(m-1)。这里m为Agent池中Agent的个数。每一个子集中的文档的数量可以不同，每一个子集中的文档数量至少为1。把Sd(0),Sd(1),…,Sd(m-1)逐个分配给Agent池中的m个Agent作为输入参数。把候选词集合Sw分配给Agent池中的m个Agent作为输入参数。

通过词共现频率或者TF-IDF(词频-逆文本频率指数)算法，对每个候选关键词进行权重计算。互信息计算需要对n-gram的互信息求和，如细思极恐＝>MI(细,思)+MI(思,极)+MI(极,恐)，其中，MI(*,*)为“*,*”的互信息。

3、候选词推荐阶段：在Agent(i)中，使用TF-IDF算法，分别在Sd(i)中对Sw中的每个候选关键词进行权重计算，其中i＝0,..,m。此步骤后，得到每一个Agent中，每一个候选关键词的权重。

在Agent(i)中，按照TF-IDF权重把Sw的每个候选关键词排序，分别得到m个有序集合SSw(i)。也就是说，在第i个Agent中，按照候选关键词的权重由大到小排序得到一个候选关键词序列SSw(i)。

4、投票阶段。根据以上推荐结果SSw(i)，采用基于次序的舒尔茨方法推荐候选词排序，产生推荐列表。舒尔茨方法是一种基于投票的算法，可根据TF-IDF权重排序情况产生胜者列表，本发明采用该算法，通过对每个Agent推荐用户之间对项目对的偏好的融合，得到拟推荐候选词的预测序列CSw。

5、筛选优化阶段：使用信息熵方法对投票结果进行进一步优化：为内部凝固程度和自由运用程度各设定一个合适的阈值。使用内部凝固程度筛选所谓内部凝固度，在计算语言学中，PMI(Pointwise mutual information)被用来度量词搭配与关联性，定义如下：

若PMI高，即两个词共现(co-occurrence)的频率远大于两个词自由拼接的乘积概率，则说明这两个词搭配更为合理一些。针对一个词有多种搭配组合，取其所有pmi最小值(去掉log)作为内部凝固度：

其中，

表示长度为m的字符串，

表示词

的频率。

从而计算出每一个候选关键词的内部凝固度，作为目标凝固度。上述候选关键词，目标凝固度要大于第一阈值，才会被选择为领域词。

使用自由运用程度筛选：

自由运用程度定义如下：

其中，的le(*)用于衡量“*”左临字的丰富程度，re(*)用于衡量“*”右临字的丰富程度。例如，“被子”，是可以单独成词的，也可以拼接，如“买被子”，“缝被子”等。而例如“辈子”则不太可能单独成词，一般左侧都会有额外的词，如“一辈子”、“这辈子”等。也就是说，“被子”左右侧不接其他词，可以单独成词，则le(被子)与re(被子)要更大，而“辈子”一般不单独使用，左侧需要拼接“一”、“这”等。右侧不需要拼接其他词。因此，le(辈子)要小，re(辈子)要大。

对于上述每一个候选关键词，计算目标自由度。目标自由度要大于第二阈值才可以被选择为领域词。

确定出领域词后，将领域词保存到领域词库。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述文档中的领域词提取方法的文档中的领域词提取装置。如图5所示，该装置包括：

第一获取单元502，用于获取待提取领域词的多个文档；

第二获取单元504，用于获取多个文档的候选词集合，其中，候选词集合中包括多个文档中每个文档的文本内容；

第一确定单元506，用于根据候选词集合与多个文档，确定出一个目标列表，其中，目标列表中包括多个候选词；

第二确定单元508，用于根据多个候选词中每一个候选词的目标凝固度和目标自由度，从目标列表中确定出领域词；

保存单元510，用于将领域词保存到领域词库中。

作为一种可选的示例，上述第一确定单元包括：

拆分模块，用于将多个文档拆分为多个文档集合，其中，每一个文档集合中包括至少一个文档；

第一确定模块，用于根据每一个文档集合与候选词集合，确定出一个候选词列表；

第二确定模块，用于从确定的多个候选词列表中确定出目标列表。

作为一种可选的示例，上述第一确定模块包括：

第一计算子模块，用于计算候选词集合中每一个候选词在文档集合中的词频-拟文档频率；

排序子模块，用于按照词频-拟文档频率对候选词集合中的每一个候选词进行排序，得到候选词列表。

作为一种可选的示例，上述第二确定模块包括：

第一确定子模块，用于按照舒尔茨方法从多个候选词列表中确定出目标列表。

作为一种可选的示例，上述第二确定单元包括：

第三确定模块，用于确定每一个候选词的目标凝固度和目标自由度；

第四确定模块，用于在目标凝固度大于第一阈值且目标自由度大于第二阈值的情况下，确定每一个候选词为领域词。

作为一种可选的示例，上述第三确定模块包括：

拆分子模块，用于将候选词拆分为第一词和第二词；

第二计算子模块，用于计算候选词的第一频率与第二频率，其中，第一频率为第一词与第二词同时出现的频率，第二频率为第一词与第二词组合出现的频率；

第二确定子模块，用于将第一频率与第二频率的比值确定为目标凝固度。

作为一种可选的示例，上述第二获取单元包括：

获取模块，用于获取多个文档中每一个文档的文本内容；

拼接模块，用于将文本内容拼接为文本集合；

第一删除模块，用于删除文本集合中的标点符号；

分词模块，用于将删除标点符号后的文本集合中的文本进行分词，得到分词集合；

第二删除模块，用于将分词集合中的在领域词库中出现的领域词删除，得到候选词集合。

本实施例的其他示例请参见上述示例，在此不再赘述。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种文档中的领域词提取方法，其特征在于，包括：

获取待提取领域词的多个文档；

获取所述多个文档的候选词集合，其中，所述候选词集合中包括所述多个文档中每个文档的文本内容；

根据所述候选词集合与所述多个文档，确定出一个目标列表，其中，所述目标列表中包括多个候选词；

根据所述多个候选词中每一个候选词的目标凝固度和目标自由度，从所述目标列表中确定出所述领域词；

将所述领域词保存到领域词库中。

2.根据权利要求1所述的方法，其特征在于，所述根据所述候选词集合与所述多个文档，确定出一个目标列表包括：

将所述多个文档拆分为多个文档集合，其中，每一个文档集合中包括至少一个所述文档；

根据每一个所述文档集合与所述候选词集合，确定出一个候选词列表；

从确定的多个所述候选词列表中确定出目标列表。

3.根据权利要求2所述的方法，其特征在于，所述根据每一个所述文档集合与所述候选词集合，确定出一个候选词列表包括：

计算所述候选词集合中每一个候选词在所述文档集合中的词频-拟文档频率；

按照所述词频-拟文档频率对所述候选词集合中的所述每一个候选词进行排序，得到所述候选词列表。

4.根据权利要求2所述的方法，其特征在于，所述从确定的多个所述候选词列表中确定出目标列表包括：

按照舒尔茨方法从多个所述候选词列表中确定出所述目标列表。

5.根据权利要求1所述的方法，其特征在于，所述根据所述多个候选词中每一个候选词的目标凝固度和目标自由度，从所述目标列表中确定出所述领域词包括：

确定所述每一个候选词的所述目标凝固度和所述目标自由度；

在所述目标凝固度大于第一阈值且所述目标自由度大于第二阈值的情况下，确定所述每一个候选词为所述领域词。

6.根据权利要求5所述的方法，其特征在于，确定所述每一个候选词的所述目标凝固度包括：

将所述候选词拆分为第一词和第二词；

计算所述候选词的第一频率与第二频率，其中，所述第一频率为所述第一词与所述第二词同时出现的频率，所述第二频率为所述第一词与所述第二词组合出现的频率；

将所述第一频率与所述第二频率的比值确定为所述目标凝固度。

7.根据权利要求1至6任意一项所述的方法，其特征在于，所述获取所述多个文档的候选词集合包括：

获取所述多个文档中每一个文档的文本内容；

将所述文本内容拼接为文本集合；

删除所述文本集合中的标点符号；

将删除所述标点符号后的所述文本集合中的文本进行分词，得到分词集合；

将所述分词集合中的在所述领域词库中出现的领域词删除，得到所述候选词集合。

8.一种文档中的领域词提取装置，其特征在于，包括：

第一获取单元，用于获取待提取领域词的多个文档；

第二获取单元，用于获取所述多个文档的候选词集合，其中，所述候选词集合中包括所述多个文档中每个文档的文本内容；

第一确定单元，用于根据所述候选词集合与所述多个文档，确定出一个目标列表，其中，所述目标列表中包括多个候选词；

第二确定单元，用于根据所述多个候选词中每一个候选词的目标凝固度和目标自由度，从所述目标列表中确定出所述领域词；

保存单元，用于将所述领域词保存到领域词库中。

9.根据权利要求8所述的装置，其特征在于，所述第一确定单元包括：

拆分模块，用于将所述多个文档拆分为多个文档集合，其中，每一个文档集合中包括至少一个所述文档；

第一确定模块，用于根据每一个所述文档集合与所述候选词集合，确定出一个候选词列表；

第二确定模块，用于从确定的多个所述候选词列表中确定出目标列表。

10.根据权利要求8所述的装置，其特征在于，所述第二确定单元包括：

第三确定模块，用于确定所述每一个候选词的所述目标凝固度和所述目标自由度；

第四确定模块，用于在所述目标凝固度大于第一阈值且所述目标自由度大于第二阈值的情况下，确定所述每一个候选词为所述领域词。