CN109902299B

CN109902299B - 一种文本处理方法及装置

Info

Publication number: CN109902299B
Application number: CN201910119924.6A
Authority: CN
Inventors: 张金贺; 徐安华; 欧阳佑
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2019-02-18
Filing date: 2019-02-18
Publication date: 2022-11-11
Anticipated expiration: 2039-02-18
Also published as: CN109902299A

Abstract

本申请公开了一种文本处理方法及装置，所述方法包括：将待处理文本处理成包含一个或多个具有完整语义信息的文本片段的第一集合；将所述第一集合中的文本片段按照预设的最大文本行显示宽度进行展示，其中，展示时每一文本行包含一个或多个完整的文本片段，每一文本行所包含的文本片段的总宽度不超过所述预设的最大文本行显示宽度。本申请提供了一种基于语义约束的自动文本换行算法来解决命名实体被割裂在多行显示的标注痛点，保证具有完整语义信息的文本片段显示在一行中，进而节约了用户实体标注的时间，减少了用户在标注实体时鼠标移动的代价，从而提升了标注效率，降低了标注成本。

Description

一种文本处理方法及装置

技术领域

本申请涉及自然语言处理领域，尤其涉及一种文本处理方法及装置。

背景技术

自然语言处理(Natural Language Processing，简称“NLP”)已经极大地影响了当今社会，它是计算机科学领域与人工智能领域中的一个重要方向, 研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。 NLP是一门融语言学、计算机科学、数学于一体的科学，包括智能聊天机器人技术、文本生成技术、机器翻译技术、信息抽取技术等。另外，NLP技术主要处理的是人们在生产生活中积累的非结构化数据，将之转化为结构化的信息，并旨在从中挖掘出有价值的信息，从而辅助人们进行思考和决策。

目前，基于机器学习的NLP应用多遵循有监督的策略，即:首先需要利用标注过的语料数据集训练出NLP模型，然后再将该模型部署到生产中，发挥其作用。一个高质量的标注数据集往往决定着NLP应用的最终效果。

作为信息抽取的基石，命名实体识别(Named Entity Recognition，简称“NER”)的效果直接决定了后续信息抽取流程的准确性。命名实体指的是以名称为标识的实际物体，例如人名、地名、公司名等。每一个成熟的NLP 应用都离不开NER技术。为了获得更好的NER效果，各大型公司或组织往往花费大量的资源来雇佣标注者团队，以获取到大规模的命名实体语料库。提升标注的效率将有效节约劳动力、缩短NLP应用的开发周期。

在进行命名实体的标注时，由于显示画面的宽度有限，单篇文档会一般被自动分割成多行显示在固定宽度的标注界面中。在没有任何约束的情况下，一个完整的语义块有很高的概率被分割成多行展现在标注界面中，如图 1所示，其中的待标注实体“张小明”和“中国香港”分别被割裂在两行显示，此时标注者需要将鼠标进行跨行拖动以完成单个命名实体的标注。这种情况下，鼠标的移动距离较大，操作效率比较低。

如何解决现有技术中命名实体被割裂在多行显示的标注痛点，减少用户在标注实体时鼠标移动的代价，从而提升标注效率，降低标注成本，是目前亟待解决的问题。

发明内容

本申请的主要目的在于提出一种文本处理方法，解决了现有技术中命名实体被割裂在多行显示的标注痛点，减少了用户在标注实体时鼠标移动的代价，从而提升了标注效率，降低了标注成本。

为实现上述目的，本申请实施例提供了一种文本处理方法，包括：

将待处理文本处理成包含一个或多个具有完整语义信息的文本片段的第一集合；

将所述第一集合中的文本片段按照预设的最大文本行显示宽度进行展示，其中，展示时每一文本行包含一个或多个完整的文本片段，每一文本行所包含的文本片段的总宽度不超过所述预设的最大文本行显示宽度。

可选地，所述将待处理文本处理成包含一个或多个具有完整语义信息的文本片段的第一集合，包括：

对所述待处理文本进行分词，得到对应所述待处理文本的分词集合；

根据预设的命名实体类型抽取所述待处理文本中的命名实体；

获取所述分词集合中与所述命名实体对应的冲突分词；

根据所抽取的命名实体和所述冲突分词对所述分词集合进行处理，得到所述第一集合。

可选地，所述根据所抽取的命名实体和所述冲突分词对所述分词集合进行处理，得到所述第一集合，包括：

比较所述命名实体和与其对应的冲突分词，判断与所述命名实体对应的冲突分词中是否存在与所述命名实体不一致的词汇，如果不存在与所述命名实体不一致的词汇，用所述命名实体替换所述分词集合中与其对应的冲突分词，得到所述第一集合。

可选地，所述根据所抽取的命名实体和所述冲突分词对所述分词集合进行处理，得到所述第一集合，还包括：

如果存在与所述命名实体不一致的词汇，获取所述词汇，将所述词汇作为独立分词与所述命名实体组合成无冲突的分词组合；

用所述无冲突的分词组合替换所述分词集合中与其对应的冲突分词，得到所述第一集合。

可选地，所述将所述第一集合中的文本片段按照预设的最大文本行显示宽度进行展示，包括：

根据所述预设的最大文本行显示宽度对所述第一集合中的文本片段进行分组，生成包含一个或多个文本片段组的第二集合，其中，所述文本片段组的宽度不大于所述预设的最大文本行显示宽度；

将所述第二集合中的各个文本片段组独立展示在每一文本行中。

本申请实施例还提供了一种文本处理装置，包括：

语义块切分模块，设置为将待处理文本处理成包含一个或多个具有完整语义信息的文本片段的第一集合；

文本行规划模块，设置为将所述第一集合中的文本片段按照预设的最大文本行显示宽度进行展示，其中，展示时每一文本行包含一个或多个完整的文本片段，每一文本行所包含的文本片段的总宽度不超过所述预设的最大文本行显示宽度。

可选地，所述语义块切分模块，具体设置为：

分词模块，设置为对所述待处理文本进行分词，得到对应所述待处理文本的分词集合；

命名实体抽取模块，设置为根据预设的命名实体类型抽取所述待处理文本中的命名实体；

冲突分词获取模块，设置为获取所述分词集合中与所述命名实体对应的冲突分词；

第一集合获取模块，设置为根据所抽取的命名实体和所述冲突分词对所述分词集合进行处理，得到所述第一集合。

可选地，所述第一集合获取模块，具体设置为：

可选地，所述第一集合获取模块，还具体设置为：

可选地，所述文本行规划模块，具体设置为：

本申请提出的技术方案包括：将待处理文本处理成包含一个或多个具有完整语义信息的文本片段的第一集合；将所述第一集合中的文本片段按照预设的最大文本行显示宽度进行展示，其中，展示时每一文本行包含一个或多个完整的文本片段，每一文本行所包含的文本片段的总宽度不超过所述预设的最大文本行显示宽度。

本申请提供了一种基于语义约束的自动文本换行算法来解决命名实体被割裂在多行显示的标注痛点，保证具有完整语义信息的文本片段显示在一行中，进而节约了用户实体标注的时间，减少了用户在标注实体时鼠标移动的代价，从而提升了标注效率，降低了标注成本。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1所示为现有技术中待标注实体被割裂在两行显示时的示意图；

图2所示为本申请实施例1的文本处理方法流程图；

图3所示为本申请实施例2的文本处理装置结构图；

图4所示为本申请中待标注实体分别显示在一行中时的示意图；

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

自动文本换行(Text Wrap)技术应用在几乎所有的文本编辑器中。在给定受限显示宽度的条件下，它能够进行将一篇长的文本转化为长度均衡的子文本行集合。

现有的文本换行算法侧重考虑子文本行长度均衡的约束，采用贪心法或动态规划法生成满足约束的解。然而，在命名实体标注场景中，该方法并不能保证语义块的完整性。

为了保证语义块的完整性，本申请提出一种新的自动文本换行切分算法，保证具有完整语义信息的文本片段显示在一行中，进而节约用户实体标注的时间。

图2所示为本申请实施例1的文本处理方法流程图，包括以下步骤：

步骤201：将待处理文本处理成包含一个或多个具有完整语义信息的文本片段的第一集合；

本申请中的“待处理文本”可以是在进行命名实体标注之前的原始文本，也可以包括需要使用本申请中的方法进行预处理的其他文本。

为了更能清楚地说明本申请方法中的各步骤，本申请以如下原始文本为例予以说明：

出生于1961年9月27日的张小明，不仅是歌手，还是中国香港男演员、作词人、制片人。

将该原始文本记作d。

在将待处理文本处理成包含一个或多个具有完整语义信息的文本片段的第一集合时，可以通过如下步骤实现：

步骤2011：对待处理文本进行分词，得到对应该待处理文本的分词集合；

具体地，分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在进行分词时，一般基于分词词典来做。对于一些在分词词典中没有收录的命名实体以及新词，一般不会将其分为一个独立的分词，而是将其拆分为多个词或者同其他词合并成一个分词，比如：对于“出生于1961年9 月27日的张小明，”，基于不同的分词词典，分词后的结果可能是“出生/ 于/1961/年/9/月/27/日/的/张/小明/，”也可能是“出生/于/1961/年/9/月/27/ 日/的张小明/，”，即：人名实体“张小明”分为了两个分词“张”和“小明”，或者分为了包含其他词的分词“的张小明”；

这里，假定将原始文本d经过分词后，生成分词集合如下所示：

出生/于/1961/年/9/月/27/日/的/张/小明/，/不仅/是/歌手/，/还是/中国/香港/男/演员/、/作词/人/、/制片/人/。

其中，每一个分词通过“/”进行分割，分词集合假定为T＝{t₁,t₂,…,t_|T|}，其中|T|表示分词数量。

步骤2012：根据预设的命名实体类型抽取该待处理文本中的命名实体；

具体地，命名实体就是人名、机构名、地名以及其他所有以名称为标识的实体，更广泛的命名实体还包括数字、日期、货币、地址等。其中，通用命名实体类型包括三种：人名、地名、组织机构名。在抽取该待处理文本中的命名实体时，可以将所要抽取的命名实体的类型预设为通用命名实体类型，即抽取该待处理文本中的人名、地名以及组织机构名，也可以根据用户需要扩展为抽取通用命名实体类型之外的其他类型的命名实体。

同样对于原始文本d来说，如果所预设的命名实体类型为通用命名实体类型的话，则人名“张小明”和地名“中国香港”即被抽取出来，所抽取的命名实体构成的实体集合记作E＝{e₁,e₂,…,e_|E|}，其中|E|表示实体数量，这里，|E|为2，e₁为“张小明”，e₂为“中国香港”。

本申请考虑到命名实体和分词词汇两种异源信息可能会冲突，因此需要一种能够安全的解决冲突的融合策略。通过将分词后的词汇信息和命名实体进行融合，从而避免分词后中将命名实体割裂为两个分词的情况。具体该融合策略的实现，可通过如下步骤：

步骤2013：对于实体集合中的每一个命名实体e_i，获取分词集合中与该命名实体对应的冲突分词，记作

对于上述原始文本d，通过将分词集合T＝{t₁,t₂,…,t_|T|}中的分词与命名实体E＝{e₁,e₂,…,e_|E|}相比较，即可找到与命名实体e₁“张小明”相冲突的分词为“张”和“小明”，与命名实体e₂“中国香港”相冲突的分词为“中国”和“香港”。

步骤2014：根据所抽取的命名实体和所述冲突分词对所述分词集合进行处理，得到所述第一集合。

在执行本步骤2014时，可以通过如下方式进行：

比较该命名实体和与其对应的冲突分词，判断与该命名实体对应的冲突分词中是否存在与该命名实体不一致的词汇，如果不存在与该命名实体不一致的词汇，用该命名实体替换该分词集合中与其对应的冲突分词，得到该第一集合；

如果存在与该命名实体不一致的词汇，获取该词汇，将该词汇作为独立分词与该命名实体组合成无冲突的分词组合；

用该无冲突的分词组合替换该分词集合中与其对应的冲突分词，得到该第一集合。

具体地，在将命名实体和与其对应的冲突分词进行比较时，可以依据如下规则进行判断：

a、若t∈e_i，即：与该命名实体对应的冲突分词中不存在与其不一致的词汇的情况，例如如上例子中，命名实体e₁“张小明”和与其相冲突的分词“张”和“小明”之间并不存在除“张小明”之外的其他词汇，这样，即用命名实体e₁“张小明”直接替换该分词集合中的“张”和“小明”即可。

b、若e_i∈t，即：与该命名实体对应的冲突分词中不仅包括该命名实体，还包括其他词汇，并且在命名实体前后都有词汇。举例来讲：如果基于其他分词词典，原始文本d中的“出生于1961年 9月27日的张小明，”被分词为“出生/于/1961/年/9/月/27/日/ 的张小明，/”，即与命名实体“张小明”相冲突的分词“的张小明，”中不仅包含“张小明”，还包含词汇“的”和“，”，这样，就需要首先得到这些词汇，这些词汇可以表示为 d[start(t):start(e_i)]和d[end(e_i):end(t)]，其中start(t)表示冲突分词的开始位置，end(t)表示冲突分词的结束位置，start(e_i)表示命名实体的开始位置，end(e_i)表示命名实体的结束位置； d[start(t):start(e_i)]表示从冲突分词的开始位置到命名实体的开始位置之间的词汇，d[end(e_i):end(t)]表示从冲突分词的结束位置到命名实体的结束位置之间的词汇。上述例子中，d[start(t):start(e_i)] 指的是词汇“的”，d[end(e_i):end(t)]指的是词汇“，”。在获得这些词汇后，将这些词汇作为独立分词与该命名实体组合成无冲突的分词组合，再用该无冲突的分词组合替换该分词集合中与其对应的冲突分词，得到该第一集合，即：将分词组合“/的/张小明/，/”替换“/的张小明，/”，替换后形成的新的分词集合即为第一集合。

c、若start(t)＜start(e_i)，即：与该命名实体对应的冲突分词中不仅包括该命名实体，还包括其他词汇，并且该词汇仅在命名实体前面。举例来讲：如果基于其他分词词典，原始文本d中的“出生于1961年9月27日的张小明，”被分词为“出生/于/1961/年/9/ 月/27/日/的张小明/，/”，即与命名实体“张小明”相冲突的分词“的张小明”中不仅包含“张小明”，还包含“的”，这样，就需要首先得到该词汇，该词汇可以表示为d[start(t):start(e_i)]；在获得该词汇后，将该词汇作为独立分词与该命名实体组合成无冲突的分词组合，再用该无冲突的分词组合替换该分词集合中与其对应的冲突分词，得到该第一集合，即：将分词组合“/的/ 张小明/”替换“/的张小明/”，替换后形成的新的分词集合即为第一集合。

d、若end(t)＞end(e_i)，即：与该命名实体对应的冲突分词中不仅包括该命名实体，还包括其他词汇，并且该词汇仅在命名实体后面。举例来讲：如果基于其他分词词典，原始文本d中的“出生于1961年9月27日的张小明，”被分词为“出生/于/1961/ 年/9/月/27/日/的/张小明，/”，即与命名实体“张小明”相冲突的分词“的张小明”中不仅包含“张小明”，还包含“,”，这样，就需要首先得到该词汇，该词汇可以表示为 d[end(e_i):end(t)]；在获得该词汇后，将该词汇作为独立分词与该命名实体组合成无冲突的分词组合，再用该无冲突的分词组合替换该分词集合中与其对应的冲突分词，得到该第一集合，即：将分词组合“/张小明/，/”替换“/张小明，/”，替换后形成的新的分词集合即为第一集合。

在对实体集合中的每一个命名实体e_i通过上述方式处理后，最终形成如下文本片段集合，即第一集合，记作M＝{m₁,m₂,…,m_|M|}：

出生/于/1961/年/9/月/27/日/的/张小明/，/不仅/是/歌手/，/还是/中国香港 /男/演员/、/作词/人/、/制片/人/。

其中，|M|为集合中文本片段的数量，m_i表征第i个文本片段，该集合中包含一个或多个具有完整语义信息的文本片段。

步骤202：将所述第一集合中的文本片段按照预设的最大文本行显示宽度进行展示，其中，展示时每一文本行包含一个或多个完整的文本片段，每一文本行所包含的文本片段的总宽度不超过所述预设的最大文本行显示宽度。

在本申请中，最大文本行显示宽度可以根据设计需要而定。

在将所述第一集合中的文本片段按照预设的最大文本行显示宽度进行展示，可以以如下方式进行：

具体地，对于步骤201中所生成的第一集合M＝{m₁,m₂,…,m_|M|}，将其进行分组，划分成第二集合G＝{g₁,g₂,…,g_|G|}，并且满足约束

其中L为预设的最大文本行显示宽度，第二集合中的每一个分组被单独显示在标注界面中，同时保证了语义块(即：一个具有完整语义信息的文本片段)的完整性。

语义块宽度计算：对于每一个语义块m_i，其宽度定义为(忽略字符间距)：

公式中|m_i|表征m_i的字符数量，对于每一个字符

宽度是取决于字体和字符类型，字符类型分为如中文、英文、数字等。

设语义块集合对应的宽度集合为W_M＝{w(m1),w(m₂),…}，基于文本换行算法得到的语义块分组为G＝{g₁,g₂,…,g_|G|},其中

具有宽度:

文本自动换行算法在保证每一行(分组)的宽度不超过上限的前提下，要使得每一行的宽度尽量均衡，该问题的数学描述形式为：

当x＝0时，问题被简化，G只需要满足

即为问题的最优解。此时，使用通用的约束最优化算法，如贪心算法，即可来找到符合约束的解 (分组方案)。

如图3所示，本申请的基于语义约束的文本换行算法能够保证待标注实体“张小明”和“中国香港”被显示在同一行中，减少了用户在标注实体时鼠标移动的代价。

这里需要说明的是，本申请提供了一种基于语义约束的自动文本换行算法来解决命名实体被割裂在多行显示的标注痛点，保证具有完整语义信息的文本片段显示在一行中，进而节约了用户实体标注的时间，减少了用户在标注实体时鼠标移动的代价，从而提升了标注效率，降低了标注成本。

图4为本申请实施例2的文本处理装置结构图，如图4所示，该装置包括：

具体地，所述语义块切分模块，具体设置为：

具体地，所述第一集合获取模块，具体设置为：

具体地，所述第一集合获取模块，还具体设置为：

具体地，所述文本行规划模块，具体设置为：

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种文本处理方法，其特征在于，包括：

获取所述分词集合中与所述命名实体对应的冲突分词；

根据所抽取的命名实体和所述冲突分词对所述分词集合进行处理，比较所述命名实体和与其对应的冲突分词，判断与所述命名实体对应的冲突分词中是否存在与所述命名实体不一致的词汇，如果不存在与所述命名实体不一致的词汇，用所述命名实体替换所述分词集合中与其对应的冲突分词，得到所述第一集合；

2.根据权利要求1所述的方法，其特征在于，所述根据所抽取的命名实体和所述冲突分词对所述分词集合进行处理，得到所述第一集合，还包括：

3.根据权利要求1～2任一项所述的方法，其特征在于，所述将所述第一集合中的文本片段按照预设的最大文本行显示宽度进行展示，包括：

4.一种文本处理装置，其特征在于，包括：

其中，语义块切分模块具体设置为包括分词模块、命名实体抽取模块、冲突分词获取模块与第一集合获取模块；

第一集合获取模块，设置为根据所抽取的命名实体和所述冲突分词对所述分词集合进行处理，比较所述命名实体和与其对应的冲突分词，判断与所述命名实体对应的冲突分词中是否存在与所述命名实体不一致的词汇，如果不存在与所述命名实体不一致的词汇，用所述命名实体替换所述分词集合中与其对应的冲突分词，得到所述第一集合；

5.根据权利要求4所述的装置，其特征在于，所述第一集合获取模块，还具体设置为：

6.根据权利要求4～5任一项所述的装置，其特征在于，所述文本行规划模块，具体设置为：