CN111858837A

CN111858837A - 一种文本处理方法及装置

Info

Publication number: CN111858837A
Application number: CN201910269029.2A
Authority: CN
Inventors: 王旭; 陈坦访; 王伟玮; 李奘
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2020-10-30

Abstract

本申请涉及文本处理技术领域，尤其涉及一种文本处理方法及装置。本申请通过将获取到的中文文本进行分词处理，得到多个中文词语，在预设好的中英文映射表中查找出与每个中文词语分别对应的英文字母序列，进而将中文文本转化为对应的英文文本，进一步地，从英文文本中抽取出多个英文关键短语，并根据中英文映射表，分别将每个英文关键短语转化为中文关键短语。与现有技术中只基于中文文本抽取中文关键短语的方法相比，本申请通过预设规则将中文文本转化为英文文本，并采用成熟的英文关键短语的抽取算法对该英文文本进行英文关键短语的抽取，进而将英文关键短语转化为中文关键短语，可以提升中文关键短语抽取的准确率和效率。

Description

一种文本处理方法及装置

技术领域

本申请涉及文本处理技术领域，尤其涉及一种文本处理方法及装置。

背景技术

关键短语自动抽取是文本信息处理的重要技术，是在进行文本自动摘要、文本自动分类、主题提取及专利检索分析等文本信息理解工作时，都要应用到的一项关键技术。

目前，现有技术中，基于中文文本进行中文关键短语的抽取，存在比如字符编码、语言习惯的问题，造成中文关键短语抽取的效率低下而且准确率不高。

发明内容

有鉴于此，本申请实施例的目的在于提供一种文本处理方法及装置，可以提升中文关键短语抽取的准确率和效率。

主要包括以下几个方面：

第一方面，本申请实施例提供一种文本处理方法，所述文本处理方法包括：

将获取到的中文文本进行分词处理，得到多个中文词语；

在预设好的中英文映射表中查找出与每个中文词语分别对应的英文字母序列；

根据查找出的多个英文字母序列，将所述中文文本转化为对应的英文文本；

从所述英文文本中抽取出多个英文关键短语；

根据所述中英文映射表，分别将每个英文关键短语转化为中文关键短语。

在一种可能的实施方式中，根据以下步骤建立所述中英文映射表：

获取中文词语库中所有的中文词语，分别对每个中文词语进行编号；

基于每个中文词语对应的编号，分别确定每个中文词语对应的英文字母序列；

按照每个中文词语、每个中文词语对应的编号及英文字母序列的相互对应关系，建立所述中英文映射表。

在一种可能的实施方式中，所述基于每个中文词语对应的编号，分别确定每个中文词语对应的英文字母序列，包括：

将每个中文词语对应的编号与预设数值进行相除计算，并确定每个相除计算结果中的商值和余数；

根据每个中文词语对应的商值和余数，确定每个中文词语对应的英文字母序列。

在一种可能的实施方式中，所述从所述英文文本中抽取出多个英文关键短语，包括：

对所述英文文本中至少两个连续的英文字母序列进行组合，确定出多个英文字母短语；

将所述多个英文字母短语和查找出的所述多个英文字母序列，确定为多个候选英文关键短语；

从所述多个候选英文关键短语中抽取出英文关键短语。

在一种可能的实施方式中，所述从所述多个候选英文关键短语中抽取出英文关键短语，包括：

确定每个候选英文关键短语的受欢迎度、聚合度以及信息量；

根据每个候选英文关键短语的受欢迎度、聚合度以及信息量，对每个候选英文关键短语进行评分；

从所述多个候选英文关键短语中确定出预设数量的英文关键短语，其中，预设数量的每个英文关键短语的评分高于所述多个候选英文关键短语中除所述多个英文关键短语之外的每个候选英文关键短语的评分。

在一种可能的实施方式中，根据以下步骤确定出每个候选英文关键短语的受欢迎度：

确定每个候选英文关键短语在所述英文文本中出现的次数，与所述英文文本中包含的全部英文字母序列的数量之间的第一比值，并将每个候选英文关键短语对应的第一比值确定为每个候选英文关键短语的受欢迎度的数值。

在一种可能的实施方式中，根据以下步骤确定出每个候选英文关键短语的聚合度：

确定每个候选英文关键短语在所述英文文本中出现的第一概率，与构成每个候选英文关键短语的至少两个连续的英文字母序列中每个英文字母序列分别在所述英文文本中出现的第二概率的乘积之间的比值，并将每个候选英文关键短语对应的比值确定为每个候选英文关键短语的聚合度的数值。

在一种可能的实施方式中，根据以下步骤确定所述第一概率：

确定每个候选英文关键短语在所述英文文本中出现的次数，与所述英文文本中包含的全部英文字母序列的数量之间的第二比值，并将每个候选英文关键短语对应的第二比值确定为每个候选英文关键短语的所述第一概率。

在一种可能的实施方式中，根据以下步骤确定所述第二概率：

确定构成每个候选英文关键短语的至少两个连续的英文字母序列中每个英文字母序列在所述英文文本中出现的次数，与所述英文文本中包含的全部英文字母序列的数量之间的比值，并将每个候选英文关键短语对应的比值确定为每个英文字母序列的所述第二概率。

在一种可能的实施方式中，根据以下步骤确定出每个候选英文关键短语的信息量：

将所述英文文本切分成多个英文短文本；其中每个英文短文本包括表征一个语义的连续多个英文字母序列；

确定所述英文文本中包含的全部英文短文本的数量，与包含每个候选英文关键短语的英文短文本的数量之间的比值，并将每个候选英文关键短语对应的比值确定为每个候选英文关键短语的信息量。

第二方面，本申请实施例还提供一种文本处理装置，所述文本处理装置包括：

处理模块，用于将获取到的中文文本进行分词处理，得到多个中文词语；

查找模块，用于在预设好的中英文映射表中查找出与每个中文词语分别对应的英文字母序列；

转化模块，用于根据查找出的多个英文字母序列，将所述中文文本转化为对应的英文文本；

抽取模块，用于从所述英文文本中抽取出多个英文关键短语；

所述转化模块，还用于根据所述中英文映射表，分别将每个英文关键短语转化为中文关键短语。

在一种可能的实施方式中，所述文本处理装置还包括：

获取模块，用于获取中文词语库中所有的中文词语，分别对每个中文词语进行编号；

确定模块，用于基于每个中文词语对应的编号，分别确定每个中文词语对应的英文字母序列；

建立模块，用于按照每个中文词语、每个中文词语对应的编号及英文字母序列的相互对应关系，建立所述中英文映射表。

在一种可能的实施方式中，所述确定模块，具体用于根据以下步骤确定每个中文词语对应的英文字母序列：

在一种可能的实施方式中，所述抽取模块，具体用于根据以下步骤抽取出多个英文关键短语：

从所述多个候选英文关键短语中抽取出英文关键短语。

在一种可能的实施方式中，所述抽取模块包括：

第一确定单元，用于确定每个候选英文关键短语的受欢迎度、聚合度以及信息量；

评分单元，用于根据每个候选英文关键短语的受欢迎度、聚合度以及信息量，对每个候选英文关键短语进行评分；

第二确定单元，用于从所述多个候选英文关键短语中确定出预设数量的英文关键短语，其中，预设数量的每个英文关键短语的评分高于所述多个候选英文关键短语中除所述多个英文关键短语之外的每个候选英文关键短语的评分。

在一种可能的实施方式中，所述第一确定单元，具体用于根据以下步骤确定出每个候选英文关键短语的受欢迎度：

确定每个候选英文关键短语在所述英文文本中出现的次数，与所述英文文本中包含的全部英文字母序列的数量之间的第一比值，并将每个候选英文关键短语对应的比值确定为每个候选英文关键短语的受欢迎度的数值。

在一种可能的实施方式中，所述第一确定单元，具体用于根据以下步骤确定出每个候选英文关键短语的聚合度：

在一种可能的实施方式中，所述第一确定单元，具体用于根据以下步骤确定所述第一概率：

确定每个候选英文关键短语在所述英文文本中出现的次数，与所述英文文本中包含的全部英文字母序列的数量之间的第二比值，并将每个候选英文关键短语对应的比值确定为每个候选英文关键短语的所述第一概率。

在一种可能的实施方式中，所述第一确定单元，具体用于根据以下步骤确定所述第二概率：

在一种可能的实施方式中，所述第一确定单元，具体用于根据以下步骤确定出每个候选英文关键短语的信息量：

第三方面，本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过所述总线进行通信，所述机器可读指令被所述处理器运行时执行上述第一方面或第一方面中任一种可能的实施方式中所述的文本处理方法的步骤。

第四方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述第一方面或第一方面中任一种可能的实施方式中所述的文本处理方法的步骤。

本申请实施例中，通过将获取到的中文文本进行分词处理，得到多个中文词语，在预设好的中英文映射表中查找出与每个中文词语分别对应的英文字母序列，进而根据查找出的多个英文字母序列，可以将中文文本转化为对应的英文文本，进一步地，从英文文本中抽取出多个英文关键短语，并根据中英文映射表，分别将每个英文关键短语转化为中文关键短语。与现有技术中只基于中文文本抽取中文关键短语的方法相比，本申请通过预设规则将中文文本转化为英文文本，并采用成熟的英文关键短语的抽取算法对该英文文本进行英文关键短语的抽取，进而将英文关键短语转化为中文关键短语，可以提升中文关键短语抽取的准确率和效率。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例一所提供的一种文本处理方法的流程图；

图2示出了本申请实施例二所提供的另一种文本处理方法的流程图；

图3示出了本申请实施例三所提供的一种文本处理装置的功能模块图之一；

图4示出了本申请实施例三所提供的一种文本处理装置的功能模块图之二；

图5示出了本申请实施例三所提供的一种文本处理装置中抽取模块的结构示意图；

图6示出了本申请实施例四所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中的附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应当理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的全部其他实施例，都属于本申请保护的范围。

为了使得本领域技术人员能够使用本申请内容，结合特定应用场景“从文本中抽取关键短语”，给出以下实施方式，对于本领域技术人员来说，在不脱离本申请的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用场景。

本申请实施例下述方法、装置、电子设备或计算机可读存储介质可以应用于任何需要进行文本处理的场景，本申请实施例并不对具体的应用场景作限制，任何使用本申请实施例提供的文本处理方法及装置的方案均在本申请保护范围内。

值得注意的是，在本申请提出之前，现有方案中基于中文文本进行中文关键短语的抽取，存在比如字符编码、语言习惯的问题，造成中文关键短语抽取的效率低下而且准确率不高。

针对上述问题，本申请实施例通过将获取到的中文文本进行分词处理，得到多个中文词语，在预设好的中英文映射表中查找出与每个中文词语分别对应的英文字母序列，进而根据查找出的多个英文字母序列，可以将中文文本转化为对应的英文文本，进一步地，从英文文本中抽取出多个英文关键短语，并根据中英文映射表，分别将每个英文关键短语转化为中文关键短语。与现有技术中只基于中文文本抽取中文关键短语的方法相比，本申请通过预设规则将中文文本转化为英文文本，并采用成熟的英文关键短语的抽取算法对该英文文本进行英文关键短语的抽取，进而将英文关键短语转化为中文关键短语，可以提升中文关键短语抽取的准确率和效率。

需要说明的是，关键短语自动抽取是文本信息处理的重要技术，是在进行文本自动摘要、文本自动分类、主题提取及专利检索分析等文本信息理解工作时，都要应用到的一项关键技术。

为便于对本申请进行理解，下面结合具体实施例对本申请提供的技术方案进行详细说明。

实施例一

请参阅图1，图1为本申请实施例一所提供的一种文本处理方法的流程图。如图1中所示，本申请实施例提供的文本处理方法，包括以下步骤：

S101：将获取到的中文文本进行分词处理，得到多个中文词语。

在具体实施中，首先，获取需要进行中文关键短语抽取的中文文本，然后，通过分词工具(如jieba)对该中文文本进行分词处理，可以得到多个中文词语。

这里，中文文本的格式是以行为单位的，每一行为一句话，这样，可以方便分词工具对该中文文本进行分词。

一示例中，一段中文文本为“感谢您的耐心等待”，通过分词工具分词后，会得到“感谢”、“您”、“的”、“耐心”、“等待”5个中文词语。

S102：在预设好的中英文映射表中查找出与每个中文词语分别对应的英文字母序列。

在具体实施中，由于目前基于英文文本对关键短语进行抽取的算法比较成熟，因此，通过将中文本本转化为英文文本，并利用英文文本进行关键短语的抽取，是提升抽取中文关键短语准确性的一个可行性方案，但传统意义上的将中文文本翻译成英文文本的计算量和复杂度都较高，针对上述问题，本申请提出了一种新的中英文对照方式，具体地，可以预先建立中英文映射表，中英文映射表中一一对应存储有中文词语和英文字母序列，这样，就可以根据经过分词处理得到多个中文词语，在中英文映射表中查找出与每个中文词语分别对应的英文字母序列。这里，与中文词语对应的英文字母序列只需要唯一表示这个中文词语，如用英文字母序列“as”表示中文词语“感谢”，而不需要在语义上相对应，因而只需要较少的计算量，并且可以降低中英文对应关系的复杂度。

S103：根据查找出的多个英文字母序列，将所述中文文本转化为对应的英文文本。

在具体实施中，在中英文映射表中分别查找出与中文文本经过分词后得到的每个中文词语相对应的英文字母序列之后，分别将中文文本中对应位置的每个中文词语替换为与每个中文分词对应的英文字母序列，这样，就可以将中文文本转化为对应的英文文本。通过采用这种方式，只需要较少的计算量就可以将中文文本转化为对应的英文文本，可以节约大量的时间成本。

S104：从所述英文文本中抽取出多个英文关键短语。

在具体实施中，在将需要进行中文关键短语抽取的中文文本转化为对应的英文文本之后，就可以利用目前比较成熟的英文关键短语抽取方法，从英文文本中抽取出多个英文关键短语，这样，通过英文文本进行英文关键短语的抽取，可以提升英文关键短语抽取的准确率和效率。

S105：根据所述中英文映射表，分别将每个英文关键短语转化为中文关键短语。

在具体实施中，在从英文文本中抽取得到多个英文关键短语之后，通过在预先建立好的中英文映射表中查找出与每个英文关键短语分别对应的中文关键短语，至此，完成了从中文文本中抽取中文关键短语的全部过程。

在本申请实施例中，通过将获取到的中文文本进行分词处理，得到多个中文词语，在预设好的中英文映射表中查找出与每个中文词语分别对应的英文字母序列，进而根据查找出的多个英文字母序列，可以将中文文本转化为对应的英文文本，进一步地，从英文文本中抽取出多个英文关键短语，并根据中英文映射表，分别将每个英文关键短语转化为中文关键短语。与现有技术中只基于中文文本抽取中文关键短语的方法相比，本申请通过预设规则将中文文本转化为英文文本，并采用成熟的英文关键短语的抽取算法对该英文文本进行英文关键短语的抽取，进而将英文关键短语转化为中文关键短语，可以提升中文关键短语抽取的准确率和效率。

步骤(1)：获取中文词语库中所有的中文词语，分别对每个中文词语进行编号。

在具体实施中，本申请提出了一种新的中英文对照方式，进而根据这种对照关系建立中英文映射表，具体地，先从中文词语库中获取所有的中文词语，并对每个中文词语进行编号，这样，每个中文词语都与一个唯一编号相对应。

这里，中文词语库可以为汉语词典。

步骤(2)：基于每个中文词语对应的编号，分别确定每个中文词语对应的英文字母序列。

在具体实施中，由于每个中文词语都与一个唯一的编号相对应，这样，就可以利用编号作为中文词语与英文字母序列之间的桥梁，将每个编号也都与唯一一个英文字母序列相对应，更进一步地，可以通过一种简单的映射函数来建立每个编号与英文字母序列之间的对应关系，这样，只需要较少的计算量，就可以降低中英文对应关系的复杂度。

步骤(3)：按照每个中文词语、每个中文词语对应的编号及英文字母序列的相互对应关系，建立所述中英文映射表。

在具体实施中，由于每个编号都对应一个中文词语和一个英文字母序列，这样，就可以将每个中文词语、每个中文词语对应的编号及每个中文词语对应的英文字母序列按照相互对应关系进行存储，以便根据中文词语、编号以及英文字母序列之间的相互对应关系建立中英文映射表。

在一种可能的实施方式中，步骤(2)中基于每个中文词语对应的编号，分别确定每个中文词语对应的英文字母序列，包括以下步骤：

将每个中文词语对应的编号与预设数值进行相除计算，并确定每个相除计算结果中的商值和余数；根据每个中文词语对应的商值和余数，确定每个中文词语对应的英文字母序列。

在具体实施中，本申请利用映射函数(如CONCATENATE函数)来建立每个编号与英文字母序列的关系，具体地，可以先直接设定一些号码较小的编号对应的英文字母序列，对于号码较大的编号，可以根据这个映射函数来确定该编号对应的英文字母序列。这里，对于号码较大的编号，将每个较大的编号都与同一个预设数值进行相除计算，这样，可以得到每个相除计算结果中的商值和余数，进而，可以根据商值和余数，来确定每个中文词语对应的英文字母序列。

具体地，映射函数为

其中，id为编号，预设数值为26，

为编号与预设数值相除所得的商值，

为与预设数值相除所得的余数，当id<26时，预设f(0)＝a、f(1)＝b、…、f(25)＝z，当id≥26时，采用该映射函数根据编号确定英文字母序列。

一示例中，编号id＝51的中文词语(商值)对应的英文字母序列为f(51)＝concatenate(f(1),f(25))＝bz，因此，中文词语“商值”对应的英文字母序列为“bz”。

需要说明的是，由于英文有26个字母，为了方便计算，本申请将预设数值设为26，当然，也可以设成其他数值，对应需要直接给定英文字母序列的编号的数量也随之调整。

在该实施例中，通过每个中文词语对应的编号和一个映射函数，就可以确定出每个编号对应的英文字母序列，进而，使每个中文词语都分别对应一个英文字母序列。这样，与中文词语对应的英文字母序列只需要唯一表示这个中文词语，如用英文字母序列“as”表示中文词语“感谢”，而不需要在语义上相对应，因而只需要较少的计算量，可以降低中英文对应关系的复杂度。

本申请通过将获取到的中文文本进行分词处理，得到多个中文词语，在预设好的中英文映射表中查找出与每个中文词语分别对应的英文字母序列，进而根据查找出的多个英文字母序列，可以将中文文本转化为对应的英文文本，进一步地，从英文文本中抽取出多个英文关键短语，并根据中英文映射表，分别将每个英文关键短语转化为中文关键短语。与现有技术中基于中文文本抽取中文关键短语的方法相比，本申请通过预设规则将中文文本转化为英文文本，并采用成熟的英文关键短语的抽取算法对该英文文本进行英文关键短语的抽取，进而将英文关键短语转化为中文关键短语，可以提升中文关键短语抽取的准确率和效率。

实施例二

请参阅图2，图2为本申请实施例二所提供的另一种文本处理方法的流程图。如图2中所示，本申请实施例提供的文本处理方法，包括以下步骤：

S201：将获取到的中文文本进行分词处理，得到多个中文词语。

在具体实施中，首先，获取需要进行中文关键短语抽取的中文文本，然后，通过分词工具对该中文文本进行分词处理，可以得到多个中文词语。

S202：在预设好的中英文映射表中查找出与每个中文词语分别对应的英文字母序列。

在具体实施中，由于目前基于英文文本对关键短语进行抽取的算法比较成熟，因此，通过将中文本本转化为英文文本，并利用英文文本进行关键短语的抽取，是提升抽取中文关键短语准确性的一个可行性方案，但传统意义上的将中文文本翻译成英文文本的计算量和复杂度都较高，针对上述问题，本申请提出了一种新的中英文对照方式，具体地，可以预先建立中英文映射表，中英文映射表中一一对应存储有中文词语和英文字母序列，这样，就可以根据经过分词处理得到多个中文词语，在中英文映射表中查找出与每个中文词语分别对应的英文字母序列。这里，与中文词语对应的英文字母序列只需要唯一表示这个中文词语，如用英文字母序列“as”表示中文词语“感谢”，而不需要在语义上相对应，因而只需要较少的计算量，可以降低中英文对应关系的复杂度。

S203：根据查找出的多个英文字母序列，将所述中文文本转化为对应的英文文本。

S204：对所述英文文本中至少两个连续的英文字母序列进行组合，确定出多个英文字母短语。

在具体实施中，中文关键短语除了可以是中文词语，还可以是中文短语，因而，可以通过将每一行英文文本中的两个或两个以上连续的英文字母序列进行组合，每个组合后的两个或两个以上连续的英文字母序列就构成了英文字母短语，这样，通过将英文字母短语进行转换可以得到对应的中文短语。

一示例中，英文文本为“as wer sdf zxcv sdfs”，可以将连续的英文字母序列“zxcv”和英文字母序列“sdfs”进行组合，得到英文字母短语“zxcv sdfs”。

S205：将所述多个英文字母短语和查找出的所述多个英文字母序列，确定为多个候选英文关键短语。

在具体实施中，可以把组合得到的多个英文字母短语以及之前查找出的多个英文字母序列，都确定为候选英文关键短语，采用这样的方式，可以尽可能多的列举出可能成为英文关键短语的候选英文关键短语，避免从英文文本中抽取多个英文关键短语时，将某个英文关键短语遗漏。

S206：从所述多个候选英文关键短语中抽取出英文关键短语。

在具体实施中，在得到多个候选英文关键短语之后，就可以利用现在比较成熟的英文关键短语抽取算法，从多个候选英文关键短语中抽取出多个英文关键短语。

S207：根据所述中英文映射表，分别将每个英文关键短语转化为中文关键短语。

在一种可能的实施方式中，S206中从所述多个候选英文关键短语中抽取出英文关键短语，可以包括以下步骤：

步骤a：确定每个候选英文关键短语的受欢迎度、聚合度以及信息量。

在具体实施中，一个关键短语应该满足三个指标：受欢迎度、聚合度以及信息量，所以在从多个候选英文关键短语中抽取出多个英文关键短语时，可以通过这三个指标来对每个候选英文关键短语进行评价，这样，得到的英文关键短语的准确率较高。

步骤b：根据每个候选英文关键短语的受欢迎度、聚合度以及信息量，对每个候选英文关键短语进行评分。

在具体实施中，可以分别计算每个候选关键短语的受欢迎度、聚合度以及信息量对应的数值，并将每个候选关键短语的受欢迎度、聚合度以及信息量对应的数值进行加权求和，并将该加权求和所得的数值作为对每个候选英文关键短语的评分，进而，可以根据每个候选英文关键短语的评分，从多个候选关键短语中选取多个英文关键短语。

步骤c：从所述多个候选英文关键短语中确定出预设数量的英文关键短语，其中，预设数量的每个英文关键短语的评分高于所述多个候选英文关键短语中除所述多个英文关键短语之外的每个候选英文关键短语的评分。

在具体实施中，可以根据每个候选英文关键短语的评分，对每个候选英文关键短语进行从高评分到低评分的排序，进而得到评分排行榜，从排行榜中选取处于排行榜前面预设数量的多个候选英文关键短语，作为多个英文关键短语，采取这种对候选英文关键短语评分的方式，可以更加准确地确定出多个英文关键短语。

在具体实施中，受欢迎度是评价一个候选英文关键短语的重要指标，若该候选英文关键短语出现在英文文本中的频次较高，则说明该候选关键短语的受欢迎度较高。

需要说明的是，可以预先设定一个预设次数阈值，只对那些在英文文本中出现的次数大于或等于预设次数阈值的候选英文关键短语进行受欢迎度的计算，这样，可以排除一些明显不具备英文关键短语特质的候选英文关键短语，可以减少计算量。

在具体实施中，聚合度是评价一个候选英文关键短语的重要指标，它用来评价一个英文关键短语中的至少两个连续的英文字母序列中每个英文字母序列之间的相关性，通常聚合度使用点互信息(Pointwise Mutual Information，PMI)这个指标来衡量。

一示例中，若候选英文关键短语为“zzcc ssds”(电影院)，则该候选英文关键短语由英文字母序列“zzcc”(电影)和英文字母序列“ssds”(院)组合而成，候选英文关键短语的聚合度的计算公式为

p(f,e)为该候选英文关键短语在英文文本中出现的第一概率，p(f)为英文字母序列“zzcc”在英文文本中出现的概率，p(e)为英文字母序列“ssds”在英文文本中出现的概率，若p(f,e)>p(f)×p(e)，则说明该候选英文关键短语的聚合性较高。

在具体实施中，每个候选关键短语在英文文本中出现的概率，是由每个候选英文关键短语在英文文本中出现的次数，与英文文本中包含的全部英文字母序列的数量之间的比值确定的。

在具体实施中，对于构成每个候选英文关键短语的至少两个连续的英文字母序列中每个英文字母序列在英文文本中出现的概率，由每个英文字母序列在英文文本中出现的次数，与英文文本中包含的全部英文字母序列的数量之间的比值确定。

一示例中，若候选英文关键短语为“zzcc ssds”，对于该候选英文关键短语中英文字母序列“zzcc”在英文文本中出现的概率为英文字母序列“zzcc”在英文文本中出现的次数A，与英文文本中包含的全部英文字母序列的数量M之间的比值确定，即英文字母序列“zzcc”在英文文本中出现的概率

将所述英文文本切分成多个英文短文本；其中每个英文短文本包括表征一个语义的连续多个英文字母序列；确定所述英文文本中包含的全部英文短文本的数量，与包含每个候选英文关键短语的英文短文本的数量之间的比值，并将每个候选英文关键短语对应的比值确定为每个候选英文关键短语的信息量。

在具体实施中，可以通过标点符号将英文文本切分成多个英文短文本，这样便于统计英文文本中包含的全部英文短文本的数量，以及包含每个候选英文关键短语的英文短文本的数量，以便根据统计出的上述数值确定出每个候选英文关键短语的信息量。

需要说明的是，信息量是评价一个候选英文关键短语的重要指标，若该候选英文关键短语的信息量大，则说明该候选关键短语的包含的内容较多，可以通过该候选英文关键短语作为该候选英文关键所在英文短文本区别于其他英文短文本的一个重要指标。

这里，可以信息量可以用逆文本频率指数(Inverse Document Frequency，IDF)这个指标来衡量。

本申请实施例中，通过将获取到的中文文本进行分词处理，得到多个中文词语，在预设好的中英文映射表中查找出与每个中文词语分别对应的英文字母序列，进而根据查找出的多个英文字母序列，可以将中文文本转化为对应的英文文本，进一步地，从英文文本中抽取出多个英文关键短语，并根据中英文映射表，分别将每个英文关键短语转化为中文关键短语。与现有技术中基于中文文本抽取中文关键短语的方法相比，本申请通过预设规则将中文文本转化为英文文本，并采用成熟的英文关键短语的抽取算法对该英文文本进行英文关键短语的抽取，进而将英文关键短语转化为中文关键短语，可以提升中文关键短语抽取的准确率和效率。

实施例三

基于同一申请构思，本申请实施例三中还提供了与实施例一和实施例二提供的文本处理方法对应的文本处理装置，由于本申请实施例中的装置解决问题的原理与本申请上述实施例一和实施例二的文本处理方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参见图3所示，为本申请实施例三提供的一种文本处理装置300的功能模块图之一，参见图4所示，为本申请实施例三提供的一种文本处理装置300的功能模块图之二，参见图5所示，为本申请实施例三提供的一种文本处理装置300中抽取模块340的结构示意图。

如图3和如图4所示，文本处理装置300包括：

处理模块310，用于将获取到的中文文本进行分词处理，得到多个中文词语；

查找模块320，用于在预设好的中英文映射表中查找出与每个中文词语分别对应的英文字母序列；

转化模块330，用于根据查找出的多个英文字母序列，将所述中文文本转化为对应的英文文本；

抽取模块340，用于从所述英文文本中抽取出多个英文关键短语；

所述转化模块330，还用于根据所述中英文映射表，分别将每个英文关键短语转化为中文关键短语。

在一种可能的实施方式中，如图4所示，所述文本处理装置300还包括：

获取模块350，用于获取中文词语库中所有的中文词语，分别对每个中文词语进行编号；

确定模块360，用于基于每个中文词语对应的编号，分别确定每个中文词语对应的英文字母序列；

建立模块370，用于按照每个中文词语、每个中文词语对应的编号及英文字母序列的相互对应关系，建立所述中英文映射表。

在一种可能的实施方式中，图4所示，所述确定模块360，具体用于根据以下步骤确定每个中文词语对应的英文字母序列：

在一种可能的实施方式中，如图3和图4所示，所述抽取模块340，具体用于根据以下步骤抽取出多个英文关键短语：

从所述多个候选英文关键短语中抽取出英文关键短语。

在一种可能的实施方式中，如图5所示，为本申请实施例三提供的一种文本处理装置300中抽取模块340的结构示意图，进一步地，所述抽取模块340包括：

第一确定单元342，用于确定每个候选英文关键短语的受欢迎度、聚合度以及信息量；

评分单元344，用于根据每个候选英文关键短语的受欢迎度、聚合度以及信息量，对每个候选英文关键短语进行评分；

第二确定单元346，用于从所述多个候选英文关键短语中确定出预设数量的英文关键短语，其中，预设数量的每个英文关键短语的评分高于所述多个候选英文关键短语中除所述多个英文关键短语之外的每个候选英文关键短语的评分。

在一种可能的实施方式中，如图5所示，所述第一确定单元342，具体用于根据以下步骤确定出每个候选英文关键短语的受欢迎度：

在一种可能的实施方式中，如图5所示，所述第一确定单元342，具体用于根据以下步骤确定出每个候选英文关键短语的聚合度：

在一种可能的实施方式中，如图5所示，所述第一确定单元342，具体用于根据以下步骤确定所述第一概率：

在一种可能的实施方式中，如图5所示，所述第一确定单元342，具体用于根据以下步骤确定所述第二概率：

在一种可能的实施方式中，如图5所示，所述第一确定单元342，具体用于根据以下步骤确定出每个候选英文关键短语的信息量：

实施例四

基于同一申请构思，参见图6所示，为本申请实施例四提供的一种电子设备400的结构示意图，包括：处理器410、存储器420和总线430，所述存储器420存储有所述处理器410可执行的机器可读指令，当电子设备400运行时，所述处理器410与所述存储器420之间通过所述总线430进行通信，所述机器可读指令被所述处理器410运行时执行如实施例一和/或实施例二中任一所述的文本处理方法的步骤。

具体地，所述机器可读指令被所述处理器410执行时可以执行如下处理：

将获取到的中文文本进行分词处理，得到多个中文词语；

从所述英文文本中抽取出多个英文关键短语；

实施例五

基于同一申请构思，本申请实施例五还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述实施例一，和/或实施例二中提供的文本处理方法的步骤。

具体地，所述存储介质能够为通用的存储介质，如移动磁盘、硬盘等，所述存储介质上的计算机程序被运行时，能够执行上述文本处理方法，通过预设规则将中文文本转化为英文文本，并采用成熟的英文关键短语的抽取算法对该英文文本进行英文关键短语的抽取，进而将英文关键短语转化为中文关键短语，可以提升中文关键短语抽取的准确率和效率。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本申请所提供的几个实施例中，应所述理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者所述技术方案的部分可以以软件产品的形式体现出来，所述计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种文本处理方法，其特征在于，所述文本处理方法包括：

将获取到的中文文本进行分词处理，得到多个中文词语；

从所述英文文本中抽取出多个英文关键短语；

2.根据权利要求1所述的文本处理方法，其特征在于，根据以下步骤建立所述中英文映射表：

3.根据权利要求2所述的文本处理方法，其特征在于，所述基于每个中文词语对应的编号，分别确定每个中文词语对应的英文字母序列，包括：

4.根据权利要求1所述的文本处理方法，其特征在于，所述从所述英文文本中抽取出多个英文关键短语，包括：

从所述多个候选英文关键短语中抽取出英文关键短语。

5.根据权利要求4所述的文本处理方法，其特征在于，所述从所述多个候选英文关键短语中抽取出英文关键短语，包括：

6.根据权利要求5所述的文本处理方法，其特征在于，根据以下步骤确定出每个候选英文关键短语的受欢迎度：

7.根据权利要求5所述的文本处理方法，其特征在于，根据以下步骤确定出每个候选英文关键短语的聚合度：

8.根据权利要求7所述的文本处理方法，其特征在于，根据以下步骤确定所述第一概率：

9.根据权利要求7所述的文本处理方法，其特征在于，根据以下步骤确定所述第二概率：

10.一种文本处理装置，其特征在于，所述文本处理装置包括：