CN106126496B

CN106126496B - 一种信息分词方法及装置

Info

Publication number: CN106126496B
Application number: CN201610440563.1A
Authority: CN
Inventors: 唐翌飞; 陈瑛绮; 吴锋海; 赵晓庆
Original assignee: Union Mobile Pay Co Ltd
Current assignee: Union Mobile Pay Co Ltd
Priority date: 2016-06-17
Filing date: 2016-06-17
Publication date: 2019-01-18
Anticipated expiration: 2036-06-17
Also published as: CN106126496A

Abstract

本发明公开了一种信息分词方法及装置，涉及信息处理领域，所述方法包括：获取需要进行分词的目标文本；根据所述目标文本中的特征信息，确定所述目标文本对应的初步分词文本；根据特定字符对所述初步分词文本进行分词，得到所述目标文本的分词结果；其中，所述目标文本由所述特征信息构成。通过本发明实施例对目标文本进行分词，不需要词典库和语料库可以正确对目标文本进行分词，提高了分词的精度并提高了对目标文本分词的速度。

Description

一种信息分词方法及装置

技术领域

本发明涉及信息处理领域，尤其涉及一种信息分词方法及装置。

背景技术

分词是指将字序列切分成有意义的词序列，又称为切词。分词系统将组成文本的字串自动转换成词串的过程称为自动切分。相对来说，英语等印欧语言的词之间有空格等符号分格，切分比较容易。而汉语文本是连续的汉字串，其中的词与词之间没有明确的分隔标记，分词系统需要自动识别词边界，将汉字串切分为正确的词串。

中文分词器属于自然语言处理的技术范畴，现代计算机领域对其研究后的应用方向主要为搜索引擎和人工智能。搜索引擎主要是通过分词处理海量网页，给每个词打上权重，再进行相关度排序，把最相似的结果返还。人工智能会根据关键词理解句子含义，再做出相应的回答。虽然应用的方向不同，但是分词的准确度对于最终结果的影响是巨大的。

目前的分词器的设计原型全部是基于传统的字符匹配法、统计法或者理解法展开的，这些方法在处理广义分词上是有一定优势的，但在狭义领域比如金融服务短息这一特定类别，就会显得过于笨重复杂。现有技术中对于姓名、公司名、日期时间等词的切分上基本无力处理，需要人工维护词典，无自学习能力，并且短信中由于存在大量相似陈述性语言，因此现有技术中对于词的划分粒度不够细。

总体来说，现有技术中的分词器分词精度低，分词的性能差。

发明内容

本发明提供一种信息分词方法及装置，用于解决现有技术中的分词器分词精度低，分词的性能差的问题。

本发明实施例提供一种信息分词方法，所述方法包括：

获取需要进行分词的目标文本；

根据所述目标文本中的特征信息，确定所述目标文本对应的初步分词文本；

根据特定字符对所述初步分词文本进行分词，得到所述目标文本的分词结果；

其中，所述目标文本由所述特征信息构成。

本发明实施例中，获取需要进行分词的目标文本后，确定目标文本中的特征信息，并根据特征信息对目标文本进行初步分词，得到初步分词结果，然后确定初步分词文本中的特定字符，并根据特定字符确定目标文本的分词结果，通过本发明实施例对目标文本进行分词，不需要词典库和语料库可以正确对目标文本进行分词，提高了分词的精度并提高了对目标文本分词的速度。

进一步地，所述确定所述目标文本中的特征信息后，还包括：

去除所述目标文本中的标点。

本发明实施例中，在确定目标文本中的特征信息后，还需要去除目标文本中的标点，以使所述目标文本在进行初步分词时能够分割的更加准确。

进一步地，所述根据所述目标文本中的特征信息，确定所述目标文本对应的初步分词文本，包括：

确定所述目标文本中的所述特征信息对应的特征码；

按照所述特征信息在所述目标文本中的位置，将确定的所述特征信息对应的特征码组成特征码序列，并作为初步分词文本。

本发明实施例中，将目标文本中的特征信息对应成不同的特征码，并将特征码按照特征信息的顺序将特征码组成特征序列，将特征序列作为初步分词文本能够准确的提取目标文本中的特征信息，更准确的对目标文本进行分词。

进一步地，所述根据特定字符对所述初步分词文本进行分词，得到所述目标文本的分词结果，包括：

在所述目标文本中的所述特定字符的前和/或后的位置上加入切分标记，得到所述目标文本的分词结果。

本发明实施例中，在确定了目标文本中的特定字符后，在目标文本中的特定字符的前和/或后的位置上加入切分标记，能够对初步分词文本进一步切分，得到最后的分词结果，提高了分词的精度并提高了对目标文本分词的速度。

进一步地，所述目标文本有多个；

所述根据所述目标文本中的特征信息，确定所述目标文本对应的初步分词文本后，根据特定字符对所述初步分词文本进行分词，得到所述目标文本的分词结果之前，还包括：

对所有所述目标文本对应的特征码序列进行去重操作；

针对去重操作后的任意一个所述特征码序列，确定所述特征码序列对应的一个包含特定字符的目标文本，在确定的所述目标文本中的所述特定字符的前和/或后的位置上加入切分标记，得到确定的所述目标文本的分词结果；并根据确定的所述目标文本的分词结果确定所述特征码序列对应的其它目标文本的分词结果。

本发明实施例中，对特征码序列进行去重，并能够根据确定的所述目标文本的分词结果确定所述特征码序列对应的其它目标文本的分词结果，可以有效减少进行分词的目标文本的数量，提高了分词的效率。

进一步地，所述根据确定的所述目标文本的分词结果确定所述特征码序列对应的其它目标文本的分词结果，包括：

根据确定的所述目标文本的分词结果中所述切分标记的位置，在所述特征码序列对应的其它目标文本的对应位置插入所述切分标记，得到确定的述特征码序列对应的其它目标文本的分词结果。

本发明实施例中，根据已经确定好的目标文本分词结果中切分标记的位置，确定所述特征码序列对应的其它目标文本的对应位置，并在对应位置中插入所述切分标记，能够确定其它目标文本的分词结果，能够减少进行分词的目标文本的数量，提高了分词的效率。

本发明还提供一种信息分词装置，包括：

获取单元，用于获取需要进行分词的目标文本；

初步分词文本确定单元，用于根据所述目标文本中的特征信息，确定所述目标文本对应的初步分词文本；

分词结果确定单元，用于根据特定字符对所述初步分词文本进行分词，得到所述目标文本的分词结果；

其中，所述目标文本由所述特征信息构成。

进一步地，所述初步分词文本确定单元，还用于：

去除所述目标文本中的标点。

进一步地，所述初步分词文本确定单元，具体用于：

确定所述目标文本中的所述特征信息对应的特征码；

进一步地，所述分词结果确定单元，具体用于：

进一步地，所述目标文本有多个；

所述分词结果确定单元还用于：

对所有所述目标文本对应的特征码序列进行去重操作；

进一步地，所述分词结果确定单元具体用于：

根据确定的所述目标文本的分词结果中所述切分标记的位置，在所述特征码序列对应的其它目标文本的对应位置插入所述切分标记，得到确定的所述特征码序列对应的其它目标文本的分词结果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种信息分词方法的流程图；

图2为本发明实施例提供的一种金融服务信息分词方法的流程图；

图3为本发明实施例提供的另一种金融服务信息分词方法的流程图；

图4为本发明实施例提供的一种信息分词装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例提供一种信息分词方法，如图1所示，包括：

步骤101，获取需要进行分词的目标文本；

步骤102，根据所述目标文本中的特征信息，确定所述目标文本对应的初步分词文本；

步骤103，根据特定字符对所述初步分词文本进行分词，得到所述目标文本的分词结果；

其中，所述目标文本由所述特征信息构成。

在本发明实施例中，需要进行分词的目标文本指的是由文字、数字、英文等字符构成的文本，可以为在通讯过程中产生的短信，可选的，在本发明实施例中，需要进行分词的目标文本为金融服务短信，即银行或者其它金融机构向用户发送的服务短信。

在步骤101中，首先获取需要进行分词的目标文本，在本发明实施例中，需要进行分词的目标文本可以是移动终端中保存的目标文本，也可以是移动终端将自身保存的目标文本发送给服务器后，服务器中保存的多个移动终端中的目标文本。

可选的，在本发明实施例中，还可以获取一定时间段内移动终端保存的，或者是服务器中保存的目标文本。

例如，在本发明实施例中，需要获取的发送时间在2016年5月的所有目标文本，则在终端保存的所有目标文本中查找发送时间为2016年5月1日00：00：00至发送时间为2016年5月31日24：00：00的目标文本。当然在本发明实施例中，也可以在服务器保存的所有目标文本中查找发送时间为2016年5月1日00：00：00至发送时间为2016年5月31日24：00：00的目标文本。

在步骤102中，在获取到需要进行分词的目标文本后，需要删除目标文本中的标点，以保证分词结果的正确性，例如，在本发明实施例中，获取了100个需要进行分词的目标文本，其中，100个目标文本中的一个目标文本的内容为：

尊敬的张三，您好，您在我行的中行信用卡1234的USD账户于03月08日12时账单分期成功:分期金额USD111.11，分期期数11期，手续费USD1.11，USD账户账单剩余还款金额USD111.11，最小还款额USD11.11。【中国银行】

删除上述文本中的标点符号，删除掉上述标点符号的目标文本变为：

尊敬的张三您好您在我行的中行信用卡1234的USD账户于03月08日12时账单分期成功分期金额USD111.11分期期数11期手续费USD1.11，USD账户账单剩余还款金额USD111.11最小还款额USD11.11中国银行

可选的，为了在删除标点符号的目标文本中标识出原标点符号的位置，在本发明实施例中，可以在原标点符号的位置上加入切分标记。在本发明实施例中，切分标记可以为数字、字母和ASCII字符，可选的，可以使用“\”标记作为切分标记。

则在本发明上述实施例中删除标点符号后的目标文本中加入“\”标记，加入标记后的目标文本为：

尊敬的张三\您好\您在我行的中行信用卡1234的USD账户于03月08日12时账单分期成功\分期金额USD111.11\分期期数11期\手续费USD1.11，USD账户账单剩余还款金额USD111.11\最小还款额USD11.11\中国银行\

在步骤102中，在删除目标文本中的标点符号并在原标点符号的位置上加入切分标记后，需要确定所述目标文本中的特征信息，在本发明实施例中，特征信息指的是区分目标文本中不同属性的字符串，例如目标文本中包括三种不同属性的字符串，分别为数字、英文以及汉字，则特征信息就是数字、英文以及汉字。

在本发明实施例中，若目标文本为金融服务短信，则在短信文本中可能会存在时间的特征，例如X年X月X日X时X分等，若在短信文本中可以按照时间特征的模版查找到对应的数字，则认为在短信文本中这些特征属于时间特征而不是属于数字特征。

在本发明实施例中，若目标文本为金融服务短信，则在短信文本中可能会存在金额特征信息，在本发明实施例中，金额为表示数值的数字，为了与数字特征信息进行区分，一般来说，金额中有小数点的信息，所以在本发明实施例中，在确定目标文本中的数字部分有小数点存在时，则认为该数字部分属于金额特征信息。

在本发明实施例中，若在本发明实施例中，删除标点符号的目标文本中加入“\”标记后的目标文本为：

尊敬的张三\您好\您在我行的中行信用卡1234的USD账户于03月08日12时账单分期成功\分期金额USD111.11\分期期数11期\手续费USD1.11\USD账户账单剩余还款金额USD111.11\最小还款额USD11.11\中国银行\

若特征信息包括汉字、英文、数字、时间以及金额，则根据特征信息能够确定上述目标文本中的汉字特征信息为：尊敬的张三\您好\您在我行的中行信用卡，的，账户于，时账单分期成功\分期金额，分期期数，期，手续费，账户账单剩余还款金额，最小还款额，中国银行；

根据特征信息确定的上述目标文本中的英文特征信息为：USD，USD，USD，USD，USD，USD；

根据特征信息确定的上述目标文本中的数字特征信息为：1234，11；

根据特征信息确定的上述目标文本中的金额特征信息为：111.11，11，1.11，111.11，11.11；

根据特征信息确定的上述目标文本中的时间特征信息为：03月08日12时。

可选的，在确定了目标文本中的特征信息后，在不同的特征信息之间也需要插入切分标记，目标文本中根据插入的切分标记自然的分成若干个字符串，便于确定目标文本的特征序列，在本发明实施例中，在目标文本中的不同信息之间插入切分标记具体如下所示：

尊敬的张三\您好\您在我行的中行信用卡\1234\的\USD\账户于\03月08日12时\账单分期成功\分期金额\USD\111.11\分期期数\11\期\手续费\USD\1.11\USD\账户账单剩余还款金额\USD\111.11\最小还款额\USD\11.11\中国银行\

在本发明实施例中，可以根据不同的特征信息与不同的特征码之间的对应关系，对上述实施例中的特征信息利用特征码进行特征标记，例如，在本发明实施例中，特征信息与特征码的对应关系如表1所示：

特征信息	特征码
		汉字	C
英文	E
		金额	A
时间	T
		数字	N

表1：特征信息与特征码的对应关系

在本发明实施例中，根据表1中的对应关系，可以确定目标文本的特征信息对应的特征码，具体如下：

尊敬的张三\C您好\C您在我行的中行信用卡\C1234\N的\CUSD\E账户于\C03月08日12时\T账单分期成功\C分期金额\CUSD\E111.11\A分期期数\C11\N期\C手续费\CUSD\E1.11\USD\E账户账单剩余还款金额\CUSD\E111.11\A最小还款额\CUSD\E11.11\A中国银行\C

则根据上述实施例中的特征码，可以确定目标文本的特征码序列为CCCNCECTCCEACNCCEAECEACEAC。

在本发明上述实施例中，确定了目标文本的特征码序列即确定了目标文本的初步分词文本，但是在初步分词文本中，还存在着一些不能通过上述方法分词的字符串，例如特征码C对应的字符串“尊敬的张三”，或者是特征码C对应的字符串“您在我行的中行信用卡”等，在本发明实施例中，还需要确定初步分词文本中的特定字符，根据特定字符对所述初步分词文本进行分词，得到所述目标文本的分词结果。

在本发明实施例中，特定字符可以根据不同的分词需要自行定义，例如，需要对金融短信进行分词，则特定字符一般可以包括“行”、“账单”、“成功”等特定字符。

在本发明实施例中，在对初步分词文本中的特定字符的的前和/或后的位置上加入切分标记前，还需要在初步分词文本中去掉无实际意义的词语，提高分词的准确性。在本发明实施例中，可选的，可以去掉初步分词文本中存在的“的”等词语，并且在删除“的”的位置上插入切分标记，例如在本发明实施例中，将字符串“尊敬的张三”“您在我行的中行信用卡”中的“的”删除，并在“的”的位置上插入切分标记，结果为“尊敬\张三”“您在我行\中行信用卡”。

在本发明上述实施例中，在确定了将初步分词文本中的无实际意义的词语删除后，再确定初步分词文本中包含的特定字符，以上述实施例为例，上述初步分词文本中存在的特定字符为“在”，“分期”，“分期金额”，“账户”，可选的，在“分期”的特定字符的前和后都加入切分标记，其它特定字符的后面加入切分标记，则根据特定字符对所述初步分词文本进行分词，得到所述目标文本的分词结果为：

尊敬\张三\您好\您在\我行\中行信用卡\1234\USD\账户\于\03月08日12时\账单\分期\成功\分期金额\USD\111.11\分期期数\11\期\手续费\USD\1.11\USD\账户\账单\剩余还款金额\USD\111.11\最小还款额\USD\11.11\中国银行\

在本发明实施例中，为了减少分词的数量，在本发明实施例中，在获取到目标文本的特征序列后，还可以对目标文本的特征序列进行排序，并进行去重操作，删除结果相同的特征码序列，只保留一个特征码序列，即多个目标文本因为构成的特征信息相同，对应的特征码序列相同，则只需要保留一个特征码序列，根据一个特征码序列对应的目标文本的分词结果，能够确定特征码序列对应的其它目标文本的分词结果。

例如，在本发明实施例中，获取的目标文本有100个，其中，在本发明实施例中，一个目标文本的内容为：

另一个目标文本的内容为：

尊敬的李四，您好，您在我行的中行信用卡5678的USD账户于03月08日12时账单分期成功:分期金额USD111.11，分期期数11期，手续费USD1.11，USD账户账单剩余还款金额USD111.11，最小还款额USD11.11。【中国银行】

则根据两个目标文本中的特征信息，可以确定两个目标文本中特征信息对应的特征码，进一步可以确定两个目标文本对应的特征序列为：

CCCNCECTCCEACNCCEAECEACEAC

在本发明上述实施例中，还有50个目标文本对应的特征序列为上述特征序列，此时需要对产生的52个目标文本对应的特征序列进行去重操作，只保留一个特征序列CCCNCECTCCEACNCCEAECEACEAC，可选的，由于特征序列对应的目标文本的特征信息都相同，所以对上述特征序列进行分词时，上述特征序列对应的目标文本为52个目标文本中的任一一个，在本发明实施例中，可以选择上述特征序列对应的目标文本为：

针对上述目标文本，利用本发明实施例的分词方法，得到的分词结果为：

根据上述确定的目标文本的分词结果，就可以根据上述目标分词结果中的切分标记的位置，确定特征码序列对应的其它目标文本的分词结果，例如，目标文本为：

则根据目标文本的分词结果，能够确定上述目标文本的分词结果为：

尊敬\李四\您好\您在\我行\中行信用卡\5678\USD\账户\于\03月08日12时\账单\分期\成功\分期金额\USD\111.11\分期期数\11\期\手续费\USD\1.11\USD\账户\账单\剩余还款金额\USD\111.11\最小还款额\USD\11.11\中国银行\

为了更加详细的说明本发明实施例，在此举例说明。

如图2所示，本发明实施例提供一种信息分词方法，具体步骤如下所示：

步骤201，获取需要进行分词的目标文本，在本发明实施例中，获取的需要进行分词的目标文本为保存在任一终端中的目标文本，并且所述目标文本为金融服务信息；

步骤202，删除金融服务信息中的标点，并在标点位置插入切分标记；

步骤203，确定金融服务信息中的特征信息，其中，所述特征信息包括数字、汉字、英文、金额；

步骤204，确定金融服务信息中的特征信息对应的特征码，并确定金融服务信息对应的特征序列；

步骤205，删除特征序列中标识汉字特征信息的特征码对应的汉字部分中的无实际意义的词语；

步骤206，确定特征序列中标识汉字特征信息的特征码对应的汉字部分中的特定字符，在所述特定字符的前和/或后的位置上插入切分标记，得到金融服务信息的分词结果。

如图3所示，本发明实施例还提供一种信息分词方法，在本发明实施例中，对金融信息对应的特征码序列还需要进行去重操作，并利用去重后的特征码序列对应的金融信息分词后，再对特征码序列对应的其它金融信息进行分词，具体步骤如下所示：

步骤301，获取需要进行分词的目标文本，在本发明实施例中，获取的需要进行分词的目标文本为保存在任一终端中的目标文本，并且所述目标文本为金融服务信息；

步骤302，删除金融服务信息中的标点，并在标点位置插入切分标记；

步骤303，确定金融服务信息中的特征信息，其中，所述特征信息包括数字、汉字、英文、金额；

步骤304，确定金融服务信息中的特征信息对应的特征码，并确定金融服务信息对应的特征序列；

步骤305，对金融服务信息对应的特征序列进行去重，得到初步切分的金融服务信息；

步骤306，删除所述初步切分的金融服务信息中的无实际意义的词语；

步骤307，确定初步切分的金融服务信息中的特定字符，在所述特定字符的前和/或后的位置上插入切分标记，得到金融服务信息的分词结果；

步骤308，根据确认的金融信息的分词结果确定特征码序列对应的其它金融信息的分词结果。

基于相同的发明构思，本发明实施例还提供一种信息分词装置，该装置可以执行上述方法。

如图4所示，本发明实施例还提供一种信息分词装置，包括：

获取单元401，用于获取需要进行分词的目标文本；

初步分词文本确定单元402，用于根据所述目标文本中的特征信息，确定所述目标文本对应的初步分词文本；

分词结果确定单元403，用于根据特定字符对所述初步分词文本进行分词，得到所述目标文本的分词结果；

其中，所述目标文本由所述特征信息构成。

进一步地，所述初步分词文本确定单元402，还用于：

去除所述目标文本中的标点。

进一步地，所述初步分词文本确定单元402，具体用于：

确定所述目标文本中的所述特征信息对应的特征码；

进一步地，所述分词结果确定单元403，具体用于：

进一步地，所述目标文本有多个；

所述分词结果确定单元403还用于：

对所有所述目标文本对应的特征码序列进行去重操作；

进一步地，所述分词结果确定单元403，具体用于：

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种信息分词方法，其特征在于，所述方法包括：

获取需要进行分词的目标文本；

其中，所述目标文本由所述特征信息构成；

所述目标文本有多个；

对所有所述目标文本对应的特征码序列进行去重操作；

2.根据权利要求1所述的方法，其特征在于，所述获取需要进行分词的目标文本后，还包括：

去除所述目标文本中的标点。

3.根据权利要求1所述的方法，其特征在于，所述根据所述目标文本中的特征信息，确定所述目标文本对应的初步分词文本，包括：

确定所述目标文本中的所述特征信息对应的特征码；

4.根据权利要求1所述的方法，其特征在于，所述根据特定字符对所述初步分词文本进行分词，得到所述目标文本的分词结果，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据确定的所述目标文本的分词结果确定所述特征码序列对应的其它目标文本的分词结果，包括：

6.一种信息分词装置，其特征在于，包括：

获取单元，用于获取需要进行分词的目标文本；

其中，所述目标文本由所述特征信息构成；

所述目标文本有多个；

所述分词结果确定单元还用于：

对所有所述目标文本对应的特征码序列进行去重操作；

7.根据权利要求6所述的装置，其特征在于，所述初步分词文本确定单元，还用于：

去除所述目标文本中的标点。

8.根据权利要求6所述的装置，其特征在于，所述初步分词文本确定单元，具体用于：

确定所述目标文本中的所述特征信息对应的特征码；

9.根据权利要求6所述的装置，其特征在于，所述分词结果确定单元，具体用于：

10.根据权利要求6所述的装置，其特征在于，所述分词结果确定单元具体用于：