CN107729310A

CN107729310A - 一种文本信息的提取方法、装置和移动终端

Info

Publication number: CN107729310A
Application number: CN201610658626.0A
Authority: CN
Inventors: 陈军
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2016-08-11
Filing date: 2016-08-11
Publication date: 2018-02-23
Also published as: WO2018028164A1

Abstract

本发明提供了一种文本信息的提取方法、装置和移动终端，涉及信息处理技术领域，解决现有技术中采用固定模版很难灵活、准确地提取关键信息的问题，该方法包括：识别文本信息中与预设的一个或多个符号对应的信息，并将识别出的信息用对应的符号进行替换；在替换后的所述文本信息中，获取与待提取信息对应的第一符号以及所述第一符号的上下文信息；根据所述第一符号的上下文信息，判断所述第一符号是否符合所述待提取信息的语义，若符合，则从所述文本信息中提取被所述第一符号替换的信息并输出。本发明的方案结合文本信息的上下文的语义特征来进行信息的抽取，能灵活适应不同的行文方式，准确抽取用户感兴趣的内容。

Description

一种文本信息的提取方法、装置和移动终端

技术领域

本发明涉及信息处理技术领域，特别涉及一种文本信息的提取方法、装置和移动终端。

背景技术

目前，短信、通知消息已经成为手机终端的必备功能。在日常生活中终端会接收各类短信和通知消息，比如账单信息、订票信息、日程安排等等，随着这些信息的增多，用户检索起来不是很方便。如果能提取这些信息中的关键内容并与手机的其他应用相结合，比如存放到记账软件、日程表等应用中，将在信息的查询、提醒上给用户带来极大的便利，方便用户的使用。

例如，对于银行短信账单，用户一般通过自行提取还款日和还款金额，并存放到日程表中。如果终端能智能提取这些有用信息，并输出到日程表中，对于终端存储了大量短信和通知消息的情况，用户就不必花费大量精力去查找检索，也不容易遗忘重要的日程安排。

传统对于关键信息的提取，大多采用关键词模版匹配的方式。但文字消息的行文是非常灵活的，关键词依赖于上下文的行文往往具有不同的含义，因此采用固定模版很难灵活、准确地提取关键信息。

发明内容

本发明要解决的技术问题是提供一种文本信息的提取方法、装置和移动终端，解决现有技术中采用固定模版很难灵活、准确地提取关键信息的问题。

为解决上述技术问题，本发明的实施例提供一种文本信息的提取方法，包括：

识别文本信息中与预设的一个或多个符号对应的信息，并将识别出的信息用对应的符号进行替换；

在替换后的所述文本信息中，获取与待提取信息对应的第一符号以及所述第一符号的上下文信息；

根据所述第一符号的上下文信息，判断所述第一符号是否符合所述待提取信息的语义，若符合，则从所述文本信息中提取被所述第一符号替换的信息并输出。

进一步来说，所述根据所述第一符号的上下文信息，判断所述第一符号是否符合所述待提取信息的语义的步骤包括：

在预设的向量数据库中，获取所述第一符号对应的第一向量信息以及所述第一符号的上下文信息对应的第二向量信息；

根据所述第一向量信息以及所述第二向量信息进行加权运算，并根据运算结果，判断所述第一符号是否符合所述待提取信息的语义。

进一步来说，所述根据所述第一向量信息以及所述第二向量信息进行加权运算，并根据运算结果，判断所述第一符号是否符合所述待提取信息的语义的步骤包括：

根据所述第一向量信息以及所述第二向量信息，采用与预设的多种信息类型对应的权系数分别进行加权运算，得到运算结果；

根据所述运算结果，确定所述第一符号的信息类型；

判断所述第一符号的信息类型是否与所述待提取信息的信息类型一致，若一致，则确定所述第一符号符合所述待提取信息的语义，否则，确定所述第一符号不符合所述待提取信息的语义。

进一步来说，所述根据所述第一向量信息以及所述第二向量信息，采用与预设的多种信息类型对应的权系数分别进行加权运算的步骤包括：

采用双向长短程记忆模型神经网络或者卷积神经网络预先训练出的模型，对所述第一向量信息以及所述第二向量信息进行预处理，得到组合向量；

根据所述组合向量与所述多种信息类型对应的权系数分别进行加权运算。

进一步来说，所述识别文本信息中与预设的一个或多个符号对应的信息的步骤包括：

采用正则表达式和/或关键词匹配的方式，识别文本信息中与预设的一个或多个符号对应的信息。

进一步来说，所述在替换后的所述文本信息中，获取与待提取信息对应的第一符号以及所述第一符号的上下文信息的步骤包括：

在替换后的所述文本信息中，获取与待提取信息对应的第一符号，并获取所述第一符号之前的第一预设数量的字符和/或所述第一符号之后的第二预设数量的字符，所述字符包括字和/或词。

进一步来说，所述在替换后的所述文本信息中，获取与待提取信息对应的第一符号，并获取所述第一符号之前的第一预设数量个字和/或词、所述第一符号之后的第二预设数量个字和/或词之后，所述提取方法还包括：

剔除获取到的所述第一符号之前的字符以及所述第一符号之后的字符中包含的预设无用字符，所述预设无用字符包括标点符号、语气词和空白符号。

对替换后的所述文本信息进行分词处理；

在分词处理后的所述文本信息中，获取与待提取信息对应的第一符号以及所述第一符号的上下文信息。

为解决上述技术问题，本发明的实施例还提供一种文本信息的提取装置，包括：

替换模块，用于识别文本信息中与预设的一个或多个符号对应的信息，并将识别出的信息用对应的符号进行替换；

获取模块，用于在替换后的所述文本信息中，获取与待提取信息对应的第一符号以及所述第一符号的上下文信息；

提取模块，用于根据所述第一符号的上下文信息，判断所述第一符号是否符合所述待提取信息的语义，若符合，则从所述文本信息中提取被所述第一符号替换的信息并输出。

进一步来说，所述提取模块包括：

第一获取子模块，用于在预设的向量数据库中，获取所述第一符号对应的第一向量信息以及所述第一符号的上下文信息对应的第二向量信息；

第一判断子模块，用于根据所述第一向量信息以及所述第二向量信息进行加权运算，并根据运算结果，判断所述第一符号是否符合所述待提取信息的语义。

为解决上述技术问题，本发明的实施例还提供一种移动终端，包括：如上任一项所述的文本信息的提取装置。

本发明的上述技术方案的有益效果如下：

本发明实施例的文本信息的提取方法，首先识别文本信息中与预设的一个或多个符号对应的信息，并将识别出的信息用对应的符号进行替换；然后在替换后的文本信息中，获取与待提取信息对应的第一符号以及第一符号的上下文信息；最后根据第一符号的上下文信息，判断第一符号是否符合待提取信息的语义，若符合，则从文本信息中提取被第一符号替换的信息并输出。这样，结合文本信息的上下文的语义特征来进行信息的抽取，能智能抽取用户感兴趣的内容；不需要指定关键词，比传统的模版匹配方法具有更大的灵活性，能适应不同的行文方式；使终端在智能理解文本语言的基础上开展各种应用，提升了用户体验。解决了现有技术中采用固定模版很难灵活、准确地提取关键信息的问题。

附图说明

图1为本发明文本信息的提取方法的流程图；

图2为本发明文本信息的提取装置的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

如图1所示，本发明实施例的文本信息的提取方法，包括：

步骤101，识别文本信息中与预设的一个或多个符号对应的信息，并将识别出的信息用对应的符号进行替换。

这里，识别文本信息中与预设的符号对应的信息，然后将识别出的信息用对应的符号进行替换，能够对该符号代表的一类信息进行统一的处理。文本信息包括终端接收的短信息和通知消息等。

其中，可预先设定某些特殊类型的字和/或词所对应的符号。如对文本信息字符串中包含的电子邮箱、网址、日期、时间、百分比、量词、货币、电话号码、数字、外文词等，均可用特殊的符号进行替换。

进一步的，还可以对自定义的词汇用特殊的符号进行替换，如专业应用领域的词汇、成语、食物、地点、设备、人名、地名、机构名称等。

例如，假定预设的符号包括与日期对应的“DATE”、与货币对应的“CURRENCY”、与银行对应的“BANK”、与时间对应的“TIME”。对于接收到的一条短信“您个人信用卡11月账单人民币4818.93，到期还款日11月23日。[招商银行]”，经过识别、替换后，成为“您个人信用卡DATE账单CURRENCY，到期还款日DATE。[BANK]”。对于接收到的另一条短信“尊敬的客户，您在工商银行办理的个人贷款需于2014年5月14日17:00前还款，还款金额本息合计9402.18元。[工商银行]”，经过识别、替换后，成为“尊敬的客户，您在BANK办理的个人贷款需于DATETIME前还款，还款金额本息合计CURRENCY。[BANK]”。

步骤102，在替换后的所述文本信息中，获取与待提取信息对应的第一符号以及所述第一符号的上下文信息。

这里，需要在文本信息中获取第一符号以及第一符号的上下文信息，以通过后续步骤确定第一符号在文本信息中的语义是否符合待提取信息的语义。

假定待提取信息为还款日，则需要在替换后的文本信息中，获取还款日对应的符号“DATE”以及“DATE”的上下文信息。

步骤103，根据所述第一符号的上下文信息，判断所述第一符号是否符合所述待提取信息的语义，若符合，则从所述文本信息中提取被所述第一符号替换的信息并输出。

这里，在文本信息中可能获取到多个第一符号，每个第一符号在文本信息中的语义可能不同，因此需要结合第一符号的上下文信息，判断第一符号是否符合待提取信息的语义，如果符合，说明被第一符号替换的信息就是要提取的信息，则从文本信息中提取被第一符号替换的信息并输出。

仍以上面提到的一条短信“您个人信用卡11月账单人民币4818.93，到期还款日11月23日。[招商银行]”为例，经过识别、替换后，这条短信成为“您个人信用卡DATE账单CURRENCY，到期还款日DATE。[BANK]”。假定待提取信息为还款日，还款日对应的符号为“DATE”。则从上面替换后的短信中能够获取到两个“DATE”，这两个“DATE”在短信中分别代表账单日期和还款日，因此需要结合“DATE”的上下文信息，判断“DATE”是否符合还款日的语义。通过判断可以知道第二个“DATE”符合还款日的语义，则提取被第二个“DATE”替换的信息(11月23日)并输出，从而从短信中提取出了还款日这一信息。

其中，输出提取的信息时可输出到终端的某些应用中，如将还款日输出到日程表应用中，以便于实现日期提醒等功能。

本发明实施例的文本信息的提取方法，结合文本信息的上下文的语义特征来进行信息的抽取，能智能抽取还款日、还款金额等用户感兴趣的内容；不需要指定关键词，比传统的模版匹配方法具有更大的灵活性，能适应不同的行文方式；使终端在智能理解文本语言的基础上开展各种应用，提升了用户体验。解决了现有技术中采用固定模版很难灵活、准确地提取关键信息的问题。

优选的，上述步骤103中，所述根据所述第一符号的上下文信息，判断所述第一符号是否符合所述待提取信息的语义的步骤可以包括：

步骤1031，在预设的向量数据库中，获取所述第一符号对应的第一向量信息以及所述第一符号的上下文信息对应的第二向量信息。

这里，可在预先训练好的向量数据库中，获取到第一符号对应的第一向量信息以及第一符号的上下文信息对应的第二向量信息，以通过后续步骤进行加权计算。

其中，向量数据库中可包含每个符号对应的向量值以及在上下文中可能用到的字和/或词对应的向量值。获取第一符号的上下文信息对应的第二向量信息时，可获取上下文信息包含的每个字和/或词分别对应的向量值，得到一向量序列。为保证计算的准确性，该向量序列中的向量应与文本信息的上下文顺序保持一致。

步骤1032，根据所述第一向量信息以及所述第二向量信息进行加权运算，并根据运算结果，判断所述第一符号是否符合所述待提取信息的语义。

这里，根据获取到的向量信息进行加权运算，根据运算结果，判断第一符号是否符合待提取信息(如还款日)的语义。

此时，基于向量信息进行加权运算，能准确判断第一符号的语义，从而达到准确提取关键信息的目的。

进一步来说，上述步骤1032可以包括：

步骤10321，根据所述第一向量信息以及所述第二向量信息，采用与预设的多种信息类型对应的权系数分别进行加权运算，得到运算结果。

这里，假定预先设置了三种信息类型：还款日、还款金额、其他，那么通过第一符号及上下文得到的向量信息要与这三种信息类型对应的权系数分别进行加权运算，算出三个概率值。

步骤10322，根据所述运算结果，确定所述第一符号的信息类型。

这里，通过计算出的每种信息类型的概率值，确定第一符号的信息类型。可选取概率值最大的信息类型为第一符号的信息类型。

步骤10323，判断所述第一符号的信息类型是否与所述待提取信息的信息类型一致，若一致，则确定所述第一符号符合所述待提取信息的语义，否则，确定所述第一符号不符合所述待提取信息的语义。

这里，如果第一符号的信息类型与待提取信息的信息类型一致，可确定第一符号符合待提取信息的语义，否则，可确定第一符号不符合待提取信息的语义。

其中，若预先设置了三种信息类型：还款日、还款金额、其他，待提取信息的信息类型可以是还款日和还款金额，也就是可以实现同时提取多个待提取的信息。

此时，通过预先设定的信息类型对应的权系数进行加权运算，能准确判断第一符号的语义，从而达到准确提取关键信息的目的。

优选的，上述步骤10321的步骤可以包括：

步骤103211，采用双向长短程记忆模型神经网络或者卷积神经网络预先训练出的模型，对所述第一向量信息以及所述第二向量信息进行预处理，得到组合向量；

步骤103212，根据所述组合向量与所述多种信息类型对应的权系数分别进行加权运算。

此时，采用双向长短程记忆模型神经网络或者卷积神经网络预先训练出的模型首先对第一向量信息及第二向量信息进行预处理，得到第一符号及上下文的组合向量，再通过该组合向量与多种信息类型对应的权系数分别进行加权运算，能准确判断第一符号的语义，从而准确提取关键信息。

优选的，上述步骤101中，所述识别文本信息中与预设的一个或多个符号对应的信息的步骤可以包括：

步骤1011，采用正则表达式和/或关键词匹配的方式，识别文本信息中与预设的一个或多个符号对应的信息。

此时，采用正则表达式和/或关键词匹配的方式，都能准确识别出文本信息中与预设的符号对应的信息。

优选的，上述步骤102可以包括：

步骤1021，在替换后的所述文本信息中，获取与待提取信息对应的第一符号，并获取所述第一符号之前的第一预设数量的字符和/或所述第一符号之后的第二预设数量的字符，所述字符包括字和/或词。

这里，为了运算的简便，可采用对称的上下文形式。如将第一预设数量和第二预设数量均设为5，则需要获取第一符号前后各5个字符。

另外，因为中文句子的行文非常自由，一般上文比下文对当前符号的识别更为重要，因此，也可采用非对称的上下文形式。如将第一预设数量设为7，第二预设数量设为5，则需要获取第一符号之前的7个字符，第一符号之后的5个字符。

此时，可根据需要限定上下文的字符数目，以结合上下文更好地判别第一符号的语义。

其中，确定上下文的字符数目相当于确定当前符号的上下文窗口的大小，后续以该上下文窗口内的字符判别当前符号的语义。假定第一预设数量和第二预设数量均设为5，对于“到期还款日DATE。[BANK]”中的DATE，如果DATE是要判别语义的当前符号，则上下文窗口包含的字为“到”、“期”、“还”、“款”、“日”、“。”、“[”、“BANK”、“]”。

进一步来说，上述步骤1021之后，所述提取方法还可以包括：

步骤1022，剔除获取到的所述第一符号之前的字符以及所述第一符号之后的字符中包含的预设无用字符，所述预设无用字符包括标点符号、语气词和空白符号。

此时，通过对语义判别关系不大的字符进行剔除，避免了一些不必要的计算，提高了处理效率。进一步地，预设无用字符还可以包括一些特殊符号等。

由于单个字往往不能准确表达特定的语义，几个字组成的词才能准确表达特定的语义，比如“公”和“司”两个字的意思与“公司”完全不一样。为了更加便于语义的判断，优选的，上述步骤102可以包括：

步骤1023，对替换后的所述文本信息进行分词处理；

步骤1024，在分词处理后的所述文本信息中，获取与待提取信息对应的第一符号以及所述第一符号的上下文信息。

此时，可采用分词技术对文本信息的内容首先进行分词处理，即将常用词分出来，从而更加便于语义的判断。

其中，当进行分词后，直接读取词对应的词向量即可，不必读取对应的字向量。另外，当训练样本足够大时，可以省略上述分词过程，因为样本足够时加权运算的模型能够表达不同文字的各种组合表达的语义。

综上，本发明实施例的文本信息的提取方法，结合文本信息的上下文的语义特征来进行信息的抽取，能智能抽取还款日、还款金额等用户感兴趣的内容；不需要指定关键词，比传统的模版匹配方法具有更大的灵活性，能适应不同的行文方式；使终端在智能理解文本语言的基础上能够开展各种应用，便于实现智能提醒等功能；在信息的内容提取及后续存储、检索等应用上都提升了用户体验。解决了现有技术中采用固定模版很难灵活、准确地提取关键信息的问题。

如图2所示，本发明的实施例还提供一种文本信息的提取装置，包括：

替换模块201，用于识别文本信息中与预设的一个或多个符号对应的信息，并将识别出的信息用对应的符号进行替换；

获取模块202，用于在替换后的所述文本信息中，获取与待提取信息对应的第一符号以及所述第一符号的上下文信息；

提取模块203，用于根据所述第一符号的上下文信息，判断所述第一符号是否符合所述待提取信息的语义，若符合，则从所述文本信息中提取被所述第一符号替换的信息并输出。

本发明实施例的文本信息的提取装置，结合文本信息的上下文的语义特征来进行信息的抽取，能智能抽取还款日、还款金额等用户感兴趣的内容；不需要指定关键词，比传统的模版匹配方法具有更大的灵活性，能适应不同的行文方式；使终端在智能理解文本语言的基础上开展各种应用，提升了用户体验。解决了现有技术中采用固定模版很难灵活、准确地提取关键信息的问题。

优选的，所述提取模块203包括：

优选的，所述第一判断子模块包括：

第一加权运算单元，用于根据所述第一向量信息以及所述第二向量信息，采用与预设的多种信息类型对应的权系数分别进行加权运算，得到运算结果；

第一确定单元，用于根据所述运算结果，确定所述第一符号的信息类型；

第二确定单元，用于判断所述第一符号的信息类型是否与所述待提取信息的信息类型一致，若一致，则确定所述第一符号符合所述待提取信息的语义，否则，确定所述第一符号不符合所述待提取信息的语义。

优选的，所述第一加权运算单元包括：

预处理子单元，用于采用双向长短程记忆模型神经网络或者卷积神经网络预先训练出的模型，对所述第一向量信息以及所述第二向量信息进行预处理，得到组合向量；

第一加权运算子单元，用于根据所述组合向量与所述多种信息类型对应的权系数分别进行加权运算。

优选的，所述替换模块201包括：

识别子模块，用于采用正则表达式和/或关键词匹配的方式，识别文本信息中与预设的一个或多个符号对应的信息。

优选的，所述获取模块202包括：

第二获取子模块，用于在替换后的所述文本信息中，获取与待提取信息对应的第一符号，并获取所述第一符号之前的第一预设数量的字符和/或所述第一符号之后的第二预设数量的字符，所述字符包括字和/或词。

优选的，所述提取装置还包括：

剔除模块，用于剔除获取到的所述第一符号之前的字符以及所述第一符号之后的字符中包含的预设无用字符，所述预设无用字符包括标点符号、语气词和空白符号。

优选的，所述获取模块202包括：

分词子模块，用于对替换后的所述文本信息进行分词处理；

第三获取子模块，用于在分词处理后的所述文本信息中，获取与待提取信息对应的第一符号以及所述第一符号的上下文信息。

综上，本发明实施例的文本信息的提取装置，结合文本信息的上下文的语义特征来进行信息的抽取，能智能抽取还款日、还款金额等用户感兴趣的内容；不需要指定关键词，比传统的模版匹配方法具有更大的灵活性，能适应不同的行文方式；使终端在智能理解文本语言的基础上能够开展各种应用，便于实现智能提醒等功能；在信息的内容提取及后续存储、检索等应用上都提升了用户体验。解决了现有技术中采用固定模版很难灵活、准确地提取关键信息的问题。

需要说明的是，该文本信息的提取装置是与上述文本信息的提取方法相对应的装置，其中上述方法实施例中所有实现方式均适用于该装置的实施例中，也能达到同样的技术效果。

由于本发明实施例的文本信息的提取装置应用于移动终端，因此，本发明实施例还提供了一种移动终端，包括：如上述实施例中所述的文本信息的提取装置。其中，上述文本信息的提取装置的所述实现实施例均适用于该移动终端的实施例中，也能达到相同的技术效果。本发明的移动终端如可以是手机、平板电脑等移动电子设备。

在本发明的各种实施例中，应理解，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种文本信息的提取方法，其特征在于，包括：

2.根据权利要求1所述的提取方法，其特征在于，所述根据所述第一符号的上下文信息，判断所述第一符号是否符合所述待提取信息的语义的步骤包括：

3.根据权利要求2所述的提取方法，其特征在于，所述根据所述第一向量信息以及所述第二向量信息进行加权运算，并根据运算结果，判断所述第一符号是否符合所述待提取信息的语义的步骤包括：

根据所述运算结果，确定所述第一符号的信息类型；

4.根据权利要求3所述的提取方法，其特征在于，所述根据所述第一向量信息以及所述第二向量信息，采用与预设的多种信息类型对应的权系数分别进行加权运算的步骤包括：

5.根据权利要求1所述的提取方法，其特征在于，所述识别文本信息中与预设的一个或多个符号对应的信息的步骤包括：

6.根据权利要求1所述的提取方法，其特征在于，所述在替换后的所述文本信息中，获取与待提取信息对应的第一符号以及所述第一符号的上下文信息的步骤包括：

7.根据权利要求6所述的提取方法，其特征在于，所述在替换后的所述文本信息中，获取与待提取信息对应的第一符号，并获取所述第一符号之前的第一预设数量个字和/或词、所述第一符号之后的第二预设数量个字和/或词之后，所述提取方法还包括：

8.根据权利要求1所述的提取方法，其特征在于，所述在替换后的所述文本信息中，获取与待提取信息对应的第一符号以及所述第一符号的上下文信息的步骤包括：

对替换后的所述文本信息进行分词处理；

9.一种文本信息的提取装置，其特征在于，包括：

10.根据权利要求9所述的提取装置，其特征在于，所述提取模块包括：

11.一种移动终端，其特征在于，包括：如权利要求9-10任一项所述的文本信息的提取装置。