CN110826313A

CN110826313A - 一种信息提取方法、电子设备及计算机可读存储介质

Info

Publication number: CN110826313A
Application number: CN201911053788.1A
Authority: CN
Inventors: 游程; 陈孝良; 苏少炜; 常乐
Original assignee: Beijing Sound Intelligence Technology Co Ltd
Current assignee: Beijing Sound Intelligence Technology Co Ltd; Beijing SoundAI Technology Co Ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-02-21

Abstract

本发明提供一种信息提取方法、电子设备及计算机可读存储介质，涉及计算机科学技术领域，所述方法包括：对所述第一信息进行预处理，得到所述第一信息的特征向量；对所述第一信息的特征向量进行实体标注，得到所述第一信息的实体标注向量；基于所述特征向量和所述实体标注向量获取待分析向量；对所述待分析向量进行依存句法分析，基于依存句法分析结果输出第二信息，其中，所述第二信息为所述第一信息中的部分信息。本发明实施例能够减少人们浏览信息的时间。

Description

一种信息提取方法、电子设备及计算机可读存储介质

技术领域

本发明涉及计算机科学技术领域，尤其涉及一种信息提取方法、电子设备及计算机可读存储介质。

背景技术

随着互联网技术的发展，人们可以从各种途径获取信息，例如，从手机、电视及个人电脑上获取信息，并且可以获取到各种类型的信息。因为获取信息途径的大量增加，人们日常获取到的信息以指数级的速度增长，例如，新闻信息，人们可以从手机、电视及个人电脑等电子设备上获取新闻信息，然而，人们获取到的信息量过于庞大，从而使得人们浪费了大量时间浏览全部信息。

发明内容

本发明实施例提供一种信息提取方法、电子设备及计算机可读存储介质，以解决现有技术中人们获取到的信息量过于庞大，从而使得人们浪费了大量时间浏览全部信息的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种信息提取方法，所述方法包括：

对所述第一信息进行预处理，得到所述第一信息的特征向量；

对所述第一信息的特征向量进行实体标注，得到所述第一信息的实体标注向量；

基于所述特征向量和所述实体标注向量获取待分析向量；

对所述待分析向量进行依存句法分析，基于依存句法分析结果输出第二信息，其中，所述第二信息为所述第一信息中的部分信息。

第二方面，本发明实施例提供了一种电子设备，所述电子设备包括：

预处理模块，用于对所述第一信息进行预处理，得到所述第一信息的特征向量；

标注模块，用于对所述第一信息的特征向量进行实体标注，得到所述第一信息的实体标注向量；

获取模块，用于基于所述特征向量和所述实体标注向量获取待分析向量；

输出模块，用于对所述待分析向量进行依存句法分析，基于依存句法分析结果输出第二信息，其中，所述第二信息为所述第一信息中的部分信息。

第三方面，本发明实施例提供了一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如第一方面所述的信息提取方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的信息提取方法的步骤。

本发明实施例中，对所述第一信息进行预处理，得到所述第一信息的特征向量；对所述第一信息的特征向量进行实体标注，得到所述第一信息的实体标注向量；基于所述特征向量和所述实体标注向量获取待分析向量；对所述待分析向量进行依存句法分析，基于依存句法分析结果输出第二信息，其中，所述第二信息为所述第一信息中的部分信息。这样，将所述第一信息进行简化，提取出第二信息作为关键信息以供用户浏览，能够减少人们浏览信息的时间；并且，能够实现在不知道中文语法规则且不需要穷举所有中文语法规则的前提下，对第一信息进行句法依存分析，形成第二信息；且可以通过实体标注来提供更多的特征，将实体标注向量与第一信息的特征向量融合，能够提高句法依存分析的准确率，从而能够提高从第一信息中提取第二信息的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种信息提取方法的流程图；

图2为本发明实施例提供的一种依存树的示意图之一；

图3为本发明实施例提供的一种依存树的示意图之二；

图4为本发明实施例提供的一种依存树的示意图之三；

图5是本发明实施例提供的一种电子设备的结构示意图之一；

图6是本发明实施例提供的一种电子设备的结构示意图之二；

图7是本发明实施例提供的一种电子设备的结构示意图之三；

图8是本发明实施例提供的一种电子设备的结构示意图之四；

图9是本发明实施例提供的一种电子设备的结构示意图之五。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、移动终端以及服务器等。

参见图1，图1是本发明实施例提供的一种信息提取方法的流程图，如图1所示，包括以下步骤：

步骤101、对所述第一信息进行预处理，得到所述第一信息的特征向量。

其中，所述第一信息可以为文本信息，例如，可以为新闻、自媒体内容或者电子报刊等。所述特征向量用于表征所述第一信息，所述对所述第一信息进行预处理可以是，基于标点符号将所述第一信息进行分割，得到至少一个子句，对所述至少一个子句进行分词，得到分词信息，采用分割符拼接所述分词信息，得到拼接信息，基于所述拼接信息得到所述第一信息的特征向量；或者，还可以是，对所述第一信息进行分词，采用TF-IDF(termfrequency-inverse document frequency)方法对分词后的第一信息进行向量化，得到所述第一信息的特征向量。本发明实施例对预处理过程不进行限定。

步骤102、对所述第一信息的特征向量进行实体标注，得到所述第一信息的实体标注向量。

其中，可以采用预先训练好的实体标注模型对所述第一信息的特征向量进行实体标注，可以基于中文通用语料库针对至少一个预设标签训练得到实体标注模型，采用所述实体标注模型对所述第一信息的特征向量进行实体标注；或者，还可以采用序列标注算法针对至少一个预设标签对所述第一信息的特征向量进行实体标注。所述至少一个预设标签可以包括时间、地点、人物、国家、机构及组织等。

步骤103、基于所述特征向量和所述实体标注向量获取待分析向量。

其中，可以将所述特征向量与所述实体标注向量融合获取待分析向量，具体的，可以将所述特征向量与所述实体标注向量相加，得到待分析向量；或者，还可以将所述特征向量与所述实体标注向量相减，得到待分析向量。本发明实施例对此不进行限定。

步骤104、对所述待分析向量进行依存句法分析，基于依存句法分析结果输出第二信息，其中，所述第二信息为所述第一信息中的部分信息。

其中，依存句法分析可以分析语言单位内成分之间的依存关系揭示其句法结构。可以基于句法依存语料库及所述至少一个预设标签训练得到依存句法分析模型；采用所述依存句法分析模型对所述待分析向量进行依存句法分析；或者，还可以采用依存句法分析器对所述待分析向量进行依存句法分析。本发明实施例对此不进行限定。基于依存句法分析结果可以得到依存树，如图2所示，图2为基于依存句法分析结果得到的依存树的一种示例，可以根据生成的依存树形成结构化文本，并将该结构化文本作为第二信息输出。

可选的，所述对所述第一信息的特征向量进行实体标注之前，所述方法还包括：

基于第一语料库针对至少一个预设标签训练得到实体标注模型；

所述对所述第一信息的特征向量进行实体标注，包括：

采用所述实体标注模型对所述第一信息的特征向量进行实体标注。

其中，所述第一语料库可以为开源的中文通用语料库，或者，还可以为个人建立的中文语料库。所述至少一个预设标签可以包括时间、地点、人物、国家、机构及组织等各种标签。可以使用中文通用语料库，针对时间、地点、人物、国家、机构及组织等标签，预先训练一个实体标注模型，在实际应用中，为了获取较高的实体标注的准确性，可以使用Bi-lstm+crf模型。

该实施方式中，基于第一语料库针对至少一个预设标签训练得到实体标注模型，采用所述实体标注模型对所述第一信息的特征向量进行实体标注，这样，通过预先训练好的实体标注模型进行实体标注，能够提高实体标注的准确性和效率。

可选的，所述对所述待分析向量进行依存句法分析之前，所述方法还包括：

基于句法依存语料库及所述至少一个预设标签训练得到依存句法分析模型；

所述对所述待分析向量进行依存句法分析，包括：

采用所述依存句法分析模型对所述待分析向量进行依存句法分析。

其中，所述句法依存语料库可以为开源的中文句法依存语料库，或者还可以为个人建立的句法依存语料库。可以针对时间、地点、人物、国家、机构及组织等标签，随机初始化生成一组对应的与词向量维度一致的标签的特征向量，在预训练句法依存模型过程中，不仅使用原本的词向量，将有以上标签的词向量在原有的基础上加上对应的标签的特征向量作为新的词向量输入，并在训练的过程中学习、调整各个标签的特征向量，并在训练结束时与标签对应保存。在实际应用中，为了获取较高的依存句法分析的准确性，可以使用Bilstm+crf进行判别式依存分析。

该实施方式中，基于句法依存语料库及所述至少一个预设标签训练得到依存句法分析模型，采用所述依存句法分析模型对所述待分析向量进行依存句法分析，这样，通过预先训练好的依存句法分析模型对待分析向量进行依存句法分析，可以提高依存句法分析的准确性和效率。

可选的，所述基于所述特征向量和所述实体标注向量获取待分析向量，包括：

将所述特征向量与所述实体标注向量相加，得到待分析向量。

其中，可以在所有标注了实体的词向量上加上该词向量对应标签的特征向量，得到的待分析向量为所述第一信息融合了实体信息后的特征向量。

该实施方式中，将所述特征向量与所述实体标注向量相加，得到待分析向量，实现较为简便。

可选的，所述对所述第一信息进行预处理，得到所述第一信息的特征向量，包括：

基于标点符号将所述第一信息进行分割，得到至少一个子句；

对所述至少一个子句进行分词，得到分词信息；

采用分割符拼接所述分词信息，得到拼接信息；

基于所述拼接信息得到所述第一信息的特征向量。

其中，所述分词信息可以为分词结果，也就是各个子句的分词结果。所述拼接信息可以为将所述分词信息用分割符进行拼接后得到的文本。可以按照标点符号将所述第一信息分割为若干子句。可以使用中文分词器对所述至少一个子句进行分词，例如，可以使用jieba分词工具对每个子句进行分词，得到若干子句的分词结果。可以使用SEP分割符将所有子句分词结果拼接成一段文本。可以预先建立词与词向量对应的模型，根据分词结果对应已经训练好的模型，将拼接信息表达为特征向量。

该实施方式中，基于标点符号将所述第一信息进行分割，得到至少一个子句；对所述至少一个子句进行分词，得到分词信息；采用分割符拼接所述分词信息，得到拼接信息；基于所述拼接信息得到所述第一信息的特征向量，这样，可以高效且准确地获取所述第一信息的特征向量。

可选的，所述第一信息为新闻信息，所述基于依存句法分析结果输出第二信息包括：

基于依存句法分析结果获取包括多个节点的依存树；

从所述多个节点中确定与目标关键词匹配的目标节点，其中，所述目标关键词为用户输入的关键词，或者为基于用户针对新闻的历史记录确定的关键词；

输出第二信息，所述第二信息为包括所述目标节点的部分依存树对应的信息。

其中，若所述目标关键词为用户输入的关键词，则在对所述第一信息进行预处理之前，可以接收用户输入关键词的输入，将用户输入的关键词作为目标关键词。若所述目标关键词为基于用户针对新闻的历史记录确定的关键词，则可以在对所述第一信息进行预处理之前，根据用户浏览新闻的历史记录或者根据用户接收新闻的语音播报的历史记录等各种针对新闻的历史记录获取所述目标关键词，例如，用户上一次浏览的至少两条新闻涉及主题为演唱会，则可以将演唱会作为目标关键词，或者，用户在一段时间内浏览的新闻大部分涉及主体为股票，则可以将股票作为目标关键词，或者，用户上一次收听的至少两条新闻涉及主题为演唱会，则可以将演唱会作为目标关键词。所述第二信息可以为包括所述目标节点的部分依存树，将用户可能感兴趣的新闻信息结构化后以树图形式展示给用户；或者，所述第二信息可以为所述部分依存树中的节点构成的文字信息，将用户可能感兴趣的新闻信息结构化后以文字形式展示给用户。本发明实施例对此不进行限定。

在实际应用中，以新闻信息“xx1将于2018年10月1日在台北举行个人演唱会，并于2016年3月1日与xx2在高雄结婚”为例进行说明，对所述新闻信息进行预处理，得到所述新闻信息的特征向量，对所述新闻信息的特征向量进行实体标注，得到所述新闻信息的实体标注向量，基于所述特征向量和所述实体标注向量获取待分析向量，对所述待分析向量进行依存句法分析，如图3所示，基于依存句法分析结果获取包括多个节点的依存树，若用户输入的关键词为“演唱会”，则可以在所述多个节点中确定与该关键词匹配的目标节点，该目标节点为演唱会，可以将包括该目标节点对应的核心动词节点，与该核心动词节点一级相关的节点以及所有与目标节点相关的节点的部分依存树作为第二信息输出，如图4所示，第二信息可以包括节点“xx1”、“举行”、“演唱会”、“2018年10月1日”及“台北”。

该实施方式中，基于依存句法分析结果获取包括多个节点的依存树，从所述多个节点中确定与目标关键词匹配的目标节点，输出第二信息，所述第二信息为包括所述目标节点的部分依存树对应的信息，这样，能够根据目标关键词输出第二信息，用户在浏览新闻时，可以根据用户输入的关键词或者根据用户浏览新闻的历史记录确定的关键词提供给用户过滤后的结构化新闻信息，该结构化新闻信息能够迎合用户的期望，用户体验较好。

可选的，所述第一信息为新闻信息，所述对所述第一信息进行预处理之前，所述方法还包括：

接收用户选择所述新闻信息的第一输入；

所述对所述第一信息进行预处理，包括：

响应于所述第一输入，对所述新闻信息进行预处理；

所述基于依存句法分析结果输出第二信息，包括：

基于依存句法分析结果获取包括多个节点的依存树；

输出第二信息，所述第二信息为包括所述多个节点的依存树对应的信息。

其中，所述第一输入可以是用户点击所述新闻信息的输入，或者可以是，用户移动所述新闻信息的输入等等。所述第二信息可以为包括所述多个节点的依存树，将用户感兴趣的新闻信息结构化后以树图形式展示给用户；或者，所述第二信息可以为所述依存树中的节点构成的文字信息，将用户感兴趣的新闻信息结构化后以文字形式展示给用户。本发明实施例对此不进行限定。作为一种具体的实施例，所述新闻信息可以为财经类新闻信息，可以对某个公司的关联企业的新闻信息进行汇总收集，并可以根据关联企业的新闻信息中的某些关键词，例如，下跌，上涨等对关联企业的新闻信息进行分类，可以分为正面新闻和负面新闻，分别提供给用户，作为用户股票买卖推荐的依据。

在实际应用中，以新闻信息“xx1将于2018年10月1日在台北举行个人演唱会，并于2016年3月1日与xx2在高雄结婚”为例进行说明，在用户选择该新闻信息后，对所述新闻信息进行预处理，得到所述新闻信息的特征向量，对所述新闻信息的特征向量进行实体标注，得到所述新闻信息的实体标注向量，基于所述特征向量和所述实体标注向量获取待分析向量，对所述待分析向量进行依存句法分析，如图3所示，基于依存句法分析结果获取包括多个节点的依存树，可以将该依存树展示给用户。

该实施方式中，基于依存句法分析结果获取包括多个节点的依存树，输出第二信息，所述第二信息为包括所述多个节点的依存树对应的信息，这样，针对新闻信息中包括主线信息以及较多支线信息的情况，对新闻信息进行结构化，不需要用户再提炼新闻结构，用户体验较好。

参见图5，图5是本发明实施例提供的一种电子设备的结构示意图之一，如图5所示，电子设备200包括：

预处理模块201，用于对所述第一信息进行预处理，得到所述第一信息的特征向量；

标注模块202，用于对所述第一信息的特征向量进行实体标注，得到所述第一信息的实体标注向量；

获取模块203，用于基于所述特征向量和所述实体标注向量获取待分析向量；

输出模块204，用于对所述待分析向量进行依存句法分析，基于依存句法分析结果输出第二信息，其中，所述第二信息为所述第一信息中的部分信息。

可选的，如图6所示，所述电子设备200还包括：

第一训练模块205，用于基于第一语料库针对至少一个预设标签训练得到实体标注模型；

所述标注模块202具体用于：

可选的，如图7所示，所述电子设备200还包括：

第二训练模块206，用于基于句法依存语料库及所述至少一个预设标签训练得到依存句法分析模型；

所述输出模块204，具体用于：

采用所述依存句法分析模型对所述待分析向量进行依存句法分析，基于依存句法分析结果输出第二信息。

可选的，所述获取模块203具体用于：

可选的，所述预处理模块201具体用于：

对所述至少一个子句进行分词，得到分词信息；

采用分割符拼接所述分词信息，得到拼接信息；

基于所述拼接信息得到所述第一信息的特征向量。

可选的，所述第一信息为新闻信息，所述输出模块204具体用于：

对所述待分析向量进行依存句法分析，基于依存句法分析结果获取包括多个节点的依存树；

可选的，所述第一信息为新闻信息，如图8所示，所述电子设备200还包括：

接收模块207，用于接收用户选择所述新闻信息的第一输入；

所述预处理模块201具体用于：

响应于所述第一输入，对所述新闻信息进行预处理，得到所述新闻信息的特征向量；

所述输出模块204具体用于：

电子设备能够实现图1的方法实施例中实现的各个过程，为避免重复，这里不再赘述。

请参见图9，图9是本发明实施例提供的一种电子设备的结构示意图之五，如图9所示，电子设备300包括：存储器302、处理器301及存储在所述存储器302上并可在所述处理器301上运行的程序，其中：

所述处理器301读取存储器302中的程序，用于执行：

基于所述特征向量和所述实体标注向量获取待分析向量；

可选的，所述处理器301还用于执行：

所述处理器301执行的所述对所述第一信息的特征向量进行实体标注，包括：

可选的，所述处理器301还用于执行：

所述处理器301执行的所述对所述待分析向量进行依存句法分析，包括：

可选的，所述处理器301执行的所述基于所述特征向量和所述实体标注向量获取待分析向量，包括：

可选的，所述处理器301执行的所述对所述第一信息进行预处理，得到所述第一信息的特征向量，包括：

对所述至少一个子句进行分词，得到分词信息；

采用分割符拼接所述分词信息，得到拼接信息；

基于所述拼接信息得到所述第一信息的特征向量。

基于依存句法分析结果获取包括多个节点的依存树；

接收用户选择所述新闻信息的第一输入；

所述对所述第一信息进行预处理，包括：

响应于所述第一输入，对所述新闻信息进行预处理；

所述基于依存句法分析结果输出第二信息，包括：

基于依存句法分析结果获取包括多个节点的依存树；

在图9中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器301代表的一个或多个处理器和存储器302代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。

处理器301负责管理总线架构和通常的处理，存储器302可以存储处理器301在执行操作时所使用的数据。

需要说明的是，本发明实施例方法实施例中的任意实施方式都可以被本实施例中的上述电子设备所实现，以及达到相同的有益效果，此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述信息提取方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种信息提取方法，其特征在于，所述方法包括：

对第一信息进行预处理，得到所述第一信息的特征向量；

基于所述特征向量和所述实体标注向量获取待分析向量；

2.根据权利要求1所述的方法，其特征在于，所述对所述第一信息的特征向量进行实体标注之前，所述方法还包括：

所述对所述第一信息的特征向量进行实体标注，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述待分析向量进行依存句法分析之前，所述方法还包括：

所述对所述待分析向量进行依存句法分析，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述特征向量和所述实体标注向量获取待分析向量，包括：

5.根据权利要求1所述的方法，其特征在于，所述对所述第一信息进行预处理，得到所述第一信息的特征向量，包括：

对所述至少一个子句进行分词，得到分词信息；

采用分割符拼接所述分词信息，得到拼接信息；

基于所述拼接信息得到所述第一信息的特征向量。

6.根据权利要求1所述的方法，其特征在于，所述第一信息为新闻信息，所述基于依存句法分析结果输出第二信息包括：

基于依存句法分析结果获取包括多个节点的依存树；

7.根据权利要求1所述的方法，其特征在于，所述第一信息为新闻信息，所述对所述第一信息进行预处理之前，所述方法还包括：

接收用户选择所述新闻信息的第一输入；

所述对所述第一信息进行预处理，包括：

响应于所述第一输入，对所述新闻信息进行预处理；

所述基于依存句法分析结果输出第二信息，包括：

基于依存句法分析结果获取包括多个节点的依存树；

8.一种电子设备，其特征在于，所述电子设备包括：

预处理模块，用于对第一信息进行预处理，得到所述第一信息的特征向量；

9.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的信息提取方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的信息提取方法的步骤。