CN106933798B

CN106933798B - 信息分析的方法及装置

Info

Publication number: CN106933798B
Application number: CN201511026271.5A
Authority: CN
Inventors: 杨锦峰
Original assignee: Beijing Urban Network Neighbor Information Technology Co Ltd
Current assignee: Beijing Urban Network Neighbor Information Technology Co Ltd
Priority date: 2015-12-31
Filing date: 2015-12-31
Publication date: 2020-09-08
Anticipated expiration: 2035-12-31
Also published as: CN106933798A

Abstract

本发明提供一种信息分析的方法及装置；一种信息分析的方法包括：接收用户输入的待分析文本；对所述待分析文本进行分词处理；确定各分词分别所属的语义标签；将所述各分词分别所属的语义标签与匹配规则进行匹配，得到所述各分词分别所属的语义标签与所述匹配规则中的第一规则匹配的匹配结果，并根据所述匹配结果确定分析结果。本发明解决了现有技术中匹配规则较多的问题。

Description

信息分析的方法及装置

技术领域

本发明涉及信息技术领域，尤其涉及一种信息分析的方法及装置。

背景技术

随着互联网的普及和海量信息的涌现，如何快速有效的分析信息已成为制约信息技术发展的一个全局性问题。

现有技术中，一种信息分析的方法为根据匹配规则对待分析文本中的关键字进行匹配，并根据匹配结果确定分析结果，该分析结果例如可以为待分析文本所属的分类、待分析文本对应的操作需求或待分析文本匹配的某个或某些关键字等。其中，该匹配规则为根据预先确定的关键字所设定的匹配规则。

但是，现有技术中存在匹配规则较多的问题。

发明内容

本发明提供一种信息分析的方法及装置，用以解决现有技术中匹配规则较多的问题。

本发明提供一种信息分析的方法，包括：

接收用户输入的待分析文本；

对所述待分析文本进行分词处理；

确定各分词分别所属的语义标签；

将所述各分词分别所属的语义标签与匹配规则进行匹配，得到所述各分词分别所属的语义标签与所述匹配规则中的第一规则匹配的匹配结果，并根据所述匹配结果确定分析结果。

可选的，在本发明一实施例中，所述将所述各分词分别所属的语义标签与匹配规则进行匹配，得到所述各分词分别所属的语义标签与所述匹配规则中的第一规则匹配的匹配结果，并根据所述匹配结果确定分析结果，包括：

将所述各分词分别所属的语义标签作为主串，输入至AC自动机进行匹配，确定匹配的终节点为第一节点，并从所述第一节点的输出表获得所述分析结果；其中，所述AC自动机中各节点的转向表根据所述匹配规则生成；所述AC自动机的根节点到所述第一节点的路径与所述第一规则对应。

可选的，在本发明一实施例中，所述将所述各分词分别所属的语义标签作为主串，输入至AC自动机进行匹配之前，还包括：

根据所述匹配规则，生成所述各节点的转向表；所述转向表中包括预设语义标签以及与所述预设语义标签对应的所述各节点的下一级节点；

根据所述各节点作为终节点时分别对应的分析结果，生成所述各节点的输出表。

可选的，在本发明一实施例中，所述匹配规则包括采用正则表达式和所述预设语义标签描述的规则，以及仅采用所述预设语义标签描述的规则；所述将所述各分词分别所属的语义标签作为主串，输入至AC自动机进行匹配之前，还包括：

根据所述采用正则表达式和所述预设语义标签描述的规则，生成所述各节点的正则表；所述正则表中包括所述预设语义标签、与所述预设语义标签对应的所述各节点的下一级节点以及与所述预设语义标签对应的正则表达式；

相应的，所述根据所述匹配规则，生成所述各节点的转向表，包括：

根据所述匹配规则中采用所述预设语义标签描述的规则，生成所述各节点的转向表。

可选的，在本发明一实施例中，所述将所述各分词分别所属的语义标签作为主串，输入至AC自动机进行匹配，包括：

判断所述各分词分别所属的语义标签中的第N个语义标签是否包括在第二节点的转向表中；其中，N为大于0小于M的正整数，M为所述语义标签的个数，所述第二节点为根节点的第N-1级子节点；

若是，则转移至所述第二节点的转向表中所述第N个语义标签对应的第三节点，形成所述第二节点与所述第三节点之间的路径；

判断所述第N个语义标签是否包括在所述第二节点的正则表中，且所述第N个语义标签对应的分词满足所述第二节点的正则表中所述第N个语义标签对应的正则表达式；

若是，则转移至所述第二节点的正则表中所述第N个语义标签对应的第四节点，形成所述第二节点与所述第四节点之间的路径。

可选的，在本发明一实施例中，所述确定各分词分别所属的语义标签之前，还包括：将所述各分词中的无效分词去除，获得所述各分词中的有效分词；

所述确定各分词分别所属的语义标签，包括：

确定所述各分词中的各有效分词分别所属的语义标签。

本发明提供一种信息分析的装置，包括：

接收模块，用于接收用户输入的待分析文本；

分词模块，用于对所述待分析文本进行分词处理；

确定模块，用于确定各分词分别所属的语义标签；

匹配及分析模块，用于将所述各分词分别所属的语义标签与匹配规则进行匹配，得到所述各分词分别所属的语义标签与所述匹配规则中的第一规则匹配的匹配结果，并根据所述匹配结果确定分析结果。

可选的，在本发明一实施例中，所述匹配及分析模块，具体用于：

可选的，在本发明一实施例中，所述匹配及分析模块，还用于：

可选的，在本发明一实施例中，所述匹配规则包括采用正则表达式和所述预设语义标签描述的规则，以及仅采用所述预设语义标签描述的规则，所述匹配及分析模块，还用于：

相应的，所述匹配及分析模块根据所述匹配规则，生成所述各节点的转向表，具体包括：

可选的，在本发明一实施例中，所述匹配及分析模块，将所述各分词分别所属的语义标签作为主串，输入至AC自动机进行匹配，具体包括：

可选的，在本发明一实施例中，所述确定模块，还用于将所述各分词中的无效分词去除，获得所述各分词中的有效分词；

所述确定模块，确定各分词分别所属的语义标签，具体包括：

确定所述各分词中的各有效分词分别所属的语义标签。

本发明提供一种信息分析的方法及装置；通过对待分析文本进行分词处理；确定各分词分别所属的语义标签；将所述各分词分别所属的语义标签与匹配规则进行匹配，得到所述各分词分别所属的语义标签与所述匹配规则中的第一规则匹配的匹配结果，并根据所述匹配结果确定分析结果；使得对属于同一语义标签的多个关键字，可以使用所属的一个语义标签来表示；因此，与使用文本中的关键字描述的匹配规则相比，使用语义标签描述的匹配规则减少了匹配规则的数目。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明信息分析的方法实施例一的流程图；

图2为本发明信息分析的方法实施例二的流程图；

图3为本发明信息分析的装置实施例一的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明信息分析的方法实施例一的流程图；如图1所示，本实施例的方法可以包括：

步骤101、接收用户输入的待分析文本；

例如，待分析文本可以为：转让iphone6保修期内无拆无修。

步骤102、对所述待分析文本进行分词处理；

例如，对上述待分析文本进行分词后可以得到如下分词：转让iphone6保修期内无拆无修。

步骤103、确定各分词分别所属的语义标签；

例如，分词“转让”所属的语义标签可以为“买卖行为”，分词“iphone6”所属的语义标签可以为“苹果手机型号”和“手机型号”，分词“保修期”和“内”所属的语义标签可以为“产品保修状况”，分词“无拆”和“无修”所属的语义标签可以为“产品维修状况”。

步骤104、将所述各分词分别所属的语义标签与匹配规则进行匹配，得到所述各分词分别所属的语义标签与所述匹配规则中的第一规则匹配的匹配结果，并根据所述匹配结果确定分析结果。

例如，匹配规则可以包括：

匹配规则1：买卖行为手机型号；

匹配规则2：买卖行为家电

匹配规则3：买卖行为日用品

进一步的，将上述各分词分别所属的语义标签与匹配规则进行匹配，可以得到所述各分词分别所属的语义标签与匹配规则中的匹配规则1匹配的匹配结果。

需要说明的是，上述匹配规则中“买卖行为”、“苹果手机型号”、“家电”、“日用品”都为语义标签。

若进一步假设，匹配规则1对应的分析结果为手机分类，匹配规则2对应的分析结果为家电分类，匹配规则3对应的分析结果为日用品分类；则根据所述各分词分别所属的语义标签与所述匹配规则中的规则匹配1的匹配结果，可以确定分析结果为手机分类。

本实施例中，通过对待分析文本进行分词处理；确定各分词分别所属的语义标签；将所述各分词分别所属的语义标签与匹配规则进行匹配，得到所述各分词分别所属的语义标签与所述匹配规则中的第一规则匹配的匹配结果，并根据所述匹配结果确定分析结果；使得对属于同一语义标签的多个关键字，可以使用所属的一个语义标签来表示；因此，与使用文本中的关键字描述的匹配规则相比，使用语义标签描述的匹配规则减少了匹配规则的数目。例如，“出售”、“转让”等都属于语义标签“买卖行为”，与使用“出售”和“转让”等描述的匹配规则相比，使用“买卖行为”描述的匹配规则的数量较少。

图2为本发明信息分析的方法实施例二的流程图；如图2所示，本实施例的方法可以包括：

步骤201、接收用户输入的待分析文本；

例如，待分析文本可以为：转让的iphone6保修期内无拆无修。

步骤202、对所述待分析文本进行分词处理；

例如，对上述待分析文本进行分词后可以得到如下分词：转让的iphone6保修期内无拆无修。

步骤203、将所述各分词中的无效分词去除，获得所述各分词中的有效分词；

例如，将分词“的”去除，获得的有效分词为：转让iphone6保修期内无拆无修。

可选的，所述无效分词可以为停用词、标点符号、地址前缀(例如，html)等。

需要说明的是，步骤203为可选步骤；当不执行步骤203时，步骤204-步骤205中都是基于各分词分别所属的语义标签进行处理；当执行步骤203时，步骤204-步骤205中都是基于各有效分词分别所属的语义标签进行处理。

步骤204、确定所述各分词中各有效分词分别所属的语义标签；

需要说明的是，步骤204与步骤103类似，在此不再赘述。

步骤205、将所述各有效分词分别所属的语义标签作为主串，输入至AC(Aho-Corasick)自动机进行匹配，确定匹配的终节点为第一节点，并从所述第一节点的输出表获得所述分析结果；

其中，所述AC自动机中各节点的转向表根据所述匹配规则生成；所述AC自动机的根节点到所述第一节点的路径与所述第一规则对应。

可选的，所述将所述各分词分别所属的语义标签作为主串，输入至AC自动机进行匹配之前，还包括：

可选的，所述匹配规则包括采用正则表达式和所述预设语义标签描述的规则，以及仅采用所述预设语义标签描述的规则；

相应的，所述将所述各分词分别所属的语义标签作为主串，输入至AC自动机进行匹配之前，还包括：

例如，匹配规则a：买卖行为苹果手机型号

匹配规则b：买卖行为手机型号产品维修状况#正则表达式1#

其中，正则表达式1为产品维修状况语义标签对应的正则表达式。匹配规则a为仅采用所述预设语义标签描述的规则，对应转向表；匹配规则b为采用正则表达式和所述预设语义标签描述的规则，对应正则表。

可选的，所述产品维修状况对应的正则表达式还可以包括正则表达式2；例如，产品维修状况#正则表达式1#正则表达式2；其中，正则表达式1可以用于描述产品维修状况对应的分词需要满足的条件，正则表达式2可以用于描述产品维修状况语义标签需要满足的条件，例如，当正则表达式2为元字符？时，则表示产品维修状况可以不匹配。

对正则表达式2的举例如下：

假设，根(root)节点的转移表中包括语义标签A，且与语义标签A对应的root节点的下一级节点1；节点1的转移表中包括语义标签B，且与语义标签B对应的节点1的下一级节点2；节点1的正则表中包括语义标签C是，与语义标签C对应的下一级节点3，以及语义标签C对应的正则表达式##？(也即，正则表达式1为空，正则表达式2为？)；节点2的转移表包括语义标签C，且与语义标签C对应的节点2的下一级节点4；节点3的转移表包括语义标签C，且与语义标签C对应的节点3的下一级节点5。

则，当各有效分词的语义标签为ABC时，则既可以匹配root节点到节点1，节点1到节点2，节点2到节点4的路径；又可以匹配root节点到节点1，节点1到节点3，节点3到节点5的路径。这里，节点4和节点5都可以认为是匹配的终节点。

可选的，所述将所述各分词分别所属的语义标签作为主串，输入至AC自动机进行匹配，包括：

需要说明的是，本发明中所述AC自动机为通过软件实现的算法；例如，执行本发明方法步骤的设备与实现所述AC自动机的设备可以为同一设备。

可选的，所述分析结果可以为分类，例如输入待分析字符串“转让iphone6保修期内无拆无修”对应的分析结果可以为手机分类和/或苹果手机分类；或者，

所述分析结果可以为动作，例如输入待分析字符串“明天的天气”对应的分析结果可以为天气查询动作；或者，

所述分析结果还可以为信息抽取的结果，例如输入待分析字符串“转让iphone6保修期内无拆无修”对应的分析结果可以为手机型号“iphone6”。

可选的，当分析结果为分类时，若匹配出多个分类，则可以根据每个分类对应的分数，确定出分数最高的分类为最终确定的分析结果；或者，也可以通过将相同分类的分数相加，并确定出相加后分数最高的分类为最终确定的分析结果。

本实施例中，通过对待分析文本进行分词处理；将所述各分词中的无效分词去除，获得所述各分词中的有效分词；确定各有效分词分别所属的语义标签；将所述各有效分词分别所属的语义标签作为主串，输入至AC自动机进行匹配，确定匹配的终节点为第一节点，并从所述第一节点的输出表获得所述分析结果；实现了通过AC自动机来实现语义标签的匹配；并且，通过正则表的引入，使得AC自动机可以根据正则表达式所描述的规则进行匹配。

图3为本发明信息分析的装置实施例一的结构示意图；如图3所示，本实施例的装置可以包括：接收模块301、分词模块302、确定模块303、匹配及分析模块304。其中，接收模块301，用于接收用户输入的待分析文本；分词模块302，用于对所述待分析文本进行分词处理；确定模块303，用于确定各分词分别所属的语义标签；匹配及分析模块304，用于将所述各分词分别所属的语义标签与匹配规则进行匹配，得到所述各分词分别所属的语义标签与所述匹配规则中的第一规则匹配的匹配结果，并根据所述匹配结果确定分析结果。

本实施例的装置，可以用于执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

信息分析的装置实施例二

可选的，在本发明信息分析的装置实施例一的基础上，匹配及分析模块304，具体用于：

可选的，匹配及分析模块304，还用于：

可选的，所述匹配规则包括采用正则表达式和所述预设语义标签描述的规则，以及仅采用所述预设语义标签描述的规则，匹配及分析模块304，还用于：

相应的，匹配及分析模块304根据所述匹配规则，生成所述各节点的转向表，具体包括：

可选的，匹配及分析模块304，将所述各分词分别所属的语义标签作为主串，输入至AC自动机进行匹配，具体包括：

可选的，确定模块303，还用于将所述各分词中的无效分词去除，获得所述各分词中的有效分词；

确定模块303，确定各分词分别所属的语义标签，具体包括：

确定所述各分词中的各有效分词分别所属的语义标签。

本实施例的装置，可以用于执行图2所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种信息分析的方法，其特征在于，包括：

接收用户输入的待分析文本；

对所述待分析文本进行分词处理；

确定各分词分别所属的语义标签；

将所述各分词分别所属的语义标签与匹配规则进行匹配，得到所述各分词分别所属的语义标签与所述匹配规则中的第一规则匹配的匹配结果，并根据所述匹配结果确定分析结果；

所述将所述各分词分别所属的语义标签与匹配规则进行匹配，得到所述各分词分别所属的语义标签与所述匹配规则中的第一规则匹配的匹配结果，并根据所述匹配结果确定分析结果，包括：

将所述各分词分别所属的语义标签作为主串，输入至AC自动机进行匹配，确定匹配的终节点为第一节点，并从所述第一节点的输出表获得所述分析结果；其中，所述AC自动机中各节点的转向表根据所述匹配规则生成；所述AC自动机的根节点到所述第一节点的路径与所述第一规则对应；

所述将所述各分词分别所属的语义标签作为主串，输入至AC自动机进行匹配之前，还包括：

根据所述各节点作为终节点时分别对应的分析结果，生成所述各节点的输出表；

所述匹配规则包括采用正则表达式和所述预设语义标签描述的规则，以及仅采用所述预设语义标签描述的规则；所述将所述各分词分别所属的语义标签作为主串，输入至AC自动机进行匹配之前，还包括：

根据所述匹配规则中采用所述预设语义标签描述的规则，生成所述各节点的转向表；

所述将所述各分词分别所属的语义标签作为主串，输入至AC自动机进行匹配，包括：

2.根据权利要求1所述的方法，其特征在于，所述确定各分词分别所属的语义标签之前，还包括：将所述各分词中的无效分词去除，获得所述各分词中的有效分词；

所述确定各分词分别所属的语义标签，包括：

确定所述各分词中的各有效分词分别所属的语义标签。

3.一种信息分析的装置，其特征在于，包括：

接收模块，用于接收用户输入的待分析文本；

分词模块，用于对所述待分析文本进行分词处理；

确定模块，用于确定各分词分别所属的语义标签；

匹配及分析模块，用于将所述各分词分别所属的语义标签与匹配规则进行匹配，得到所述各分词分别所属的语义标签与所述匹配规则中的第一规则匹配的匹配结果，并根据所述匹配结果确定分析结果；

所述匹配及分析模块，具体用于：

所述匹配及分析模块，还用于：

所述匹配规则包括采用正则表达式和所述预设语义标签描述的规则，以及仅采用所述预设语义标签描述的规则，所述匹配及分析模块，还用于：

所述匹配及分析模块，将所述各分词分别所属的语义标签作为主串，输入至AC自动机进行匹配，具体包括：

4.根据权利要求3所述的装置，其特征在于，所述确定模块，还用于将所述各分词中的无效分词去除，获得所述各分词中的有效分词；

确定所述各分词中的各有效分词分别所属的语义标签。