CN106933798B - 信息分析的方法及装置 - Google Patents

信息分析的方法及装置 Download PDF

Info

Publication number
CN106933798B
CN106933798B CN201511026271.5A CN201511026271A CN106933798B CN 106933798 B CN106933798 B CN 106933798B CN 201511026271 A CN201511026271 A CN 201511026271A CN 106933798 B CN106933798 B CN 106933798B
Authority
CN
China
Prior art keywords
node
matching
semantic
participles
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201511026271.5A
Other languages
English (en)
Other versions
CN106933798A (zh
Inventor
杨锦峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Urban Network Neighbor Information Technology Co Ltd
Original Assignee
Beijing Urban Network Neighbor Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Urban Network Neighbor Information Technology Co Ltd filed Critical Beijing Urban Network Neighbor Information Technology Co Ltd
Priority to CN201511026271.5A priority Critical patent/CN106933798B/zh
Publication of CN106933798A publication Critical patent/CN106933798A/zh
Application granted granted Critical
Publication of CN106933798B publication Critical patent/CN106933798B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种信息分析的方法及装置;一种信息分析的方法包括:接收用户输入的待分析文本;对所述待分析文本进行分词处理;确定各分词分别所属的语义标签;将所述各分词分别所属的语义标签与匹配规则进行匹配,得到所述各分词分别所属的语义标签与所述匹配规则中的第一规则匹配的匹配结果,并根据所述匹配结果确定分析结果。本发明解决了现有技术中匹配规则较多的问题。

Description

信息分析的方法及装置
技术领域
本发明涉及信息技术领域,尤其涉及一种信息分析的方法及装置。
背景技术
随着互联网的普及和海量信息的涌现,如何快速有效的分析信息已成为制约信息技术发展的一个全局性问题。
现有技术中,一种信息分析的方法为根据匹配规则对待分析文本中的关键字进行匹配,并根据匹配结果确定分析结果,该分析结果例如可以为待分析文本所属的分类、待分析文本对应的操作需求或待分析文本匹配的某个或某些关键字等。其中,该匹配规则为根据预先确定的关键字所设定的匹配规则。
但是,现有技术中存在匹配规则较多的问题。
发明内容
本发明提供一种信息分析的方法及装置,用以解决现有技术中匹配规则较多的问题。
本发明提供一种信息分析的方法,包括:
接收用户输入的待分析文本;
对所述待分析文本进行分词处理;
确定各分词分别所属的语义标签;
将所述各分词分别所属的语义标签与匹配规则进行匹配,得到所述各分词分别所属的语义标签与所述匹配规则中的第一规则匹配的匹配结果,并根据所述匹配结果确定分析结果。
可选的,在本发明一实施例中,所述将所述各分词分别所属的语义标签与匹配规则进行匹配,得到所述各分词分别所属的语义标签与所述匹配规则中的第一规则匹配的匹配结果,并根据所述匹配结果确定分析结果,包括:
将所述各分词分别所属的语义标签作为主串,输入至AC自动机进行匹配,确定匹配的终节点为第一节点,并从所述第一节点的输出表获得所述分析结果;其中,所述AC自动机中各节点的转向表根据所述匹配规则生成;所述AC自动机的根节点到所述第一节点的路径与所述第一规则对应。
可选的,在本发明一实施例中,所述将所述各分词分别所属的语义标签作为主串,输入至AC自动机进行匹配之前,还包括:
根据所述匹配规则,生成所述各节点的转向表;所述转向表中包括预设语义标签以及与所述预设语义标签对应的所述各节点的下一级节点;
根据所述各节点作为终节点时分别对应的分析结果,生成所述各节点的输出表。
可选的,在本发明一实施例中,所述匹配规则包括采用正则表达式和所述预设语义标签描述的规则,以及仅采用所述预设语义标签描述的规则;所述将所述各分词分别所属的语义标签作为主串,输入至AC自动机进行匹配之前,还包括:
根据所述采用正则表达式和所述预设语义标签描述的规则,生成所述各节点的正则表;所述正则表中包括所述预设语义标签、与所述预设语义标签对应的所述各节点的下一级节点以及与所述预设语义标签对应的正则表达式;
相应的,所述根据所述匹配规则,生成所述各节点的转向表,包括:
根据所述匹配规则中采用所述预设语义标签描述的规则,生成所述各节点的转向表。
可选的,在本发明一实施例中,所述将所述各分词分别所属的语义标签作为主串,输入至AC自动机进行匹配,包括:
判断所述各分词分别所属的语义标签中的第N个语义标签是否包括在第二节点的转向表中;其中,N为大于0小于M的正整数,M为所述语义标签的个数,所述第二节点为根节点的第N-1级子节点;
若是,则转移至所述第二节点的转向表中所述第N个语义标签对应的第三节点,形成所述第二节点与所述第三节点之间的路径;
判断所述第N个语义标签是否包括在所述第二节点的正则表中,且所述第N个语义标签对应的分词满足所述第二节点的正则表中所述第N个语义标签对应的正则表达式;
若是,则转移至所述第二节点的正则表中所述第N个语义标签对应的第四节点,形成所述第二节点与所述第四节点之间的路径。
可选的,在本发明一实施例中,所述确定各分词分别所属的语义标签之前,还包括:将所述各分词中的无效分词去除,获得所述各分词中的有效分词;
所述确定各分词分别所属的语义标签,包括:
确定所述各分词中的各有效分词分别所属的语义标签。
本发明提供一种信息分析的装置,包括:
接收模块,用于接收用户输入的待分析文本;
分词模块,用于对所述待分析文本进行分词处理;
确定模块,用于确定各分词分别所属的语义标签;
匹配及分析模块,用于将所述各分词分别所属的语义标签与匹配规则进行匹配,得到所述各分词分别所属的语义标签与所述匹配规则中的第一规则匹配的匹配结果,并根据所述匹配结果确定分析结果。
可选的,在本发明一实施例中,所述匹配及分析模块,具体用于:
将所述各分词分别所属的语义标签作为主串,输入至AC自动机进行匹配,确定匹配的终节点为第一节点,并从所述第一节点的输出表获得所述分析结果;其中,所述AC自动机中各节点的转向表根据所述匹配规则生成;所述AC自动机的根节点到所述第一节点的路径与所述第一规则对应。
可选的,在本发明一实施例中,所述匹配及分析模块,还用于:
根据所述匹配规则,生成所述各节点的转向表;所述转向表中包括预设语义标签以及与所述预设语义标签对应的所述各节点的下一级节点;
根据所述各节点作为终节点时分别对应的分析结果,生成所述各节点的输出表。
可选的,在本发明一实施例中,所述匹配规则包括采用正则表达式和所述预设语义标签描述的规则,以及仅采用所述预设语义标签描述的规则,所述匹配及分析模块,还用于:
根据所述采用正则表达式和所述预设语义标签描述的规则,生成所述各节点的正则表;所述正则表中包括所述预设语义标签、与所述预设语义标签对应的所述各节点的下一级节点以及与所述预设语义标签对应的正则表达式;
相应的,所述匹配及分析模块根据所述匹配规则,生成所述各节点的转向表,具体包括:
根据所述匹配规则中采用所述预设语义标签描述的规则,生成所述各节点的转向表。
可选的,在本发明一实施例中,所述匹配及分析模块,将所述各分词分别所属的语义标签作为主串,输入至AC自动机进行匹配,具体包括:
判断所述各分词分别所属的语义标签中的第N个语义标签是否包括在第二节点的转向表中;其中,N为大于0小于M的正整数,M为所述语义标签的个数,所述第二节点为根节点的第N-1级子节点;
若是,则转移至所述第二节点的转向表中所述第N个语义标签对应的第三节点,形成所述第二节点与所述第三节点之间的路径;
判断所述第N个语义标签是否包括在所述第二节点的正则表中,且所述第N个语义标签对应的分词满足所述第二节点的正则表中所述第N个语义标签对应的正则表达式;
若是,则转移至所述第二节点的正则表中所述第N个语义标签对应的第四节点,形成所述第二节点与所述第四节点之间的路径。
可选的,在本发明一实施例中,所述确定模块,还用于将所述各分词中的无效分词去除,获得所述各分词中的有效分词;
所述确定模块,确定各分词分别所属的语义标签,具体包括:
确定所述各分词中的各有效分词分别所属的语义标签。
本发明提供一种信息分析的方法及装置;通过对待分析文本进行分词处理;确定各分词分别所属的语义标签;将所述各分词分别所属的语义标签与匹配规则进行匹配,得到所述各分词分别所属的语义标签与所述匹配规则中的第一规则匹配的匹配结果,并根据所述匹配结果确定分析结果;使得对属于同一语义标签的多个关键字,可以使用所属的一个语义标签来表示;因此,与使用文本中的关键字描述的匹配规则相比,使用语义标签描述的匹配规则减少了匹配规则的数目。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明信息分析的方法实施例一的流程图;
图2为本发明信息分析的方法实施例二的流程图;
图3为本发明信息分析的装置实施例一的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明信息分析的方法实施例一的流程图;如图1所示,本实施例的方法可以包括:
步骤101、接收用户输入的待分析文本;
例如,待分析文本可以为:转让iphone6保修期内无拆无修。
步骤102、对所述待分析文本进行分词处理;
例如,对上述待分析文本进行分词后可以得到如下分词:转让iphone6保修期内无拆无修。
步骤103、确定各分词分别所属的语义标签;
例如,分词“转让”所属的语义标签可以为“买卖行为”,分词“iphone6”所属的语义标签可以为“苹果手机型号”和“手机型号”,分词“保修期”和“内”所属的语义标签可以为“产品保修状况”,分词“无拆”和“无修”所属的语义标签可以为“产品维修状况”。
步骤104、将所述各分词分别所属的语义标签与匹配规则进行匹配,得到所述各分词分别所属的语义标签与所述匹配规则中的第一规则匹配的匹配结果,并根据所述匹配结果确定分析结果。
例如,匹配规则可以包括:
匹配规则1:买卖行为手机型号;
匹配规则2:买卖行为家电
匹配规则3:买卖行为日用品
进一步的,将上述各分词分别所属的语义标签与匹配规则进行匹配,可以得到所述各分词分别所属的语义标签与匹配规则中的匹配规则1匹配的匹配结果。
需要说明的是,上述匹配规则中“买卖行为”、“苹果手机型号”、“家电”、“日用品”都为语义标签。
若进一步假设,匹配规则1对应的分析结果为手机分类,匹配规则2对应的分析结果为家电分类,匹配规则3对应的分析结果为日用品分类;则根据所述各分词分别所属的语义标签与所述匹配规则中的规则匹配1的匹配结果,可以确定分析结果为手机分类。
本实施例中,通过对待分析文本进行分词处理;确定各分词分别所属的语义标签;将所述各分词分别所属的语义标签与匹配规则进行匹配,得到所述各分词分别所属的语义标签与所述匹配规则中的第一规则匹配的匹配结果,并根据所述匹配结果确定分析结果;使得对属于同一语义标签的多个关键字,可以使用所属的一个语义标签来表示;因此,与使用文本中的关键字描述的匹配规则相比,使用语义标签描述的匹配规则减少了匹配规则的数目。例如,“出售”、“转让”等都属于语义标签“买卖行为”,与使用“出售”和“转让”等描述的匹配规则相比,使用“买卖行为”描述的匹配规则的数量较少。
图2为本发明信息分析的方法实施例二的流程图;如图2所示,本实施例的方法可以包括:
步骤201、接收用户输入的待分析文本;
例如,待分析文本可以为:转让的iphone6保修期内无拆无修。
步骤202、对所述待分析文本进行分词处理;
例如,对上述待分析文本进行分词后可以得到如下分词:转让的iphone6保修期内无拆无修。
步骤203、将所述各分词中的无效分词去除,获得所述各分词中的有效分词;
例如,将分词“的”去除,获得的有效分词为:转让iphone6保修期内无拆无修。
可选的,所述无效分词可以为停用词、标点符号、地址前缀(例如,html)等。
需要说明的是,步骤203为可选步骤;当不执行步骤203时,步骤204-步骤205中都是基于各分词分别所属的语义标签进行处理;当执行步骤203时,步骤204-步骤205中都是基于各有效分词分别所属的语义标签进行处理。
步骤204、确定所述各分词中各有效分词分别所属的语义标签;
需要说明的是,步骤204与步骤103类似,在此不再赘述。
步骤205、将所述各有效分词分别所属的语义标签作为主串,输入至AC(Aho-Corasick)自动机进行匹配,确定匹配的终节点为第一节点,并从所述第一节点的输出表获得所述分析结果;
其中,所述AC自动机中各节点的转向表根据所述匹配规则生成;所述AC自动机的根节点到所述第一节点的路径与所述第一规则对应。
可选的,所述将所述各分词分别所属的语义标签作为主串,输入至AC自动机进行匹配之前,还包括:
根据所述匹配规则,生成所述各节点的转向表;所述转向表中包括预设语义标签以及与所述预设语义标签对应的所述各节点的下一级节点;
根据所述各节点作为终节点时分别对应的分析结果,生成所述各节点的输出表。
可选的,所述匹配规则包括采用正则表达式和所述预设语义标签描述的规则,以及仅采用所述预设语义标签描述的规则;
相应的,所述将所述各分词分别所属的语义标签作为主串,输入至AC自动机进行匹配之前,还包括:
根据所述采用正则表达式和所述预设语义标签描述的规则,生成所述各节点的正则表;所述正则表中包括所述预设语义标签、与所述预设语义标签对应的所述各节点的下一级节点以及与所述预设语义标签对应的正则表达式;
相应的,所述根据所述匹配规则,生成所述各节点的转向表,包括:
根据所述匹配规则中采用所述预设语义标签描述的规则,生成所述各节点的转向表。
例如,匹配规则a:买卖行为苹果手机型号
匹配规则b:买卖行为手机型号产品维修状况#正则表达式1#
其中,正则表达式1为产品维修状况语义标签对应的正则表达式。匹配规则a为仅采用所述预设语义标签描述的规则,对应转向表;匹配规则b为采用正则表达式和所述预设语义标签描述的规则,对应正则表。
可选的,所述产品维修状况对应的正则表达式还可以包括正则表达式2;例如,产品维修状况#正则表达式1#正则表达式2;其中,正则表达式1可以用于描述产品维修状况对应的分词需要满足的条件,正则表达式2可以用于描述产品维修状况语义标签需要满足的条件,例如,当正则表达式2为元字符?时,则表示产品维修状况可以不匹配。
对正则表达式2的举例如下:
假设,根(root)节点的转移表中包括语义标签A,且与语义标签A对应的root节点的下一级节点1;节点1的转移表中包括语义标签B,且与语义标签B对应的节点1的下一级节点2;节点1的正则表中包括语义标签C是,与语义标签C对应的下一级节点3,以及语义标签C对应的正则表达式##?(也即,正则表达式1为空,正则表达式2为?);节点2的转移表包括语义标签C,且与语义标签C对应的节点2的下一级节点4;节点3的转移表包括语义标签C,且与语义标签C对应的节点3的下一级节点5。
则,当各有效分词的语义标签为ABC时,则既可以匹配root节点到节点1,节点1到节点2,节点2到节点4的路径;又可以匹配root节点到节点1,节点1到节点3,节点3到节点5的路径。这里,节点4和节点5都可以认为是匹配的终节点。
可选的,所述将所述各分词分别所属的语义标签作为主串,输入至AC自动机进行匹配,包括:
判断所述各分词分别所属的语义标签中的第N个语义标签是否包括在第二节点的转向表中;其中,N为大于0小于M的正整数,M为所述语义标签的个数,所述第二节点为根节点的第N-1级子节点;
若是,则转移至所述第二节点的转向表中所述第N个语义标签对应的第三节点,形成所述第二节点与所述第三节点之间的路径;
判断所述第N个语义标签是否包括在所述第二节点的正则表中,且所述第N个语义标签对应的分词满足所述第二节点的正则表中所述第N个语义标签对应的正则表达式;
若是,则转移至所述第二节点的正则表中所述第N个语义标签对应的第四节点,形成所述第二节点与所述第四节点之间的路径。
需要说明的是,本发明中所述AC自动机为通过软件实现的算法;例如,执行本发明方法步骤的设备与实现所述AC自动机的设备可以为同一设备。
可选的,所述分析结果可以为分类,例如输入待分析字符串“转让iphone6保修期内无拆无修”对应的分析结果可以为手机分类和/或苹果手机分类;或者,
所述分析结果可以为动作,例如输入待分析字符串“明天的天气”对应的分析结果可以为天气查询动作;或者,
所述分析结果还可以为信息抽取的结果,例如输入待分析字符串“转让iphone6保修期内无拆无修”对应的分析结果可以为手机型号“iphone6”。
可选的,当分析结果为分类时,若匹配出多个分类,则可以根据每个分类对应的分数,确定出分数最高的分类为最终确定的分析结果;或者,也可以通过将相同分类的分数相加,并确定出相加后分数最高的分类为最终确定的分析结果。
本实施例中,通过对待分析文本进行分词处理;将所述各分词中的无效分词去除,获得所述各分词中的有效分词;确定各有效分词分别所属的语义标签;将所述各有效分词分别所属的语义标签作为主串,输入至AC自动机进行匹配,确定匹配的终节点为第一节点,并从所述第一节点的输出表获得所述分析结果;实现了通过AC自动机来实现语义标签的匹配;并且,通过正则表的引入,使得AC自动机可以根据正则表达式所描述的规则进行匹配。
图3为本发明信息分析的装置实施例一的结构示意图;如图3所示,本实施例的装置可以包括:接收模块301、分词模块302、确定模块303、匹配及分析模块304。其中,接收模块301,用于接收用户输入的待分析文本;分词模块302,用于对所述待分析文本进行分词处理;确定模块303,用于确定各分词分别所属的语义标签;匹配及分析模块304,用于将所述各分词分别所属的语义标签与匹配规则进行匹配,得到所述各分词分别所属的语义标签与所述匹配规则中的第一规则匹配的匹配结果,并根据所述匹配结果确定分析结果。
本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
信息分析的装置实施例二
可选的,在本发明信息分析的装置实施例一的基础上,匹配及分析模块304,具体用于:
将所述各分词分别所属的语义标签作为主串,输入至AC自动机进行匹配,确定匹配的终节点为第一节点,并从所述第一节点的输出表获得所述分析结果;其中,所述AC自动机中各节点的转向表根据所述匹配规则生成;所述AC自动机的根节点到所述第一节点的路径与所述第一规则对应。
可选的,匹配及分析模块304,还用于:
根据所述匹配规则,生成所述各节点的转向表;所述转向表中包括预设语义标签以及与所述预设语义标签对应的所述各节点的下一级节点;
根据所述各节点作为终节点时分别对应的分析结果,生成所述各节点的输出表。
可选的,所述匹配规则包括采用正则表达式和所述预设语义标签描述的规则,以及仅采用所述预设语义标签描述的规则,匹配及分析模块304,还用于:
根据所述采用正则表达式和所述预设语义标签描述的规则,生成所述各节点的正则表;所述正则表中包括所述预设语义标签、与所述预设语义标签对应的所述各节点的下一级节点以及与所述预设语义标签对应的正则表达式;
相应的,匹配及分析模块304根据所述匹配规则,生成所述各节点的转向表,具体包括:
根据所述匹配规则中采用所述预设语义标签描述的规则,生成所述各节点的转向表。
可选的,匹配及分析模块304,将所述各分词分别所属的语义标签作为主串,输入至AC自动机进行匹配,具体包括:
判断所述各分词分别所属的语义标签中的第N个语义标签是否包括在第二节点的转向表中;其中,N为大于0小于M的正整数,M为所述语义标签的个数,所述第二节点为根节点的第N-1级子节点;
若是,则转移至所述第二节点的转向表中所述第N个语义标签对应的第三节点,形成所述第二节点与所述第三节点之间的路径;
判断所述第N个语义标签是否包括在所述第二节点的正则表中,且所述第N个语义标签对应的分词满足所述第二节点的正则表中所述第N个语义标签对应的正则表达式;
若是,则转移至所述第二节点的正则表中所述第N个语义标签对应的第四节点,形成所述第二节点与所述第四节点之间的路径。
可选的,确定模块303,还用于将所述各分词中的无效分词去除,获得所述各分词中的有效分词;
确定模块303,确定各分词分别所属的语义标签,具体包括:
确定所述各分词中的各有效分词分别所属的语义标签。
本实施例的装置,可以用于执行图2所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (4)

1.一种信息分析的方法,其特征在于,包括:
接收用户输入的待分析文本;
对所述待分析文本进行分词处理;
确定各分词分别所属的语义标签;
将所述各分词分别所属的语义标签与匹配规则进行匹配,得到所述各分词分别所属的语义标签与所述匹配规则中的第一规则匹配的匹配结果,并根据所述匹配结果确定分析结果;
所述将所述各分词分别所属的语义标签与匹配规则进行匹配,得到所述各分词分别所属的语义标签与所述匹配规则中的第一规则匹配的匹配结果,并根据所述匹配结果确定分析结果,包括:
将所述各分词分别所属的语义标签作为主串,输入至AC自动机进行匹配,确定匹配的终节点为第一节点,并从所述第一节点的输出表获得所述分析结果;其中,所述AC自动机中各节点的转向表根据所述匹配规则生成;所述AC自动机的根节点到所述第一节点的路径与所述第一规则对应;
所述将所述各分词分别所属的语义标签作为主串,输入至AC自动机进行匹配之前,还包括:
根据所述匹配规则,生成所述各节点的转向表;所述转向表中包括预设语义标签以及与所述预设语义标签对应的所述各节点的下一级节点;
根据所述各节点作为终节点时分别对应的分析结果,生成所述各节点的输出表;
所述匹配规则包括采用正则表达式和所述预设语义标签描述的规则,以及仅采用所述预设语义标签描述的规则;所述将所述各分词分别所属的语义标签作为主串,输入至AC自动机进行匹配之前,还包括:
根据所述采用正则表达式和所述预设语义标签描述的规则,生成所述各节点的正则表;所述正则表中包括所述预设语义标签、与所述预设语义标签对应的所述各节点的下一级节点以及与所述预设语义标签对应的正则表达式;
相应的,所述根据所述匹配规则,生成所述各节点的转向表,包括:
根据所述匹配规则中采用所述预设语义标签描述的规则,生成所述各节点的转向表;
所述将所述各分词分别所属的语义标签作为主串,输入至AC自动机进行匹配,包括:
判断所述各分词分别所属的语义标签中的第N个语义标签是否包括在第二节点的转向表中;其中,N为大于0小于M的正整数,M为所述语义标签的个数,所述第二节点为根节点的第N-1级子节点;
若是,则转移至所述第二节点的转向表中所述第N个语义标签对应的第三节点,形成所述第二节点与所述第三节点之间的路径;
判断所述第N个语义标签是否包括在所述第二节点的正则表中,且所述第N个语义标签对应的分词满足所述第二节点的正则表中所述第N个语义标签对应的正则表达式;
若是,则转移至所述第二节点的正则表中所述第N个语义标签对应的第四节点,形成所述第二节点与所述第四节点之间的路径。
2.根据权利要求1所述的方法,其特征在于,所述确定各分词分别所属的语义标签之前,还包括:将所述各分词中的无效分词去除,获得所述各分词中的有效分词;
所述确定各分词分别所属的语义标签,包括:
确定所述各分词中的各有效分词分别所属的语义标签。
3.一种信息分析的装置,其特征在于,包括:
接收模块,用于接收用户输入的待分析文本;
分词模块,用于对所述待分析文本进行分词处理;
确定模块,用于确定各分词分别所属的语义标签;
匹配及分析模块,用于将所述各分词分别所属的语义标签与匹配规则进行匹配,得到所述各分词分别所属的语义标签与所述匹配规则中的第一规则匹配的匹配结果,并根据所述匹配结果确定分析结果;
所述匹配及分析模块,具体用于:
将所述各分词分别所属的语义标签作为主串,输入至AC自动机进行匹配,确定匹配的终节点为第一节点,并从所述第一节点的输出表获得所述分析结果;其中,所述AC自动机中各节点的转向表根据所述匹配规则生成;所述AC自动机的根节点到所述第一节点的路径与所述第一规则对应;
所述匹配及分析模块,还用于:
根据所述匹配规则,生成所述各节点的转向表;所述转向表中包括预设语义标签以及与所述预设语义标签对应的所述各节点的下一级节点;
根据所述各节点作为终节点时分别对应的分析结果,生成所述各节点的输出表;
所述匹配规则包括采用正则表达式和所述预设语义标签描述的规则,以及仅采用所述预设语义标签描述的规则,所述匹配及分析模块,还用于:
根据所述采用正则表达式和所述预设语义标签描述的规则,生成所述各节点的正则表;所述正则表中包括所述预设语义标签、与所述预设语义标签对应的所述各节点的下一级节点以及与所述预设语义标签对应的正则表达式;
相应的,所述匹配及分析模块根据所述匹配规则,生成所述各节点的转向表,具体包括:
根据所述匹配规则中采用所述预设语义标签描述的规则,生成所述各节点的转向表;
所述匹配及分析模块,将所述各分词分别所属的语义标签作为主串,输入至AC自动机进行匹配,具体包括:
判断所述各分词分别所属的语义标签中的第N个语义标签是否包括在第二节点的转向表中;其中,N为大于0小于M的正整数,M为所述语义标签的个数,所述第二节点为根节点的第N-1级子节点;
若是,则转移至所述第二节点的转向表中所述第N个语义标签对应的第三节点,形成所述第二节点与所述第三节点之间的路径;
判断所述第N个语义标签是否包括在所述第二节点的正则表中,且所述第N个语义标签对应的分词满足所述第二节点的正则表中所述第N个语义标签对应的正则表达式;
若是,则转移至所述第二节点的正则表中所述第N个语义标签对应的第四节点,形成所述第二节点与所述第四节点之间的路径。
4.根据权利要求3所述的装置,其特征在于,所述确定模块,还用于将所述各分词中的无效分词去除,获得所述各分词中的有效分词;
所述确定模块,确定各分词分别所属的语义标签,具体包括:
确定所述各分词中的各有效分词分别所属的语义标签。
CN201511026271.5A 2015-12-31 2015-12-31 信息分析的方法及装置 Active CN106933798B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511026271.5A CN106933798B (zh) 2015-12-31 2015-12-31 信息分析的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511026271.5A CN106933798B (zh) 2015-12-31 2015-12-31 信息分析的方法及装置

Publications (2)

Publication Number Publication Date
CN106933798A CN106933798A (zh) 2017-07-07
CN106933798B true CN106933798B (zh) 2020-09-08

Family

ID=59441888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511026271.5A Active CN106933798B (zh) 2015-12-31 2015-12-31 信息分析的方法及装置

Country Status (1)

Country Link
CN (1) CN106933798B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334491B (zh) * 2017-09-08 2020-07-31 腾讯科技(深圳)有限公司 文本分析方法、装置、计算设备及存储介质
CN107665192A (zh) * 2017-11-29 2018-02-06 国网上海市电力公司 一种调度运行告警信息自动分类装置及方法
CN111026916B (zh) * 2019-12-10 2023-07-04 北京百度网讯科技有限公司 文本描述的转换方法、装置、电子设备及存储介质
CN112559550B (zh) * 2020-10-30 2021-09-07 北京智源人工智能研究院 基于语义规则和多维模型的多数据源nl2sql系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286988A (zh) * 2008-04-18 2008-10-15 北京启明星辰信息技术股份有限公司 一种并行多模式匹配的方法及系统
CN102279875A (zh) * 2011-06-24 2011-12-14 成都市华为赛门铁克科技有限公司 钓鱼网站的识别方法和装置
CN103150432A (zh) * 2013-03-07 2013-06-12 宁波成电泰克电子信息技术发展有限公司 一种网络舆情分析方法
CN104954346A (zh) * 2014-03-31 2015-09-30 北京奇虎科技有限公司 基于对象分析的攻击识别方法及装置
CN105069560A (zh) * 2015-07-30 2015-11-18 中国科学院软件研究所 一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9305116B2 (en) * 2010-04-20 2016-04-05 International Business Machines Corporation Dual DFA decomposition for large scale regular expression matching

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286988A (zh) * 2008-04-18 2008-10-15 北京启明星辰信息技术股份有限公司 一种并行多模式匹配的方法及系统
CN102279875A (zh) * 2011-06-24 2011-12-14 成都市华为赛门铁克科技有限公司 钓鱼网站的识别方法和装置
CN103150432A (zh) * 2013-03-07 2013-06-12 宁波成电泰克电子信息技术发展有限公司 一种网络舆情分析方法
CN104954346A (zh) * 2014-03-31 2015-09-30 北京奇虎科技有限公司 基于对象分析的攻击识别方法及装置
CN105069560A (zh) * 2015-07-30 2015-11-18 中国科学院软件研究所 一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Aho-Corasick自动机算法(简称AC自动机);Amars_丁;《CSDN博客https://blog.csdn.net/amars_ding/article/details/21224415》;20140314;第1-9页 *

Also Published As

Publication number Publication date
CN106933798A (zh) 2017-07-07

Similar Documents

Publication Publication Date Title
US10467664B2 (en) Method for detecting spam reviews written on websites
Hu et al. Online social spammer detection
Boia et al. A:) is worth a thousand words: How people attach sentiment to emoticons and words in tweets
US9633002B1 (en) Systems and methods for coreference resolution using selective feature activation
WO2019236164A1 (en) Method and apparatus for determining user intent
US20180293294A1 (en) Similar Term Aggregation Method and Apparatus
CN106933798B (zh) 信息分析的方法及装置
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN108920665B (zh) 基于网络结构和评论文本的推荐评分方法及装置
CN104462396B (zh) 字符串处理方法和装置
CN111767725A (zh) 一种基于情感极性分析模型的数据处理方法及装置
Susanti et al. Twitter’s sentiment analysis on GSM services using Multinomial Naïve Bayes
CN105512104A (zh) 词典降维方法及装置、信息分类方法及装置
US20170034111A1 (en) Method and Apparatus for Determining Key Social Information
Bhakuni et al. Evolution and evaluation: Sarcasm analysis for twitter data using sentiment analysis
CN106933878B (zh) 一种信息处理方法及装置
CN112966081A (zh) 处理问答信息的方法、装置、设备和存储介质
Gull et al. A comparative analysis of lexical/NLP method with WEKA’s bayes classifier
US20180032907A1 (en) Detecting abusive language using character n-gram features
Singh et al. Sentiment analysis using lexicon based approach
CN112667780A (zh) 一种评论信息的生成方法、装置、电子设备及存储介质
Rani et al. Study and comparision of vectorization techniques used in text classification
Sangeetha et al. Aspects based opinion mining from online reviews for product recommendation
CN108984777B (zh) 客户服务方法、装置和计算机可读存储介质
Reddy et al. Prediction of star ratings from online reviews

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant