CN104462279B - 分析对象特征信息的获取方法和装置 - Google Patents

分析对象特征信息的获取方法和装置 Download PDF

Info

Publication number
CN104462279B
CN104462279B CN201410693965.3A CN201410693965A CN104462279B CN 104462279 B CN104462279 B CN 104462279B CN 201410693965 A CN201410693965 A CN 201410693965A CN 104462279 B CN104462279 B CN 104462279B
Authority
CN
China
Prior art keywords
text message
keyword
analyzed
text
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410693965.3A
Other languages
English (en)
Other versions
CN104462279A (zh
Inventor
梁梦溪
杨韬
余德乐
何鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201410693965.3A priority Critical patent/CN104462279B/zh
Publication of CN104462279A publication Critical patent/CN104462279A/zh
Application granted granted Critical
Publication of CN104462279B publication Critical patent/CN104462279B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分析对象特征信息的获取方法和装置。其中,该获取方法包括:获取用于获取待分析对象的特征信息的获取请求;获取待分析对象的关键词和关键词的属性信息;检测待分析对象的第一文本信息中是否存在关键词;若待分析对象的第一文本信息中存在关键词,则检测第一文本信息中是否存在属性信息;若第一文本信息中存在属性信息,则确定关键词和属性信息所指示的特征信息。通过本发明,解决了现有技术中对待分析对象的特征信息的提取不完整,导致对待分析对象的特征统计不准确的问题,实现了全面准确获取文本信息的特征信息的效果,从而提高了对待分析对象的特征统计的准确性。

Description

分析对象特征信息的获取方法和装置
技术领域
本发明涉及网络技术领域,具体而言,涉及一种分析对象特征信息的获取方法和装置。
背景技术
当今社会的网络环境中,网民及各个网络媒体平台对某一事物的观点和看法,已经成为了社会舆论情况组成中非常重要的一部分。对于企业、政府部门等机构来说,为了更好的了解其产品、服务、政策或某一即时事件在互联网上被探讨的情况,搜集、提取网民及网络媒体对待分析对象的评价信息,也是必要的一项工作。
现有的待分析对象网络评价的提取采用以下方法:针对一个待分析对象的某一评价点,给定评价模板,该评价模板内包含与该评价点相关的语句。在分析范围内,对网络文本进行分析,将网络文本与该评价模板内的所有语句进行匹配,根据匹配结果反映关于该评价点的描述在所分析的网络文本内的出现情况。
以针对待分析对象【吉普】的评价点【油耗】为例,对现有的提取方法进行分步阐述:
1.确定待分析对象为【吉普】,希望在分析范围内提取与评价点【油耗】相关的内容。
2.创建【油耗】评价模板,在该评价模板内设定3类语句,分别就【油耗】的高中低进行描述,如:
1)***太费油了——油耗高;
2)觉得***油耗还行——油耗一般;
3)我朋友说***挺省油的——油耗低。
其中,【***】用以指代待分析对象,在本示例中即【吉普】。
3.针对网络文本的内容,匹配评价模板中的3条语句,即:
1)吉普太费油了——油耗高;
2)觉得吉普油耗还行——油耗一般;
3)我朋友说吉普挺省油的——油耗低。
4.对上述3条语句在分析范围内的出现次数进行统计:
1)吉普太费油了——油耗高,出现60次;
2)觉得吉普油耗还行——油耗一般,出现30次;
3)我朋友说吉普挺省油的——油耗低,出现10次。
5.结论:针对【吉普】这一待分析对象,在限定的分析范围内,网络文本中对其【油耗】的评价内容一共出现了100次,其中,认为其【油耗高】的内容占60%,认为其【油耗一般】的内容占30%,认为其【油耗低】的内容占10%。
根据上述现有的评价提取方法的过程可知,其缺点在于,通过该方法对网络文本中的评价情况进行分析提取时,仅能识别评价模板内已有的固定语句,即网络文本内容需要与评价模板内的语句精确匹配,否则不能被识别和提取计数。例如,以上述【吉普】示例来说,假设所分析的网络文本内存在语句“吉普其实还挺费油的”,根据现有方法,没有与模板内任意一条语句完全匹配,则该语句不能被识别和提取计数。
针对现有技术中对待分析对象的特征信息的提取不完整,导致对待分析对象的特征统计不准确的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中对待分析对象的特征信息的提取不完整,导致对待分析对象的特征统计不准确的问题,目前尚未提出有效的解决方案,为此,本发明的主要目的在于提供一种分析对象特征信息的获取方法和装置,以解决上述问题。
为了实现上述目的,根据本发明的一个方面,提供了一种分析对象特征信息的获取方法,该获取方法包括:获取用于获取待分析对象的特征信息的获取请求;获取待分析对象的关键词和关键词的属性信息;检测待分析对象的第一文本信息中是否存在关键词;若待分析对象的第一文本信息中存在关键词,则检测第一文本信息中是否存在属性信息;若第一文本信息中存在属性信息,则确定关键词和属性信息所指示的特征信息。
进一步地,在检测待分析对象的第一文本信息中是否存在关键词之前,获取方法包括:获取待分析对象的第二文本信息;按照预设的划分方式将第二文本信息划分为多个第一文本信息;检测待分析对象的第一文本信息中是否存在关键词包括:按顺序逐个检测第一文本信息中是否存在关键词。
进一步地,按照预设的划分方式将第二文本信息划分为多个第一文本信息包括:将第二文本信息中符合预设字数的片段作为第一文本信息;或将第二文本信息按照标点符号划分为多个第一文本信息;或将第二文本信息中符合预设词语数的片段作为第一文本信息。
进一步地,检测第一文本信息中是否存在属性信息包括:检测第一文本信息中是否存在属性信息中的第一词语,其中,属性信息包括一个或多个第一词语;若第一文本信息中存在第一词语,则确定第一文本信息中存在属性信息。
进一步地,在确定关键词和属性信息所指示的特征信息之后,获取方法还包括:统计各个第一词语的总数,及各个属性信息对应的第二文本信息的总数。
进一步地,确定关键词和属性信息所指示的特征信息包括:从第一文本信息中提取关键词和第一词语之间的所有第二词语;将关键词、所有第二词语以及第一词语作为特征信息。
为了实现上述目的,根据本发明的另一方面,提供了一种分析对象特征信息的获取装置,该获取装置包括:第一获取模块,用于获取待分析对象的特征信息的获取请求;第二获取模块,用于获取待分析对象的关键词和关键词的属性信息;第一检测模块,用于检测待分析对象的第一文本信息中是否存在关键词;第二检测模块,用于在待分析对象的第一文本信息中存在关键词的情况下,检测第一文本信息中是否存在属性信息;第一确定模块,用于在第一文本信息中存在属性信息的情况下,确定关键词和属性信息所指示的特征信息。
进一步地,获取装置包括:第三获取模块,用于在检测待分析对象的第一文本信息中是否存在关键词之前,获取待分析对象的第二文本信息;划分模块,用于按照预设的划分方式将第二文本信息划分为多个第一文本信息;第一检测模块包括:第一检测子模块,用于按顺序逐个检测第一文本信息中是否存在关键词。
进一步地,划分模块包括:第一划分子模块,用于划分第二文本信息中符合预设字数的片段作为第一文本信息;或第二划分子模块,用于将第二文本信息按照标点符号划分为多个第一文本信息;或第三划分子模块,用于划分第二文本信息中符合预设词语数的片段作为第一文本信息。
进一步地,第二检测模块包括:第二检测子模块,用于检测第一文本信息中是否存在属性信息中的第一词语,其中,属性信息包括一个或多个第一词语;第二确定模块,用于在第一文本信息中存在第一词语的情况下,确定第一文本信息中存在属性信息。
进一步地,获取装置还包括:统计模块,用于在确定关键词和属性信息所指示的特征信息之后,统计各个第一词语的总数,及各个属性信息对应的第二文本信息的总数。
进一步地,第一确定模块包括:提取模块,用于从第一文本信息中提取关键词和第一词语之间的所有第二词语;确定子模块,用于确定关键词、所有第二词语以及第一词语作为特征信息。
采用本发明实施例,通过检测第一文本信息中是否存在待分析对象的关键词和关键词的属性信息,来判断待分析对象是否具有特征信息,也即通过关键词和关键词的属性信息对待分析对象的第一文本信息的模糊匹配确定特征信息,无需将待分析对象的第一文本信息与模板内的语句进行精确匹配。在上述实施例中,通过关键词和关键词的属性信息对待分析对象的第一文本信息的模糊匹配,可以对同一特征信息的不同表述方式进行识别,避免了现有技术中由于模板语句设置不全面,造成获取到的待分析对象的特征信息不完整的问题。通过本发明实施例,解决了现有技术中对待分析对象的特征信息的提取不完整,导致对待分析对象的特征统计不准确的问题,实现了全面准确获取文本信息的特征信息的效果,从而提高了对待分析对象的特征统计的准确性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的分析对象特征信息的获取方法的流程图;
图2是根据本发明实施例的一种可选的关键词和属性信息的关系的示意图;
图3是根据本发明实施例的一种可选的分析对象特征信息的获取方法的流程图;以及
图4是根据本发明实施例的分析对象特征信息的获取装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
图1是根据本发明实施例的分析对象特征信息的获取方法的流程图,如图1所示该获取方法包括如下步骤:
步骤S102,获取用于获取待分析对象的特征信息的获取请求。
步骤S104,获取待分析对象的关键词和关键词的属性信息。
步骤S106,检测待分析对象的第一文本信息中是否存在关键词。
在待分析对象的第一文本信息中存在关键词的情况下,执行步骤S108;在待分析对象的第一文本信息中不存在关键词的情况下,执行步骤S112。
步骤S108,检测第一文本信息中是否存在属性信息。
在第一文本信息中存在属性信息的情况下,执行步骤S110;在第一文本信息中不存在属性信息的情况下,执行步骤S112。
步骤S110,确定关键词和属性信息所指示的特征信息。
步骤S112,确定第一文本信息中不存在特征信息。
采用本发明实施例,通过检测第一文本信息中是否存在待分析对象的关键词和关键词的属性信息,来判断待分析对象是否具有特征信息,也即通过关键词和关键词的属性信息对待分析对象的第一文本信息的模糊匹配确定特征信息,无需将待分析对象的第一文本信息与模板内的语句进行精确匹配。在上述实施例中,通过关键词和关键词的属性信息对待分析对象的第一文本信息的模糊匹配,可以对同一特征信息的不同表述方式进行识别,避免了现有技术中由于模板语句设置不全面,造成获取到的待分析对象的特征信息不完整的问题。通过本发明实施例,解决了现有技术中对待分析对象的特征信息的提取不完整,导致对待分析对象的特征统计不准确的问题,实现了全面准确获取文本信息的特征信息的效果,从而提高了对待分析对象的特征统计的准确性。
根据本发明上述实施例,在检测待分析对象的第一文本信息中是否存在关键词之前,获取方法可以包括:获取待分析对象的第二文本信息;按照预设的划分方式将第二文本信息划分为多个第一文本信息;检测待分析对象的第一文本信息中是否存在关键词包括:按顺序逐个检测第一文本信息中是否存在关键词。
具体地,在获取待分析对象的第二文本信息之后,按照预设的划分方式将爬取到的第二文本信息划分为多个第一文本信息,并按顺序逐个检测该第一文本信息中是否存在关键词。
上述的待分析对象的第二文本信息可以为通过爬虫代码从网站资源上爬取到的一个或多个网络文本、通过扫描纸质文件得到的电子文本以及手动输入的电子文本等。
例如,若要获取购物网站上的某个商品(即上述实施例中的待分析对象)销售后的用户评价信息,可以通过爬虫代码从购物网站上获取该商品的一个或多个用户评价,爬取到的用户评价的文本内容即为上述实施例中的第二文本信息。
进一步地,按照预设的划分方式将第二文本信息划分为多个第一文本信息可以包括:将第二文本信息中符合预设字数的片段作为第一文本信息;或将第二文本信息按照标点符号划分为多个第一文本信息;或将第二文本信息中符合预设词语数的片段作为第一文本信息。
在本发明一个可选的实施例中,可以从第二文本信息中的第一个字开始,按顺序连续获取符合预设字数的第一个片段,然后从第二文本信息中的第二个字开始,按顺序连续获取符合预设字数的第二个片段,直至获取到的片段的最后一个字为该第二文本信息中的最后一个字为止。
例如,将第二文本信息“听说进口吉普的指南者油耗有点高啊”(共16个字)按预设字数(如,10个字)划分为多个(在该实施例中为7个)第一文本信息,可以得到如下7个片段(即上述实施例中的第一文本信息):(1)听说进口吉普的指南者;(2)说进口吉普的指南者油;(3)进口吉普的指南者油耗;(4)口吉普的指南者油耗有;(5)吉普的指南者油耗有点;(6)普的指南者油耗有点高;以及(7)的指南者油耗有点高啊。
在另一个可选的实施例中,可以从第二文本信息中的第一个词语开始,按照顺序连续获取符合预设词语数的第一个片段,然后从第二文本信息中的第二个词语开始,按照顺序连续获取符合预设词语数的第二个片段,直至获取到的片段的最后一个词语为该第二文本信息中的最后一个词语为止。
例如,将第二文本信息“听说进口吉普的指南者油耗有点高啊”按预设词语数(如,5个词语)划分为多个第一文本信息,可以得到如下5个片段(即上述实施例中的第一文本信息):(1)听说进口吉普的指南者;(2)进口吉普的指南者油耗;(3)吉普的指南者油耗有点;(4)的指南者油耗有点高;以及(5)指南者油耗有点高啊。
上述的词语是预设的,按照预设词语数划分第二文本信息时,可以按照预设的词语来确定词语数并划分第二文本信息,如,上述第二文本信息中的词语可以包括:听说、进口、吉普、的、指南者、油耗、有点、高以及啊。
在上述的实施例中,对第二文本信息的划分是以预设的划分方式对字符串进行划分,取若干个连续的片段,得到第一文本信息。通过本发明上述实施例,只有在同一个第一文本信息中同时出现关键词和属性信息时,才认为该属性信息是描述该关键词的。通过限定关键词和属性信息之间的距离,避免了在不同第一文本信息中检测到关键词和属性信息时,错误的获取该关键词和属性信息对应的特征信息的问题,提高了获取特征信息的准确性。
例如,若获取到的第二文本信息为一篇文章,该文章中包括十句话,可以按照标点符号划分该文章,如将每句话作为一个第一文本信息,其中,第一句话为“最近听说有些网友对吉普的油耗发表了一些评价”,第十句话为“网友们提供的评价内容对我来说很有用,很高兴能得到大家的帮助,非常感谢”,那么可以在第一个第一文本信息中检测到“油耗”这一关键词,并在第十个第一文本信息中检测到“高”这一属性信息,但是很显然第十个第一文本信息中检测到的属性信息不是描述第一个第一文本信息中的关键词,若将该属性信息和该关键词作为获取特征信息的依据,则会获得错误的特征信息。在上述实施例中,限定了只有在同一个第一文本信息中检测到关键词和属性信息时,才获取检测到的关键词和属性信息对应的特征信息,通过该实施例限定了关键词和属性信息之间的距离,提高了获取特征信息的准确性。
在本发明的上述实施例中,检测第一文本信息中是否存在属性信息可以包括:检测第一文本信息中是否存在属性信息中的第一词语,其中,属性信息包括一个或多个第一词语;若第一文本信息中存在第一词语,则确定第一文本信息中存在属性信息。
具体地,只要在第一文本信息中检测到属性信息中的任意一个第一词语,即可确定该第一文本信息中存在属性信息。
在上述实施例中,可以从预设的词语数据库中读取待分析对象的关键词、该关键词的属性信息的一个或多个第一词语。
图2是根据本发明实施例的一种可选的关键词和属性信息的关系的示意图。下面结合图2详细说明本发明上述实施例。
如图2所示,待分析对象可以对应一个或多个关键词,如图2中的待分析对象可以对应“关键词1,……,关键词m”;每个关键词可以对应一个或多个属性信息,如图2中的关键词1可以对应“属性信息11、属性信息12和属性信息13”,和关键词m可以对应“属性信息m1和属性信息m2”;每个属性信息可以包括一个或多个第一词语,如图2中的属性信息11可以包括“第一词语111,……,第一词语11N”、属性信息12可以包括“第一词语121,……,第一词语12N”、属性信息13可以包括“第一词语131,……,第一词语13N”,以及属性信息m1可以包括“第一词语m11,……,第一词语m1N”和属性信息m2可以包括“第一词语m21,……,第一词语m2N”。
在该实施例中,若待分析对象为吉普,那么图2中的关键词1可以是“油耗”,关键词N可以是与吉普有关的其他关键词(如,价格或者性能);关键词1对应的属性信息可以“高”、“一般”以及“低”三个属性信息;每个属性信息均可以包括一个或多个第一词语,如属性信息“高”可以包括如“高”、“较高”、“很高”和“不低”等多个第一词语、属性信息“一般”可以包括“一般”“还可以”以及“还行”等多个第一词语,以及属性信息“低”可以包括“不高”、“较低”、“低”以及“很低”等多个第一词语。
通过本发明上述实施例,在对第一文本信息中的内容进行检测时,不限制关键词与属性信息的第一词语之间的组合形式(如,在文本信息中出现的先后顺序以及两组词之间包含的其他内容),只要第一文本信息中同时出现关键词与该第一词语的任意组合,即可确定该第一文本信息中存在属性信息。通过上述实施例,避免了由于模板中的语句设置不全面,导致待分析对象的特征信息获取遗漏的问题,提高了获取待分析对象的特征信息的准确性。
根据本发明上述实施例,在确定关键词和属性信息所指示的特征信息之后,获取方法还可以包括:统计各个第一词语的总数,及各个属性信息对应的第二文本信息的总数。
具体地,在获取到各个第一词语对应的特征信息之后,统计各个第一词语的总数以获得特征信息的出现次数,并统计包含各个属性信息的第二文本信息的总数以获得各个属性信息的出现次数。
例如,若第二文本信息为一篇文章,该文章为对吉普油耗(即上述实施例中的关键词)的评价,且文章中出现了10个关于油耗高的评价信息(即上述实施例中的属性信息为“高”,且文章中出现了10个第一词语),那么在统计各个属性信息对应的第二文本信息的总数时,计数为1;在统计各个第一词语的总数时,计数为10。
在上述实施例中,通过统计到的第一词语的总数可以得到各个特征信息出现的总数,由于一个第二文本信息中可能出现一个属性信息的多个第一词语,但是该第二文本信息仅表达了该属性信息所指示的观点,那么通过统计包含各个属性信息的第二文本信息的总数可以得到表达有不同观点的各个文本的总数。
通过本发明上述实施例,可以反映待分析对象的各个特征信息的出现次数,以及含有各个特征信息的第二文本信息的总数,可以在用户需要了解待分析对象的某个特征信息时,为用户提供准确可靠的信息。
在本发明的上述实施例中,确定关键词和属性信息所指示的特征信息可以包括:从第一文本信息中提取关键词和第一词语之间的所有第二词语;将关键词、所有第二词语以及第一词语作为特征信息。
具体地,在第一文本信息中检测到关键词和第一词语之后,提取该关键词和该第一词语之间所有的词语(或文字),将该关键词、该第一词语以及提取到的词语(或文字)作为第一文本信息的特征信息。
例如,在第一文本信息“普的指南者油耗有点高”中,检测到关键词“油耗”和第一词语“高”,则提取第一文本信息中的“油耗有点高”,并将其作为第一文本信息的特征信息。
在上述实施例中,可将关键词、第一词语及其二者之间的内容全部提取出来,作为第一文本信息的特征信息。通过本发明上述实施例,避免了现有技术中由于模板的语句设置不全面而造成的待分析对象特征信息的提取遗漏,提高了提取特征信息的准确性及可靠性。
图3是根据本发明实施例的一种可选的分析对象特征信息的获取方法的流程图。下面结合图3详细介绍本发明上述实施例。
如图3所示,该获取方法可以包括如下步骤:
步骤S302,确定待分析对象。
步骤S304,从词语数据库中读取待分析对象的关键词以及评价词语。
上述的评价词语即本发明上述实施例中的第一词语。
在执行步骤310之前,执行步骤S306。
步骤S306,通过爬虫代码爬取网站资源上的网络文本。
其中,网络文本即为本发明上述实施例中的第二文本信息。
步骤S308,将爬取到的网络文本按预设拆分方式拆分为N个子文本。
其中,子文本即本发明上述实施例中的第一文本信息;预设拆分方式即本发明上述实施例中的预设的划分方式。
在得到N个子文本之后,执行步骤S310。
步骤S310,依次获取子文本。
具体地,在首次执行该步骤时,获取第一个子文本。
步骤S312,判断是否在子文本中查找到关键词。
在查找到关键词的情况下,执行步骤S314;在未查找到关键词的情况下,返回执行步骤S310,即获取下一个子文本,若第N次执行步骤S312,则获取第N+1个子文本。
步骤S314,在子文本内查找评价词语。
步骤S316,判断是否在子文本内查找到评价词语。
在查找到评价词语的情况下,结束该循环;在未查找到评价词语的情况下,返回执行步骤S310。
具体地,针对待分析对象,从词语数据库中读取两组词语:关键词和评价词语,该关键词和评价词语相互对应;在爬取到网络文本并将其拆分为N个子文本之后,按照关键词和评价词语按顺序逐个对N个子文本执行查找操作;在同一个子文本内查找到关键词和评价词语的情况下,结束该查找操作;若在子文本内未查找到关键词或评价词语,则继续查找下一个子文本,直至在同一个子文本内查找到关键词和评价词语,或者查找完所有子文本。
下面以待分析对象“吉普”为例,详细介绍图3所示的获取方法。
从词语数据库中读取关键词为“油耗”,从词语数据库中读取油耗的评价词语“高、低和一般”,将从网站资源上获取的所有包含“吉普”一词的网络文本,以句子为单位,将每个句子划分成多个子文本,按顺序逐个查找子文本中是否包含关键词“油耗”以及评价词语内的词汇(即上述的高、低和一般)。
在上述实施例中的评价词语“高、低和一般”仅作示例性说明,在实际操作中评价词语还可以包括:较高、不低等词汇。
在多个子文本内,按顺序查找每个子文本是否包含“油耗”一词;在某个子文本内找到“油耗”后,在该子文本“油耗”一词的前后查找“高,低和一般”几个词汇:若查找到“高”,则提取出“油耗”与“高”之间的全部词语,并确定该部分文本即表达了“油耗高”这一评价观点;若未找到“油耗”一词,或找到“油耗”但未找到“高,低和一般”,则在下一个子文本内重复以上查找。
对上述的步骤详解如下:
S1.确定“吉普”为待分析对象。
S2.确定待分析对象的关键词为“油耗”,同时确定“高,低和一般”为该关键词的评价词语。
S3.将网络文本“听说进口吉普的指南者油耗有点高啊!”以固定字数(如,10个字)的拆分方式,拆分成以下7段子文本:
1)听说进口吉普的指南者;
2)说进口吉普的指南者油;
3)进口吉普的指南者油耗;
4)口吉普的指南者油耗有;
5)吉普的指南者油耗有点;
6)普的指南者油耗有点高;
7)的指南者油耗有点高啊。
S4.逐个查找步骤S3中的7段子文本中是否包含“油耗”一词,查找过程如下:
1)未查找到“油耗”一词,进入下一个子文本;
2)未查找到“油耗”一词,进入下一个子文本;
3)查找到“油耗”一词,未查找到“高,低和一般”,进入下一个子文本;
4)查找到“油耗”一词,未查找到“高,低和一般”,进入下一个子文本;
5)查找到“油耗”一词,未查找到“高,低和一般”,进入下一个子文本;
6)查找到“油耗”一词,同时查找到“高”,提取两个词之间的全部内容“油耗有点高”,并停止查找。
S5.完成对该网络文本的分析,确定其对待分析对象“吉普”的内容表述为“油耗-高”这一评价观点。
通过本发明上述实施例,对包含吉普的网络文本执行查找操作,查找该网络文本中是否包含关键词和评价词语;同一子文本内查找到关键词和评价词语中的一个词语之后,提取关键词和评价词语之间的全部内容,并依此确定该网络文本表述的评价观点。通过上述实施例,避免了现有技术中由于模板的语句设置不全面而造成的待分析对象的评价信息的提取不完整,导致对待分析对象的评价信息统计不准确的问题,只需在网络文本中查找关键词和评价词语,即可判断该网络文本所表达的评价观点,提高了获取评价信息的灵活性和准确性,可以得到更加全面可靠的评价信息统计结果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图4是根据本发明实施例的分析对象特征信息的获取装置的示意图,如图4所示,该获取装置可以包括:第一获取模块10、第二获取模块30、第一检测模块50、第二检测模块70以及第一确定模块90。
其中,第一获取模块10用于获取待分析对象的特征信息的获取请求;第二获取模块30用于获取待分析对象的关键词和关键词的属性信息;第一检测模块50用于检测待分析对象的第一文本信息中是否存在关键词;第二检测模块70用于在待分析对象的第一文本信息中存在关键词的情况下,检测第一文本信息中是否存在属性信息;第一确定模块90用于在第一文本信息中存在属性信息的情况下,确定关键词和属性信息所指示的特征信息。
采用本发明实施例,通过第一检测模块和第二检测模块检测第一文本信息中是否存在待分析对象的关键词和关键词的属性信息,来判断待分析对象是否具有特征信息,也即通过关键词和关键词的属性信息对待分析对象的第一文本信息的模糊匹配确定特征信息,无需将待分析对象的第一文本信息与模板内的语句进行精确匹配。在上述实施例中,通过关键词和关键词的属性信息对待分析对象的第一文本信息的模糊匹配,可以对同一特征信息的不同表述方式进行识别,避免了现有技术中由于模板语句设置不全面,造成获取到的待分析对象的特征信息不完整的问题。通过本发明实施例,解决了现有技术中对待分析对象的特征信息的提取不完整,导致对待分析对象的特征统计不准确的问题,实现了全面准确获取文本信息的特征信息的效果,从而提高了对待分析对象的特征统计的准确性。
根据本发明上述实施例,获取装置可以包括:第三获取模块,用于在检测待分析对象的第一文本信息中是否存在关键词之前,获取待分析对象的第二文本信息;划分模块,用于按照预设的划分方式将第二文本信息划分为多个第一文本信息;第一检测模块包括:第一检测子模块,用于按顺序逐个检测第一文本信息中是否存在关键词。
具体地,在获取待分析对象的第二文本信息之后,按照预设的划分方式将爬取到的第二文本信息划分为多个第一文本信息,并按顺序逐个检测该第一文本信息中是否存在关键词。
上述的待分析对象的第二文本信息可以为通过爬虫代码从网站资源上爬取到的一个或多个网络文本、通过扫描纸质文件得到的电子文本以及手动输入的电子文本等。
进一步地,划分模块可以包括:第一划分子模块,用于划分第二文本信息中符合预设字数的片段作为第一文本信息;或第二划分子模块,用于将第二文本信息按照标点符号划分为多个第一文本信息;或第三划分子模块,用于划分第二文本信息中符合预设词语数的片段作为第一文本信息。
在本发明一个可选的实施例中,可以从第二文本信息中的第一个字开始,按顺序连续获取符合预设字数的第一个片段,然后从第二文本信息中的第二个字开始,按顺序连续获取符合预设字数的第二个片段,直至获取到的片段的最后一个字为该第二文本信息中的最后一个字为止。
在另一个可选的实施例中,可以从第二文本信息中的第一个词语开始,按照顺序连续获取符合预设词语数的第一个片段,然后从第二文本信息中的第二个词语开始,按照顺序连续获取符合预设词语数的第二个片段,直至获取到的片段的最后一个词语为该第二文本信息中的最后一个词语为止。
上述的词语是预设的,按照预设词语数划分第二文本信息时,需按照预设的词语来确定词语数并划分第二文本信息,如,上述第二文本信息中的词语可以包括:听说、进口、吉普、的、指南者、油耗、有点、高以及啊。
在上述的实施例中,对第二文本信息的划分是以预设的划分方式对字符串进行划分,取若干个连续的片段,得到第一文本信息。通过本发明上述实施例,只有在同一个第一文本信息中同时出现关键词和属性信息时,才认为该属性信息是描述该关键词的。通过限定关键词和属性信息之间的距离,避免了在不同第一文本信息中检测到关键词和属性信息时,错误的获取该关键词和属性信息对应的特征信息的问题,提高了获取特征信息的准确性。
在本发明的上述实施例中,第二检测模块可以包括:第二检测子模块,用于检测第一文本信息中是否存在属性信息中的第一词语,其中,属性信息可以包括一个或多个第一词语;第二确定模块,用于在第一文本信息中存在第一词语的情况下,确定第一文本信息中存在属性信息。
具体地,只要在第一文本信息中检测到属性信息中的任意一个第一词语,即可确定该第一文本信息中存在属性信息。
在上述实施例中,可以从预设的词语数据库中读取待分析对象的关键词、该关键词的属性信息的一个或多个第一词语。
根据本发明上述实施例,获取装置还可以包括:统计模块,用于在确定关键词和属性信息所指示的特征信息之后,统计各个第一词语的总数,及各个属性信息对应的第二文本信息的总数。
具体地,在获取到各个第一词语对应的特征信息之后,统计各个第一词语的总数以获得特征信息的出现次数,并统计包含各个属性信息的第二文本信息的总数以获得各个属性信息的出现次数。
在上述实施例中,通过统计到的第一词语的总数可以得到各个特征信息出现的总数,由于一个第二文本信息中可能出现一个属性信息的多个第一词语,但是该第二文本信息仅表达了该属性信息所指示的观点,那么通过统计包含各个属性信息的第二文本信息的总数可以得到表达有不同观点的各个文本的总数。
通过本发明上述实施例,可以反映待分析对象的各个特征信息的出现次数,以及含有各个特征信息的第二文本信息的总数,可以在用户需要了解待分析对象的某个特征信息时,为用户提供准确可靠的信息。
在本发明的上述实施例中,第一确定模块可以包括:提取模块,用于从第一文本信息中提取关键词和第一词语之间的所有第二词语;确定子模块,用于确定关键词、所有第二词语以及第一词语作为特征信息。
具体地,在第一文本信息中检测到关键词和第一词语之后,提取该关键词和该第一词语之间所有的词语(或文字),将该关键词、该第一词语以及提取到的词语(或文字)作为第一文本信息的特征信息。
在上述实施例中,可将关键词、第一词语及其二者之间的内容全部提取出来,作为第一文本信息的特征信息。通过本发明上述实施例,避免了现有技术中由于模板的语句设置不全面而造成的待分析对象特征信息的提取遗漏,提高了提取特征信息的准确性及可靠性。
本实施例中所提供的各个模块与方法实施例对应步骤所提供的使用方法相同、应用场景也可以相同。当然,需要注意的是,上述模块涉及的方案可以不限于方法实施例中的内容和场景,且上述模块可以运行在计算机终端或移动终端,可以通过软件或硬件实现。
从以上的描述中,可以看出,本发明实现了如下技术效果:
采用本发明实施例,通过检测第一文本信息中是否存在待分析对象的关键词和关键词的属性信息,来判断待分析对象是否具有特征信息,也即通过关键词和关键词的属性信息对待分析对象的第一文本信息的模糊匹配确定特征信息,无需将待分析对象的第一文本信息与模板内的语句进行精确匹配。在上述实施例中,通过关键词和关键词的属性信息对待分析对象的第一文本信息的模糊匹配,可以对同一特征信息的不同表述方式进行识别,避免了现有技术中由于模板语句设置不全面,造成获取到的待分析对象的特征信息不完整的问题。通过本发明实施例,解决了现有技术中对待分析对象的特征信息的提取不完整,导致对待分析对象的特征统计不准确的问题,实现了全面准确获取文本信息的特征信息的效果,从而提高了对待分析对象的特征统计的准确性。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种分析对象特征信息的获取方法,其特征在于,包括:
获取用于获取待分析对象的特征信息的获取请求;
获取所述待分析对象的关键词和所述关键词的属性信息;
检测所述待分析对象的第一文本信息中是否存在所述关键词;
若所述待分析对象的第一文本信息中存在所述关键词,则检测所述第一文本信息中是否存在所述属性信息;
若所述第一文本信息中存在所述属性信息,则确定所述关键词和所述属性信息所指示的所述特征信息,得到所述待分析对象的特征信息;
其中,在检测所述待分析对象的第一文本信息中是否存在所述关键词之前,所述获取方法包括:获取所述待分析对象的第二文本信息,其中,所述第二文本信息包括以下至少之一:其中,所述第二文本信息包括以下至少之一:通过爬虫代码从网站资源上爬取到的一个或多个网络文本、通过扫描纸质文件得到的电子文本、手动输入的电子文本;按照预设的划分方式将所述第二文本信息划分为多个所述第一文本信息;检测所述待分析对象的第一文本信息中是否存在所述关键词包括:按顺序逐个检测所述第一文本信息中是否存在所述关键词。
2.根据权利要求1中所述的获取方法,其特征在于,按照预设的划分方式将所述第二文本信息划分为多个所述第一文本信息包括:
将所述第二文本信息中符合预设字数的片段作为所述第一文本信息;或
将所述第二文本信息按照标点符号划分为多个所述第一文本信息;或
将所述第二文本信息中符合预设词语数的片段作为所述第一文本信息。
3.根据权利要求1至2中任意一项所述的获取方法,其特征在于,检测所述第一文本信息中是否存在所述属性信息包括:
检测所述第一文本信息中是否存在所述属性信息中的第一词语,其中,所述属性信息包括一个或多个所述第一词语;
若所述第一文本信息中存在所述第一词语,则确定所述第一文本信息中存在所述属性信息。
4.根据权利要求3所述的获取方法,其特征在于,在确定所述关键词和所述属性信息所指示的所述特征信息之后,所述获取方法还包括:
统计各个所述第一词语的总数,及各个所述属性信息对应的所述第二文本信息的总数。
5.根据权利要求3所述的获取方法,其特征在于,确定所述关键词和所述属性信息所指示的所述特征信息包括:
从所述第一文本信息中提取所述关键词和所述第一词语之间的所有第二词语;
将所述关键词、所述所有第二词语以及所述第一词语作为所述特征信息。
6.一种分析对象特征信息的获取装置,其特征在于,包括:
第一获取模块,用于获取待分析对象的特征信息的获取请求;
第二获取模块,用于获取所述待分析对象的关键词和所述关键词的属性信息;
第一检测模块,用于检测所述待分析对象的第一文本信息中是否存在所述关键词;
第二检测模块,用于在所述待分析对象的第一文本信息中存在所述关键词的情况下,检测所述第一文本信息中是否存在所述属性信息;
第一确定模块,用于在所述第一文本信息中存在所述属性信息的情况下,确定所述关键词和所述属性信息所指示的所述特征信息,得到所述待分析对象的特征信息;
其中,所述获取装置包括:第三获取模块,用于在检测所述待分析对象的第一文本信息中是否存在所述关键词之前,获取所述待分析对象的第二文本信息,其中,所述第二文本信息包括以下至少之一:通过爬虫代码从网站资源上爬取到的一个或多个网络文本、通过扫描纸质文件得到的电子文本、手动输入的电子文本;划分模块,用于按照预设的划分方式将所述第二文本信息划分为多个所述第一文本信息;所述第一检测模块包括:第一检测子模块,用于按顺序逐个检测所述第一文本信息中是否存在所述关键词。
7.根据权利要求6中所述的获取装置,其特征在于,所述划分模块包括:
第一划分子模块,用于划分所述第二文本信息中符合预设字数的片段作为所述第一文本信息;或
第二划分子模块,用于将所述第二文本信息按照标点符号划分为多个所述第一文本信息;或
第三划分子模块,用于划分所述第二文本信息中符合预设词语数的片段作为所述第一文本信息。
8.根据权利要求6至7中任意一项所述的获取装置,其特征在于,所述第二检测模块包括:
第二检测子模块,用于检测所述第一文本信息中是否存在所述属性信息中的第一词语,其中,所述属性信息包括一个或多个所述第一词语;
第二确定模块,用于在所述第一文本信息中存在所述第一词语的情况下,确定所述第一文本信息中存在所述属性信息。
9.根据权利要求8所述的获取装置,其特征在于,所述获取装置还包括:
统计模块,用于在确定所述关键词和所述属性信息所指示的所述特征信息之后,统计各个所述第一词语的总数,及各个所述属性信息对应的所述第二文本信息的总数。
10.根据权利要求8所述的获取装置,其特征在于,所述第一确定模块包括:
提取模块,用于从所述第一文本信息中提取所述关键词和所述第一词语之间的所有第二词语;
确定子模块,用于确定所述关键词、所述所有第二词语以及所述第一词语作为所述特征信息。
CN201410693965.3A 2014-11-26 2014-11-26 分析对象特征信息的获取方法和装置 Active CN104462279B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410693965.3A CN104462279B (zh) 2014-11-26 2014-11-26 分析对象特征信息的获取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410693965.3A CN104462279B (zh) 2014-11-26 2014-11-26 分析对象特征信息的获取方法和装置

Publications (2)

Publication Number Publication Date
CN104462279A CN104462279A (zh) 2015-03-25
CN104462279B true CN104462279B (zh) 2018-05-18

Family

ID=52908315

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410693965.3A Active CN104462279B (zh) 2014-11-26 2014-11-26 分析对象特征信息的获取方法和装置

Country Status (1)

Country Link
CN (1) CN104462279B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547757B (zh) * 2015-09-17 2021-05-28 北京国双科技有限公司 匹配关键词与创意内容的方法和装置
CN109740128B (zh) * 2018-04-18 2020-07-03 北京字节跳动网络技术有限公司 一种文本编辑辅助方法、装置及设备
CN111026661B (zh) * 2019-12-06 2023-09-19 广东省科技基础条件平台中心 一种软件易用性全面测试方法及系统
CN112069311A (zh) * 2020-08-04 2020-12-11 北京声智科技有限公司 一种文本提取方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101655857A (zh) * 2009-09-18 2010-02-24 西安建筑科技大学 基于关联规则挖掘技术挖掘建设法规领域数据的方法
CN101695082A (zh) * 2009-09-30 2010-04-14 北京航空航天大学 基于关系挖掘的服务组织方法及装置
CN102073725A (zh) * 2011-01-11 2011-05-25 百度在线网络技术(北京)有限公司 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统
CN102231151A (zh) * 2011-05-19 2011-11-02 安徽农业大学 一种农业领域本体自适应学习建模方法
CN102238097A (zh) * 2010-05-07 2011-11-09 阿里巴巴集团控股有限公司 一种基于即时通讯im的信息提醒方法和装置
CN103593431A (zh) * 2013-11-11 2014-02-19 北京锐安科技有限公司 网络舆情分析方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102289436B (zh) * 2010-06-18 2013-12-25 阿里巴巴集团控股有限公司 确定搜索词权重值方法及装置、搜索结果生成方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101655857A (zh) * 2009-09-18 2010-02-24 西安建筑科技大学 基于关联规则挖掘技术挖掘建设法规领域数据的方法
CN101695082A (zh) * 2009-09-30 2010-04-14 北京航空航天大学 基于关系挖掘的服务组织方法及装置
CN102238097A (zh) * 2010-05-07 2011-11-09 阿里巴巴集团控股有限公司 一种基于即时通讯im的信息提醒方法和装置
CN102073725A (zh) * 2011-01-11 2011-05-25 百度在线网络技术(北京)有限公司 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统
CN102231151A (zh) * 2011-05-19 2011-11-02 安徽农业大学 一种农业领域本体自适应学习建模方法
CN103593431A (zh) * 2013-11-11 2014-02-19 北京锐安科技有限公司 网络舆情分析方法和装置

Also Published As

Publication number Publication date
CN104462279A (zh) 2015-03-25

Similar Documents

Publication Publication Date Title
Rauh Validating a sentiment dictionary for German political language—a workbench note
CN104408093B (zh) 一种新闻事件要素抽取方法与装置
Gu et al. " what parts of your apps are loved by users?"(T)
CN103729474B (zh) 用于识别论坛用户马甲账号的方法和系统
CN107038178A (zh) 舆情分析方法和装置
CN109472207B (zh) 情绪识别方法、装置、设备及存储介质
CN106934275B (zh) 一种基于个人信息的口令强度评测方法
CN106815207B (zh) 用于法律裁判文书的信息处理方法及装置
US20140067842A1 (en) Information processing method and apparatus
CN106713579B (zh) 一种电话号码识别方法及装置
CN104462279B (zh) 分析对象特征信息的获取方法和装置
CN106815208A (zh) 法律裁判文书的解析方法及装置
Stamatatos Authorship Verification: A Review of Recent Advances.
Theisen et al. Automatic discovery of political meme genres with diverse appearances
JP2011108053A (ja) ニュース記事評価システム
KR102124846B1 (ko) 출처 분석 기반의 뉴스 신뢰성 평가 시스템 및 그 동작 방법
Demus et al. Detox: A comprehensive dataset for german offensive language and conversation analysis
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
CN110659352A (zh) 试题考点识别方法及其系统
CN113268603A (zh) 一种新闻舆情知识图谱的构建方法及装置、介质、设备
CN103823868B (zh) 一种面向在线百科的事件识别方法和事件关系抽取方法
CN111369294A (zh) 软件造价估算方法及装置
Balalau et al. From the stage to the audience: Propaganda on reddit
CN109857842A (zh) 一种报障文本识别的方法及装置
CN109660621A (zh) 一种内容推送方法及服务设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method and device for acquiring feature information of analysis object

Effective date of registration: 20190531

Granted publication date: 20180518

Pledgee: Shenzhen Black Horse World Investment Consulting Co., Ltd.

Pledgor: Beijing Guoshuang Technology Co.,Ltd.

Registration number: 2019990000503

CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Patentee after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Patentee before: Beijing Guoshuang Technology Co.,Ltd.