CN110019771B - 文本处理的方法及装置 - Google Patents
文本处理的方法及装置 Download PDFInfo
- Publication number
- CN110019771B CN110019771B CN201710633514.4A CN201710633514A CN110019771B CN 110019771 B CN110019771 B CN 110019771B CN 201710633514 A CN201710633514 A CN 201710633514A CN 110019771 B CN110019771 B CN 110019771B
- Authority
- CN
- China
- Prior art keywords
- texts
- abnormal
- keywords
- period
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 8
- 230000002159 abnormal effect Effects 0.000 claims abstract description 161
- 238000004458 analytical method Methods 0.000 claims abstract description 97
- 238000000034 method Methods 0.000 claims abstract description 68
- 238000012216 screening Methods 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims description 37
- 238000004422 calculation algorithm Methods 0.000 claims description 32
- 230000003321 amplification Effects 0.000 claims description 17
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 17
- 230000009467 reduction Effects 0.000 claims description 17
- 230000007423 decrease Effects 0.000 claims description 15
- 230000009471 action Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 abstract description 11
- 230000003247 decreasing effect Effects 0.000 abstract description 7
- 238000007418 data mining Methods 0.000 abstract description 2
- 230000011218 segmentation Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000009193 crawling Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本处理的方法及装置,涉及数据挖掘技术领域,为解决现有的获取突增词并且依据突增词进行用户需求分析的方法影响分析结果的准确性而发明。本发明的方法包括:获取不同周期内的网络文本对应的异动词,所述异动词为包含于网络文本中的在一个周期内词频值突增或突减的词;将所述异动词作为检索关键词对不同周期内的网络文本进行检索,筛选出不同周期对应的需求分析文本,以使用需求分析文本进行用户需求分析。本发明适合应用在用户需求分析的过程中。
Description
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种文本处理的方法及装置。
背景技术
在互联网时代,为了更好的掌握用户的需求,通常会对用户在互联网上行为(点击、注册、留言、评论等)进行分析,然后根据分析的结果来了解用户的需求,并依此进行业务的调整,以便于及时与用户的需求保持一致。比如,一些商品或者信息推送网站,通常会根据用户的留言或者评论进行用户的需求分析,具体分析时通常关心的是留言或评论中的突增词,突增词是指在一定时间内出现频次突增的词语,然后根据突增词确定用户的需求。现有技术中获取突增词的方法为从不同周期内留言或评论中提取出的关键词中选出预设数量的高频关键词,然后判断某一周期中的高频关键词是否属于该周期的上一周期内的高频关键词,如果不属于则将该关键词作为突增词。
本发明人在实施上述现有的方法获取突增词以及依据突增词确定用户需求的过程中,发现现有的方法中获取到的突增词只包含预设数量的高频关键词,造成其他实际可以反映用户需求的关键词的忽略,并且仅依据突增词来确定用户的需求比较片面,综上,现有的获取突增词并且依据突增词进行用户需求分析的方法影响分析结果的准确性。
发明内容
鉴于上述问题,本发明提供一种文本处理的方法及装置,为了提高用户需求分析结果的准确性。
为解决上述技术问题,第一方面,本发明提供了一种文本处理的方法,该方法包括:
获取不同周期内的网络文本对应的异动词,所述异动词为包含于网络文本中的在一个周期内词频值突增或突减的词;
将所述异动词作为检索关键词对不同周期内的网络文本进行检索,筛选出不同周期对应的需求分析文本,以使用需求分析文本进行用户需求分析。
可选的,所述获取不同周期内的网络文本对应的异动词,包括:
获取不同周期内的网络文本对应的关键词;
根据关键词的词频值选取每个周期对应的核心关键词;
根据核心关键词的异动比例从核心关键词中确定异动词,所述异动比例为核心关键词词频值在一个周期内的增幅比例或减幅比例。
可选的,所述根据关键词的词频值选取每个周期对应的核心关键词,包括:
计算每个周期内包含的所有关键词的词频平均值,一个周期对应一个词频平均值;
从每个周期内包含的关键词中选出词频值大于该周期对应的词频平均值的关键词作为该周期对应的核心关键词。
可选的,将所述异动词作为检索关键词对不同周期内的网络文本进行检索,筛选出不同周期对应的需求分析文本,包括:
将不同周期内的异动词进行合并;
根据预设聚类算法对合并后的异动词进行聚类,得到多组异动词;
将每组异动词作为检索关键词分别对不同周期内的网络文本进行检索;
将包含预设数量的同组异动词的网络文本确定为需求分析文本。
可选的,将所述异动词作为检索关键词对不同周期内的网络文本进行检索,筛选出不同周期对应的需求分析文本,包括:
根据预设聚类算法分别对不同周期内的异动词分别进行聚类,以对每个周期内的异动词进行分组;
将每组异动词作为检索关键词分别对与每组异动词对应周期内的网络文本进行检索;
将包含预设数量的同组异动词的网络文本确定为不同周期分别对应的需求分析文本。
可选的,在获取不同周期内的网络文本对应的关键词之后,所述方法还包括:
将网络文本与对应的关键词形成对应关系表;
将每组异动词作为检索关键词对不同周期内的网络文本进行检索,包括:
将每组异动词作为检索关键词对所述对应关系表中对应不同网络文本的关键词进行检索。
可选的,所述根据核心关键词的异动比例从核心关键词中确定异动词,包括:
将增幅比例或者减幅比例大于预设阈值的核心关键词确定为异动词。
可选的,所述获取不同周期内的网络文本对应的关键词,包括:
通过网络爬虫从目标网站中抓取不同周期内的网络文本;
对网络文本进行分词后确定网络文本对应的关键词。
为了实现上述目的,根据本发明的另一方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述所述的文本处理的方法。
为了实现上述目的,根据本发明的另一方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述所述的文本处理的方法。
第二方面,本发明还提供了一种文本处理的装置,该装置包括:
获取单元,用于获取不同周期内的网络文本对应的异动词,所述异动词为包含于网络文本中的在一个周期内词频值突增或突减的词;
检索单元,用于将所述异动词作为检索关键词对不同周期内的网络文本进行检索,筛选出不同周期对应的需求分析文本,以使用需求分析文本进行用户需求分析。
可选的,所述获取单元包括:
获取模块,用于获取不同周期内的网络文本对应的关键词;
选取模块,用于根据关键词的词频值选取每个周期对应的核心关键词;
异动词确定模块,用于根据核心关键词的异动比例从核心关键词中确定异动词,所述异动比例为核心关键词词频值在一个周期内的增幅比例或减幅比例。
可选的,所述选取模块,还用于:
计算每个周期内包含的所有关键词的词频平均值,一个周期对应一个词频平均值;
从每个周期内包含的关键词中选出词频值大于该周期对应的词频平均值的关键词作为该周期对应的核心关键词。
可选的,检索单元,包括:
合并模块,用于将不同周期内的异动词进行合并;
聚类模块,用于根据预设聚类算法对合并后的异动词进行聚类,得到多组异动词;
检索模块,用于将每组异动词作为检索关键词分别对不同周期内的网络文本进行检索;
需求分析文本确定模块,用于将包含预设数量的同组异动词的网络文本确定为需求分析文本。
可选的,所述检索单元,包括:
所述聚类模块,还用于根据预设聚类算法分别对不同周期内的异动词分别进行聚类,以对每个周期内的异动词进行分组;
所述检索模块,还用于将每组异动词作为检索关键词分别对与每组异动词对应周期内的网络文本进行检索;
所述需求分析文本确定模块,还用于将包含预设数量的同组异动词的网络文本确定为不同周期分别对应的需求分析文本。
可选的,所述装置还包括:
关系表形成单元,用于在获取不同周期内的网络文本对应的关键词之后,将网络文本与对应的关键词形成对应关系表;
所述检索单元,还用于:
将每组异动词作为检索关键词对所述对应关系表中对应不同网络文本的关键词进行检索。
可选的,所述异动词确定模块,用于:
将增幅比例或者减幅比例大于预设阈值的核心关键词确定为异动词。
可选的,所述获取模块,用于:
通过网络爬虫从目标网站中抓取不同周期内的网络文本;
对网络文本进行分词后确定网络文本对应的关键词。
第三方面,本发明还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述第一方面所述的文本处理的方法。
第四方面,本发明还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述第一方面所述的文本处理的方法。
借由上述技术方案,本发明提供的文本处理的方法及装置,对于网络文本获取的不是词频值位于前几位的突增词,而是既包括突增词又包括突减词的异动词,而且突增词并没有限定是词频值位于具体前几位的突增词,因此相比于现有技术,本发明中的异动词相比于现有技术中的突增词能更加全面的反映用户的需求;此外,在获取到异动词之后,根据异动词反向从网络文本中选出能够用于分析用户需求的典型文本(即需求分析文本),以使分析者可以进一步的查看研究不同周期需求分析文本后确定需求以及需求的趋势等。与现有技术相比,本发明中根据异动词选出的需求分析文本中的内容进行用户的需求分析的方式相比现有技术中只根据突增词来确定用户需求的方式更加的全面和准确。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种文本处理的方法流程图;
图2示出了本发明实施例提供的另一种文本处理的方法流程图;
图3示出了本发明实施例提供的一种文本处理的装置的组成框图;
图4示出了本发明实施例提供的另一种文本处理的装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为了提高用户需求分析结果的准确性,本发明实施例提供了一种文本处理的方法,如图1所示,该方法包括:
101、获取不同周期内的网络文本对应的异动词。
其中,不同周期指的是在不同的时间段,不同的时间段通常是连续的相等的时间段,不同的时间段的选定可以根据实际的业务需求进行选择,比如可以是连续的几个月、连续的几周、连续的几天等等。网络文本包括网民在浏览网页的过程中发表的对于某些商品或者信息的评论、评价、留言、建议、意见等主观性的文本。异动词为包含于网络文本中的在一个周期内词频值突增或突减的词,即属于网络文本中的词在某一周期内出现的次数相比于上一个周期内的出现次数变化较大的情况。可以看出异动词能够全面的反映用户关注变化的点,不仅是突增的点也包含突减的点。另外需要说明的是,本发明实施例中的网民浏览的网页可以为政府网站(教育网站、医疗网站、机关部委网站)等公共服务领域的网站,通过获取政府网站等公共服务领域的网站对应的网络文本中的异动词,能够根据异动词分析确定舆论动向或者网民的需求等,进而为政府政策制定提供参考依据。
另外,获取到的每个周期内的网络文本中的异动词是综合一个周期内的所有的网络文本得到的异动词,最终得到的一个周期内的异动词是互不重复的词。另外还需要说明的是,在对网络文本中的词的词频值进行统计时能够通过现有的统计词频的软件或者工具进行,比如Wordsplit等。
102、将异动词作为检索关键词对不同周期内的网络文本进行检索,筛选出不同周期对应的需求分析文本。
将异动词作为检索关键词对不同周期内的网络文本进行检索是指将不同周期内的所有网络文本作为检索的对象,将由步骤101中得到的异动词构成检索的条件,筛选出符合检索条件的网络文本,筛选的网络文本是用于进行用户需求分析的典型的网络文本。检索条件的构成可以是一个或者多个异动词的组合。
从不同周期内的网络文本中筛选出的符合检索条件的需求分析文本的目的是为了使专职人员进一步对需求分析文本进行逐一的阅读分析,在分析时需要结合需求分析文本所属的周期,结合周期和具体的文本内容可以确定用户在新的周期内的需求或者需求的趋势等。确定需求或需求的趋势后能够根据确定的需求分析结果来调整业务或措施等,比如对于销售行业,可以根据需求分析结果在未来的某一个或者几个周期内增加某类商品的销售数量,或者减少甚至停止另几类商品的销售等;再比如对于属于公共服务领域的教育网站、医疗网站等,可以根据需求分析结果调整教育制度或者医疗制度。若分析结果为学生学业压力大,身体素质低,则会建议学校适当调整学生的学习任务,多增加体育锻炼,若分析结果为癌症等大病的治疗费用太高,则会适当的增加对某些癌症等大病的报销力度等。
本发明实施例提供的文本处理的方法,对于网络文本获取的不是词频值位于前几位的突增词,而是既包括突增词又包括突减词的异动词,而且突增词并没有限定是词频值位于具体前几位的突增词,因此相比于现有技术,本发明中的异动词相比于现有技术中的突增词能更加全面的反映用户的需求;此外,在获取到异动词之后,根据异动词反向从网络文本中选出能够用于分析用户需求的典型文本(即需求分析文本),以使分析者可以进一步的查看研究不同周期需求分析文本后确定需求以及需求的趋势等。与现有技术相比,本发明中根据异动词选出的需求分析文本中的内容进行用户的需求分析的方式相比现有技术中只根据突增词来确定用户需求的方式更加的全面和准确。
进一步的,作为对图1所示实施例的细化及扩展,本发明实施例还提供了另一种文本处理的方法,如图2所示。
201、获取不同周期内的网络文本对应的关键词。
其中不同周期与图1步骤101中的不同周期是相同的含义,此处不再赘述。获取每个周期内的网络文本对应的关键词的方式是相同的,因此以获取某一个周期内的网络文本对应的关键词为例进行说明。
获取一个周期内的网络文本对应的关键词之前,首先需要获取该周期内的网络文本。网络文本的获取方式可以通过嵌入在目标网站(记录有需要获取的网络文本的网站)中的能够获取网络文本的采集脚本获取,比如通过嵌入在目标网站中的网络爬虫来爬取目标网站中记录的网络文本。在通过网络爬虫爬取网络文本时通常需要根据网络文本在目标网站中的位置特征或者其他能够表征网络文本的标识性的特征等设置具体的爬取条件。
一个周期内通常包含多个网络文本,在获取网络文本后,分别对每一个网络文本进行分词,进行分词时能够利用现有的任意一种分词工具进行,比如CRF++分词工具、Stanford分词工具、Perminusminus分词工具等。利用分词工具对网络文本分词后,每个网络文本被分为多个关键词。另外需要说明的是,在实际应用中网络文本中通常包含多个停用词,这些停用词通常都是无意义的词,因此为了减少后续的工作量,在分词后还会进行去停用词处理,具体去停用词处理是将每个网络文本中的所有的关键词分别与停用词表进行对比,选出与停用词表中的停用词相同的关键词后作删除处理,最终得到每个网络文本对应的关键词。
另外,获取每个网络文本对应的关键词之后,将网络文本与对应的关键词形成对应关系表,使每个网络文本都可以与对应的关键词建立对应关系,建立网络文本与关键词之间的对应关系也是为了后续在进行需求分析文本的检索时,可以更加方便快速的进行检索。
202、根据关键词的词频值选取每个周期对应的核心关键词。
首先,计算每个周期内包含的所有关键词的词频平均值。
每个周期内包含的所有关键词是指每个周期内包含的所有的网络文本对应的关键词的总体,需要说明的不同网络文本中相同的关键词需要合并。计算每个周期内包含的所有关键词的词频平均值包括如下步骤:第一,统计每个关键词在对应的周期内的词频值,具体的统计方法是通过词频统计工具(比如WordSplit等)完成的;第二,将一个周期内包含的所有关键词的词频值进行平均,得到该周期对应的词频平均值,一个周期对应一个词频平均值。
为了更清楚地表达计算词频平均值的过程,给出具体的示例进行说明:假设一个周期内包括10个网络文本,将10个网络文本分别对应的关键词进行相同关键词合并后,假设最终得到的关键词以及关键词的词频值分别为:关键词A,词频值20、关键词B,词频值30、关键词C,词频值50、关键词D,词频值10、关键词E,词频值30、关键词F,词频值40;则该周期对应的词频平均值的计算方式为将A-E六个关键词的词频值相加后再除以关键词的个数,所以该周期对应的词频平均值为:(20+30+50+10+30+40)/6=30,需要说明的是,对于算出的词频值不是整数的情况下,可以通过四舍五入的取整方式进行词频平均值的取整。
其次,从每个周期内包含的关键词中选出词频值大于该周期对应的词频平均值的关键词作为该周期对应的核心关键词。
还以上述计算词频平均值的示例进行核心关键词的确定的说明:上述示例中计算出的某一周期对应的词频平均值为30,该周期中词频值大于30的关键词为关键C和关键词E,所以最终确定的该周期对应的核心关键词为关键C以及关键词E。
另外,需要说明的是,本发明实施例中选择词频值超过平均词频值的关键词作为核心关键词的原因是这些关键词的词频值超过了平均水平,有一定的实际意义,能代表用户一定的需求。
203、根据核心关键词的异动比例从核心关键词中确定异动词。
核心关键词的异动比例是指核心关键词词频值在一个周期内的增幅比例或减幅比例。具体的计算公式可以表示为:异动比例=(本周期中的词频值-上一周期中的词频值)/上一周期的词频值,其中本周期和上一周期中的词频值是对应相同的核心关键词来说的。本周期和上一周期都是相对的周期,本周期并不代表是当前时间所在的周期,假设不同的周期包括第一周到第四周四个连续的周期,则计算第二周内的核心关键词的异动比例时,第二周是本周期,第一周是上一周期;同理,计算第第三周内的核心关键词的异动比例时,第三周是本周期,第二周是上一周期。给出具体的示例进行说明:假设一个周期为一周,核心关键词A在本周内的词频值为20,在上一周内的词频值为5,则核心关键词A的异动比例=(20-5)/5=3,假设核心关键词B在本周内的词频值为5,在上一周内的词频值为20,则核心关键词B的异动比例=(5-20)/20=-0.75,可以看到异动比例可以为正也可以为负,其中的正负分别代表核心关键词的词频值增加和减少,具体的数值为增加或减少的比例。比如异动比例为3,表示核心关键词的增幅比例为3,异动比例为-0.75表示核心关键词的减幅比例为0.75。
确定核心关键词的异动比例后,将增幅比例或者减幅比例大于预设阈值的核心关键词确定为异动词。
本发明实施例中确定的异动词为包含增幅较大的核心关键词以及减幅较大的关键词,因此依据确定的异动词不仅可以挖掘用户的增量需求还可以挖掘用户的减量需求。
204、将不同周期内的异动词进行合并。
将不同周期内的异动词进行合并是指将不同周期内相同的异动词合并后仅保留一个异动词,合并后每个周期内不存在相同的异动词。
205、根据预设聚类算法对合并后的异动词进行聚类,得到多组异动词。
将合并后的异动词进行分类,具体是根据预设聚类算法进行的,本发明实施例中预设聚类算法可以为K-Means算法、K-MEDOIDS算法、CLARANS算法等现有的任一聚类算法。另外需要说明的是,在使用预设聚类算法对合并后异动词进行聚类之前,首先需要将合并后的每个异动词转换为词向量,每个异动词对应一个词向量,词向量的转换可以使用词向量转换工具(比如word2vec等)进行转换;转换后再使用预设聚类算法进行聚类,聚类后得到的每一类异动词为一组异动词。
206、将每组异动词作为检索关键词分别对不同周期内的网络文本进行检索。
具体的检索方式为:将每组异动词中包含的所有异动词作为检索关键词,去检索已经获取的不同周期内的网络文本,即判断网络文本是否包含异动词组中的异动词,若包含则确定包含异动词组中多少个异动词。由于在步骤201中已经建立了网络文本与对应的关键词之间的对应关系表,因此在检索时,可以将每组异动词作为检索关键词对所述对应关系表中对应不同网络文本的关键词进行检索。
207、将包含预设数量的同组异动词的网络文本确定为需求分析文本。
其中预设数量的值是根据异动词组中包含的异动词的数量决定的,包含的异动词的数量越大,对应的预设数量的值越大,预设数量的值与异动词组中包含的异动词的数量成正相关。在实际应用中预设数量的值可以通过设置预设数量的值与异动词组中的异动词的数量之间的比值来确定,比如设定的比值为2/3,则当某一组异动词中包含的异动词的数量为3,则对应的预设数量的值为2,当某一组异动词中包含的异动词的数量为6,则对应的预设数量的值为4。
分别对通过相同的检索关键词确定的需求分析文本进行人工的阅读分析,在分析时还需要考虑需求分析文本所在的周期,并依此来分析需求随周期变化的趋势(需求增加、减少或者保持平衡)。
通过上述文本处理的方法,可以从大量的网络文本中挑选出符合需求分析的典型网络文本(即需求分析文本)进行分析,不仅提高了需求分析的效率,同时挑选的典型文本能够较准确的反应用户的真实需求,因此也可以保证得到较准确的需求分析结果。
进一步的,对于步骤204-207本发明实施例还提供了的另一种替代的实现方式,如下所述:
在由步骤203得到不同周期内的异动词之后,首先,根据预设聚类算法分别对不同周期内的异动词分别进行聚类,以对每个周期内的异动词进行分组。具体的对不同周期内的异动词进行聚类的方式与步骤205中对合并后的异动词进行聚类的方式相同的,此处不再赘述。聚类后,每个周期对应多组异动词。
其次,将每组异动词作为检索关键词分别对与每组异动词对应周期内的网络文本进行检索。
每组异动词作为检索关键词进行检索时,只对该组异动词所属的周期内的网络文本进行检索,而不对其他周期内的网络文本进行检索。具体的检索方式与步骤206中检索的方式是相同的,此处不再赘述。
最后,将包含预设数量的同组异动词的网络文本确定为不同周期分别对应的需求分析文本。
每个周期中确定该周期对应的需求分析文本的方式与步骤207中确定需求分析文本的方式是相同的,此处不再赘述。最终得到不同周期分别对应的需求分析文本,然后将不同周期内的需求分析文本通过人工的阅读分析来确定需求的趋势(需求增加、减少或者保持平衡)。
需要说明的是,替代步骤204-207后的实现方式与不替代的实现方式在选择的周期数较少的情况下的技术效果基本是相同的,但是在选择的周期数较多的情况下,替代前的实现方式更简便快捷。
进一步的,作为对上述图1和图2所示方法的实现,本发明实施例另一实施例还提供了一种文本处理的装置,用于对上述图1和图2所示的方法进行实现。该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。如图3所示,该装置包括:获取单元31以及检索单元32。
获取单元31,用于获取不同周期内的网络文本对应的异动词,异动词为包含于网络文本中的在一个周期内词频值突增或突减的词;
其中,不同周期指的是在不同的时间段,不同的时间段通常是连续的相等的时间段,不同的时间段的选定可以根据实际的业务需求进行选择,比如可以是连续的几个月、连续的几周、连续的几天等等。网络文本包括网民在浏览网页的过程中发表的对于某些商品或者信息的评论、评价、留言、建议、意见等主观性的文本。异动词为包含于网络文本中的在一个周期内词频值突增或突减的词,即属于网络文本中的词在某一周期内出现的次数相比于上一个周期内的出现次数变化较大的情况。可以看出异动词能够全面的反映用户关注变化的点,不仅是突增的点也包含突减的点。另外需要说明的是,本发明实施例中的网民浏览的网页可以为政府网站(教育网站、医疗网站、机关部网站)等公共服务领域的网站,通过获取政府网站等公共服务领域的网站对应的网络文本中的异动词,能够根据异动词分析确定舆论动向或者网民的需求等,从而为政府制定政策提供参考依据。
另外,获取到的每个周期内的网络文本中的异动词是综合一个周期内的所有的网络文本得到的异动词,最终得到的一个周期内的异动词是互不重复的词。另外还需要说明的是,在对网络文本中的词的词频值进行统计时能够通过现有的统计词频的软件或者工具进行,比如Wordsplit等。
检索单元32,用于将异动词作为检索关键词对不同周期内的网络文本进行检索,筛选出不同周期对应的需求分析文本,以使用需求分析文本进行用户需求分析。
将异动词作为检索关键词对不同周期内的网络文本进行检索是指将不同周期内的所有网络文本作为检索的对象,将由获取单元31中得到的异动词构成检索的条件,筛选出符合检索条件的网络文本,筛选的网络文本是用于进行用户需求分析的典型的网络文本。检索条件的构成可以是一个或者多个异动词的组合。
从不同周期内的网络文本中筛选出的符合检索条件的需求分析文本的目的是为了使专职人员进一步对需求分析文本进行逐一的阅读分析,在分析时需要结合需求分析文本所属的周期,结合周期和具体的文本内容可以确定用户在新的周期内的需求或者需求的趋势等。确定需求或需求的趋势后能够根据确定的需求分析结果来调整业务或措施等。
如图4所示,获取单元31包括:
获取模块311,用于获取不同周期内的网络文本对应的关键词;
获取一个周期内的网络文本对应的关键词之前,首先需要获取该周期内的网络文本。网络文本的获取方式可以通过嵌入在目标网站(记录有需要获取的网络文本的网站)中的能够获取网络文本的采集脚本获取。获取网络文本后再从网络文本中获取网络文本对应的关键词。
选取模块312,用于根据关键词的词频值选取每个周期对应的核心关键词;
异动词确定模块313,用于根据核心关键词的异动比例从核心关键词中确定异动词,异动比例为核心关键词词频值在一个周期内的增幅比例或减幅比例。
核心关键词的异动比例是指核心关键词词频值在一个周期内的增幅比例或减幅比例。具体的计算公式可以表示为:异动比例=(本周期中的词频值-上一周期中的词频值)/上一周期的词频值,其中本周期和上一周期中的词频值是对应相同的核心关键词来说的。本周期和上一周期都是相对的周期,本周期并不代表是当前时间所在的周期,假设不同的周期包括第一周到第四周四个连续的周期,则计算第二周内的核心关键词的异动比例时,第二周是本周期,第一周是上一周期;同理,计算第第三周内的核心关键词的异动比例时,第三周是本周期,第二周是上一周期。给出具体的示例进行说明:假设一个周期为一周,核心关键词A在本周内的词频值为20,在上一周内的词频值为5,则核心关键词A的异动比例=(20-5)/5=3,假设核心关键词B在本周内的词频值为5,在上一周内的词频值为20,则核心关键词B的异动比例=(5-20)/20=-0.75,可以看到异动比例可以为正也可以为负,其中的正负分别代表核心关键词的词频值增加和减少,具体的数值为增加或减少的比例。比如异动比例为3,表示核心关键词的增幅比例为3,异动比例为-0.75表示核心关键词的减幅比例为0.75。
选取模块312,还用于:
计算每个周期内包含的所有关键词的词频平均值,一个周期对应一个词频平均值;
每个周期内包含的所有关键词是指每个周期内包含的所有的网络文本对应的关键词的总体,需要说明的不同网络文本中相同的关键词需要合并。计算每个周期内包含的所有关键词的词频平均值包括如下步骤:第一,统计每个关键词在对应的周期内的词频值,具体的统计方法是通过词频统计工具(比如WordSplit等)完成的;第二,将一个周期内包含的所有关键词的词频值进行平均,得到该周期对应的词频平均值,一个周期对应一个词频平均值。
从每个周期内包含的关键词中选出词频值大于该周期对应的词频平均值的关键词作为该周期对应的核心关键词。
另外,需要说明的是,本发明实施例中选择词频值超过平均词频值的关键词作为核心关键词的原因是这些关键词的词频值超过了平均水平,有一定的实际意义,能代表用户一定的需求。
如图4所示,检索单元32,包括:
合并模块321,用于将不同周期内的异动词进行合并;
将不同周期内的异动词进行合并是指将不同周期内相同的异动词合并后仅保留一个异动词,合并后每个周期内不存在相同的异动词。
聚类模块322,用于根据预设聚类算法对合并后的异动词进行聚类,得到多组异动词;
将合并后的异动词进行分类,具体是根据预设聚类算法进行的,本发明实施例中预设聚类算法可以为K-Means算法、K-MEDOIDS算法、CLARANS算法等现有的任一聚类算法。另外需要说明的是,在使用预设聚类算法对合并后异动词进行聚类之前,首先需要将合并后的每个异动词转换为词向量,每个异动词对应一个词向量,词向量的转换可以使用词向量转换工具(比如word2vec等)进行转换;转换后再使用预设聚类算法进行聚类,聚类后,得到的每一类异动词为一组异动词。
检索模块323,用于将每组异动词作为检索关键词分别对不同周期内的网络文本进行检索;
具体的检索方式为:将每组异动词中包含的所有异动词作为检索关键词,去检索已经获取的不同周期内的网络文本,即判断网络文本是否包含异动词组中的异动词,若包含则确定包含异动词组中多少个异动词。
需求分析文本确定模块324,用于将包含预设数量的同组异动词的网络文本确定为需求分析文本。
其中预设数量的值是根据异动词组中包含的异动词的数量决定的,包含的异动词的数量越大,对应的预设数量的值越大,预设数量的值与异动词组中包含的异动词的数量成正相关。在实际应用中预设数量的值可以通过设置预设数量的值与异动词组中的异动词的数量之间的比值来确定,比如设定的比值为2/3,则当某一组异动词中包含的异动词的数量为3,则对应的预设数量的值为2,当某一组异动词中包含的异动词的数量为6,则对应的预设数量的值为4。
如图4所示,检索单元32,包括:
聚类模块322,还用于根据预设聚类算法分别对不同周期内的异动词分别进行聚类,以对每个周期内的异动进行分组;
检索模块323,还用于将每组异动词作为检索关键词分别对与每组异动词对应周期内的网络文本进行检索;
需求分析文本确定模块324,还用于将包含预设数量的同组异动词的网络文本确定为不同周期分别对应的需求分析文本。
如图4所示,装置还包括:
关系表形成单元33,用于在获取不同周期内的网络文本对应的关键词之后,将网络文本与对应的关键词形成对应关系表;
获取每个网络文本对应的关键词之后,将网络文本与对应的关键词形成对应关系表,使每个网络文本都可以与对应的关键词建立对应关系,建立网络文本与关键词之间的对应关系也是为了后续在进行需求分析文本的检索时,可以更加方便快速的进行检索。由于已经建立了网络文本与对应的关键词之间的对应关系表,因此检索模块323中检索时,可以将每组异动词作为检索关键词对所述对应关系表中对应不同网络文本的关键词进行检索。
检索单元32,还用于:
将每组异动词作为检索关键词对对应关系表中对应不同网络文本的关键词进行检索。
异动词确定模块313,还用于:
将增幅比例或者减幅比例大于预设阈值的核心关键词确定为异动词。
获取模块311,用于:
通过网络爬虫从目标网站中抓取不同周期内的网络文本;
对网络文本进行分词后确定网络文本对应的关键词。
在通过网络爬虫爬取网络文本时通常需要根据网络文本在目标网站中的位置特征或者其他能够表征网络文本的标识性的特征等设置具体的爬取条件。
一个周期内通常包含多个网络文本,在获取网络文本后,分别对每一个网络文本进行分词,进行分词时能够利用现有的任意一种分词工具进行,比如CRF++分词工具、Stanford分词工具、Perminusminus分词工具等。利用分词工具对网络文本分词后,每个网络文本被分为多个关键词。另外需要说明的是,在实际应用中网络文本中通常包含多个停用词,这些停用词通常都是无意义的词,因此为了减少后续的工作量,在分词后还会进行去停用词处理,具体去停用词处理是将每个网络文本中的所有的关键词分别与停用词表进行对比,选出与停用词表中的停用词相同的关键词后作删除处理,最终得到每个网络文本对应的关键词。
本发明实施例提供的文本处理的装置,对于网络文本获取的不是词频值位于前几位的突增词,而是既包括突增词又包括突减词的异动词,而且突增词并没有限定是词频值位于具体前几位的突增词,因此相比于现有技术,本发明中的异动词相比于现有技术中的突增词能更加全面的反映用户的需求;此外,在获取到异动词之后,根据异动词反向从网络文本中选出能够用于分析用户需求的典型文本(即需求分析文本),以使分析者可以进一步的查看研究不同周期需求分析文本后确定需求以及需求的趋势等。与现有技术相比,本发明中根据异动词选出的需求分析文本中的内容进行用户的需求分析的方式相比现有技术中只根据突增词来确定用户需求的方式更加的全面和准确。
所述文本处理装置包括处理器和存储器,上述获取单元31以及检索单元32等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高用户需求分析结果的准确性。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述文本处理的方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述文本处理的方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:获取不同周期内的网络文本对应的异动词,所述异动词为包含于网络文本中的在一个周期内词频值突增或突减的词;将所述异动词作为检索关键词对不同周期内的网络文本进行检索,筛选出不同周期对应的需求分析文本,以使用需求分析文本进行用户需求分析。
进一步的,获取不同周期内的网络文本对应的异动词,包括:
获取不同周期内的网络文本对应的关键词;
根据关键词的词频值选取每个周期对应的核心关键词;
根据核心关键词的异动比例从核心关键词中确定异动词,所述异动比例为核心关键词词频值在一个周期内的增幅比例或减幅比例。
进一步的,所述根据关键词的词频值选取每个周期对应的核心关键词,包括:
计算每个周期内包含的所有关键词的词频平均值,一个周期对应一个词频平均值;
从每个周期内包含的关键词中选出词频值大于该周期对应的词频平均值的关键词作为该周期对应的核心关键词。
进一步的,将所述异动词作为检索关键词对不同周期内的网络文本进行检索,筛选出不同周期对应的需求分析文本,包括:
将不同周期内的异动词进行合并;
根据预设聚类算法对合并后的异动词进行聚类,得到多组异动词;
将每组异动词作为检索关键词分别对不同周期内的网络文本进行检索;
将包含预设数量的同组异动词的网络文本确定为需求分析文本。
进一步的,将所述异动词作为检索关键词对不同周期内的网络文本进行检索,筛选出不同周期对应的需求分析文本,包括:
根据预设聚类算法分别对不同周期内的异动词分别进行聚类,以对每个周期内的异动词进行分组;
将每组异动词作为检索关键词分别对与每组异动词对应周期内的网络文本进行检索;
将包含预设数量的同组异动词的网络文本确定为不同周期分别对应的需求分析文本。
进一步的,在获取不同周期内的网络文本对应的关键词之后,所述方法还包括:
将网络文本与对应的关键词形成对应关系表;
将每组异动词作为检索关键词对不同周期内的网络文本进行检索,包括:
将每组异动词作为检索关键词对所述对应关系表中对应不同网络文本的关键词进行检索。
进一步的,所述根据核心关键词的异动比例从核心关键词中确定异动词,包括:
将增幅比例或者减幅比例大于预设阈值的核心关键词确定为异动词。
进一步的,所述获取不同周期内的网络文本对应的关键词,包括:
通过网络爬虫从目标网站中抓取不同周期内的网络文本;
对网络文本进行分词后确定网络文本对应的关键词。
本发明实施例中的设备可以是服务器、PC、PAD、手机等。
本发明实施例还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取不同周期内的网络文本对应的异动词,所述异动词为包含于网络文本中的在一个周期内词频值突增或突减的词;将所述异动词作为检索关键词对不同周期内的网络文本进行检索,筛选出不同周期对应的需求分析文本,以使用需求分析文本进行用户需求分析。
进一步的,获取不同周期内的网络文本对应的异动词,包括:
获取不同周期内的网络文本对应的关键词;
根据关键词的词频值选取每个周期对应的核心关键词;
根据核心关键词的异动比例从核心关键词中确定异动词,所述异动比例为核心关键词词频值在一个周期内的增幅比例或减幅比例。
进一步的,所述根据关键词的词频值选取每个周期对应的核心关键词,包括:
计算每个周期内包含的所有关键词的词频平均值,一个周期对应一个词频平均值;
从每个周期内包含的关键词中选出词频值大于该周期对应的词频平均值的关键词作为该周期对应的核心关键词。
进一步的,将所述异动词作为检索关键词对不同周期内的网络文本进行检索,筛选出不同周期对应的需求分析文本,包括:
将不同周期内的异动词进行合并;
根据预设聚类算法对合并后的异动词进行聚类,得到多组异动词;
将每组异动词作为检索关键词分别对不同周期内的网络文本进行检索;
将包含预设数量的同组异动词的网络文本确定为需求分析文本。
进一步的,将所述异动词作为检索关键词对不同周期内的网络文本进行检索,筛选出不同周期对应的需求分析文本,包括:
根据预设聚类算法分别对不同周期内的异动词分别进行聚类,以对每个周期内的异动词进行分组;
将每组异动词作为检索关键词分别对与每组异动词对应周期内的网络文本进行检索;
将包含预设数量的同组异动词的网络文本确定为不同周期分别对应的需求分析文本。
进一步的,在获取不同周期内的网络文本对应的关键词之后,所述方法还包括:
将网络文本与对应的关键词形成对应关系表;
将每组异动词作为检索关键词对不同周期内的网络文本进行检索,包括:
将每组异动词作为检索关键词对所述对应关系表中对应不同网络文本的关键词进行检索。
进一步的,所述根据核心关键词的异动比例从核心关键词中确定异动词,包括:
将增幅比例或者减幅比例大于预设阈值的核心关键词确定为异动词。
进一步的,所述获取不同周期内的网络文本对应的关键词,包括:
通过网络爬虫从目标网站中抓取不同周期内的网络文本;
对网络文本进行分词后确定网络文本对应的关键词。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种文本处理的方法,其特征在于,所述方法包括:
获取不同周期内的网络文本对应的异动词,所述异动词为包含于网络文本中的在一个周期内词频值突增或突减的词,所述异动词为不重复的词;
将所述异动词作为检索关键词对不同周期内的网络文本进行检索,筛选出不同周期对应的需求分析文本,以使用需求分析文本进行用户需求分析;
所述获取不同周期内的网络文本对应的异动词,包括:
获取不同周期内的网络文本对应的关键词;
根据关键词的词频值选取每个周期对应的核心关键词;
根据核心关键词的异动比例从核心关键词中确定异动词,所述异动比例为核心关键词词频值在一个周期内的增幅比例或减幅比例;
所述根据关键词的词频值选取每个周期对应的核心关键词,包括:
计算每个周期内包含的所有关键词的词频平均值,一个周期对应一个词频平均值;
从每个周期内包含的关键词中选出词频值大于该周期对应的词频平均值的关键词作为该周期对应的核心关键词。
2.根据权利要求1所述的方法,其特征在于,将所述异动词作为检索关键词对不同周期内的网络文本进行检索,筛选出不同周期对应的需求分析文本,包括:
将不同周期内的异动词进行合并;
根据预设聚类算法对合并后的异动词进行聚类,得到多组异动词;
将每组异动词作为检索关键词分别对不同周期内的网络文本进行检索;
将包含预设数量的同组异动词的网络文本确定为需求分析文本。
3.根据权利要求1所述的方法,其特征在于,将所述异动词作为检索关键词对不同周期内的网络文本进行检索,筛选出不同周期对应的需求分析文本,包括:
根据预设聚类算法分别对不同周期内的异动词分别进行聚类,以对每个周期内的异动词进行分组;
将每组异动词作为检索关键词分别对与每组异动词对应周期内的网络文本进行检索;
将包含预设数量的同组异动词的网络文本确定为不同周期分别对应的需求分析文本。
4.根据权利要求1所述的方法,其特征在于,在获取不同周期内的网络文本对应的关键词之后,所述方法还包括:
将网络文本与对应的关键词形成对应关系表;
将每组异动词作为检索关键词对不同周期内的网络文本进行检索,包括:
将每组异动词作为检索关键词对所述对应关系表中对应不同网络文本的关键词进行检索。
5.一种文本处理的装置,其特征在于,所述装置包括:
获取单元,用于获取不同周期内的网络文本对应的异动词,所述异动词为包含于网络文本中的在一个周期内词频值突增或突减的词,所述异动词为不重复的词;
检索单元,用于将所述异动词作为检索关键词对不同周期内的网络文本进行检索,筛选出不同周期对应的需求分析文本,以使用需求分析文本进行用户需求分析;
所述获取单元包括:
获取模块,用于获取不同周期内的网络文本对应的关键词;
选取模块,用于根据关键词的词频值选取每个周期对应的核心关键词,所述核心关键词为一个周期内词频值大于周期对应的词频平均值的关键词;
异动词确定模块,用于根据核心关键词的异动比例从核心关键词中确定异动词,所述异动比例为核心关键词词频值在一个周期内的增幅比例或减幅比例;
所述选取模块,还用于:
计算每个周期内包含的所有关键词的词频平均值,一个周期对应一个词频平均值;
从每个周期内包含的关键词中选出词频值大于该周期对应的词频平均值的关键词作为该周期对应的核心关键词。
6.根据权利要求5所述的装置,其特征在于,所述检索单元,包括:
合并模块,用于将不同周期内的异动词进行合并;
聚类模块,用于根据预设聚类算法对合并后的异动词进行聚类,得到多组异动词;
检索模块,用于将每组异动词作为检索关键词分别对不同周期内的网络文本进行检索;
需求分析文本确定模块,用于将包含预设数量的同组异动词的网络文本确定为需求分析文本。
7.根据权利要求5所述的装置,其特征在于,所述检索单元,包括:
聚类模块,还用于根据预设聚类算法分别对不同周期内的异动词分别进行聚类,以对每个周期内的异动词进行分组;
检索模块,还用于将每组异动词作为检索关键词分别对与每组异动词对应周期内的网络文本进行检索;
需求分析文本确定模块,还用于将包含预设数量的同组异动词的网络文本确定为不同周期分别对应的需求分析文本。
8.根据权利要求5所述的装置,其特征在于,所述装置还包括:
关系表形成单元,用于在获取不同周期内的网络文本对应的关键词之后,将网络文本与对应的关键词形成对应关系表;
所述检索单元,还用于:
将每组异动词作为检索关键词对所述对应关系表中对应不同网络文本的关键词进行检索。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至权利要求4中任意一项所述的文本处理的方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至权利要求4中任意一项所述的文本处理的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710633514.4A CN110019771B (zh) | 2017-07-28 | 2017-07-28 | 文本处理的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710633514.4A CN110019771B (zh) | 2017-07-28 | 2017-07-28 | 文本处理的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110019771A CN110019771A (zh) | 2019-07-16 |
CN110019771B true CN110019771B (zh) | 2021-08-13 |
Family
ID=67186012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710633514.4A Active CN110019771B (zh) | 2017-07-28 | 2017-07-28 | 文本处理的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110019771B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051893B (zh) * | 2021-04-30 | 2024-01-26 | 中国银行股份有限公司 | 一种热词统计方法、系统、电子设备和存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102096717A (zh) * | 2011-02-15 | 2011-06-15 | 百度在线网络技术(北京)有限公司 | 搜索方法及搜索引擎 |
CN103034726A (zh) * | 2012-12-18 | 2013-04-10 | 上海电机学院 | 文本过滤系统及方法 |
CN103235802A (zh) * | 2013-04-16 | 2013-08-07 | 武汉理工大学 | 用户复杂需求获取方法与系统 |
CN103823893A (zh) * | 2014-03-11 | 2014-05-28 | 北京大学 | 一种基于用户评论的产品检索方法及产品检索系统 |
CN105740302A (zh) * | 2014-12-12 | 2016-07-06 | 北京海尔广科数字技术有限公司 | 一种需求信息的筛选方法及系统 |
CN106202514A (zh) * | 2016-07-21 | 2016-12-07 | 北京邮电大学 | 基于Agent的突发事件跨媒体信息的检索方法及系统 |
CN106682210A (zh) * | 2016-12-30 | 2017-05-17 | 广州华多网络科技有限公司 | 日志文件查询方法及装置 |
CN106708802A (zh) * | 2016-12-20 | 2017-05-24 | 西南石油大学 | 一种信息推荐的方法及系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3040945B2 (ja) * | 1995-11-29 | 2000-05-15 | 松下電器産業株式会社 | 文書検索装置 |
CN101004737A (zh) * | 2007-01-24 | 2007-07-25 | 贵阳易特软件有限公司 | 基于关键词的个性化文档处理系统 |
JP6342678B2 (ja) * | 2014-03-07 | 2018-06-13 | クラリオン株式会社 | 関連データ生成装置、関連データ生成方法およびプログラム |
CN103823792B (zh) * | 2014-03-07 | 2017-01-11 | 网易(杭州)网络有限公司 | 从文本文档中检测热点事件的方法和设备 |
JP2015222458A (ja) * | 2014-05-01 | 2015-12-10 | 株式会社Mobile360 | 広告買付装置及び広告買付方法 |
CN104281653B (zh) * | 2014-09-16 | 2018-07-27 | 南京弘数信息科技有限公司 | 一种针对千万级规模微博文本的观点挖掘方法 |
CN106339495A (zh) * | 2016-08-31 | 2017-01-18 | 广州智索信息科技有限公司 | 一种基于层次增量聚类的话题检测方法及系统 |
CN106503256B (zh) * | 2016-11-11 | 2019-05-07 | 中国科学院计算技术研究所 | 一种基于社交网络文档的热点信息挖掘方法 |
-
2017
- 2017-07-28 CN CN201710633514.4A patent/CN110019771B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102096717A (zh) * | 2011-02-15 | 2011-06-15 | 百度在线网络技术(北京)有限公司 | 搜索方法及搜索引擎 |
CN103034726A (zh) * | 2012-12-18 | 2013-04-10 | 上海电机学院 | 文本过滤系统及方法 |
CN103235802A (zh) * | 2013-04-16 | 2013-08-07 | 武汉理工大学 | 用户复杂需求获取方法与系统 |
CN103823893A (zh) * | 2014-03-11 | 2014-05-28 | 北京大学 | 一种基于用户评论的产品检索方法及产品检索系统 |
CN105740302A (zh) * | 2014-12-12 | 2016-07-06 | 北京海尔广科数字技术有限公司 | 一种需求信息的筛选方法及系统 |
CN106202514A (zh) * | 2016-07-21 | 2016-12-07 | 北京邮电大学 | 基于Agent的突发事件跨媒体信息的检索方法及系统 |
CN106708802A (zh) * | 2016-12-20 | 2017-05-24 | 西南石油大学 | 一种信息推荐的方法及系统 |
CN106682210A (zh) * | 2016-12-30 | 2017-05-17 | 广州华多网络科技有限公司 | 日志文件查询方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110019771A (zh) | 2019-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019214245A1 (zh) | 一种信息推送方法、装置、终端设备及存储介质 | |
US8285745B2 (en) | User query mining for advertising matching | |
CN108268617B (zh) | 用户意图确定方法及装置 | |
US20150066904A1 (en) | Integrating and extracting topics from content of heterogeneous sources | |
US20180150561A1 (en) | Searching method and searching apparatus based on neural network and search engine | |
CN105005582A (zh) | 多媒体信息的推荐方法及装置 | |
JP2015525418A (ja) | 検索方法および装置 | |
WO2015185020A1 (en) | Information category obtaining method and apparatus | |
CN108959329A (zh) | 一种文本分类方法、装置、介质及设备 | |
CN106033455B (zh) | 一种处理用户操作信息的方法与设备 | |
CN110019785B (zh) | 一种文本分类方法及装置 | |
CN109697231A (zh) | 一种案件文书的显示方法、系统、存储介质和处理器 | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
CN106878242B (zh) | 一种确定用户身份类别的方法及装置 | |
CN116109373A (zh) | 金融产品的推荐方法、装置、电子设备和介质 | |
CN110955845A (zh) | 用户兴趣识别方法及装置、搜索结果处理方法及装置 | |
CN112100400A (zh) | 基于知识图谱的节点推荐方法及装置 | |
CN106649210A (zh) | 一种数据转换方法及装置 | |
CN106610989B (zh) | 搜索关键词聚类方法及装置 | |
CN108984572B (zh) | 网站信息推送方法及装置 | |
US9785404B2 (en) | Method and system for analyzing data in artifacts and creating a modifiable data network | |
CN110019771B (zh) | 文本处理的方法及装置 | |
CN113223017A (zh) | 目标分割模型的训练方法、目标分割方法及设备 | |
CN116302278A (zh) | 业务系统的检测方法、装置以及存储介质 | |
CN113807429B (zh) | 企业的分类方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
CB02 | Change of applicant information |
Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing Applicant after: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd. Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A Applicant before: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd. |
|
CB02 | Change of applicant information | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |