CN108268669A - 一种基于多维词句特征和情感分析的关键新词发现方法 - Google Patents
一种基于多维词句特征和情感分析的关键新词发现方法 Download PDFInfo
- Publication number
- CN108268669A CN108268669A CN201810325081.0A CN201810325081A CN108268669A CN 108268669 A CN108268669 A CN 108268669A CN 201810325081 A CN201810325081 A CN 201810325081A CN 108268669 A CN108268669 A CN 108268669A
- Authority
- CN
- China
- Prior art keywords
- word
- words
- filtering
- neologisms
- multidimensional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种基于多维词句特征和情感分析的关键新词发现方法,包括:步骤1,从电商平台抓取需求的评论;步骤2,对评论进行预处理;步骤3,采用NLPIR分词工具对评论进行分词;步骤4,利用多维词句特征对分词后的文本进行重复串的构造及过滤;步骤5,人工筛选训练样本的正确新词;步骤6,对新词进行字数组合以及词性组合的统计;步骤7,根据统计结果调整步骤4中过滤的阈值和加入词性组合过滤,得到测试样本的重复串集;步骤8,添加用户词典优化分词;步骤9,LTP对分词结果进行依存句法分析;步骤10,利用CRF++工具对依存关系中的支配词进行情感标记;步骤11,重复串本身是情感词或者其支配词是情感词的重复串为关键新词。本发明,在通过对大量某类电商产品的评论文本进行新词的挖掘,得到评论中起关键作用的新词,提高了分词的准确性,为文本挖掘分析工作提供了良好的基础。
Description
技术领域
本发明涉及电子商务领域,具体设计一种基于多维词句特征和情感分析的关键新词发现方法。
背景技术
分词技术是中文自然语言处理领域一个非常重要的研究内容。新词发现是优化分词的重要一环。由于在中文信息处理中,不像英文等西方语言,词与词之间有固定的分隔符,所以分词通常作为中文信息处理任务最开始的一个必要步骤。分词任务中所遇到的分词工具字典未包含的词(即未登录词,本文所指新词属于未登录词)会显著影响分词的性能.因此,新词发现对于提高分词准确率,以致后续工作都有重要的意义.然而近年来,个人博客、个性签名、微博、贴吧等应用的出现,允许用户自己生成网页内容,导致类似于“兔波波”、“蓝瘦”等等新词汇大量出现,并以非常快的速度更新,使得新词发现面临更大的挑战。然而,目前关于新词发现的研究主要集中在人名、地名、翻译缩写或者某几个领域术语(如军事、财经等领域)的自动提取。而本发明将对电商平台用户评论文本进行新词发现,从而进行优化分词。
目前新词发现方法主要有:基于规则的方法和基于统计的方法。基于规则的方法是根据语言学特征,包括词性、语义、词法等来匹配候选的重构串。该方法能达到较高的准确率,但是适用范围局限性大。基于统计的方法可分为有监督和无监督两类。有监督的方法需要先对语料进行训练,然后用训练得到的结果对候选重构串进行测试,依赖训练语料和模板设计。无监督的方法则需要设定有效统计量的阈值,词句特征的统计量主要有词本身、词性、左右熵、互信息、TF/IDF,该方法适用范围较大,但是阈值难设定,准确率较低。为了提高新词发现的查准率和查全率,调整合理的阈值,本发明将有采用有监督方法和无监督方法相结合,设计了一种基于多维词句特征和情感分析的关键新词发现方法。
发明内容
(一)要解决的技术问题
本发明提供了一种基于多维词句特征和情感分析的关键新词发现方法,有效地发现评论文本中未被分词工具切分出来的新词,能为文本挖掘工作提供良好的基础。
本发明提出了对候选重复串的字数组合和词性组合进行统计,字数组合为调整构造重复串合理的阈值提供了依据,词性组合过滤能有效的提高重构串的查准率。
本发明提出的有监督和无监督相结合的方法,该方法可以适当的扩大无监督方法的阈值,增加查全率,再用LTP进行句法分析,然后采用有监督的CRF方法,根据情感分析,可以有效地找到评论中具有挖掘价值的关键新词。
(二)技术方案
一种基于多维词句特征和情感分析的关键新词发现方法,其特征在于,所述方法包括:
步骤1,使用网络爬虫技术从电商平台上抓取某类商品的评论文本。爬虫技术是从一个初始网页的URL开始,根据设计的正则表达式抓取网页中的内容和抽取新的URL,直到完成设定的任务为止。将记录数据的网页用dom4j技术提取需要的信息节点解析为文本,持久化处理,存入数据库中。
步骤2,对评论进行预处理,去除无效评论、去除重复评论、去除无效符号。
步骤3,采用中科院的NLPIR分词工具对评论文本进行初次分词,每条评论被切分成一个个的词,同时标注了每个词的词性。
步骤4,基于多维度词句特征,采用n-gram算法构造重复串,同时设定合理的阈值,结合词性过滤、词频过滤、停用词过滤、词长过滤;然后进行重复串的筛选,环节包括:频数过滤、内聚性过滤、左右熵过滤。最后,得到训练样本的1号重复串集。
步骤5,由于是否为完整的一个词语非常易判别,因此,可以人工筛选出待清洗1号重复串集中正确的新词;
步骤6,统计出新词的词性组合,如v+v+n、v+n等;统计出新词的字数组合,为步骤4中n-gram算法构造重复串提供阈值合理设定的依据。
步骤7,根据步骤6中字数组合的统计结果调整n-gram算法构造重复串的阈值,之后对测试样本的筛选重复串的环节增加为:频数过滤、内聚性过滤、左右熵过滤及词性组合过滤。最后,得到测试样本的2号重复串集。
步骤8,由于构造的重复串存在交叠现象,比如“屏\幕\亮度”和“屏\幕”,为了确保最终新词的准确率,防止遗漏或者过度组合,每次取有交叠重复串的其中一个加入用户词典,这里以从长到短,从前往后的顺序依次取,进行优化分词,然后进行后续新词的判别工作。
步骤9,利用哈工大LTP对优化分词的结果进行依存句法分析,得到每个词的支配词以及它们的依存关系。
步骤10,人工对训练样本的支配词进行情感标记,根据词形、词性、依存关系、支配词、情感标记建立特征模板,CRF++利用特征模板自动生成所需要的特征函数,然后使其对待测样本进行情感标记。
步骤11,根据重复串是否为情感词或者其支配词是否为情感词来筛选得到新词,并将带入不同有交叠现象的重复串的新词结果合并,得到最终的关键新词集。
(三)有益效果
本发明提出的一种基于多维词句特征和情感分析的关键新词发现方法,能够有效的解决之前基于统计的方法阈值难以设定的问题,同时加入词性组合过滤和情感分析提高了新词的准确率,有效地发现具有挖掘价值的关键新词。
附图说明
图1是本发明的技术路线图;
图2是本发明的n-gram算法构造重复串流程图;
图3是本发明的新词字数组合分布图;
图4是本发明的新词词性组合分布图。
具体实施方式
为了使本发明的目的、技术方案和有点更加清楚明了,下面结合具体实施方案并参照附图,对本发明进一步详细说明。
在下面的描述中阐述了很多细节以便于充分理解本发明,但是,本发明还可以在采用其他不同于此描述范围内的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例限制。
图1显示了本发明一种基于多维词句特征和情感分析的关键新词发现方法的技术路线图。
步骤1,使用网络爬虫技术从电商平台上抓取某类商品的评论文本。爬虫技术是从一个初始网页的URL开始,根据设计的正则表达式抓取网页中的内容和抽取新的URL,直到完成设定的任务为止。将记录数据的网页用dom4j技术提取需要的信息节点解析为文本,持久化处理,存入数据库中。
步骤2,对评论进行预处理,去除无效评论、去除重复评论、去除无效符号。无效评论包括:无评论(“此用户没有填写评论”)、过短评论(如“好”、“好评”、“还行”等);重复评论是指复制已有评论的评论;无效符号指表情符号等。
步骤3,采用中科院的NLPIR分词工具对评论文本进行初次分词,每条评论被切分成一个个的词,同时标注了每个词的词性。词语序列为W=w1w2...wn,其中wn表示这条评论中的第n个词语。词性序列为P=p1p2...pn,其中pn表示这条评论中的第n个词语的词性。
步骤4,基于多维度词句特征,采用2-gram~4-gram算法构造重复串,结合词性过滤、词频过滤、停用词过滤、词长过滤,需要的数据表如表1所示,同时设定合理的阈值。
表1构造重复串的数据表
然后,进行重复串的筛选,环节包括:频数过滤、内聚性过滤、左右熵过滤,如表2所示。最后,得到训练样本1号重复串集。具体流程如图2所示。
表2重复串过滤统计量表
步骤5,由于是否为完整的一个词语非常易判别,因此,可以人工筛选出待清洗1号重复串集中正确的新词;
步骤6,统计出新词的词性组合,如图3所示;统计出新词的字数组合,如图4所示,为步骤4中n-gram算法构造重复串提供阈值合理设定的依据,由图4可知重复串词长阈值设置为5最优。
步骤7,根据步骤6中字数组合的统计结果调整n-gram算法构造重复串的阈值,之后将测试样本的过滤重复串的环节增加为:频数过滤、内聚性过滤、左右熵过滤及词性组合过滤。最后,得到测试样本2号重复串集。
步骤8,由于构造的重复串存在交叠现象,比如“屏\幕\亮度”和“屏\幕”,为了确保最终新词的准确率,防止遗漏或者过度组合,每次取有交叠重复串的其中一个加入用户词典,这里以从长到短,从前往后的顺序依次取,进行优化分词,然后进行后续新词发现工作。
步骤9,利用哈工大LTP是优化分词的结果进行依存句法分析,得到每个词的支配词以及它们的依存关系,如表3所示。
表3LTP句法分析结果
步骤10,人工对训练样本的支配词进行情感标记,根据词形、词性、依存关系、支配词、情感标记建立特征模板,训练文本格式如表4所示,特征模板如表5所示,CRF++利用特征模板自动生成所需要的特征函数,然后使其对待测样本进行情感标记。
表4训练文本格式
表5特征模板
步骤11,根据重复串是否为情感词或者其支配词是否为情感词来筛选得到新词,并将带入不同有交叠现象的重复串的新词结果合并,得到最终的关键新词集。
应理解,本发明的上述具体实施方式是用于示例性说明本发明的原理,而不构成对本发明的限制。本发明所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (8)
1.一种基于多维词句特征和情感分析的关键新词发现方法,其特征在于,所述方法包括:
步骤1,从电商平台抓取需求的评论文本;
步骤2,对评论文本进行预处理;
步骤3,采用NLPIR分词工具对评论文本进行初次分词;
步骤4,利用多维词句特征对分词后的训练文本进行重复串的构造及过滤;
步骤5,人工筛选出待清洗训练文本重复串集中正确的新词;
步骤6,对新词进行字数组合以及词性组合的统计;
步骤7,根据统计结果调整步骤4中过滤的阈值和加入词性组合过滤,得到测试文本重复串集;
步骤8,将测试文本重复串集中无交叠词加入到用户词典,进行优化分词;
步骤9,利用哈工大LTP是优化分词的结果进行依存句法分析;
步骤10,利用CRF++工具对依存关系中的支配词进行情感标记;
步骤11,最终,重复串本身是情感词或者其支配词是情感词的重复串为需要的关键新词。
2.如权利要求1所述的一种基于多维词句特征和情感分析的关键新词发现方法,其特征在于:在步骤2中,预处理有去除无效评论、去除重复评论、去除无效符号。
3.如权利要求1所述的一种基于多维词句特征和情感分析的关键新词发现方法,其特征在于:在步骤4中,基于多维度词句特征,采用n-gram算法构造重复串,该算法包括:词性过滤、词频过滤、停用词过滤、词长过滤;筛选重复串的环节包括:频数过滤、内聚性过滤、左右熵过滤。
4.如权利要求1所述的一种基于多维词句特征和情感分析的关键新词发现方法,其特征在于:在步骤6中,统计出新词的词性组合,如v+v+n、v+n等;统计出新词的字数组合,为步骤4中n-gram算法构造重复串提供阈值合理设定的依据。
5.如权利要求1所述的一种基于多维词句特征和情感分析的关键新词发现方法,其特征在于:在步骤7中,根据步骤6词性组合的统计,筛选重复串的环节增加为:频数过滤、内聚性过滤、左右熵过滤及词性组合过滤。
6.如权利要求1所述的一种基于多维词句特征和情感分析的关键新词发现方法,其特征在于:在步骤8中,由于构造的重复串存在存在交叠现象,比如“屏\幕\亮度”和“屏\幕”,为了确保最终新词的准确率,防止遗漏或者过度组合,这里每次取有交叠重复串的其中一个加入用户词典进行随后新词的判别。
7.如权利要求1所述的一种基于多维词句特征和情感分析的关键新词发现方法,其特征在于:在步骤10中,人工对训练样本的支配词进行情感标记,根据词形、词性、依存关系、支配词、情感标记建立特征模板,CRF++利用特征模板自动生成所需要的特征函数,然后使其对待测样本进行情感标记。
8.如权利要求1所述的一种基于多维词句特征和情感分析的关键新词发现方法,其特征在于:在步骤11中,根据重复串是否为情感词或者其支配词是否为情感词来筛选得到新词,并将带入不同存在交叠现象的重复串的结果合并,得到最终的关键新词集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810325081.0A CN108268669A (zh) | 2018-04-12 | 2018-04-12 | 一种基于多维词句特征和情感分析的关键新词发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810325081.0A CN108268669A (zh) | 2018-04-12 | 2018-04-12 | 一种基于多维词句特征和情感分析的关键新词发现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108268669A true CN108268669A (zh) | 2018-07-10 |
Family
ID=62778273
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810325081.0A Withdrawn CN108268669A (zh) | 2018-04-12 | 2018-04-12 | 一种基于多维词句特征和情感分析的关键新词发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108268669A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287488A (zh) * | 2019-06-18 | 2019-09-27 | 上海晏鼠计算机技术股份有限公司 | 一种基于大数据和中文特征的中文文本分词方法 |
CN111476025A (zh) * | 2020-02-28 | 2020-07-31 | 开普云信息科技股份有限公司 | 一种面向政府领域新词自动发现的实现方法、分析模型及其系统 |
CN111680492A (zh) * | 2020-06-10 | 2020-09-18 | 创新奇智(青岛)科技有限公司 | 新词挖掘方法、装置及电子设备 |
CN112559743A (zh) * | 2020-12-09 | 2021-03-26 | 深圳市网联安瑞网络科技有限公司 | 一种政企网络支持度的计算方法、装置、设备及存储介质 |
-
2018
- 2018-04-12 CN CN201810325081.0A patent/CN108268669A/zh not_active Withdrawn
Non-Patent Citations (2)
Title |
---|
吕美香等: "基于N-Gram文本表达的新闻领域关键词词典构建研究", 《情报科学》 * |
李勇敢等: "结合依存关联分析和规则统计分析的情感词库构建方法", 《武汉大学学报(理学版)》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287488A (zh) * | 2019-06-18 | 2019-09-27 | 上海晏鼠计算机技术股份有限公司 | 一种基于大数据和中文特征的中文文本分词方法 |
CN111476025A (zh) * | 2020-02-28 | 2020-07-31 | 开普云信息科技股份有限公司 | 一种面向政府领域新词自动发现的实现方法、分析模型及其系统 |
CN111476025B (zh) * | 2020-02-28 | 2021-01-08 | 开普云信息科技股份有限公司 | 一种面向政府领域新词自动发现的实现方法、分析模型及其系统 |
CN111680492A (zh) * | 2020-06-10 | 2020-09-18 | 创新奇智(青岛)科技有限公司 | 新词挖掘方法、装置及电子设备 |
CN112559743A (zh) * | 2020-12-09 | 2021-03-26 | 深圳市网联安瑞网络科技有限公司 | 一种政企网络支持度的计算方法、装置、设备及存储介质 |
CN112559743B (zh) * | 2020-12-09 | 2024-02-13 | 深圳市网联安瑞网络科技有限公司 | 一种政企网络支持度的计算方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106776711B (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN108268669A (zh) | 一种基于多维词句特征和情感分析的关键新词发现方法 | |
CN110297913A (zh) | 一种电子公文实体抽取方法 | |
CN106407235B (zh) | 一种基于点评数据的语义词典构建方法 | |
CN102779135B (zh) | 跨语言获取搜索资源的方法和装置及对应搜索方法和装置 | |
CN103324626B (zh) | 一种建立多粒度词典的方法、分词的方法及其装置 | |
CN103778243A (zh) | 一种领域术语抽取方法 | |
CN106096664A (zh) | 一种基于社交网络数据的情感分析方法 | |
CN104778256A (zh) | 一种领域问答系统咨询的快速可增量聚类方法 | |
CN106202039B (zh) | 基于条件随机场的越南语组合词消歧方法 | |
CN109408806A (zh) | 一种基于英文语法规则的事件提取方法 | |
CN106503256B (zh) | 一种基于社交网络文档的热点信息挖掘方法 | |
Chea et al. | Khmer word segmentation using conditional random fields | |
CN106776560A (zh) | 一种柬埔寨语组织机构名识别方法 | |
CN107329960A (zh) | 一种上下文敏感的神经网络机器翻译中未登录词翻译装置和方法 | |
CN104050255A (zh) | 基于联合图模型的纠错方法及系统 | |
CN101464856A (zh) | 平行口语语料的对齐方法和装置 | |
CN107092675A (zh) | 一种基于统计和浅层语言分析的维吾尔文语义串抽取方法 | |
Algur et al. | Sentiment analysis by identifying the speaker's polarity in Twitter data | |
Niehues | Continuous learning in neural machine translation using bilingual dictionaries | |
Ali et al. | SiNER: A large dataset for Sindhi named entity recognition | |
CN101763403A (zh) | 面向多语言信息检索系统的查询翻译方法 | |
CN106156013A (zh) | 一种固定搭配型短语优先的两段式机器翻译方法 | |
CN112101047A (zh) | 一种面向小语种包含精确术语匹配的机器翻译方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20180710 |
|
WW01 | Invention patent application withdrawn after publication |