CN110162781A - 一种金融文本主观句自动识别方法 - Google Patents

一种金融文本主观句自动识别方法 Download PDF

Info

Publication number
CN110162781A
CN110162781A CN201910281457.7A CN201910281457A CN110162781A CN 110162781 A CN110162781 A CN 110162781A CN 201910281457 A CN201910281457 A CN 201910281457A CN 110162781 A CN110162781 A CN 110162781A
Authority
CN
China
Prior art keywords
sentence
speech
text
subjective
subjectivity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910281457.7A
Other languages
English (en)
Inventor
蔡青林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Golden State Yongfu Asset Management Ltd
Original Assignee
Golden State Yongfu Asset Management Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Golden State Yongfu Asset Management Ltd filed Critical Golden State Yongfu Asset Management Ltd
Priority to CN201910281457.7A priority Critical patent/CN110162781A/zh
Publication of CN110162781A publication Critical patent/CN110162781A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种金融文本主观句自动识别方法,首先根据金融词汇本体对文本进行分词及词性标注,在词性分类的基础上将语句表示为连续词性的顺序组合;然后构造连续双词组合模式集合,根据CHI检验优化模式集合,并通过信息检索评价指标进行赋权;最后根据优化的双词模式集合,对金融文本语句的主观性打分。本发明可自动识别金融文本的主观语句,在智能投顾与智能投研等金融科技领域具有较大的应用价值,如自动抽取和汇总海量研报数据中蕴含的金融机构分析师观点,对大类资产配置等应用具有重要的指导作用。

Description

一种金融文本主观句自动识别方法
技术领域
本发明涉及金融技术、数据挖掘、信息检索等领域,尤其涉及一种金融文本主观句自动识别方法。
背景技术
金融市场信息主要来源于非结构化的文本数据,如企业年报、公告、新闻、政策法规、市场研报等,其中蕴含了大量金融机构与分析师对市场行情的研究与预判,有效挖掘此类信息对金融业务开展与投资决策具有较大的指导意义。该问题主要通过数据挖掘领域的情感分析技术进行解决。现有的情感分析技术主要包括机器学习方法和语义方法。基于机器学习的情感分析方法需要大量标注的样本数据对分类模型进行训练,而训练数据集的建立需要人工对文本逐条阅读,与自动情感分析的目的相矛盾。因此,许多研究者将情感分析的研究重点集中在语义方法上,并已取得一定的成果。
最早提出的语义情感分析方法将点互信息与信息检索方法相结合,借助搜索引擎的后台数据库获得语义倾向信息并做出情感判断,其可靠性已在英文顾客评论分析中得到了初步验证。日本NEC公司对产品声誉文本数据进行了语义抽象和分类研究,取得了初步成功。匹兹堡大学的智能系统研究了情感分析中的语义强度识别问题,对该领域做出了基础性的贡献。另外,一些研究者采用普林斯顿大学开发的英文词网开展英文语义情感分析研究,也取得了较好的结果。
实现情感分析的前提是有效识别文本数据中表达主观情感、态度和观点的内容,对文本的主观性成分进行判断,情感倾向主要通过主观句进行表达。因此,主观语句自动识别技术是情感分析的基础性关键技术。现有的主观情感识别方法主要针对英文文本进行研究,例如选择某些词类(代词、形容词、情态动词、副词等)、标点和句子位置作为特征,实现对主观句识别。还有的方法根据先前确定的主观特征,分别建立主观分类器和客观分类器,从未标注的文本数据中自动获取大量的主观句和客观句,并从中抽取主观性词语搭配,以实现对主观语句的识别。
文本主观句识别技术除了可用于金融数据分析外,还可广泛用于搜索引擎、企业客户服务系统等应用系统中,以帮助企业深入挖掘有价值的信息。然而,现有方法大多针对英文文本数据实现,由于语言结构的差异,它们难以直接用于中文文本数据。因此,目前国内的工业界和金融界对中文文本数据的主观句识别技术具有较为迫切的应用需求。
发明内容
本发明要解决的问题是如何自动识别金融文本所包含的主观性语句。为了解决该问题,本发明提出了一种金融文本主观句自动识别方法。
本发明的目的是通过以下技术方案实现的:
本发明的有益效果是:
1、有效解决了非结构化文本数据中的主观性语句自动识别问题,基于语义方法无需标注训练语料,极大的提升了计算效率。
2、在主观模式抽取步骤中,使用CHI检验筛选双词性组合,可有效区分不同词性的语义功能,保证了本发明对主观语句识别的准确率。
3、在主观模式抽取步骤中,使用查准率对主观模式赋权,可有效区分主观模式在不同语句中的主观程度,同样保证了本发明对主观语句识别的准确率。
附图说明
图1为金融文本主观句自动识别方法流程图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
如图1所示,本发明提供一种金融文本主观句自动识别方法,包括以下步骤:
(1)主观模式提取,具体包括以下子步骤:
(1.1)依次读取金融文本语料库Corp的每个文本di
(1.2)读取停用词典,删除文本di中所有停用词;
(1.3)读取金融词汇本体,对文本di进行分词,生成分词文件pi=<w1,w2,…,wn>;
(1.4)对分词文件pi标注词性,得到词性标注文件p'i=<a1,a2,…,an>;
(1.5)初始化序列集合将p'i所有句子的词性标注序列存入SENT={s1,s2,…,sm};
(1.6)初始化双词性组合模式集合抽取SENT中所有序列的连续双词性组合Ai,存入WP={A1,A2,…,An};
(1.7)初始化双词主观模式集合根据卡方公式(1)进行CHI检验,计算WP中出现的全部双词性组合的χ2统计值并进行排序,筛选大于阈值σ的双词性组合模式A'i,存入双词主观模式集合SP={A'1,A'2,…,A'x};
其中,N表示语料库的句子总数,cj为主客观类别,A表示属于cj类包含Ai的句子频数,B表示不属于cj类包含Ai的句子频数,C表示属于cj类不包含Ai的句子频数,D表示不属于cj类不包含Ai的句子频数;
阈值σ根据应用场景来调节,σ取值越大A'i的主观性越强;
(1.8)根据公式(2)依次计算每个双词主观模式A'i在语料库Corp中的查准率作为其主观性权重;
其中,S(A′i)为与A'i主客观性一致的句子总数;
(1.9)计算主观模式集合SP中所有模式的主观性权重平均值作为语句主观度阈值;
(2)文本主观度计算,具体包括以下子步骤:
(2.1)对于新的金融文本D,根据步骤(1.2)~(1.4)对D分词并标注词性;
(2.2)对于文本D的每个句子si,提取其全部相邻词的词性组合<w1,w2,…,wn>,建立句子si的双词语言模型;
(2.3)初始化句子si的主观模式分值sp_scorei=0,对于si的每个双词性组合项wj,若属于双词主观模式集合SP,则将该模式的主观性权重加到整个句子的主观模式分值sp_scorei
(2.4)统计句子si的双词性组合数目ni,根据公式(3)计算其主观度分值Subi
(2.5)若Subi大于主观度阈值Δ,则判定si为主观句并输出。
本发明针对金融文本主观性语句自动识别任务,提出了一种金融文本主观句自动识别方法,可在自动化决策系统中发挥重要作用,例如对大类资产配置等应用提供重要的参考依据,对智能投顾等金融科技领域具有重要的价值。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (2)

1.一种金融文本主观句自动识别方法,其特征在于,包括以下步骤:
(1)主观模式提取,具体包括以下子步骤:
(1.1)依次读取金融文本语料库Corp的每个文本di
(1.2)读取停用词典,删除文本di中所有停用词;
(1.3)读取金融词汇本体,对文本di进行分词,生成分词文件pi
(1.4)对分词文件pi标注词性,得到词性标注文件p'i
(1.5)初始化序列集合SENT,将p'i所有句子的词性标注序列存入SENT;
(1.6)初始化双词性组合模式集合WP,抽取SENT中所有序列的连续双词性组合Ai,存入WP;
(1.7)初始化双词主观模式集合SP,根据CHI检验计算WP中出现的全部双词性组合的χ2统计值并进行排序,筛选大于阈值σ的双词性组合模式A'i,存入双词主观模式集合SP;
(1.8)依次计算每个双词性组合模式A'i在金融文本语料库Corp中的查准率p0,作为其主观性权重;
(1.9)计算主观模式集合SP中所有模式的主观性权重平均值Δ,作为语句主观度阈值;
(2)文本主观度计算,具体包括以下子步骤:
(2.1)对于新的金融文本D,根据步骤(1.2)~(1.4)对D分词并标注词性;
(2.2)对于文本D的每个句子si,提取其全部相邻词的词性组合,建立句子si的双词语言模型;
(2.3)初始化句子si的主观模式分值sp_scorei,对于si的每个双词性组合项wj,若属于双词主观模式集合SP,则将该模式的主观性权重加到整个句子的主观模式分值sp_scorei
(2.4)统计句子si的双词性组合数目ni,根据si的主观模式分值sp_scorei计算其主观度分值Subi=sp_scorei/ni
(2.5)根据主观度阈值Δ,若Subi大于Δ,则判定si为主观句并输出。
2.根据权利要求1所述的一种金融文本主观句自动识别方法,其特征在于,所述步骤1.7中,根据以下卡方公式进行CHI检验:
其中,N表示语料库的句子总数,cj为主客观类别,A表示属于cj类包含Ai的句子频数,B表示不属于cj类包含Ai的句子频数,C表示属于cj类不包含Ai的句子频数,D表示不属于cj类不包含Ai的句子频数。
CN201910281457.7A 2019-04-09 2019-04-09 一种金融文本主观句自动识别方法 Pending CN110162781A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910281457.7A CN110162781A (zh) 2019-04-09 2019-04-09 一种金融文本主观句自动识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910281457.7A CN110162781A (zh) 2019-04-09 2019-04-09 一种金融文本主观句自动识别方法

Publications (1)

Publication Number Publication Date
CN110162781A true CN110162781A (zh) 2019-08-23

Family

ID=67639149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910281457.7A Pending CN110162781A (zh) 2019-04-09 2019-04-09 一种金融文本主观句自动识别方法

Country Status (1)

Country Link
CN (1) CN110162781A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112464646A (zh) * 2020-11-23 2021-03-09 中国船舶工业综合技术经济研究院 一种面向国防领域防务智库的文本情感分析方法
WO2022183923A1 (zh) * 2021-03-03 2022-09-09 北京沃东天骏信息技术有限公司 短语生成方法、装置和计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005048120A1 (en) * 2003-11-07 2005-05-26 Motorola Inc. Text summarization
CN104331394A (zh) * 2014-08-29 2015-02-04 南通大学 一种基于观点的文本分类方法
CN105022725A (zh) * 2015-07-10 2015-11-04 河海大学 一种应用于金融Web领域的文本情感倾向分析方法
CN106055633A (zh) * 2016-05-30 2016-10-26 国家计算机网络与信息安全管理中心 一种中文微博主客观句分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005048120A1 (en) * 2003-11-07 2005-05-26 Motorola Inc. Text summarization
CN104331394A (zh) * 2014-08-29 2015-02-04 南通大学 一种基于观点的文本分类方法
CN105022725A (zh) * 2015-07-10 2015-11-04 河海大学 一种应用于金融Web领域的文本情感倾向分析方法
CN106055633A (zh) * 2016-05-30 2016-10-26 国家计算机网络与信息安全管理中心 一种中文微博主客观句分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MIN ZHAO: "Judging Subjective and Objective Sentence Based on 2-POS Subjective Models", 《2015 IEEE 12TH INTL CONF ON UBIQUITOUS INTELLIGENCE AND COMPUTING AND 2015 IEEE 12TH INTL CONF ON AUTONOMIC AND TRUSTED COMPUTING AND 2015 IEEE 15TH INTL CONF ON SCALABLE COMPUTING AND COMMUNICATIONS AND ITS ASSOCIATED WORKSHOPS (UIC-ATC-SCALCOM)》 *
叶强: "面向互联网评论情感分析的中文主观性自动判别方法研究", 《信息系统学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112464646A (zh) * 2020-11-23 2021-03-09 中国船舶工业综合技术经济研究院 一种面向国防领域防务智库的文本情感分析方法
WO2022183923A1 (zh) * 2021-03-03 2022-09-09 北京沃东天骏信息技术有限公司 短语生成方法、装置和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN110427623B (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN106919673B (zh) 基于深度学习的文本情绪分析系统
CN110188344A (zh) 一种多特征融合的关键词提取方法
Xu et al. Using deep linguistic features for finding deceptive opinion spam
CN110442760A (zh) 一种问答检索系统的同义词挖掘方法及装置
CN109255027B (zh) 一种电商评论情感分析降噪的方法和装置
CN106611375A (zh) 一种基于文本分析的信用风险评估方法及装置
CN108509629A (zh) 一种基于情感词典和支持向量机的文本情感分析方法
CN103116637A (zh) 一种面向中文Web评论的文本情感分类方法
CN106294330B (zh) 一种科技文本挑选方法及装置
CN102096703A (zh) 短消息的过滤方法和设备
CN109960756A (zh) 新闻事件信息归纳方法
Nagar et al. Using text and data mining techniques to extract stock market sentiment from live news streams
CN113743111B (zh) 基于文本预训练和多任务学习的金融风险预测方法及装置
Yuan-jie et al. Web service classification based on automatic semantic annotation and ensemble learning
CN102880631A (zh) 一种基于双层分类模型的中文作者识别方法及其装置
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN109740642A (zh) 发票类别识别方法、装置、电子设备及可读存储介质
CN110309234A (zh) 一种基于知识图谱的客户持仓预警方法、装置及存储介质
CN109947934A (zh) 针对短文本的数据挖掘方法及系统
CN111191051A (zh) 一种基于中文分词技术的应急知识图谱的构建方法及系统
CN110134781A (zh) 一种金融文本摘要自动抽取方法
Abid et al. Semi-automatic classification and duplicate detection from human loss news corpus
CN110162781A (zh) 一种金融文本主观句自动识别方法
CN109446522B (zh) 一种试题自动分类系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190823