CN106095753A - 一种基于信息熵和术语可信度的金融领域术语识别方法 - Google Patents

一种基于信息熵和术语可信度的金融领域术语识别方法 Download PDF

Info

Publication number
CN106095753A
CN106095753A CN201610404892.0A CN201610404892A CN106095753A CN 106095753 A CN106095753 A CN 106095753A CN 201610404892 A CN201610404892 A CN 201610404892A CN 106095753 A CN106095753 A CN 106095753A
Authority
CN
China
Prior art keywords
term
word
candidate terms
credibility
labelling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610404892.0A
Other languages
English (en)
Other versions
CN106095753B (zh
Inventor
黄德根
梁晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201610404892.0A priority Critical patent/CN106095753B/zh
Publication of CN106095753A publication Critical patent/CN106095753A/zh
Application granted granted Critical
Publication of CN106095753B publication Critical patent/CN106095753B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提出了一种基于信息熵和术语可信度的金融领域术语识别方法。本发明仅选择简单的特征,用CRF模型识别金融术语;在识别结果中根据基于边缘概率的信息熵公式,通过设定阈值筛选出属于特定错误类型的候选术语,对候选术语的处理更有针对性;过滤候选术语时将词转换为蕴含丰富语义信息的词向量,通过计算相似度与传统的互信息方法互为补充,可过滤得到大量的金融领域术语。利用本发明能有效避免现有机器学习模型过于繁琐的特征选择过程,后处理部分灵活而不局限于特定语料,不但有利于提高召回率,还能够提高术语结构的完整性,可作为通用的术语识别方法。

Description

一种基于信息熵和术语可信度的金融领域术语识别方法
技术领域
本发明涉及自然语言领域处理、文本挖掘、信息处理及命名实体识别等领域,专注于术语识别的问题,提出一种基于信息熵和术语可信度的金融领域术语识别方法。该方法有效地提高了召回率和术语结构的完整性,可作为通用的术语识别方法。
背景技术
随着市场经济的深入发展,金融在社会生活中的地位日益突出,金融已然成为经济运行最重要的战略资源和区域经济发展的强力助推器。金融领域相比于其他领域术语更替速度更快,快速识别金融术语对金融领域的文本挖掘、信息抽取、舆情分析等任务有很高的应用价值。
术语是表达特定领域学科的基本概念的语言单元,是相对固定的词或词组。术语具有相对完整的结构和语义。术语识别是命名实体研究的一个子领域,是信息处理领域的基础研究任务之一,国内外许多研究学者都对领域术语识别进行了深入研究。主要的方法有三类:基于语言学规则的方法、基于统计的方法和统计与规则相结合的方法。
基于语言学规则的方法主要是根据现有的语言学知识和特定领域的术语构词特点制定规则模板,与之匹配的即为术语,这种方法便于理解且计算量少,可以获得较高的准确率,但过于局限于特定文本导致领域适应性差,近年来很少单独使用。
基于统计的方法通常是通过计算词组在文本中的分布统计属性来度量其领域性,根据统计量的组合变化完成术语抽取,常用的统计量有词频、信息熵、TF-IDF、互信息、对数似然比,C-value等。基于统计的方法的优点是可移植性强,不局限于某一领域,但由于这种方法大多是无监督的学习方法,所以抽取的精度不高。另外,这种方法需要大规模且高质量的语料库作支撑,语料规模过小或数据过于稀疏不足以获取高可信度的统计信息。
现在主流的方法是将统计与规则相结合,互相弥补不足,效果较好。这种方法一般将术语识别任务分为两个步骤:利用统计模型(或规则库)的方法从领域语料中获取候选术语;利用另一种方法过滤候选术语。常用的机器学习模型有隐马尔科夫模型、最大熵模型、条件随机场模型和神经网络模型等。这类模型将术语识别问题转化为序列标注问题,通常需要人工添加特征来拟合训练数据,而这些特征的选取和组合耗时耗力,过多特征还会使模型复杂度变高,导致过拟合现象。目前,采用这种方法的研究者们多数的重点都在对统计模型的运用上,后处理的规则选取不灵活,规则库多局限于领域语料,不具有通用性,因此如何减少人工干预并设计出具有通用性的规则库是目前术语识别亟待解决的问题。
发明内容
鉴于上述问题,本发明提出了一种基于信息熵和术语可信度的金融领域术语识别方法。该方法有两个优点:一是通过融合边缘概率与信息熵的筛选,获取了大量潜在的属于特定错误类型的候选术语,对候选术语的处理更有针对性;二是引入了基于词向量的相似度过滤候选术语,与传统的互信息方法互为补充,有利于提高召回率,并提高术语结构的完整性。
本发明的技术方案:
一种基于信息熵和术语可信度的金融领域术语识别方法,步骤如下:
(1)首先使用CRF模型初步识别出金融语料中的金融领域术语,选取的特征如下:
1)词和词性:由金融领域术语的特点可知,词和词性包含了术语本身的最大信息。
2)点式互信息:表示两个词的关联程度,是增加术语上下文信息的一种方式。pmif和pmir分别为当前词与左词、右词的点式互信息,其中wi代表当前词,wi-1代表wi的左词,wi+1代表wi的右词。为降低数据稀疏,对计算得到的浮点数取整处理。
pmi f ( w i - 1 , w i ) = log 2 p ( w i - 1 , w i ) p ( w i - 1 ) × p ( w i ) - - - ( 1 )
pmi r ( w i , w i + 1 ) = log 2 p ( w i , w i + 1 ) p ( w i ) × p ( w i + 1 ) - - - ( 2 )
(2)采用基于信息熵的术语可信度模型处理CRF的识别结果
1)根据识别结果中标签的边缘概率求信息熵,筛选出候选术语。
为方便查看序列标注的结果,采用BIO标记方法,即B为术语的首词,I为术语的中间和尾部,O为非术语。通过分析CRF的标注结果,得出6类术语标注错误:尾部缺失(术语尾部未识别)、尾部多余(术语尾部冗余)、头部缺失(术语头部未识别)、头部多余(术语头部未冗余)、整体缺失(术语整体未识别)和整体多余(术语整体冗余)。
在CRF的识别结果中,每个词均有为B、I、O三种标记以其对应的边缘概率,CRF将概率最大的标记作为最终的标注结果。如果某个词的边缘概率不具有明显的区分性,即该词的标记具有很大的不确定性,那么该词极有可能被错误标注。为了定量地观察这种标记的不确定性,提出了token标记信息熵。
某一个词W有3种可能的标记T1=B,T2=I,T3=O,对应的边缘概率为PB,PI,PO,且PB+PI+PO=1,W的token标记信息熵为H(W),如式(3)所示:
H ( W ) = Σ i = B , I , O ( - p i log 2 p i ) - - - ( 3 )
由信息熵原理可知,H(W)越大,则这个标记的不确定性越大。当H(W)≥α时,即认为这个词的标记是不确定的,应该作为候选术语进一步判断。其中α是H(W)的阈值,针对不确定的强度,分别有α1、α2、α3三个阈值,α1=0.92,α2=0.6,α3=0.5。
下面介绍token标记信息熵筛选算法(筛选“整体缺失”型的候选术语):
2)根据基于互信息和词向量相似度的术语可信度对候选术语进行过滤。
上述由token标记信息熵得到的候选术语集合中包含了一部分噪音(即本来标注正确的序列被列入待处理的候选术语集合),进一步过滤噪音是必要的,本发明利用术语可信度过滤候选术语。首先介绍术语可信度,根据候选术语词长的不同,分为以下两种情况:
ⅰ.当词长≥2时,设有候选术语片段A1A2,统计训练语料中以A1开始的术语片段A1Ci(i=1,2,3…)、以A2结尾的术语片段BjA2(j=1,2,3…),若A1A2满足以下任一条件,则称A1A2具有术语可信度。
①反向术语度:
②正向术语度:
③术语相似度:
其中pmi是求两个词的点式互信息,具体公式参考式(1)或(2);avg是求数据集合的平均值;max是求数据集合的最大值;cos是求两个词所对应的词向量的余弦距离,它反应了两个词的相似程度,余弦距离公式见式(4)(X,Y是单位化向量):
c o s ( X , Y ) = Σ i = 1 n X i Y i - - - ( 4 )
上述条件①和②分别从反向和正向计算术语词对之间的关联程度,判断是否大于或等于已知术语搭配的互信息平均值;而条件③则将词转换为词向量,具体考察了候选词与已知搭配词的相似度是否大于或等于已知搭配词之间的整体相似度。
ⅱ.当词长=1时,设有候选术语A,统计训练语料中词长为1的术语Dk(k=1,2,3…),如果满足式(5),则认为A具有术语可信度,其中β为阈值。
m a x k = 1 , 2 , ... { c o s ( A , D k ) } ≥ β - - - ( 5 )
下面介绍基于术语可信度的候选术语过滤算法:
本发明的有益效果:本发明的金融领域术语识别方法能有效避免现有机器学习模型过于繁琐的特征选择过程,后处理部分灵活而不局限于特定语料,不但有利于提高召回率,还能够提高术语结构的完整性,可作为通用的术语识别方法。
附图说明
图1是金融领域术语的识别过程。
图2是阈值折线图。
具体实施方式
以下结合附图和技术方案,进一步说明本发明的具体实施方式。
1.选取CRF模型对金融语料进行序列标注,本发明选用的2014-2016年的1600篇新浪财经新闻,共有2百余万字,共提取到67152个金融术语(含重复),将这些语料以4:1进行训练和测试,采用五倍交叉实验的方法,使用分词工具Nihao进行分词和词性标注。词向量的训练工具是word2vec,选用Skip-Gram模型,训练语料为2014-2016年各大门户网站的财经新闻和金融报刊文本,共计8百余万词,令向量维度为100,词窗口大小为5。
2.通过分析CRF的标注结果,得出6类术语标注错误,下面举例说明:
3.针对术语可信度的条件“术语相似度”,对条件右侧的计算函数进行了探索,分别测试了取中位数(mid)、平均数(avg)和最大值(max)的不同情况,有关术语可信度3个条件的实验结果见下表,采取的评价指标有准确率、召回率和F值。

Claims (1)

1.一种基于信息熵和术语可信度的金融领域术语识别方法,其特征在于,步骤如下:
(1)使用CRF模型初步识别出金融语料中的金融领域术语,选取的特征如下:
1)词和词性;
2)点式互信息:表示两个词的关联程度,pmif和pmir分别为当前词与前一词、后一词的点式互信息,其中,wi代表当前词,wi-1代表wi的前一词,wi+1代表wi的后一词;为降低数据稀疏,对得到的浮点数取整;
pmi f ( w i - 1 , w i ) = log 2 p ( w i - 1 , w i ) p ( w i - 1 ) × p ( w i ) - - - ( 1 )
pmi r ( w i , w i + 1 ) = log 2 p ( w i , w i + 1 ) p ( w i ) × p ( w i + 1 ) - - - ( 2 )
(2)采用基于信息熵的术语可信度模型处理CRF的识别结果
1)根据识别结果中标签的边缘概率求信息熵,筛选出候选术语
采用BIO标记方法对步骤(1)识别结果进行标记,即B为术语的首词,I为术语的中间和尾部,O为非术语;将CRF识别结果分为6类术语标注错误:尾部缺失即术语尾部未识别、尾部多余即术语尾部冗余、头部缺失即术语头部未识别、头部多余即术语头部未冗余、整体缺失即术语整体未识别和整体多余即术语整体冗余;
在CRF识别结果中,每个词均有为B、I、O三种标记以其对应的边缘概率,CRF将概率最大的标记作为最终的标注结果;如果某个词的边缘概率不具有明显的区分性,即该词的标记具有很大的不确定性,那么该词极有可能被标注错误;通过token标记信息熵定量观察标记的不确定性;
某一个词W有3种可能的标记T1=B,T2=I,T3=O,对应的边缘概率为PB,PI,PO,且PB+PI+PO=1,W的token标记信息熵为H(W),如式(3)所示:
H ( W ) = Σ i = B , I , O ( - p i log 2 p i ) - - - ( 3 )
由信息熵原理可知,H(W)越大,则这个标记的不确定性越大;当H(W)≥α时,即该词的标记是不确定的,作为候选术语进一步判断;其中α是H(W)的阈值,针对不确定的强度,分别有α1、α2、α3三个阈值,α1=0.92,α2=0.6,α3=0.5;
token标记信息熵筛选算法,筛选“整体缺失”型的候选术语:
输入:CRF识别结果;
输出:候选术语集合;
wordList:CRF识别结果的词表,包含特征、标记和边缘概率信息;
secMaxP:第二大边缘概率;
termStart:候选术语的开始位置;
termEnd:候选术语的结束位置;
L1:将CRF识别结果存入wordList中;
L2:如果当前词wordList[i]的标记不为‘O’,则当前词不属于“整体缺失”型,退出返回;
L3:如果当前词wordList[i]的标记为‘O’,满足条件⑴:H(wordList[i])≥α1且wordlist[i]的secMaxP是‘B’,记录此位置为termStart;
L4:如果下一个词wordList[++i]的标记为‘O’,满足条件⑵:H(wordList[i])≥α2且wordlist[i]的secMaxP是‘I’,重复步骤L4;若该词标记不为‘O’,就跳到L5;若不满足条件⑵,就记录此位置为termEnd,跳到L6;
L5:当前词的标记不为‘O’,若满足条件⑶:H(wordList[i])<min{α1,α2,α3},记录此位置为termEnd,跳到L6;
L6:提取wordlist中下标[term_start,term_end]内的候选术语,放入候选术语集合中;
2)根据基于互信息和词向量相似度的术语可信度对候选术语进行过滤;
根据候选术语词长的不同,过滤由token标记信息熵得到的候选术语集合,分为以下两种情况:
ⅰ.当词长≥2时,设有候选术语片段A1A2,统计训练语料中以A1开始的术语片段A1Ci,i=1,2,3…,以A2结尾的术语片段BjA2,j=1,2,3…,若A1A2满足以下任一条件,则称A1A2具有术语可信度;
①反向术语度:
②正向术语度:
③术语相似度:
其中,pmi是求两个词的点式互信息,具体公式参考式(1)或(2);avg是求数据集合的平均值;max是求数据集合的最大值;cos是求两个词所对应的词向量的余弦距离,反应了两个词的相似程度;X,Y是单位化向量;余弦距离公式见式(4):
c o s ( X , Y ) = Σ i = 1 n X i Y i - - - ( 4 )
上述条件①和②分别从反向和正向计算术语词对之间的关联程度,判断是否大于或等于已知术语搭配的互信息平均值;而条件③则将词转换为词向量,考察了候选词与已知搭配词的相似度是否大于或等于已知搭配词之间的整体相似度;
ⅱ.当词长=1时,设有候选术语A,统计训练语料中词长为1的术语Dk,k=1,2,3…,如果满足式(5),则认为候选术语A具有术语可信度,其中β为阈值;
m a x k = 1 , 2 , ... { c o s ( A , D k ) } ≥ β - - - ( 5 )
基于术语可信度的候选术语过滤方法:
输入:候选术语集合;
输出:修正后的序列标注文件;
L1:判断候选术语所属错误类型,若它属于“头部缺失”的类型跳到L2,“尾部缺失”的类型跳到L3,“整体缺失”的类型跳到L4,“头部多余”的类型跳到L5,“尾部多余”的类型跳到L6,“整体多余”的类型跳到L7;
L2:如果候选术语A1A2…An的缺失部分为A1A2…Ai,1≤i≤n-1,若A1A2…Ai+1中每两个相邻词对AjAj+1,1≤j≤i,都具有术语可信度,则跳到L8;
L3:如果候选术语A1A2…An的缺失部分为AiAi+1…An,1<i≤n,若Ai-1Ai…An中每两个相邻词对AjAj+1,i-1≤j≤n-1,都具有术语可信度,则跳到L8;
L4:如果候选术语词长为1,仅当该词具有术语可信度时跳到L8;否则为A1A2…An,若每两个相邻词对AjAj+1,1≤j≤n-1,都具有术语可信度,则跳到L8;
L5:如果候选术语A1A2…An的多余部分为A1A2…Ai,1≤i≤n-1,若AiAi+1不具有术语可信度,则将多余子串A1A2…Ai输入到L7;
L6:如果候选术语为A1A2…An的多余部分为AiAi+1…An,1<i≤n,若Ai-1Ai不具有术语可信度,则将多余子串AiAi+1…An输入到L7;
L7:如果候选术语词长为1,仅当该词不具有术语可信度时跳到L8;否则候选术语为A1A2…An,若每两个相邻词对AjAj+1,1≤j≤n-1,都不具有术语可信度,再分别判断每个词是否具有术语可信度,跳到L8;
L8:修正候选术语,填补缺失的词或删去多余的词,写入序列标注文件。
CN201610404892.0A 2016-06-07 2016-06-07 一种基于信息熵和术语可信度的金融领域术语识别方法 Expired - Fee Related CN106095753B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610404892.0A CN106095753B (zh) 2016-06-07 2016-06-07 一种基于信息熵和术语可信度的金融领域术语识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610404892.0A CN106095753B (zh) 2016-06-07 2016-06-07 一种基于信息熵和术语可信度的金融领域术语识别方法

Publications (2)

Publication Number Publication Date
CN106095753A true CN106095753A (zh) 2016-11-09
CN106095753B CN106095753B (zh) 2018-11-06

Family

ID=57228459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610404892.0A Expired - Fee Related CN106095753B (zh) 2016-06-07 2016-06-07 一种基于信息熵和术语可信度的金融领域术语识别方法

Country Status (1)

Country Link
CN (1) CN106095753B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897264A (zh) * 2017-01-10 2017-06-27 中国科学院信息工程研究所 一种基于社团划分的无监督复合短语识别方法
CN107463682A (zh) * 2017-08-08 2017-12-12 深圳市腾讯计算机系统有限公司 一种关键词的识别方法和装置
CN107633444A (zh) * 2017-08-29 2018-01-26 南京理工大学紫金学院 基于信息熵与模糊c均值聚类的推荐系统噪声过滤方法
CN108052577A (zh) * 2017-12-08 2018-05-18 北京百度网讯科技有限公司 一种通用文本内容挖掘方法、装置、服务器及存储介质
CN109087223A (zh) * 2018-08-03 2018-12-25 广州大学 一种基于本体的教育资源模型构建方法
WO2019015269A1 (zh) * 2017-07-18 2019-01-24 中译语通科技股份有限公司 基于最大熵和神经网络模型的韩语命名实体识别方法
CN111046660A (zh) * 2019-11-21 2020-04-21 深圳无域科技技术有限公司 一种识别文本专业术语的方法及装置
CN111222329A (zh) * 2019-12-10 2020-06-02 上海八斗智能技术有限公司 句向量训练方法及模型、句向量预测方法及系统
CN111695346A (zh) * 2020-06-16 2020-09-22 广州商品清算中心股份有限公司 一种提升金融风险防控领域舆情实体识别率的方法
CN112965890A (zh) * 2021-03-10 2021-06-15 中国民航信息网络股份有限公司 一种数据处理方法及相关设备
CN113312451A (zh) * 2021-06-15 2021-08-27 北京百度网讯科技有限公司 文本标签确定方法和装置
CN115204190A (zh) * 2022-09-13 2022-10-18 中科聚信信息技术(北京)有限公司 金融领域术语转化为英文的装置及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011065617A1 (ko) * 2009-11-27 2011-06-03 한국과학기술정보연구원 과학기술핵심개체 간 의미적 연관관계 자동 추출을 위한 시맨틱 구문 트리 커널 기반 처리 시스템 및 방법
CN103020022A (zh) * 2012-11-20 2013-04-03 北京航空航天大学 一种基于改进信息熵特征的中文未登录词识别系统及方法
CN103049501A (zh) * 2012-12-11 2013-04-17 上海大学 基于互信息和条件随机场模型的中文领域术语识别方法
CN103106192A (zh) * 2013-02-02 2013-05-15 深圳先进技术研究院 文学作品作者识别方法及装置
KR20150050140A (ko) * 2013-10-31 2015-05-08 한국전자통신연구원 코퍼스 자동 구축 방법 및 이를 이용한 개체명 인식 방법과 장치
CN105024969A (zh) * 2014-04-17 2015-11-04 北京启明星辰信息安全技术有限公司 一种实现恶意域名识别的方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011065617A1 (ko) * 2009-11-27 2011-06-03 한국과학기술정보연구원 과학기술핵심개체 간 의미적 연관관계 자동 추출을 위한 시맨틱 구문 트리 커널 기반 처리 시스템 및 방법
CN103020022A (zh) * 2012-11-20 2013-04-03 北京航空航天大学 一种基于改进信息熵特征的中文未登录词识别系统及方法
CN103049501A (zh) * 2012-12-11 2013-04-17 上海大学 基于互信息和条件随机场模型的中文领域术语识别方法
CN103106192A (zh) * 2013-02-02 2013-05-15 深圳先进技术研究院 文学作品作者识别方法及装置
KR20150050140A (ko) * 2013-10-31 2015-05-08 한국전자통신연구원 코퍼스 자동 구축 방법 및 이를 이용한 개체명 인식 방법과 장치
CN105024969A (zh) * 2014-04-17 2015-11-04 北京启明星辰信息安全技术有限公司 一种实现恶意域名识别的方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
RIZKI DARMAWAN、ROMI SATRIA WAHONO: "Hybrid Keyword Extraction Algorithm and Cosine Similarity for Improving Sentences Cohesion in Text Summarization", 《INTELLIGENT SYSTEMS》 *
张莉 等: "基于语序位置特征的汉英术语对自动抽取研究", 《南京大学学报(自然科学)》 *
李丽双 等: "基于信息熵和词频分布变化的术语抽取研究", 《中文信息学报》 *
王卫民 等: "基于种子扩充的专业术语识别方法研究", 《计算机应用研究》 *
闫兴龙 等: "基于网络资源与用户行为信息的领域术语提取", 《软件学报》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897264A (zh) * 2017-01-10 2017-06-27 中国科学院信息工程研究所 一种基于社团划分的无监督复合短语识别方法
WO2019015269A1 (zh) * 2017-07-18 2019-01-24 中译语通科技股份有限公司 基于最大熵和神经网络模型的韩语命名实体识别方法
CN107463682A (zh) * 2017-08-08 2017-12-12 深圳市腾讯计算机系统有限公司 一种关键词的识别方法和装置
CN107633444A (zh) * 2017-08-29 2018-01-26 南京理工大学紫金学院 基于信息熵与模糊c均值聚类的推荐系统噪声过滤方法
CN107633444B (zh) * 2017-08-29 2021-03-19 南京理工大学紫金学院 基于信息熵与模糊c均值聚类的推荐系统噪声过滤方法
CN108052577A (zh) * 2017-12-08 2018-05-18 北京百度网讯科技有限公司 一种通用文本内容挖掘方法、装置、服务器及存储介质
CN109087223A (zh) * 2018-08-03 2018-12-25 广州大学 一种基于本体的教育资源模型构建方法
CN111046660B (zh) * 2019-11-21 2023-05-09 深圳无域科技技术有限公司 一种识别文本专业术语的方法及装置
CN111046660A (zh) * 2019-11-21 2020-04-21 深圳无域科技技术有限公司 一种识别文本专业术语的方法及装置
CN111222329A (zh) * 2019-12-10 2020-06-02 上海八斗智能技术有限公司 句向量训练方法及模型、句向量预测方法及系统
CN111222329B (zh) * 2019-12-10 2023-08-01 上海八斗智能技术有限公司 句向量训练方法及模型、句向量预测方法及系统
CN111695346A (zh) * 2020-06-16 2020-09-22 广州商品清算中心股份有限公司 一种提升金融风险防控领域舆情实体识别率的方法
CN111695346B (zh) * 2020-06-16 2024-05-07 广州商品清算中心股份有限公司 一种提升金融风险防控领域舆情实体识别率的方法
CN112965890A (zh) * 2021-03-10 2021-06-15 中国民航信息网络股份有限公司 一种数据处理方法及相关设备
CN112965890B (zh) * 2021-03-10 2024-06-07 中国民航信息网络股份有限公司 一种数据处理方法及相关设备
CN113312451A (zh) * 2021-06-15 2021-08-27 北京百度网讯科技有限公司 文本标签确定方法和装置
CN113312451B (zh) * 2021-06-15 2023-06-23 北京百度网讯科技有限公司 文本标签确定方法和装置
CN115204190A (zh) * 2022-09-13 2022-10-18 中科聚信信息技术(北京)有限公司 金融领域术语转化为英文的装置及方法
CN115204190B (zh) * 2022-09-13 2022-11-22 中科聚信信息技术(北京)有限公司 金融领域术语转化为英文的装置及方法

Also Published As

Publication number Publication date
CN106095753B (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN106095753A (zh) 一种基于信息熵和术语可信度的金融领域术语识别方法
CN109344236B (zh) 一种基于多种特征的问题相似度计算方法
CN107066553B (zh) 一种基于卷积神经网络与随机森林的短文本分类方法
CN112214610B (zh) 一种基于跨度和知识增强的实体关系联合抽取方法
CN107463607B (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
US10831993B2 (en) Method and apparatus for constructing binary feature dictionary
CN107229610A (zh) 一种情感数据的分析方法及装置
CN110750635B (zh) 一种基于联合深度学习模型的法条推荐方法
CN102169495A (zh) 行业词典生成方法及装置
CN108363691B (zh) 一种用于电力95598工单的领域术语识别系统及方法
CN110222184A (zh) 一种文本的情感信息识别方法及相关装置
US20230069935A1 (en) Dialog system answering method based on sentence paraphrase recognition
CN112101027A (zh) 基于阅读理解的中文命名实体识别方法
CN110879831A (zh) 基于实体识别技术的中医药语句分词方法
CN109783636B (zh) 一种基于分类器链的汽车评论主题提取方法
CN114969275A (zh) 一种基于银行知识图谱的对话方法及其系统
CN110889275A (zh) 一种基于深度语义理解的信息抽取方法
CN111401058A (zh) 一种基于命名实体识别工具的属性值抽取方法及装置
Hengchen et al. A data-driven approach to studying changing vocabularies in historical newspaper collections
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN111460147B (zh) 一种基于语义增强的标题短文本分类方法
CN111400449B (zh) 一种正则表达式抽取方法及装置
Abate et al. Development of Amharic morphological analyzer using memory-based learning
CN113806493A (zh) 一种用于互联网文本数据的实体关系联合抽取方法、装置
CN116049376B (zh) 一种信创知识检索回复的方法、装置和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20181106

Termination date: 20210607

CF01 Termination of patent right due to non-payment of annual fee