CN109408827A - 一种基于机器学习的软件实体识别方法 - Google Patents
一种基于机器学习的软件实体识别方法 Download PDFInfo
- Publication number
- CN109408827A CN109408827A CN201811321441.6A CN201811321441A CN109408827A CN 109408827 A CN109408827 A CN 109408827A CN 201811321441 A CN201811321441 A CN 201811321441A CN 109408827 A CN109408827 A CN 109408827A
- Authority
- CN
- China
- Prior art keywords
- software entity
- word
- training
- software
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 58
- 238000012360 testing method Methods 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 238000011156 evaluation Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 4
- 239000012141 concentrate Substances 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 230000001915 proofreading effect Effects 0.000 claims description 3
- 238000011160 research Methods 0.000 abstract description 7
- 238000002790 cross-validation Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005206 flow analysis Methods 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于机器学习的软件实体识别方法,包括以下步骤:S1.获取训练数据,对训练数据中的软件实体进行特征提取,将训练数据及其对应的特征保存到数据集中,并将该数据集划分为训练集和验证集;S2.根据条件随机场建立机器学习模型;S3.利用训练集对建立的机器学习模型进行训练,并利用验证集对训练得到的模型进行误差测试,作为模型性能的评价指标。本发明能够通过机器学习的方法对软件实体进行识别,以快速获取科学文献中的软件实体,为科研工作的进行带来了很大便利。
Description
技术领域
本发明涉及软件实体的识别,特别是涉及一种基于机器学习的软件实体识别方法。
背景技术
软件对科学研究至关重要,它被用于许多实践,如控制流程,数据分析和知识传播。科学家认为,软件在研究中起着至关重要的作用;
在科技飞速发展的今天,许多科学实验必须要借助软件进行模拟、控制、统计等才能完成,但人们并对软件对科学的影响的了解还不够多。软件数量众多,没有完整的软件库,而且科学文献中没有对软件使用进行具体的说明,这对于科研人员分析不同软件的使用对科学的影响,以及不同学科之间的软件使用差异造成了非常大的困扰,对科研工作的快速进行带来了不利影响。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于机器学习的软件实体识别方法,能够通过机器学习的方法对软件实体进行识别,以快速获取科学文献中的软件实体,为科研工作的进行带来了很大便利。
本发明的目的是通过以下技术方案来实现的:一种基于机器学习的软件实体识别方法,其特征在于:包括以下步骤:
S1.获取训练数据,对训练数据中的软件实体进行特征提取,将训练数据及其对应的特征保存到数据集中,并将该数据集划分为训练集和验证集;
S2.根据条件随机场建立机器学习模型;
S3.利用训练集对建立的机器学习模型进行训练,并利用验证集对训练得到的模型进行误差测试,作为模型性能的评价指标。
进一步地,在机器学习模型训练和测试完成之后,利用训练得到的模型待处理的科学文献进行软件实体识别。
进一步地,所述步骤S1包括以下子步骤:
S101.对多篇文献中的软件实体进行标记,并对文献进行清洗,将非法字符去除,调整段落以达到机器读取学习的要求,经过人工校对之后录入语料库中;
S102.对软件实体进行特征提取:
计算软件实体的长度,作为软件实体的内部特征:
其中,L表示当i≤k时软件实体平均加权后的长度,Ni表示所选取的语料中长度为i的软件实体出现的次数,k表示语料库中最长的软件实体长度,j表示语料库中最短的软件实体长度,N表示语料库中软件实体的总个数;
统计软件实体的词频,作为软件实体的分布情况参数;
统计软件实体的左右边界词,作为软件实体的外部特征;
S103.对语料库中的语料进行分词得到不同的词语和词性;
S104.结合语料的基本情况,构建5词位的标注集R={B,M,E,BE,S},并根据标注集给得到的每一个词语加上标签,其中,B表示软件实体的初始词,M为软件实体的中间词,E为软件实体的结束词,BE表示一个词或字单独为软件实体的情况,S表示非软件实体词;
S105.将加上标签的词语加入训练数据集中,并将训练数据集划分为训练集和验证集。
进一步地,所述步骤S102中,软件实体的左边界绝对不会跨越其第一个标记,即软件实体的起始标记,故统计范围限定在从句子开始到第一个标记的范围内,记作β;同样的,软件实体的右边界特征词绝对不会跨越软件实体的最后一个标记,所以统计范围限定在从最后一个标记开始到句子结束这样一个范围内,记作α;
软件实体左边界词的统计公式如下:
其中f(W_left_outsaid)表示词语W在β范围内出现的频次,f(W_left)表示词语W在β和软件实体内部出现的频次;
软件实体右边界词的统计公式如下:
其中f(W_right_outside)表示词语W在α范围内出现的频次,f(W_right)表示词语W在α和软件实体内部出现的频次。
进一步地,所述步骤S2中,利用条件随机场建立的模型,在给定一组需要标记的观察序列的条件下,计算整个观察序列状态标记的联合条件概率分布的无向图;对于指定的节点输入值,它计算指定节点输出值的条件概率,其训练目标是使得条件概率最大化;
设x={x1,x2,…,xn-1,xn}表示被观察到的输入数据序列,y={y1,y2,…,yn-1,yn}表示有限状态集合,其中每个状态对应于一个标记,在给定输入序列x的条件下,对于参数λ={λ1,λ2,…λn-1,λn}的条件随机场,状态序列y的条件概率为:
其中Zx为归一化因子,表示所有可能的状态序列的得分,确保所有可能状态序列的条件概率之和为1;fj(yi-1,yi,x,i)是一个统一形式的特征函数,通常为二值表征函数;λj是通过模型对训练数据进行训练之和获得的相应特征函数的权重。
本发明的有益效果是:本发明能够通过机器学习的方法对软件实体进行识别,以快速获取科学文献中的软件实体,为科研工作的进行带来了很大便利。
附图说明
图1为本发明的方法流程图;
图2为线性链CRFs模型的拓扑结构示意图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示,一种基于机器学习的软件实体识别方法,其特征在于:包括以下步骤:
S1.获取训练数据,对训练数据中的软件实体进行特征提取,将训练数据及其对应的特征保存到数据集中,并将该数据集划分为训练集和验证集;
S2.根据条件随机场建立机器学习模型;
S3.利用训练集对建立的机器学习模型进行训练,并利用验证集对训练得到的模型进行误差测试,作为模型性能的评价指标。
其中,所述步骤S1包括以下子步骤:
S101.对多篇文献中的软件实体进行标记,并对文献进行清洗,将非法字符去除,调整段落以达到机器读取学习的要求,经过人工校对之后录入语料库中;
在本申请的实施例中,语料库中的文献来自情报学报,人工标注时采用“【】”进行标注,标注规则为:只标注正文,参考文献和摘要不标注,缩写和全称都标注。文献中的实体包含5类,比如软件、工具有“Spss、Citespace、Excel、Ucient”等,模型、算法有“CRF、CRF++、K-means”等,而学术资源则有“Vos、CNKI、Google scholar、hownet”等,实体不包括公式、指标系数、函数。
S102.对软件实体进行特征提取:
计算软件实体的长度,作为软件实体的内部特征:
其中,L表示当i≤k时软件实体平均加权后的长度,Ni表示所选取的语料中长度为i的软件实体出现的次数,k表示语料库中最长的软件实体长度,j表示语料库中最短的软件实体长度,N表示语料库中软件实体的总个数;获取实体的长度一方面有利于掌握所抽取实体对象的难易程度,另一方面也有利于确定条件随机场标记集的数目,在本申请的实施例中,软件实体长度分布表如下所示:
其中,少量实体长度超过了19,这些软件实体大多是标注过程中出现的错误或者带有解释语句的非常复杂的方法、模型,如“中国学位论文数据库(CDDB)”。
由上表格我们可以看出,大多数软件实体长度集中在3-12之间,通过计算我们得出,长度在3-11之间的软件实体占总体的86.19%,其中长度为3的最多,占实体总数的17.04%,长度为4的实体占总数的16.09%,因此在抽取的时候,长度为3、4的实体将是重点的抽取对象,例如“XML、SVM、心智模型”等。
统计软件实体的词频,作为软件实体的分布情况参数;在本申请的实施例中,软件实体具体分布情况如下表所示:
由以上表格可以看出,频次排在前16位中的软件实体中,有13个软件实体的长度是3-4,这也能很好的解释为什么长度为3-4的软件实体占总数的33.13%。此次统计共有软件实体7373个。其中频次排在前16位的软件实体一共有2475个,占总数的33.57,频次排在前8的软件实体一共有1581个,占总数的21.44%。频次排在前三的软件实体分别是“主题图”,“WordNet”,“XML”,分别占总数的3.19%,3.00%,2.90%。
在语料库中存在大量语料,如何分析是否为软件实体,实体的左右边界词将是关键的判断因素。也就是说,只有分别统计了软件实体的左右边界词之后,才能更好的构建自动提取软件实体模型。“软件实体”的边界范围被限定在以“。!?”结尾的句子范围内,“软件实体”的左边界绝对绝对不会跨越其第一个标记,即软件实体的起始标记,故统计范围限定在从句子开始到第一个标记的范围内,记作β;软件实体的右边界特征词绝对不会跨越软件实体的最后一个标记,所以统计范围限定在从最后一个标记开始到句子结束这样一个范围内,记作α。
统计软件实体的左右边界词,作为软件实体的外部特征;
其中f(W_left_outsaid)表示词语W在β范围内出现的频次,f(W_left)表示词语W在β和软件实体内部出现的频次;在本申请的实施例中,给定P1的经验阈值为0.8,也就是当P≥0.8,W就可能成为“软件实体”的左边界词,然后结合人工语言学知识的内省,即可最终统计出了语料中的所有左边界词。
软件实体右边界词的统计公式如下:
其中f(W_right_outside)表示词语W在α范围内出现的频次,f(W_right)表示词语W在α和软件实体内部出现的频次。在本申请的实施例中,右边界词P2的阈值也设定为0.8,根据语言学知识的内省再结合大于或等于0.8的P值,最终确定了右边界词。
S103.对语料库中的语料进行分词得到不同的词语和词性,在本申请的实施例中,使用的分词系统为“NLPIR汉语分词系统”。
S104.结合语料的基本情况,构建5词位的标注集R={B,M,E,BE,S},并根据标注集给得到的每一个词语加上标签,其中,B表示软件实体的初始词,M为软件实体的中间词,E为软件实体的结束词,BE表示一个词或字单独为软件实体的情况,S表示非软件实体词;
S105.将加上标签的词语加入训练数据集中,并将训练数据集划分为训练集和验证集,在本申请的实施例中,对训练数据集中的数据按照7:3的比例划分到训练集和验证集。
在本申请的实施例中,训练集和验证集以文本的形式形成,对于训练数据集中的数据,将词语和训练的特征以制表符为间隔写入到“.txt”文件中,以句子(这里将“,。?”作为句子结束的标志)为小的单元,句子与句子之间用换行符隔开。将所有的句子打顺序,提高语料的无序程度,按照7:3的比例,将处理好的文本分别放入训练文本(train)和验证文本(test)中。
所述步骤S2中,利用条件随机场(CRFs)建立的模型,在给定一组需要标记的观察序列的条件下,计算整个观察序列状态标记的联合条件概率分布的无向图;对于指定的节点输入值,它计算指定节点输出值的条件概率,其训练目标是使得条件概率最大化;最常用的CRFs图结构是一阶链式结构,即线性链结构,其拓扑结构如图2所示,
设x={x1,x2,…,xn-1,xn}表示被观察到的输入数据序列,y={y1,y2,…,yn-1,yn}表示有限状态集合,其中每个状态对应于一个标记,在给定输入序列x的条件下,对于参数λ={λ1,λ2,…λn-1,λn}的线性链CRFs,状态序列y的条件概率为:
其中Zx为归一化因子,表示所有可能的状态序列的得分,确保所有可能状态序列的条件概率之和为1;fj(yi-1,yi,x,i)是一个统一形式的特征函数,通常为二值表征函数;λj是通过模型对训练数据进行训练之和获得的相应特征函数的权重。与隐马尔可夫模型、最大熵模型相比,条件随机场较好地解决了标注偏置问题。
在本申请的实施例中,需要利用训练集对建立的机器学习模型进行训练,并利用验证集对训练得到的模型进行误差测试;为了消除偶然事件对测试的影响,必须进行多次的验证。增加验证次数的方法有很多,本申请采用交叉验证法。所谓交叉验证就是用来验证分类器的性能一种统计分析方法,基本思想是把在某种意义下将原始数据进行分组,一部分做为训练集,另一部分做为验证集,首先用训练集对分类器进行训练,在利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标。就是把数据分为N份,其实每一份都是一个样本,这样迭代N次,计算最后的误差来作为预测误差。本申请选择10折交叉验证(10-fold cross-validation)进行。具体操作是将整个训练数据集分为10份,轮流抽取其中的7份作为训练语料,3份作为验证语料。
对于最终的结果有3个指标进行评价,分别是准确率(Precision)、召回率(Recall)、F值(F-measure)。具体计算公式如下:
其中,A表示正确识别软件实体个数,B表示错误识别软件实体个数,C表示未识别出来的软件实体个数,具体的测试结果如下表所示。
测试编号 | 准确率(P) | 召回率(R) | F值(F) |
1 | 99.71% | 95.07% | 97.34% |
2 | 99.71% | 95.00% | 97.30% |
3 | 99.64% | 95.02% | 97.28% |
4 | 99.66% | 95.21% | 97.38% |
5 | 99.62% | 94.97% | 97.24% |
6 | 99.65% | 95.09% | 97.32% |
7 | 99.64% | 95.45% | 97.50% |
8 | 99.64% | 94.93% | 97.23% |
9 | 99.72% | 95.02% | 97.31% |
10 | 99.70% | 95.19% | 97.39% |
均值 | 99.67% | 95.01% | 97.32% |
由该表可以看出,三个指标准确率(P)、召回率(R)、F值(F)都很高,尤其是准确率达到了99.67%,这证明我们使用的特征和特征模板在条件随机场模型下有非常好的机器学习效果。
在机器学习模型训练和测试完成之后,利用训练得到的模型待处理的科学文献进行软件实体识别,具体地,首先采用“NLPIR汉语分词系统”对待处理的科学文献进行分词,然后将分词得到的信息送入训练好的模型中进行软件实体识别即可。
综上,本发明通过机器学习的方法对软件实体进行识别,以快速获取科学文献中的软件实体,为科研工作的进行带来了很大便利。
最后需要说明的是,以上所述是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应该看作是对其他实施例的排除,而可用于其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (5)
1.一种基于机器学习的软件实体识别方法,其特征在于:包括以下步骤:
S1.获取训练数据,对训练数据中的软件实体进行特征提取,将训练数据及其对应的特征保存到数据集中,并将该数据集划分为训练集和验证集;
S2.根据条件随机场建立机器学习模型;
S3.利用训练集对建立的机器学习模型进行训练,并利用验证集对训练得到的模型进行误差测试,作为模型性能的评价指标。
2.根据权利要求1所述的一种基于机器学习的软件实体识别方法,其特征在于:在机器学习模型训练和测试完成之后,利用训练得到的模型待处理的科学文献进行软件实体识别。
3.根据权利要求1所述的一种基于机器学习的软件实体识别方法,其特征在于:所述步骤S1包括以下子步骤:
S101.对多篇文献中的软件实体进行标记,并对文献进行清洗,将非法字符去除,调整段落以达到机器读取学习的要求,经过人工校对之后录入语料库中;
S102.对软件实体进行特征提取:
计算软件实体的长度,作为软件实体的内部特征:
其中,L表示当i≤k时软件实体平均加权后的长度,Ni表示所选取的语料中长度为i的软件实体出现的次数,k表示语料库中最长的软件实体长度,j表示语料库中最短的软件实体长度,N表示语料库中软件实体的总个数;
统计软件实体的词频,作为软件实体的分布情况参数;
统计软件实体的左右边界词,作为软件实体的外部特征;
S103.对语料库中的语料进行分词得到不同的词语和词性;
S104.结合语料的基本情况,构建5词位的标注集R={B,M,E,BE,S},并根据标注集给得到的每一个词语加上标签,其中,B表示软件实体的初始词,M为软件实体的中间词,E为软件实体的结束词,BE表示一个词或字单独为软件实体的情况,S表示非软件实体词;
S105.将加上标签的词语加入训练数据集中,并将训练数据集划分为训练集和验证集。
4.根据权利要求3所述的一种基于机器学习的软件实体识别方法,其特征在于:所述步骤S102中,软件实体的左边界绝对不会跨越其第一个标记,即软件实体的起始标记,故统计范围限定在从句子开始到第一个标记的范围内,记作β;同样的,软件实体的右边界特征词绝对不会跨越软件实体的最后一个标记,所以统计范围限定在从最后一个标记开始到句子结束这样一个范围内,记作α;
软件实体左边界词的统计公式如下:
其中f(W_left_outsaid)表示词语W在β范围内出现的频次,f(W_left)表示词语W在β和软件实体内部出现的频次;
软件实体右边界词的统计公式如下:
其中f(W_right_outside)表示词语W在α范围内出现的频次,f(W_right)表示词语W在α和软件实体内部出现的频次。
5.根据权利要求1所述的一种基于机器学习的软件实体识别方法,其特征在于:所述步骤S2中,利用条件随机场建立的模型,在给定一组需要标记的观察序列的条件下,计算整个观察序列状态标记的联合条件概率分布的无向图;对于指定的节点输入值,它计算指定节点输出值的条件概率,其训练目标是使得条件概率最大化;
设x={x1,x2,…,xn-1,xn}表示被观察到的输入数据序列,y={y1,y2,…,yn-1,yn}表示有限状态集合,其中每个状态对应于一个标记,在给定输入序列x的条件下,对于参数
λ={λ1,λ2,…λn-1,λn}的条件随机场,状态序列y的条件概率为:
其中Zx为归一化因子,表示所有可能的状态序列的得分,确保所有可能状态序列的条件概率之和为1;fj(yi-1,yi,x,i)是一个统一形式的特征函数,通常为二值表征函数;λj是通过模型对训练数据进行训练之和获得的相应特征函数的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811321441.6A CN109408827A (zh) | 2018-11-07 | 2018-11-07 | 一种基于机器学习的软件实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811321441.6A CN109408827A (zh) | 2018-11-07 | 2018-11-07 | 一种基于机器学习的软件实体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109408827A true CN109408827A (zh) | 2019-03-01 |
Family
ID=65472026
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811321441.6A Pending CN109408827A (zh) | 2018-11-07 | 2018-11-07 | 一种基于机器学习的软件实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109408827A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377526A (zh) * | 2019-07-31 | 2019-10-25 | 赛汇检测(广州)有限公司 | 一种ai智能软件的测试方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1641590A (zh) * | 2004-01-13 | 2005-07-20 | 国际商业机器公司 | 通过硬件资源利用报告优化性能的方法和数据处理系统 |
CN107193959A (zh) * | 2017-05-24 | 2017-09-22 | 南京大学 | 一种面向纯文本的企业实体分类方法 |
CN108256063A (zh) * | 2018-01-15 | 2018-07-06 | 中国人民解放军国防科技大学 | 一种面向网络安全的知识库构建方法 |
-
2018
- 2018-11-07 CN CN201811321441.6A patent/CN109408827A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1641590A (zh) * | 2004-01-13 | 2005-07-20 | 国际商业机器公司 | 通过硬件资源利用报告优化性能的方法和数据处理系统 |
CN107193959A (zh) * | 2017-05-24 | 2017-09-22 | 南京大学 | 一种面向纯文本的企业实体分类方法 |
CN108256063A (zh) * | 2018-01-15 | 2018-07-06 | 中国人民解放军国防科技大学 | 一种面向网络安全的知识库构建方法 |
Non-Patent Citations (1)
Title |
---|
王东波等: "基于多特征时间抽取模型的食品安全事件演化序列生成研究", 《情报学报》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377526A (zh) * | 2019-07-31 | 2019-10-25 | 赛汇检测(广州)有限公司 | 一种ai智能软件的测试方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107133220B (zh) | 一种地理学科领域命名实体识别方法 | |
CN109460473B (zh) | 基于症状提取和特征表示的电子病历多标签分类方法 | |
CN107391486B (zh) | 一种基于统计信息和序列标注的领域新词识别方法 | |
CN109800310A (zh) | 一种基于结构化表达的电力运维文本分析方法 | |
CN107239439A (zh) | 基于word2vec的舆情倾向性分析方法 | |
CN111027323A (zh) | 一种基于主题模型和语义分析的实体指称项识别方法 | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
CN108255813A (zh) | 一种基于词频-逆文档与crf的文本匹配方法 | |
CN109934251B (zh) | 一种用于小语种文本识别的方法、识别系统及存储介质 | |
CN107943786A (zh) | 一种中文命名实体识别方法及系统 | |
CN105912720B (zh) | 一种计算机中涉及情感的文本数据分析方法 | |
CN105609116A (zh) | 一种语音情感维度区域的自动识别方法 | |
Zheng et al. | Learning context-specific word/character embeddings | |
CN107463703A (zh) | 基于信息增益的英文社交媒体账号分类方法 | |
CN109190099B (zh) | 句模提取方法及装置 | |
CN108681532B (zh) | 一种面向中文微博的情感分析方法 | |
CN108763192B (zh) | 用于文本处理的实体关系抽取方法及装置 | |
CN107894976A (zh) | 一种基于Bi‑LSTM的混合语料分词方法 | |
Jui et al. | A machine learning-based segmentation approach for measuring similarity between sign languages | |
CN107844475A (zh) | 一种基于lstm的分词方法 | |
Tedla et al. | Analyzing word embeddings and improving POS tagger of tigrinya | |
CN106776866A (zh) | 一种对高校网站上的会议稿进行知识抽取的方法 | |
CN109408827A (zh) | 一种基于机器学习的软件实体识别方法 | |
NEAMAH et al. | QUESTION ANSWERING SYSTEM SUPPORTING VECTOR MACHINE METHOD FOR HADITH DOMAIN. | |
CN113297851A (zh) | 一种针对易混淆运动损伤实体词的识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190301 |
|
RJ01 | Rejection of invention patent application after publication |