CN107291708A - 一种基于文本的自动识别文献研究的方法 - Google Patents
一种基于文本的自动识别文献研究的方法 Download PDFInfo
- Publication number
- CN107291708A CN107291708A CN201610191091.0A CN201610191091A CN107291708A CN 107291708 A CN107291708 A CN 107291708A CN 201610191091 A CN201610191091 A CN 201610191091A CN 107291708 A CN107291708 A CN 107291708A
- Authority
- CN
- China
- Prior art keywords
- data
- mark
- model
- marked
- manually
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于文本的自动识别文献研究的方法,包括首先基于CRF模型对已经标注少量的数据建模,然后对未标注数据进行预测,再从大部分预测标注集合中挑选尽量少的部分数据进行人工标注,接着将标注后的结果在加入到原有语料中重新建模,适当迭代该过程得到最终模型,而此模型即可用于对科技文献的研究对象进行抽取,步骤一,获取科技文献标题,并做初次标注,步骤二,对数据进行标准化处理,步骤三,模型特征化提取,步骤四,训练数据,步骤五,提取部分未标注数据,并进行标记,步骤六,对模型准确率评估,在机器学习模型中优化的引入人工评定,可有效提高学习模型的改进效果的同时,能够尽量节省人工标注的成本。
Description
技术领域
本发明涉及人工智能技术领域,具体为一种基于文本的自动识别文献研究的方法。
背景技术
科学论文是由作者通过书面撰写,总结提炼研究工作的展现形式,科学论文一般包括不同的研究元素,如研究背景、研究对象、研究过程、研究方法、研究结论等,其中研究对象是指论文主要研究目标的核心主体,能高效清晰定位出对应文章的关注面,包括客观事物、理论、事件、过程、关系等属性实例,研究对象的提取能够将论文的主要研究目标以直观的形式展现出来,有助于研究者快速掌握这一对象的相关信息,方便的检索和对比相关研究内容,已有的处理方法有很多,其中有基于规则的方法,此方法取得了一定的效果,但由于自然语言句式的多样性,导致该方法并不能覆盖研究对象提取中的所有规则,遗漏太多,且不能实时更新,灵活性差,而采用统计学习方法的提取过程常常引入不确定因素,导入查全率高而准确率低,因而,单纯的规则或者统计的实用性都很有限。
发明内容
本发明的目的在于提供一种基于文本的自动识别文献研究的方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于文本的自动识别文献研究的方法,包括首先基于CRF模型对已经标注少量的数据建模,然后对未标注数据进行预测,再从大部分标注集合中挑选尽量少的部分数据进行人工标注,接着将标注后的结果在加入到原有语料中重新建模,适当迭代该过程得到最终模块,而此模型即可用于对科技文献的研究对象进行抽取,具体为以下步骤:
步骤一:获取科技文献标题,并做初次标注
获取大量的科技文献的标题集合S,提取出少量科技文献的标题S1(S1的总量大于2000)并由人工在这些标题上做标注,标出对应的标题中提及的研究对象,标出后数据记为SD1,提取出少量科技文献的标题S2(S2的总量大于4000)并由人工在这些标题上做标注,标出对应的标题中提及的研究对象,标出后数据记为SD2,S中去除S1数据和S2数据后,剩下的部分记为S3;
步骤二:对数据进行标准化处理
由于科技文献本身涉及的对象复杂,研究对象中存在英文字母数字符号等,需要对句子进行预处理去掉这些东西,此处即根据正则表达式对原始文本进行标准化清洗,此步骤对S涉及的所有标题都进行标准化,而SD1标准化后记为SP1,SD2标准化后记为SP2,S3标准化后记为SP3;
步骤三:模型特征化提取
对数据SP1、SP2和SP3进行特征化,提取为可供模型直接使用的样本输入,对应的特征化后,SP1的特征化提取结果记为Fa,SP2的特征化提取结果记为Fb,SP3的特征化提取结果记为Fc;
步骤四:训练数据
对数据Fa用CRF模型在标注后的数据进行训练,得到训练好的模型M0,运用模型M0对数据Fb进行准确率测试,得到模型准确率P0;
步骤五:提取部分未标注数据,并进行标记
运用模型M0对数据Fc进行自动标注,各样本的各个字符对应有被分为不同类别标签的概率值,记E=标签的概率最大值-次大值其中从中选取对应不同E范围的样本,随机选择一部分交给人工进行标注,将标注后的得到的数据记为D0,进而做标准化和特征化,得到FD0;
步骤六:对模型准确率评估
将FD0加入Fa中得到Fa1,在Fa1上重新建模,得到模型M1,并再次Fb中进行准确率测试,准确率为P1;
步骤七:判断R值是否最优
观察两次准确率之差值ΔP=P1-P0,ΔP>0则该E区间数据否对模型有效,为了节省人工标注成本,须尽可能的减少人工标注的成本,即筛选出进行人工标注的数据量N应尽可能的少,引入如下判别公式:R=arg maxE(△P/N),其中,E=标签的概率最大值-次大值,△P=P2-P1=f(E)表示前后两次模型准
确率的差值,N=g(E)为添加的人工标记的数据的数量;
步骤八:分析数据量增加方法
重复步骤五、步骤六和步骤七过程;
步骤九:迭代标引,生成最终模型
(1)将当前所有已标好结果的数据作为训练数据,生成训练模型,(2)用当前的训练模型对不带标号的数据进行预测,(3)从中选出判定结果符合Ebest值的数据,随机抽取少量让人工标注,(4)将此时增加的人工标注后的数据加入已有的标注中,(5)重复此(1)到(4)的迭代过程,人为设定迭代次数,将最终得到的所有标注后的数据作为训练数据,生成最终训练模型,此模型即可用以对未知数据进行标注,对一篇新的科技文献,先获取此文献的标题,并将此标题做标准化,提取特征后置入最终模型中,即可得到对应输出,即可评判得到此文献的研究对象。
优选的,在步骤五中,不断调整的大小,通常是以相同间隔递增的数列,如0.1,0.2,0.3,0.4,...,1,越大,筛选的数据越多,计算每次在原来数据基础上加入重新人工标注的新数据ai重新建模,计算前后两次准确率差值△P=Pi-P(i-1),最后计算对应的R值,不断循环迭代,寻找最优R值,当△E越大,N越小时,越能添加尽量少的数据,得到最好的实验效果,即当R值越大时,这时的E是最优解Ebest,则在E∈[0,Ebest]时,能添加最少的数据(节省人工标注成本),得到最好的实验效果。
与现有技术相比,本发明的有益效果是:该本发明基于将文章碎片化为背景、目的、研究对象、研究内容、研究方法和研究结论等元数据,在机器学习模型中优化的引入人工评定,可有效提高学习模型的改进效果的同时,能够尽量节省人工标注的成本,而最终得到的模型可直接用于实际工程实践,结合人的分析智能和统计学习的计算能力,在最小人工的劳动量的补充要求下,产生的模型可有效的提高研究对象的标引能力,最终模型可直接用以对未知数据进行预测,实用性强,方法简单。
具体实施方式
下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不限于此。
实施例
一种基于文本的自动识别文献研究对象的方法,包括首先基于CRF模型对已经标注少量的数据建模,然后对未标注数据进行预测,再从大部分标注集合中挑选尽量少的部分数据进行人工标注,接着将标注后的结果在加入到原有语料中重新建模,适当迭代该过程得到最终模块,而此模型即可用于对科技文献的研究对象进行抽取,具体为以下步骤:
步骤一:获取科技文献标题,并做初次标注
获取大量的科技文献的标题集合S,提取出少量科技文献的标题S1(S1的总量大于2000)并由人工在这些标题上做标注,标出对应的标题中提及的研究对象,标出后数据记为SD1,提取出少量科技文献的标题S2(S2的总量大于4000)并由人工在这些标题上做标注,标出对应的标题中提及的研究对象,标出后数据记为SD2,S中去除S1数据和S2数据后,剩下的部分记为S3;
步骤二:对数据进行标准化处理
由于科技文献本身涉及的对象复杂,研究对象中存在英文字母数字符号等,需要对句子进行预处理去掉这些东西,此处即根据正则表达式对原始文本进行标准化清洗,此步骤对S涉及的所有标题都进行标准化,而SD1标准化后记为SP1,SD2标准化后记为SP2,S3标准化后记为SP3;
步骤三:模型特征化提取
对数据SP1、SP2和SP3进行特征化,提取为可供模型直接使用的样本输入,对应的特征化后,SP1的特征化提取结果记为Fa,SP2的特征化提取结果记为Fb,SP3的特征化提取结果记为Fc;
步骤四:训练数据
对数据Fa用CRF模型在标注后的数据进行训练,得到训练好的模型M0,运用模型M0对数据Fb进行准确率测试,得到模型准确率P0;
步骤五:提取部分未标注数据,并进行标记
运用模型M0对数据Fc进行自动标注,各样本的各个字符对应有被分为不同类别标签的概率值,记E=标签的概率最大值-次大值其中从中选取对应不同E范围的样本,随机选择一部分交给人工进行标注,将标注后的得到的数据记为D0,进而做标准化和特征化,得到FD0,不断调整的大小,通常是以相同间隔递增的数列,如0.1,0.2,0.3,0.4,...,1,越大,筛选的数据越多,计算每次在原来数据基础上加入重新人工标注的新数据ai重新建模,计算前后两次准确率差值△P=Pi-P(i-1),最后计算对应的R值,不断循环迭代,寻找最优R值,当△E越大,N越小时,越能添加尽量少的数据,得到最好的实验效果,即当R值越大时,这时的E是最优解Ebest,则在E∈[0,Ebest]时,能添加最少的数据(节省人工标注成本),得到最好的实验效果;
步骤六:对模型准确率评估
将FD0加入Fa中得到Fa1,在Fa1上重新建模,得到模型M1,并再次Fb中进行准确率测试,准确率为P1;
步骤七:判断R值是否最优
观察两次准确率之差值ΔP=P1-P0,ΔP>0则该E区间数据否对模型有效,为了节省人工标注成本,须尽可能的减少人工标注的成本,即筛选出进行人工标注的数据量N应尽可能的少,引入如下判别公式:R=arg maxE(△P/N),其中,E=标签的概率最大值-次大值,△P=P2-P1=f(E)表示前后两次模型准
确率的差值,N=g(E)为添加的人工标记的数据的数量;
步骤八:分析数据量增加方法
重复步骤五、步骤六和步骤七过程;
步骤九:迭代标引,生成最终模型
(1)将当前所有已标好结果的数据作为训练数据,生成训练模型,(2)用当前的训练模型对不带标号的数据进行预测,(3)从中选出判定结果符合Ebest值的数据,随机抽取少量让人工标注,(4)将此时增加的人工标注后的数据加入已有的标注中,(5)重复此(1)到(4)的迭代过程,人为设定迭代次数,将最终得到的所有标注后的数据作为训练数据,生成最终训练模型,此模型即可用以对未知数据进行标注,对一篇新的科技文献,先获取此文献的标题,并将此标题做标准化,提取特征后置入最终模型中,即可得到对应输出,即可评判得到此文献的研究对象,该本发明基于将文章碎片化为背景、目的、研究对象、研究内容、研究方法和研究结论等元数据,在机器学习模型中优化的引入人工评定,可有效提高学习模型的改进效果的同时,能够尽量节省人工标注的成本,而最终得到的模型可直接用于实际工程实践,结合人的分析智能和统计学习的计算能力,在最小人工的劳动量的补充要求下,产生的模型可有效的提高研究对象的标引能力,最终模型可直接用以对未知数据进行预测,实用性强,方法简单。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (2)
1.一种基于文本的自动识别文献研究的方法,其特征在于:包括首先基于CRF模型对已经标注少量的数据建模,然后对未标注数据进行预测,再从大部分标注集合中挑选尽量少的部分数据进行人工标注,接着将标注后的结果在加入到原有语料中重新建模,适当迭代该过程得到最终模型,而此模型即可用于对科技文献的研究对象进行抽取,具体为一下步骤:
步骤一:获取科技文献标题,并做初次标注
获取大量的科技文献的标题集合S,提取出少量科技文献的标题S1(S1的总量大于2000)并由人工在这些标题上做标注,标出对应的标题中提及的研究对象,标出后数据记为SD1,提取出少量科技文献的标题S2(S2的总量大于4000)并由人工在这些标题上做标注,标出对应的标题中提及的研究对象,标出后数据记为SD2,S中去除S1数据和S2数据后,剩下的部分记为S3;
步骤二:对数据进行标准化处理
由于科技文献本身涉及的对象复杂,研究对象中存在英文字母数字符号等,需要对句子进行预处理去掉这些东西,此处即根据正则表达式对原始文本进行标准化清洗,此步骤对S涉及的所有标题都进行标准化,而SD1标准化后记为SP1,SD2标准化后记为SP2,S3标准化后记为SP3;
步骤三:模型特征化提取
对数据SP1、SP2和SP3进行特征化,提取为可供模型直接使用的样本输入,对应的特征化后,SP1的特征化提取结果记为Fa,SP2的特征化提取结果记为Fb,SP3的特征化提取结果记为Fc;
步骤四:训练数据
对数据Fa用CRF模型在标注后的数据进行训练,得到训练好的模型M0,运用模型M0对数据Fb进行准确率测试,得到模型准确率P0;
步骤五:提取部分未标注数据,并进行标记
运用模型M0对数据Fc进行自动标注,各样本的各个字符对应有被分为不同类别标签的概率值,记其中 从中选取对应不同E范围的样本,随机选择一部分交给人工进行标注,将标注后的得到的数据记为D0,进而做标准化和特征化,得到FD0;
步骤六:对模型准确率评估
将FD0加入Fa中得到Fa1,在Fa1上重新建模,得到模型M1,并再次Fb中进行准确率测试,准确率为P1;
步骤七:判断R值是否最优
观察两次准确率之差值ΔP=P1-P0,ΔP>0则该E区间数据否对模型有效,为了节省人工标注成本,须尽可能的减少人工标注的成本,即筛选出进行人工标注的数据量N应尽可能的少,引入如下判别公式:R=arg max*△P/N,其中,E=标签的概率最大值-次大值,△P=P2-P1(fE)表示前后两次模型准确率的差值,N=g(E)为添加的人工标记的数据的数量,E为参数大小;
步骤八:分析数据量增加方法
重复步骤五、步骤六和步骤七过程;
步骤九:迭代标引,生成最终模型
(1)将当前所有已标好结果的数据作为训练数据,生成训练模型,(2)用当前的训练模型对不带标号的数据进行预测,(3)从中选出判定结果符合Ebest值的数据,随机抽取少量让人工标注,(4)将此时增加的人工标注后的数据加入已有的标注中,(5)重复此(1)到(4)的迭代过程,人为设定迭代次数,将最终得到的所有标注后的数据作为训练数据,生成最终训练模型,此模型即可用以对未知数据进行标注,对一篇新的科技文献,先获取此文献的标题,并将此标题做标准化,提取特征后置入最终模型中,即可得到对应输出,即可评判得到此文献的研究对象。
2.根据权利要求1所述的一种基于文本的自动识别文献研究结论的方法,其特征在于:在步骤五中,不断调整的大小,通常是以相同间隔递增的数列,如0.1,0.2,0.3,0.4,...,1,越大,筛选的数据越多,计算每次在原来数据基础上加入重新人工标注的新数据αi重新建模,计算前后两次准确率差值△P=Pi-P(i-1),最后计算对应的R值,不断循环迭代,寻找最优R值,当△E越大,N越小时,越能添加尽量少的数据,得到最好的实验效果,即当R值越大时,这时的E是最优解Ebest,则在E∈[0,Ebest]时,能添加最少的数据(节省人工标注成本),得到最好的实验效果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610191091.0A CN107291708A (zh) | 2016-03-30 | 2016-03-30 | 一种基于文本的自动识别文献研究的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610191091.0A CN107291708A (zh) | 2016-03-30 | 2016-03-30 | 一种基于文本的自动识别文献研究的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107291708A true CN107291708A (zh) | 2017-10-24 |
Family
ID=60087070
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610191091.0A Pending CN107291708A (zh) | 2016-03-30 | 2016-03-30 | 一种基于文本的自动识别文献研究的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107291708A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009589A (zh) * | 2017-12-12 | 2018-05-08 | 腾讯科技(深圳)有限公司 | 样本数据处理方法、装置和计算机可读存储介质 |
CN108491389A (zh) * | 2018-03-23 | 2018-09-04 | 杭州朗和科技有限公司 | 点击诱饵标题语料识别模型训练方法和装置 |
CN109753976A (zh) * | 2017-11-01 | 2019-05-14 | 中国电信股份有限公司 | 语料标注装置和方法 |
CN110069602A (zh) * | 2019-04-15 | 2019-07-30 | 网宿科技股份有限公司 | 语料标注方法、装置、服务器及存储介质 |
CN110245346A (zh) * | 2018-03-09 | 2019-09-17 | 北京国双科技有限公司 | 事件信息分析方法及装置 |
CN110555472A (zh) * | 2019-08-27 | 2019-12-10 | 安徽心之声医疗科技有限公司 | 基于主动学习的心电信号数据标注方法 |
CN110738303A (zh) * | 2018-07-18 | 2020-01-31 | 科沃斯机器人股份有限公司 | 机器模型更新方法、设备、系统及存储介质 |
CN111008706A (zh) * | 2019-12-09 | 2020-04-14 | 长春嘉诚信息技术股份有限公司 | 一种自动标注、训练、预测海量数据的处理方法 |
CN111475641A (zh) * | 2019-08-26 | 2020-07-31 | 北京国双科技有限公司 | 一种数据抽取方法、装置、存储介质及设备 |
CN112395528A (zh) * | 2019-08-13 | 2021-02-23 | 阿里巴巴集团控股有限公司 | 文本标签判别方法、装置、电子设备及存储介质 |
CN114936284A (zh) * | 2022-05-19 | 2022-08-23 | 智慧芽信息科技(苏州)有限公司 | 文献标引方法及装置、存储介质及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102314507A (zh) * | 2011-09-08 | 2012-01-11 | 北京航空航天大学 | 一种中文命名实体识别歧义消解方法 |
CN104408093A (zh) * | 2014-11-14 | 2015-03-11 | 中国科学院计算技术研究所 | 一种新闻事件要素抽取方法与装置 |
-
2016
- 2016-03-30 CN CN201610191091.0A patent/CN107291708A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102314507A (zh) * | 2011-09-08 | 2012-01-11 | 北京航空航天大学 | 一种中文命名实体识别歧义消解方法 |
CN104408093A (zh) * | 2014-11-14 | 2015-03-11 | 中国科学院计算技术研究所 | 一种新闻事件要素抽取方法与装置 |
Non-Patent Citations (1)
Title |
---|
贺惠新等: "主动学习的科技文献研究对象标引体系研究", 《现代图书情报技术》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109753976B (zh) * | 2017-11-01 | 2021-03-19 | 中国电信股份有限公司 | 语料标注装置和方法 |
CN109753976A (zh) * | 2017-11-01 | 2019-05-14 | 中国电信股份有限公司 | 语料标注装置和方法 |
CN108009589A (zh) * | 2017-12-12 | 2018-05-08 | 腾讯科技(深圳)有限公司 | 样本数据处理方法、装置和计算机可读存储介质 |
CN110245346A (zh) * | 2018-03-09 | 2019-09-17 | 北京国双科技有限公司 | 事件信息分析方法及装置 |
CN108491389A (zh) * | 2018-03-23 | 2018-09-04 | 杭州朗和科技有限公司 | 点击诱饵标题语料识别模型训练方法和装置 |
CN108491389B (zh) * | 2018-03-23 | 2021-10-08 | 杭州朗和科技有限公司 | 点击诱饵标题语料识别模型训练方法和装置 |
CN110738303A (zh) * | 2018-07-18 | 2020-01-31 | 科沃斯机器人股份有限公司 | 机器模型更新方法、设备、系统及存储介质 |
CN110069602B (zh) * | 2019-04-15 | 2021-11-19 | 网宿科技股份有限公司 | 语料标注方法、装置、服务器及存储介质 |
CN110069602A (zh) * | 2019-04-15 | 2019-07-30 | 网宿科技股份有限公司 | 语料标注方法、装置、服务器及存储介质 |
CN112395528A (zh) * | 2019-08-13 | 2021-02-23 | 阿里巴巴集团控股有限公司 | 文本标签判别方法、装置、电子设备及存储介质 |
CN112395528B (zh) * | 2019-08-13 | 2022-10-21 | 阿里巴巴集团控股有限公司 | 文本标签判别方法、装置、电子设备及存储介质 |
CN111475641A (zh) * | 2019-08-26 | 2020-07-31 | 北京国双科技有限公司 | 一种数据抽取方法、装置、存储介质及设备 |
CN110555472A (zh) * | 2019-08-27 | 2019-12-10 | 安徽心之声医疗科技有限公司 | 基于主动学习的心电信号数据标注方法 |
CN110555472B (zh) * | 2019-08-27 | 2023-02-03 | 安徽心之声医疗科技有限公司 | 基于主动学习的心电信号数据标注方法 |
CN111008706A (zh) * | 2019-12-09 | 2020-04-14 | 长春嘉诚信息技术股份有限公司 | 一种自动标注、训练、预测海量数据的处理方法 |
CN111008706B (zh) * | 2019-12-09 | 2023-05-05 | 长春嘉诚信息技术股份有限公司 | 一种自动标注、训练、预测海量数据的处理方法 |
CN114936284A (zh) * | 2022-05-19 | 2022-08-23 | 智慧芽信息科技(苏州)有限公司 | 文献标引方法及装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107291708A (zh) | 一种基于文本的自动识别文献研究的方法 | |
Wang et al. | A two-stage parsing method for text-level discourse analysis | |
CN106649597B (zh) | 一种基于图书内容的图书书后索引自动构建方法 | |
CN110598203A (zh) | 一种结合词典的军事想定文书实体信息抽取方法及装置 | |
CN106776538A (zh) | 企业非标准格式文档的信息提取方法 | |
CN104951469B (zh) | 优化语料库的方法和装置 | |
CN106709032A (zh) | 抽取电子表格文档中结构化信息的方法及装置 | |
CN108845988B (zh) | 一种实体识别方法、装置、设备及计算机可读存储介质 | |
CN107004141A (zh) | 对大样本组的高效标注 | |
CN104850617B (zh) | 短文本处理方法及装置 | |
CN115048316B (zh) | 一种半监督的软件代码缺陷检测方法及装置 | |
CN108959566A (zh) | 一种基于Stacking集成学习的医疗文本去隐私方法和系统 | |
CN106560786A (zh) | 来自多个媒体源的内容的组织与可视化 | |
CN110348017B (zh) | 一种文本实体检测方法、系统及相关组件 | |
CN102024150A (zh) | 图形识别方法及图形识别装置 | |
CN106055667A (zh) | 一种基于文本‑标签密度的网页核心内容提取方法 | |
CN112132186A (zh) | 一种存在部分缺失和未知类别标记的多标记分类方法 | |
CN105159917B (zh) | 一种电子病历的非结构化信息转化为结构化的泛化方法 | |
CN109993216B (zh) | 一种基于k最近邻knn的文本分类方法及其设备 | |
CN110119510A (zh) | 一种基于传递依存关系和结构助词的关系抽取方法及装置 | |
CN105117740A (zh) | 字体识别方法及装置 | |
CN106844481A (zh) | 字体相似度及字体替换方法 | |
CN106777336A (zh) | 一种基于深度学习的公司名成分抽取系统和方法 | |
CN103440315A (zh) | 一种基于主题的Web页面清洗方法 | |
CN106874397A (zh) | 一种面向物联网设备的自动语义标注方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20171024 |