CN105912570A - 基于隐马尔可夫模型的英文简历关键字段抽取方法 - Google Patents
基于隐马尔可夫模型的英文简历关键字段抽取方法 Download PDFInfo
- Publication number
- CN105912570A CN105912570A CN201610189293.1A CN201610189293A CN105912570A CN 105912570 A CN105912570 A CN 105912570A CN 201610189293 A CN201610189293 A CN 201610189293A CN 105912570 A CN105912570 A CN 105912570A
- Authority
- CN
- China
- Prior art keywords
- character
- resume
- hidden state
- hidden
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了基于隐马尔可夫模型的英文简历关键字段抽取方法,包括:收集英文简历,将收集的英文简历分为训练样本和测试样本;预处理训练样本,并对简历文本序列做隐含状态标记;获取字符字典;计算出隐马尔可夫模型参数初值;使用Baum‑Welch算法对隐马尔可夫模型参数重估,得到一个训练过的隐马尔可夫模型;预处理测试样本;根根据训练过的隐马尔可夫模型,使用维特比算法将测试样本简历标记出最大概率的隐含状态序列。本发明使用隐马尔可夫模型的维特比算法,不仅适应性好、抽取精度较高,而且不需大规模的词典集与规则集,具有很强的实用性。
Description
技术领域
本发明属于电子信息技术领域,涉及一种基于隐马尔可夫模型的英文简历关键字段抽取方法。
背景技术
文本信息抽取,是模式识别和人工智能中的一个重要课题,它是指从自然语言文本中抽取指定类型的实体关系,事件等事实信息并形成结构化数据输出的文本处理技术。这种抽取不仅仅是简单的信息检索,除了利用统计及关键词匹配技术外,还要利用自然语言分析技术对文本中的句子及篇章进行分类、归纳、分析,最后形成格式化的信息。
在日常生活中,简历是一类常见文本。从功能上看,简历是其作者介绍自己,推销自己,最终达到有效沟通的重要手段;从行文结构上看,它是一种半结构化文本。该类文本应用广泛、数目众多,因此,高效、准确的实现其信息抽取成为一个迫切的需求。
目前文本信息抽取模型主要有3种:基于词典的抽取模型,基于规则的抽取模型和基于隐马尔可夫模型的抽取模型。利用隐马尔可夫模型进行文本信息抽取是一种基于统计机器学习的信息抽取方法。隐马尔可夫模型易于建立,不需大规模的词典集与规则集,适应性好,抽取精度较高,因而得到研究者的关注。
发明内容
针对上述基于隐马尔可夫模型的文本信息抽取中存在的容易建立、适应性好、抽取精度较高等优点,本发明提出了一种根据隐马尔可夫模型的英文简历关键字段抽取方法。
本发明的基本原理:本发明将英文简历文本信息作为训练样本,对于每个可观察到的输入字符都有一个隐含的状态,隐含状态共有三种(关键字、非关键字、标点符号),经过处理、标记、学习得到隐马尔可夫模型,然后采用隐马尔可夫模型的维特比算法,将待抽取的英文简历标记出最大概率的隐含状态序列。
一种基于隐马尔可夫模型的英文简历关键字段抽取方法,其特征在于包括以下步骤:
步骤一,收集英文简历,将收集的英文简历分为训练样本和测试样本;
步骤二,预处理训练样本,并对简历文本序列做隐含状态标记,方法如下:
首先,将无结构的训练样本进行编号处理,并统一转换成html格式;其次,统一编码格式为UTF-8以解决中文符号乱码问题;再次,使用正则表达式将无结构的样本处理成结构化的文本,在此过程中删除训练样本中乱码、用单个空格替换回车符、多个空格,并在每个英文单词后标记非关键字隐含状态符号:N,在标点符号后标记标点隐含状态符号T;最后,手动修改简历中关键字后的隐含状态符号,修改为Y;因此,所有样本的都已经格式化,每个单词后都有隐含状态符号,并以单个空格隔开;
步骤三,从训练样本中获取字符字典,方法如下:
对于步骤二得到的训练样本,将单个样本按空格切分后存入到字符数组中,其中数组下标为奇数的存放的是简历的字符,下标为偶数的存放的是隐含状态符号;在此获取字符数组下标为奇数的简历字符,存入Hashmap中;递归处理所有训练样本,可以得到一个字符字典;
步骤四,计算出隐马尔可夫模型参数初值;
通过训练样本计算隐马尔可夫模型参数初值λ=(N,M,A,B,П),隐马尔可夫模型包括N个不同的隐含状态,在系统中对应的是简历字符的隐含状态,隐含状态共有3种(Y:关键字,N:非关键字,T:标点符号);M个不同的观察符号,在系统中对应的是简历中所有的字符集合,通过将训练样本经过步骤三的处理,可以得到所有简历中出现的字符,并形成一个字符字典;因为N和M已知,所以隐马尔可夫模型可记为一个三元组λ=(A,B,П),各参数在系统中的详细解释及计算方法如下:
П={πi}是初始状态概率分布,在本方法中指简历中第一个字符的隐含状态分别是关键字、非关键字、标点符号的概率,通过遍历所有训练样本第一个字符的隐含状态,将隐含状态出现的次数存放到一个长度为3的一维数组中,最后分别将数组各位值除以数组总和可求得初始状态概率分布;
A={aij}是状态转移概率矩阵,在本方法中指简历中当前字符的隐含状态是i,下一个字符的隐含状态为j的概率;因为本方法只有三种隐含状态,所以A是一个三阶矩阵,可以用一个3×3的数组来存储,其中数组下标0、1、2分别表示字符的隐含状态是关键字、非关键字、标点符号,所以经过遍历所有训练样本,将隐含状态转移数量统计存入3×3的数组后,分别将数组的每个值除以当前值所处行的值的总和,得到状态转移概率矩阵;
B={bj(ot)}是观察值概率分布,在本方法中指简历中每个字符的隐含状态分别是关键字、非关键字、标点符号的概率;遍历所有训练样本,分别统计出字符的隐含状态是关键字、非关键字、标点符号的总数,再将每个字符隐含状态是关键字、非关键字、标点符号的数量存入Hashmap统计出来,再将每个字符的隐含状态出现次数除以该隐含状态在训练样本出现的总数得到观察值概率分布;
步骤五,使用Baum-Welch算法对隐马尔可夫模型参数重估,得到一个训练过的隐马尔可夫模型。
参数重估过程是已知观察序列,如何不断修正模型参数λ={π,A,B},使得模型λ产生观察序列O的概率p(O|λ)最大。在本方法中,将所有训练简历以及测试简历中的原始文字看作观察序列集合,Baum-Welch算法对模型参数进行重估,得到一个新的Baum-Welch算法在理论上可以保证概率
步骤六,预处理测试样本;
将测试样本统一转换成html格式、统一编码格式为UTF-8以解决中文符号乱码问题;再次,使用正则表达式将无结构化的样本删除乱码、用单个空格替换回车符、多个空格;
步骤七,根据训练过的隐马尔可夫模型,使用维特比算法将测试样本简历标记出最大概率的隐含状态序列;
维特比变量δt(j)在本方法中指简历隐含状态序列的最大概率值,递推公式:
辅助变量ψt(j)在本方法中用来记录简历中第t-1个字符的最佳隐含状态
其中N表示单词的隐含状态总数,N=3;t表示当前处于简历中第t个字符,j表示第t个字符的隐含状态状态,i表示第t-1个字符的隐含状态状态,aij为条件转移概率,即简历中当前字符的隐含状态是i、下一个字符的隐含状态为j的概率,bj(ot)为观察值概率分布,即指简历中每个字符的隐含状态分别是关键字、非关键字、标点符号的概率,辅助变量记录了到达此点的最佳上一个时刻的状态点路径,用于最后回溯路径得到最终结果;
经过上述步骤后,简历中的每个字符都会自动标记一个隐含状态符,隐含状态Y的字符,即简历中关键字,连续个Y即为一个关键字段,抽取出简历中的关键字段,两个关键字段之间的字符串即为第一个关键字段的内容。
本发明与现有技术相比,具有以下明显的优势和有益效果:
本发明提出的方法,数据量和时间复杂度均能满足实际应用中对系统性能的要求。本发明也具有一定的应用价值:有效的简历关键字段抽取,不但可以帮助求职者方便、快速的投递简历,提高了求职者的投递效率,而且也提高了招聘单位的工作效率,具有很强的实用性。
附图说明
图1为本发明所涉及的英文简历关键字段抽取的模块构成图;
图2为本发明所涉及的方法流程图。
具体实施方式
下面结合附图1-2及具体实施例对本发明作进一步的描述。
基于隐马尔可夫模型的英文简历关键字段抽取方法的流程图如图2所示。一种基于隐马尔可夫模型的英文简历关键字段抽取方法,其特征在于包括以下步骤:
步骤一,收集英文简历,将收集的英文简历分为训练样本和测试样本。
现有从前程无忧、智联招聘等网站下载的英文简历450份,选取其中400份作为训练样本,50份作为测试样本。
步骤二,预处理训练样本,并对简历文本序列做隐含状态标记。
步骤三,从训练样本中获取字符字典。
步骤四,计算出隐马尔可夫模型参数初值
步骤五,使用Baum-Welch算法对隐马尔可夫模型参数重估,得到一个训练过的隐马尔可夫模型。
步骤六,预处理测试样本。
步骤七,根据训练过的隐马尔可夫模型,使用维特比算法将测试样本简历标记出最大概率的隐含状态序列。
本方法根据训练过的隐马尔可夫模型,使用维特比算法将测试样本简历标记出最大概率的隐含状态序列,输入一份测试样本通过维特比算法,经过初始化、递归、终结、求取最佳序列四个步骤后,可以得到一个标记好隐含状态的简历,隐含状态Y的字符,即简历中关键字,连续个Y即为一个关键字段,抽取出简历中的关键字段,两个关键字段之间的字符串即为第一个关键字段的内容。
下面给出一个应用本发明对英文简历关键字进行抽取的实例。
现有从前程无忧、智联招聘等网站下载的英文简历450份,其中选取400份作为训练样本,已基本覆盖所有单词、关键字;选取50份作为测试样本,本发明主要自动识别并标记英文简历中的关键字段。
统计50份测试样本中的关键字词组(连续个关键字标记组成)的出现的次数以及抽取后的正确次数,并计算出测试样本正确率如表1所示:
关键字词组出现总次数 | 正确次数 | 错误次数 | 正确率 |
752 | 602 | 150 | 80.05% |
表1
50份测试样本抽取完成后,将错误抽取的关键字隐含状态进行修改,再将修改后的50份测试样本做为训练样本进行训练,再次统计50份测试样本中的关键字词组(连续个关键字标记组成)的出现的次数以及抽取后的正确次数,并计算出测试样本正确率如表2所示:
关键字词组出现总次数 | 正确次数 | 错误次数 | 正确率 |
752 | 630 | 122 | 83.78% |
表2
将400份训练样本作为测试集,统计400份训练样本抽取后的关键字词组(连续个关键字标记组成)的出现的次数以及抽取后的正确次数,并计算出总的正确率如表3所示:
关键字词组出现总次数 | 正确次数 | 错误次数 | 正确率 |
6852 | 5697 | 1155 | 83.14% |
表3
由实验结果可知,对于随机选取的测试样本,本发明的抽取平均正确率为83.14%,实验结果较好。通过将测试样本的抽取结果手动修正后作为训练样本,再次抽取的正确率有所提升,可见增加测试样本有助于提高抽取的正确率。充分证明了该方法的有效性以及优越性。对于抽取正确率不高的测试样本,后续可将其修改标记作为训练样本,这样可以提升正确率。综上所述,基于隐马尔可夫模型的英文简历关键字段抽取方法易于建立、不需大规模的词典集与规则集、抽取精度较高。
以上实施例仅用以说明本发明,而并非限制本发明所描述的技术方案。因此,一切不脱离本发明的精神和范围的技术方案及其改进,均应涵盖在本发明的权利要求范围当中。
Claims (1)
1.一种基于隐马尔可夫模型的英文简历关键字段抽取方法,其特征在于:该方法包括以下步骤,
步骤一,收集英文简历,将收集的英文简历分为训练样本和测试样本;
步骤二,预处理训练样本,并对简历文本序列做隐含状态标记,方法如下:
首先,将无结构的训练样本进行编号处理,并统一转换成html格式;其次,统一编码格式为UTF-8以解决中文符号乱码问题;再次,使用正则表达式将无结构的样本处理成结构化的文本,在此过程中删除训练样本中乱码、用单个空格替换回车符、多个空格,并在每个英文单词后标记非关键字隐含状态符号:N,在标点符号后标记标点隐含状态符号T;最后,手动修改简历中关键字后的隐含状态符号,修改为Y;因此,所有样本的都已经格式化,每个单词后都有隐含状态符号,并以单个空格隔开;
步骤三,从训练样本中获取字符字典,方法如下:
对于步骤二得到的训练样本,将单个样本按空格切分后存入到字符数组中,其中数组下标为奇数的存放的是简历的字符,下标为偶数的存放的是隐含状态符号;在此获取字符数组下标为奇数的简历字符,存入Hashmap中;递归处理所有训练样本,得到一个字符字典;
步骤四,计算出隐马尔可夫模型参数初值;
通过训练样本计算隐马尔可夫模型参数初值λ=(N,M,A,B,П),隐马尔可夫模型包括N个不同的隐含状态,在系统中对应的是简历字符的隐含状态,隐含状态共有3种(Y:关键字,N:非关键字,T:标点符号);M个不同的观察符号,在系统中对应的是简历中所有的字符集合,通过将训练样本经过步骤三的处理,得到所有简历中出现的字符,并形成一个字符字典;因为N和M已知,所以隐马尔可夫模型可记为一个三元组λ=(A,B,П),各参数在系统中的详细解释及计算方法如下:
П={πi}是初始状态概率分布,在本方法中指简历中第一个字符的隐含状态分别是关键字、非关键字、标点符号的概率,通过遍历所有训练样本第一个字符的隐含状态,将隐含状态出现的次数存放到一个长度为3的一维数组中,最后分别将数组各位值除以数组总和可求得初始状态概率分布;
A={aij}是状态转移概率矩阵,在本方法中指简历中当前字符的隐含状态是i,下一个字符的隐含状态为j的概率;因为本方法只有三种隐含状态,所以A是一个三阶矩阵,可以用一个3×3的数组来存储,其中数组下标0、1、2分别表示字符的隐含状态是关键字、非关键字、标点符号,所以经过遍历所有训练样本,将隐含状态转移数量统计存入3×3的数组后,分别将数组的每个值除以当前值所处行的值的总和,得到状态转移概率矩阵;
B={bj(ot)}是观察值概率分布,在本方法中指简历中每个字符的隐含状态分别是关键字、非关键字、标点符号的概率;遍历所有训练样本,分别统计出字符的隐含状态是关键字、非关键字、标点符号的总数,再将每个字符隐含状态是关键字、非关键字、标点符号的数量存入Hashmap统计出来,再将每个字符的隐含状态出现次数除以该隐含状态在训练样本出现的总数得到观察值概率分布;
步骤五,使用Baum-Welch算法对隐马尔可夫模型参数重估,得到一个训练过的隐马尔可夫模型。
参数重估过程是已知观察序列并不断修正模型参数λ={π,A,B}使得模型λ产生观察序列O的概率p(O|λ)最大。在本方法中,将所有训练简历以及测试简历中的原始文字看作观察序列集合,Baum-Welch算法对模型参数进行重估,得到一个新的Baum-Welch算法在理论上可以保证概率
步骤六,预处理测试样本;
将测试样本统一转换成html格式、统一编码格式为UTF-8以解决中文符号乱码问题;再次,使用正则表达式将无结构化的样本删除乱码、用单个空格替换回车符、多个空格;
步骤七,根据训练过的隐马尔可夫模型,使用维特比算法将测试样本简历标记出最大概率的隐含状态序列;
维特比变量δt(j)在本方法中指简历隐含状态序列的最大概率值,递推公式:
辅助变量ψt(j)在本方法中用来记录简历中第t-1个字符的最佳隐含状态
其中N表示单词的隐含状态总数,N=3;t表示当前处于简历中第t个字符,j表示第t个字符的隐含状态状态,i表示第t-1个字符的隐含状态状态,aij为条件转移概率,即简历中当前字符的隐含状态是i、下一个字符的隐含状态为j的概率,bj(ot)为观察值概率分布,即指简历中每个字符的隐含状态分别是关键字、非关键字、标点符号的概率,辅助变量记录了到达此点的最佳上一个时刻的状态点路径,用于最后回溯路径得到最终结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610189293.1A CN105912570B (zh) | 2016-03-29 | 2016-03-29 | 基于隐马尔可夫模型的英文简历关键字段抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610189293.1A CN105912570B (zh) | 2016-03-29 | 2016-03-29 | 基于隐马尔可夫模型的英文简历关键字段抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105912570A true CN105912570A (zh) | 2016-08-31 |
CN105912570B CN105912570B (zh) | 2019-11-15 |
Family
ID=56745131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610189293.1A Expired - Fee Related CN105912570B (zh) | 2016-03-29 | 2016-03-29 | 基于隐马尔可夫模型的英文简历关键字段抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105912570B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108055166A (zh) * | 2017-12-20 | 2018-05-18 | 中山大学 | 一种嵌套的应用层协议的状态机提取系统及其提取方法 |
CN108170680A (zh) * | 2017-12-29 | 2018-06-15 | 厦门市美亚柏科信息股份有限公司 | 基于隐马尔科夫模型的关键词识别方法、终端设备及存储介质 |
CN109753647A (zh) * | 2017-11-07 | 2019-05-14 | 北京国双科技有限公司 | 段落的划分方法及装置 |
CN109947891A (zh) * | 2017-11-07 | 2019-06-28 | 北京国双科技有限公司 | 文书解析方法及装置 |
CN110472647A (zh) * | 2018-05-10 | 2019-11-19 | 百度在线网络技术(北京)有限公司 | 基于人工智能的辅助面试方法、装置及存储介质 |
CN110781276A (zh) * | 2019-09-18 | 2020-02-11 | 平安科技(深圳)有限公司 | 文本抽取方法、装置、设备及存储介质 |
CN111367964A (zh) * | 2020-02-29 | 2020-07-03 | 上海爱数信息技术股份有限公司 | 一种自动解析日志的方法 |
CN113095061A (zh) * | 2021-03-31 | 2021-07-09 | 京华信息科技股份有限公司 | 一种公文头抽取方法、系统、装置及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1447264A (zh) * | 2003-04-18 | 2003-10-08 | 清华大学 | 基于语义构词约束的汉语二字词抽取方法 |
CN101661462A (zh) * | 2009-07-17 | 2010-03-03 | 北京邮电大学 | 四层结构的中文文本正则化体系及实现 |
CN103460637A (zh) * | 2011-03-30 | 2013-12-18 | 三菱电机株式会社 | 针对存储在服务器中的隐马尔可夫模型(hmm)评估存储在客户端中的观测值序列的概率的方法和服务器 |
CN105373529A (zh) * | 2015-10-28 | 2016-03-02 | 甘肃智呈网络科技有限公司 | 一种基于隐马尔科夫模型的智能分词方法 |
-
2016
- 2016-03-29 CN CN201610189293.1A patent/CN105912570B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1447264A (zh) * | 2003-04-18 | 2003-10-08 | 清华大学 | 基于语义构词约束的汉语二字词抽取方法 |
CN101661462A (zh) * | 2009-07-17 | 2010-03-03 | 北京邮电大学 | 四层结构的中文文本正则化体系及实现 |
CN103460637A (zh) * | 2011-03-30 | 2013-12-18 | 三菱电机株式会社 | 针对存储在服务器中的隐马尔可夫模型(hmm)评估存储在客户端中的观测值序列的概率的方法和服务器 |
CN105373529A (zh) * | 2015-10-28 | 2016-03-02 | 甘肃智呈网络科技有限公司 | 一种基于隐马尔科夫模型的智能分词方法 |
Non-Patent Citations (2)
Title |
---|
HOBBS J等: "FASTUS A Cascaded Finite-State Transducer for Extracting Information from Natural-Language Text", 《FINITE STATE DEVICES FOR NATURAL LANGUAGE PROCESSING》 * |
刘斌斌: "基于HMM模型的web信息抽取方法的研究与改进", 《中国优秀硕士论文全文数据库》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109753647A (zh) * | 2017-11-07 | 2019-05-14 | 北京国双科技有限公司 | 段落的划分方法及装置 |
CN109947891A (zh) * | 2017-11-07 | 2019-06-28 | 北京国双科技有限公司 | 文书解析方法及装置 |
CN109753647B (zh) * | 2017-11-07 | 2022-11-04 | 北京国双科技有限公司 | 段落的划分方法及装置 |
CN108055166B (zh) * | 2017-12-20 | 2021-02-12 | 中山大学 | 一种嵌套的应用层协议的状态机提取系统及其提取方法 |
CN108055166A (zh) * | 2017-12-20 | 2018-05-18 | 中山大学 | 一种嵌套的应用层协议的状态机提取系统及其提取方法 |
CN108170680A (zh) * | 2017-12-29 | 2018-06-15 | 厦门市美亚柏科信息股份有限公司 | 基于隐马尔科夫模型的关键词识别方法、终端设备及存储介质 |
CN110472647B (zh) * | 2018-05-10 | 2022-06-24 | 百度在线网络技术(北京)有限公司 | 基于人工智能的辅助面试方法、装置及存储介质 |
CN110472647A (zh) * | 2018-05-10 | 2019-11-19 | 百度在线网络技术(北京)有限公司 | 基于人工智能的辅助面试方法、装置及存储介质 |
CN110781276A (zh) * | 2019-09-18 | 2020-02-11 | 平安科技(深圳)有限公司 | 文本抽取方法、装置、设备及存储介质 |
CN110781276B (zh) * | 2019-09-18 | 2023-09-19 | 平安科技(深圳)有限公司 | 文本抽取方法、装置、设备及存储介质 |
CN111367964A (zh) * | 2020-02-29 | 2020-07-03 | 上海爱数信息技术股份有限公司 | 一种自动解析日志的方法 |
CN111367964B (zh) * | 2020-02-29 | 2023-11-17 | 上海爱数信息技术股份有限公司 | 一种自动解析日志的方法 |
CN113095061A (zh) * | 2021-03-31 | 2021-07-09 | 京华信息科技股份有限公司 | 一种公文头抽取方法、系统、装置及存储介质 |
CN113095061B (zh) * | 2021-03-31 | 2023-08-29 | 京华信息科技股份有限公司 | 一种公文头抽取方法、系统、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN105912570B (zh) | 2019-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105912570A (zh) | 基于隐马尔可夫模型的英文简历关键字段抽取方法 | |
CN109492077B (zh) | 基于知识图谱的石化领域问答方法及系统 | |
CN109284352B (zh) | 一种基于倒排索引的评估类文档不定长词句的查询方法 | |
CN107908614A (zh) | 一种基于Bi‑LSTM的命名实体识别方法 | |
CN104699763B (zh) | 多特征融合的文本相似性度量系统 | |
CN106294593B (zh) | 结合从句级远程监督和半监督集成学习的关系抽取方法 | |
CN108182295A (zh) | 一种企业知识图谱属性抽取方法及系统 | |
CN109145260B (zh) | 一种文本信息自动提取方法 | |
CN107885721A (zh) | 一种基于lstm的命名实体识别方法 | |
CN106776562A (zh) | 一种关键词提取方法和提取系统 | |
CN101751455B (zh) | 采用人工智能技术自动产生标题的方法 | |
CN103246644B (zh) | 一种网络舆情信息处理方法和装置 | |
CN101645083B (zh) | 一种基于概念符号的文本领域的获取系统及方法 | |
CN105138864B (zh) | 基于生物医学文献的蛋白质交互关系数据库构建方法 | |
CN102402561B (zh) | 一种搜索方法和装置 | |
Chengcheng | Automatic text summarization based on rhetorical structure theory | |
CN102270212A (zh) | 一种基于隐半马尔可夫模型的用户兴趣特征提取方法 | |
CN106569993A (zh) | 一种挖掘领域术语间上下位关系的方法及装置 | |
CN103324626A (zh) | 一种建立多粒度词典的方法、分词的方法及其装置 | |
CN104699797A (zh) | 一种网页数据结构化解析方法和装置 | |
CN105701223A (zh) | 基于Spark Streaming的财经信息情感趋势分析方法 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN111476031A (zh) | 一种基于Lattice-LSTM的改进中文命名实体识别方法 | |
CN105786963A (zh) | 一种语料库的检索方法及系统 | |
CN108647199A (zh) | 一种地名新词的发现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20191115 |
|
CF01 | Termination of patent right due to non-payment of annual fee |