CN109753909B - 一种基于内容分块和BiLSTM模型的简历解析方法 - Google Patents
一种基于内容分块和BiLSTM模型的简历解析方法 Download PDFInfo
- Publication number
- CN109753909B CN109753909B CN201811613437.7A CN201811613437A CN109753909B CN 109753909 B CN109753909 B CN 109753909B CN 201811613437 A CN201811613437 A CN 201811613437A CN 109753909 B CN109753909 B CN 109753909B
- Authority
- CN
- China
- Prior art keywords
- resume
- text
- content
- information
- format
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开的一种基于内容分块和BiLSTM模型的简历解析方法,该方法通过获取简历样本,对常见的标题关键词进行整理;接着利用常见的标题在文本中的独特位置信息和字号信息进行简历内容块划分,并对结构化的键值对信息进行提取;同时需要利用BiLSTM模型对不同的自然文本进行实体标记训练;最后针对不同的内容块利用不同的模型对内容进行判断识别实体,提取输出自然文本描述中的关键实体信息内容。本发明能够基于简历的内容分块技术和BiLSTM模型进行自动化的简历解析,能够提高信息抽取准确率并支持不同文件格式,可为招聘网站、公司HR部门提供丰富的人才资源库。
Description
技术领域
本发明涉及计算机技术领域,特别是涉及一种基于内容分块和BiLSTM模型的简历解析方法。
背景技术
随着社会的发展,信息化的生活与人们已经变得息息相关,传统的纸质简历不便于数据的搜集,取而代之的是信息化的系统。国内众多的企业都有了自己的信息化系统,但是对于简历数据的采集仍然有一大问题,那就是简历的数据无法被准确地提取出来。简历信息不方便提取,导致人事部门经常需要花更多的时间对信息进行手工录入以及人力归档,大大降低了工作效率。
国内外也有众多支持简历解析功能的服务。然而国外的简历解析针对的是英语,英语在每个单词都是独立的,能够用比较轻松的方式拿到准确的内容含义,而中文独特的结构,利用上下文语义对内容进行推测则不便于编程的实现。
国内的简历解析方法则主要是通过对常见招聘网站的简历模板进行适配,准确率是比较高的,但是面对各种自由格式的简历,以及形形色色每年演替的简历模板,这样的内容提取手段显得非常无力。也有一些解析工具利用大数据对内容进行判断,对于一般企业无法提供庞大的数据量根本无法使用。
发明内容
本发明主要解决的技术问题是提供一种基于内容分块和BiLSTM模型的简历解析方法,提高信息抽取准确率,减少简历信息提取过程数据损失。
为解决上述技术问题,本发明的基于内容分块和BiLSTM模型的简历解析方法,包括:
(1)获取简历样本;
(2)统计区分简历样本的文本的主体和标题,生成分类词典;
(3)利用BiLSTM模型训练简历文本,得到实体识别模型;
(4)通过正则表达对待解析的简历文本依据分类词典进行模糊匹配生成分类标记,匹配成功则把自当前匹配成功的分类标记到下一个匹配成功的分类标记之间的内容归入第一内容分块操作,继续通过正则表达依据分类此次进行分类,直到完成简历文本的内容分块操作;
(5)用正则表达式将待解析的简历文本依规则信息提取键值;
(6)依据(6)中提取的键值,建立键值信息库和键值白名单,将通过白名单的键值进入下一轮信息的提取;
(7)针对步骤(4)中归类的各内容分块,以时间点切割整合形成解析简历文本,利用步骤(3)中的实体识别模型对整合的简历文本进行实体识别,提取键值信息库中对应的信息。
优选的,上述的简历解析方法,所述简历样本的语言为中文。
优选的,上述的简历解析方法,所述步骤(4)的内容分块包括步骤(4.1)通过卷积神经网络算法依据字符的位置、字号、颜色、字体特征对常用简历内容的标题和正文区分为内容块;(4.2)将区分的内容块保存为关键字字典;(4.3)将关键字字典用于对简历文本进行分类识别和内容分块。
优选的,上述的简历解析方法,所述步骤(2)区分简历标题和文本的方法是文中字号的大小和字体的区别。
优选的,上述的简历解析方法,所述步骤(4)中的简历文本的形式为标题在内容之前。
优选的,上述的简历解析方法,所述步骤(5)用正则表达将待解析简历文本依规则信息提取键值的规则信息包括性别,身高体重,邮箱,电话号码,出生地和出生日期。
优选的,上述的简历解析方法,所述步骤(7)中利用(3)中的模型进行实体识别是指出对两个相邻的所述时间切割点的时间点之间的解析简历文本的内容进行实体识别。
优选的,上述的简历解析方法,所述步骤(5)中的键值信息库是将键值与关键词一一对应建立所述的键值信息库。
优选的,上述的简历解析方法,所述步骤(5)还包括将待解析的简历文本的文件格式转换为文本格式,所述的待解析的简历文本的文件的格式包括PDF格式,DOC格式,DOCX格式,TXT格式,HTML格式,MHT格式,JPG格式,PNG格式。
优选的,上述的简历解析方法,所述的步骤(3)中利用BiLSTM模型训练中,所述简历文本的基础信息采用正则表达式规则提取,学历信息和工作经验信息使用关键信息识别器提取。
如上所述,本发明基于内容分块和BiLSTM模型的简历解析方法,利用简历结构化的特征对内容进行粗分、细分,再对理解性内容利用BiLSTM模型进行实体识别,提取出关键的信息。把各种各样的文档转换为统一的便于利用的数据供各种人力资源系统使用,能够友好地提高信息抽取准确率,减少简历信息提取过程数据损失并支持不同文件格式。
附图说明
图1是本发明实施例提供的简历解析方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明通过BiLSTM模型训练和处理简历的文本,对简历文本自动进行筛选和提取,从而代替传统的人工筛选简历的方式,提高建立的筛选和提取检索的效率。本领域技术人员可以得知,LSTM的全称是Long Short-Term Memory(中文译名:长短期记忆网络),它是RNN(Recurrent Neural Network,循环神经网络)的一种。LSTM适合用于对时序数据的建模,如文本数据。BiLSTM是Bi-directional Long Short-Term Memory(中文译名:前后向长短期记忆网络)的缩写,是由前向LSTM与后向LSTM组合而成。本发明充分利用了BiLSTM神经网络模型的特点,实现简历文本的自然语言处理任务建模和上下文信息处理。
参阅图1,是本发明实施例提供的基于内容分块和BiLSTM模型对简历进行解析的简历解析方法流程示意图。本发明实施例的简历解析方法包括以下步骤:
(1)获取简历样本,先通过搜集获取足够量的电子简历样本作为本发明的训练模型需要的样本,其中,简历样本可以从各类招聘网站上收集,述简历样本的语言只能为中文。简历样本的文件格式可以是doc格式、docx格式、mht格式、pdf格式或html格式,预订数量可以根据实际需要设定,为了提高模型的结果准确率,可以获取尽量多的简历样本,例如10000份。
(2)统计区分简历样本的文本的主体和标题,生成分类词典,通过统计区分主体文本和标题,其中,主体文本是指简历样本的正文内容,标题主要指简历的标题和各内容的小标题,并标记出用于区分内容块的简历标题,归纳成分类词典,其实现的代码部分如下:
input=tensor([[字号大小,是否加粗,字体种类,文本长度],
[字号大小,是否加粗,字体种类,文本长度],
...])
label=[标签1,标签2,...]
model=cnn_train(input,label)
newInput=[字号大小,是否加粗,字体种类,文本长度]
print(model.predict(newInput))
其中,把样本简历的每一行内容以特定的属性进行标记,标记的形式为{字号大小,是否加粗,字体种类,文本长度,标签},利用卷积神经网络算法,通过卷积神经网络算法进行训练,把每一行内容的特征信息进行压缩,从而提取出标题和正文的区别,得到一个用于区分标题和正文的分类器。然后用这个分类器对其余简历标题和正文的区分,把识别得到的标题进行汇总统计,由于简历具有通用性关键的内容划分标题一般不会太多可能性,可通过手工筛选分类来确定标题属于哪一种内容块,例如“学历”、“教育”、“工作”等区块,从而实现内容分块中最复杂的划分内容区块这一步。
(3)利用BiLSTM模型训练简历文本,得到实体识别模型,
具体地,把简历样本中的工作经验和项目经验的自然文本部分整理,标记上“时间,公司名称,职位名称”等实体信息,利用BiLSTM模型对文本进行训练,得到专门用于实体识别的关键信息识别器,例如,通过训练的识别工作经验的关键信息识别器,输入样本简历的一段内容,关键信息识别器输出哪几个字属于公司名称,又有哪几个字属于职位名称。通过关键信息识别器,简历解析就可以针对一段指定的简历文本找出指定的关键信息。
(4)将待解析的简历文本的文件格式转换为文本格式;其中,文档转换可以采用现时已有的转换包进行转换,目标是只保留文字和大致排版信息。
(5)通过正则表达对待解析的简历文本依据分类词典进行模糊匹配生成分类标记,匹配成功则把自当前匹配成功的分类标记到下一个匹配成功的分类标记之间的内容归入第一内容分块操作,继续通过正则表达依据分类此次进行分类,直到完成简历文本的内容分块操作,在通过正则表达式对分类词典依次进行模糊匹配时,假如连续匹配到了两个词语,那么两个词语之间的文本内容都归入第一个被匹配到的词语中,从而降低由于文本编辑空间不足的换行造成的内容误判,此步骤的代码部分如下:
其中,正则表达式匹配的原则是,由于标题由简单的内容主旨构成,不会有过多的冗余信息,因此,以关键词为核心进行匹配,再加上简历内容块的唯一性,可以准确拿到需要的区间信息。
(6)用正则表达式将简历文本依规则信息提取键值,具体地,用正则表达式把简历中的大部分的基础信息进行高效提取,设计有针对性的规则额外对其余键值信息进行补充提取,针对性的规则例如:从邮箱中判断是不是QQ邮箱,假如是QQ邮箱那么就可以推断邮箱中的数字是QQ号码;假如找到了出生地信息,那么可以推断出这个人的籍贯就是该出生地所在地。
其中,大部分的规则包括性别,身高体重,邮箱,电话号码,出生地和出生日期等。而键值对规则,则以关键词补全冒号作为一个信息补全的操作,然后以“键:值(空格)键:值”的模式进行正则表达式匹配。匹配得到的结果中可能会有一部分是假的键值对,例如是简历使用者自己在内容部分编辑写入的,因此需要一个审核的流程,把有效的留下来,无意义的舍去,留下来的有效键归并到常用键值库中,作为白名单,从而实现对内容进行自动的筛选保留。
由于键值对的存在可能是用户输入信息产生的,故而,需要白名单对常见的符合要求的键值进行筛选,从而提高内容提取的准确度;由于键值是针对简历文本你的全文,因此,有些键值对属于步骤(7)中的待解析文本内容,而让这些信息重新回归到步骤(7)当中则经过这个键值白名单进行审核,而每个内容分块中的键值都有自己独特的称呼方式,以确保不会错乱。
(7)依据步骤(6)中提取的键值,建立键值信息库和键值白名单,将通过白名单的键值进入下一轮信息的提取,具体地,把步骤(6)中的键值保存到专门的库中,作为关键信息库,并建立键值白名单机制,这个建立过程也是需要人工定期审核的,仅允许通过审查的新键值进入下一轮信息的提取。通过对白名单机制的一次次审核和筛查对比,逐步提高解析成功率。
(8)针对步骤(5)中归类的各内容分块,以时间点切割整合形成待解析简历文本,利用步骤(3)中的实体识别模型对整合的简历文本进行实体识别,提取键值信息库中对应的信息,具体地,针对已经归类的各个部分内容,以时间作为划分点,对文本进行整合,并用(3)中训练出来的关键信息识别器进行关键信息抽取,提取的信息包含公司名字、职位名称等,得到关键信息的提取,其余信息均作为详细信息返回,减少内容损耗。
其中,内容划分的过程以时间信息作为划分点,对两个时间之间的内容进行实体识别,识别用到的是第三部中训练得到的模型。模型体积较大,每次加载会影响效率。因此利用一个微服务服务器作为容器,预加载并常驻于内存中,程序直接的交流通过发送https请求进行,以Json格式的数据进行标准化的交互,以确保性能和准确度。识别完以后,内容完整保留并以详细信息作为保留字段,确保信息的高还原和关键信息的准确获取兼顾。
每一有效关键词及其对应的描述信息可以输出到统一的数据表中,并且预定格式可以是Json格式。
通过上述方式,本发明实施例的简历解析方法通过搜集的简历样本,对常见的标题和关键词进行整理即上文步骤中的(2)和(7),接着利用常见的标题在文本中的独特位置信息和字号信息进行简历内容块划分,并依据标题类型的分类选择不同的信息提取方式,例如:基础信息采用正则表达式等规则提取,而学历信息和工作经验信息则使用关键信息识别器进行抽取。其中,简历文本的基础信息包括姓名、性别、手机号、邮箱和居住地等。
本发明能够基于简历内容分块技术和BiLSTM模型进行自动化的简历解析,能够提高信息抽取准确率并支持简历文本的格式包括PDF,DOC,DOCX,TXT,HTML,MHT,JPG,PNG等格式不同文件格式,并通过针对姓名,性别,年龄,籍贯,手机号,电子邮箱,身高,体重等多达20多个关键基础信息的提取,进而可以实现根据教育经历推测最高学历信息,根据工作经验推测最近一份工作信息。
本发明可以输入涵盖全国95%的学校信息,提取的关键词的学历信息包括从中学到大学的提取,而工作经验利用BiLSTM模型进行实体识别标记,对公司名称和职称进行有效提取,进一步针对工作经验的详细信息,提高信息的可利用程度。由此,本发明省去对简历文本的内容进行审查总结的大量大力,利用BiLSTM模型实现解析简历的精准度,通过利用本发明可为招聘网站、公司HR部门提供丰富方便备用的人才资源库。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.一种基于内容分块和BiLSTM模型的简历解析方法,其特征在于,包括:
(1)获取简历样本;
(2)统计区分简历样本的文本的主体和标题,生成分类词典;
(3)利用BiLSTM模型训练简历文本,得到实体识别模型;
(4)通过正则表达对简历文本依据分类词典进行模糊匹配生成分类标记,匹配成功则把自当前匹配成功的分类标记到下一个匹配成功的分类标记之间的内容归入第一内容分块操作,继续通过正则表达对简历文本依据分类词典进行分类,直到完成简历文本的内容分块操作;
(5)用正则表达式将简历文本依规则信息提取键值;
(6)依据(5)中提取的键值,建立键值信息库和键值白名单,将通过白名单的键值进入下一轮信息的提取;
(7)针对步骤(4)中归类的各内容分块,以时间点切割整合形成待解析简历文本,利用步骤(3)中的实体识别模型对整合的简历文本进行实体识别,提取键值信息库中对应的信息;
所述步骤(4)的内容分块包括步骤(4.1)通过卷积神经网络算法依据字符的位置、字号、颜色、字体特征对常用简历内容的标题和正文区分为内容块;(4.2)将区分的内容块保存为关键字字典;(4.3)将关键字字典用于对简历文本进行分类识别和内容分块。
2.根据权利要求1所述的简历解析方法,其特征在于,所述简历样本的语言为中文。
3.根据权利要求1所述的简历解析方法,其特征在于,所述步骤(2)区分简历标题和文本的方法是文中字号的大小和字体的区别。
4.根据权利要求1所述的简历解析方法,其特征在于,所述步骤(4)中的简历文本的形式为标题在内容之前。
5.根据权利要求1所述的简历解析方法,其特征在于,所述步骤(5)用正则表达将待解析简历文本依规则信息提取键值的规则信息包括性别,身高体重,邮箱,电话号码,出生地和出生日期。
6.根据权利要求1所述的简历解析方法,其特征在于,所述步骤(7)中利用(3)中的模型进行实体识别是指对两个相邻的所述时间切割点的时间点之间的解析简历文本的内容进行实体识别。
7.根据权利要求1所述的简历解析方法,其特征在于,所述步骤(6)中的键值信息库是将键值与关键词一一对应建立所述的键值信息库。
8.根据权利要求1所述的简历解析方法,其特征在于,所述步骤(4)还包括将待解析的简历文本的文件格式转换为文本格式,所述解析简历文本的文件的格式包括PDF格式,DOC格式,DOCX格式,TXT格式,HTML格式,MHT格式,JPG格式,PNG格式。
9.根据权利要求1所述的简历解析方法,其特征在于,所述的步骤(3)中利用BiLSTM模型训练中,所述简历文本的基础信息采用正则表达式规则提取,学历信息和工作经验信息使用关键信息识别器提取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811613437.7A CN109753909B (zh) | 2018-12-27 | 2018-12-27 | 一种基于内容分块和BiLSTM模型的简历解析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811613437.7A CN109753909B (zh) | 2018-12-27 | 2018-12-27 | 一种基于内容分块和BiLSTM模型的简历解析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109753909A CN109753909A (zh) | 2019-05-14 |
CN109753909B true CN109753909B (zh) | 2021-08-10 |
Family
ID=66403240
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811613437.7A Active CN109753909B (zh) | 2018-12-27 | 2018-12-27 | 一种基于内容分块和BiLSTM模型的简历解析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109753909B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377907B (zh) * | 2019-07-18 | 2023-09-08 | 鼎富智能科技有限公司 | 一种招聘信息标准化方法及装置 |
CN110414395B (zh) * | 2019-07-18 | 2022-08-02 | 北京字节跳动网络技术有限公司 | 内容识别方法、装置、服务器及存储介质 |
CN110390324A (zh) * | 2019-07-27 | 2019-10-29 | 苏州过来人科技有限公司 | 一种融合视觉与文本特征的简历版面分析算法 |
CN110866393B (zh) * | 2019-11-19 | 2023-06-23 | 北京网聘咨询有限公司 | 基于领域知识库的简历信息抽取方法及系统 |
CN110941703A (zh) * | 2019-12-03 | 2020-03-31 | 南京烽火星空通信发展有限公司 | 一种基于机器学习和模糊规则的集成简历信息抽取方法 |
CN111242565A (zh) * | 2019-12-31 | 2020-06-05 | 广州轩辕研究院有限公司 | 一种基于智能人事模型的简历优化方法及装置 |
CN111192024A (zh) * | 2019-12-31 | 2020-05-22 | 广东轩辕网络科技股份有限公司 | 一种基于强化学习的人岗匹配方法及装置 |
CN111339776B (zh) * | 2020-02-17 | 2023-04-18 | 抖音视界有限公司 | 简历解析方法、装置、电子设备和计算机可读存储介质 |
CN111428480B (zh) * | 2020-03-06 | 2023-11-21 | 广州视源电子科技股份有限公司 | 简历识别方法、装置、设备及存储介质 |
CN111737969B (zh) * | 2020-07-27 | 2020-12-08 | 北森云计算有限公司 | 一种基于深度学习的简历解析方法和系统 |
CN112149389A (zh) * | 2020-09-27 | 2020-12-29 | 南方电网数字电网研究院有限公司 | 简历信息结构化处理方法、装置、计算机设备和存储介质 |
CN112784192B (zh) * | 2021-01-22 | 2022-08-23 | 南京万得资讯科技有限公司 | 一种清洗页面正文内容中被植入广告的方法 |
CN113297845B (zh) * | 2021-06-21 | 2022-07-26 | 南京航空航天大学 | 一种基于多层次双向循环神经网络的简历块分类方法 |
CN114048744A (zh) * | 2021-10-28 | 2022-02-15 | 盐城金堤科技有限公司 | 基于实体抽取的任职记录生成方法、装置及设备 |
CN116738959B (zh) * | 2023-08-15 | 2023-11-14 | 贵州优特云科技有限公司 | 一种基于人工智能的简历改写方法及系统 |
CN116994270B (zh) * | 2023-08-28 | 2024-06-14 | 乐麦信息技术(杭州)有限公司 | 一种简历解析方法、装置、设备及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106445910A (zh) * | 2015-09-02 | 2017-02-22 | 深圳市览网络股份有限公司 | 一种文档解析方法与装置 |
CN108399419A (zh) * | 2018-01-25 | 2018-08-14 | 华南理工大学 | 基于二维递归网络的自然场景图像中中文文本识别方法 |
CN108664474A (zh) * | 2018-05-21 | 2018-10-16 | 众安信息技术服务有限公司 | 一种基于深度学习的简历解析方法 |
CN108874928A (zh) * | 2018-05-31 | 2018-11-23 | 平安科技(深圳)有限公司 | 简历数据信息解析处理方法、装置、设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009193283A (ja) * | 2008-02-14 | 2009-08-27 | Fuji Xerox Co Ltd | 文書画像処理装置、及び文書画像処理プログラム |
CN104035917B (zh) * | 2014-06-10 | 2017-07-07 | 复旦大学 | 一种基于语义空间映射的知识图谱管理方法和系统 |
-
2018
- 2018-12-27 CN CN201811613437.7A patent/CN109753909B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106445910A (zh) * | 2015-09-02 | 2017-02-22 | 深圳市览网络股份有限公司 | 一种文档解析方法与装置 |
CN108399419A (zh) * | 2018-01-25 | 2018-08-14 | 华南理工大学 | 基于二维递归网络的自然场景图像中中文文本识别方法 |
CN108664474A (zh) * | 2018-05-21 | 2018-10-16 | 众安信息技术服务有限公司 | 一种基于深度学习的简历解析方法 |
CN108874928A (zh) * | 2018-05-31 | 2018-11-23 | 平安科技(深圳)有限公司 | 简历数据信息解析处理方法、装置、设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
Combination of Neural Networks and Conditional random Fields of efficient Resume Parsing;Ayishathahira C.H. et.al,;《2018 International CET conference on Control, Communication, and computing》;20180731;全文 * |
Information extraction from English & Japanese resume with neural sequence labeling methods;Akihiro Katsuta, et.al;《Proceedings of the 24th Annual Meeting of the Linguistic Processing Society》;20180331;1007-1010 * |
半结构化中文简历的信息抽取;晏文坛;《中国优秀硕士学位论文全文数据库 信息科技辑》;20181215;20-21、32-41 * |
Also Published As
Publication number | Publication date |
---|---|
CN109753909A (zh) | 2019-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109753909B (zh) | 一种基于内容分块和BiLSTM模型的简历解析方法 | |
CN111753099B (zh) | 一种基于知识图谱增强档案实体关联度的方法及系统 | |
CN108829858B (zh) | 数据查询方法、装置及计算机可读存储介质 | |
CN109992645B (zh) | 一种基于文本数据的资料管理系统及方法 | |
CN111930966B (zh) | 一种用于数字政务的智能政策匹配方法及系统 | |
CN108932294B (zh) | 基于索引的简历数据处理方法、装置、设备及存储介质 | |
CN101388011B (zh) | 一种向用户词库中记录信息的方法和装置 | |
CN110175334B (zh) | 基于自定义的知识槽结构的文本知识抽取系统和方法 | |
CN107392143A (zh) | 一种基于svm文本分类的简历精确解析方法 | |
CN101887414A (zh) | 对包含图像符号的文本消息传达的评价自动打分的服务器 | |
CN106502991B (zh) | 出版物处理方法和装置 | |
CN111176650B (zh) | 解析器生成方法、检索方法、服务器及存储介质 | |
CN102081667A (zh) | 基于Base64编码的中文文本分类方法 | |
CN110941702A (zh) | 一种法律法规和法条的检索方法及装置、可读存储介质 | |
CN112182148A (zh) | 一种基于全文检索的标准辅助编写方法 | |
CN108197119A (zh) | 基于知识图谱的纸质档案数字化方法 | |
CN114064851A (zh) | 一种政府办公文档多机检索方法及系统 | |
CN109597892A (zh) | 一种数据库中数据的分类方法、装置、设备及存储介质 | |
CN113094512A (zh) | 一种工业生产制造中故障分析系统及方法 | |
EP2544100A2 (en) | Method and system for making document modules | |
CN111753536A (zh) | 一种专利申请文本的自动撰写方法和装置 | |
CN109165373B (zh) | 一种数据处理方法及装置 | |
CN116628173B (zh) | 一种基于关键字提取的智能客服信息生成系统及生成方法 | |
CN117171650A (zh) | 基于网络爬虫技术的文献数据处理方法、系统及介质 | |
CN103019924B (zh) | 输入法智能性评测系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |