CN109933796A - 一种公告文本关键信息提取方法及设备 - Google Patents

一种公告文本关键信息提取方法及设备 Download PDF

Info

Publication number
CN109933796A
CN109933796A CN201910209213.8A CN201910209213A CN109933796A CN 109933796 A CN109933796 A CN 109933796A CN 201910209213 A CN201910209213 A CN 201910209213A CN 109933796 A CN109933796 A CN 109933796A
Authority
CN
China
Prior art keywords
key message
text
bulletin
extracting method
row
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910209213.8A
Other languages
English (en)
Other versions
CN109933796B (zh
Inventor
邱涛
吴胜杰
翁安栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Shang Ji Network Technology Co Ltd
Original Assignee
Xiamen Shang Ji Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Shang Ji Network Technology Co Ltd filed Critical Xiamen Shang Ji Network Technology Co Ltd
Priority to CN201910209213.8A priority Critical patent/CN109933796B/zh
Publication of CN109933796A publication Critical patent/CN109933796A/zh
Application granted granted Critical
Publication of CN109933796B publication Critical patent/CN109933796B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种公告文本关键信息提取方法,包括如下步骤:将公告文本转换为HTML文件,所述HTML文件中包含DIV控件,每个DIV控件对应代表一行文字;根据DIV控件的描述样式提取文字信息和表格信息,且在提取的过程中将相邻的语义关联的行合并为段落,与相邻行不存在语义关联的行独立成为段落,得到结构化文本;建立包含关键词的关键信息表单;通过特征工程获取关键信息,并该关键信息写入所述关键信息表单中,完成公告文本的关键信息提取。本发明能够深度解析公告文本,将非结构化数据转换成结构化文本,且能够快速准确提取关键信息,极大减少人工抽取数据的时间,提高投研效率和准确性,为分析过程创造价值。

Description

一种公告文本关键信息提取方法及设备
技术领域
本发明涉及一种公告文本关键信息提取方法及设备,属于自然语言处理领域。
背景技术
公告文本,以上市公司公告为例,是指上市公司按照证监会要求,通过指定平台向社会公众公布公司相关信息。在股市的投资研究过程中,上市公司的公告披露是投资者的重要参考依据,尤其对于专业的机构研究员,挖掘公告重要信息是每日投研的必要过程。然而,公告文本多为非结构化自然语言方式表述,且描述模式,短语差异很大,人工处理难度很大,且部分公告文本篇幅很长(年报、定向增发、资产重组),包含大量信息,挖掘起来耗时费力。对于大量的非结构化文本,采取人工阅读,人工理解的方式,存在工作量大,理解带有主观性,行业报告全部理解周期性长等问题。因此,如何非结构化数据转换成计算机可理解的结构化数据并快速准确地从中自动提取关键信息成为亟待解决的技术问题。
请参阅图1,现有的计算机提取关键数据的方式一般是采用正则处理,但正则表达式无法穷尽文本中存在的各种特殊情况,例如:“累积投票数量”通过正则表达式可以匹配到‘累积’、‘投票’、‘数量’等内容,但是针对“累计投票数”,就无法匹配到‘累计’和‘数’等关键内容,需要额外再枚举包含‘累计’ ‘投票’、‘数’才能匹配,因此,在处理过程中必须根据原始文件描述的样式,不断地修改正则公式,难度不断加大。
公布号为CN108932327A的发明专利《一种页面信息提取系统及提取方法》公开了一种提取页面信息的方法,包括如下步骤:从获取的众多页面中抽取需要的信息,重复信息的删除(保留最新的信息),获取公告内容,对公告内容分类,对分类后的公告内容创建索引,根据用户关键字匹配新信息,然后推送出去。在页面信息抽取处理步骤中,其给出了页面预处理以及抽取规则设置,最终目的是提取公告的各部分信息,输出结构化的公告信息组以便查询分析。该技术方案并未对公告文本进行关键信息提取,其推送给用户的信息,仍然是完整的公告文件,无法解决本发明提出的快速准确提取关键信息这一技术问题,且该技术方案并未公开如何将公告的各部分信息输出成结构化的描述形式。
发明内容
为了解决上述技术问题,本发明提供一种公告文本关键信息提取方法,其能够深度解析公告文本,将非结构化数据转换成结构化文本,且能够快速准确提取关键信息,极大减少人工抽取数据的时间,提高投研效率和准确性,为分析过程创造价值。
本发明的技术方案一如下:
一种公告文本关键信息提取方法,包括如下步骤:将公告文本转换为HTML文件,所述HTML文件中包含DIV控件,每个DIV控件对应代表一行文字;根据DIV控件的描述样式提取文字信息和表格信息,且在提取的过程中将相邻的语义关联的行合并为段落,与相邻行不存在语义关联的行独立成为段落,得到结构化文本;建立包含关键词的关键信息表单;通过特征工程获取关键信息,并该关键信息写入所述关键信息表单中,完成公告文本的关键信息提取。
更优地,所述将相邻的语义关联的行合并为段落的执行步骤为:若DIV控件对应的行末尾没有空格和回车符,则认定该行与下一行语义关联,同理判断下一行,直至当前行与下一行不存在语义关联,将相邻的语义关联的行划分成段落;若DIV控件对应的行与上一行不存在语义关联,且该行末尾有空格或回车符,则该行独立成为段落。
更优地,所述公告文本包含数字标签,根据所述数字标签将所述结构化文本转换成树形结构的结构化文本。
更优地,所述特征工程的创建过程如下:根据关键信息表单,在样本中标注出需要提取的关键信息;对标注的关键信息采用分词标注或命名实体标注产生训练样本;用所述训练样本训练深度学习模型,得到关键信息提取模型。
更优地,所述深度学习模型的训练步骤如下:所述深度学习模型加载词库;对输入的训练样本进行预处理,对预处理后的训练样本进行分词;结合所述词库训练词向量,将输入的样本转换为词向量的表示方式,然后输入所述深度学习模型进行训练,得到所述关键信息提取模型。
更优地,所述结构化文本通过特征工程提取关键信息的步骤为:对输入的结构化文本进行预处理;对预处理后的训练样本进行分词;将输入的样本转换为词向量的表示方式,然后输入所述深度学习模型;将所述深度学习模型的输出结果写入所述关键信息表单,完成关键信息提取。
更优地,所述深度学习模型为BiLSTM-CRF中文命名实体识别模型。
本发明的还提供一种公告文本关键信息提取设备。
本发明技术方案二如下:
一种公告文本关键信息提取设备,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行如下步骤:将公告文本转换为HTML文件,所述HTML文件中包含DIV控件,每个DIV控件对应代表一行文字;根据DIV控件的描述样式提取文字信息和表格信息,且在提取的过程中将相邻的语义关联的行合并为段落,与相邻行不存在语义关联的行独立成为段落,得到结构化文本;建立包含关键词的关键信息表单;通过特征工程获取关键信息,并该关键信息写入所述关键信息表单中。
本发明具有如下有益效果:
1、本发明一种公告文本关键信息提取方法及设备,将公告文本转换为计算机能够识读的结构化文本,并通过特征工程获取快速准确获取关键信息,极大减少人工抽取数据的时间,提高投研效率和准确性,为分析过程创造价值。
2、本发明一种公告文本关键信息提取方法及设备,通过计算机识别特殊符号,将语义相关的行划分为一段落,得到结构化文本,使得公告文本信息可分析和统计,极大的为研究工作提供了全数据的分析环境。
3、本发明一种公告文本关键信息提取方法及设备,将带有数字标签的公告文本转换为树形文本,保持了原始文档结构的样式,最大限度地保留了原始文档的逻辑顺序。
4、本发明一种公告文本关键信息提取方法及设备,创建特征工程,通过训练得到关键信息提取模型,极大的提高了公告文本阅读分析效率,有效避免人工分析标准不一致的问题。
5、本发明一种公告文本关键信息提取方法及设备,将训练样本预处理并分词,并将输入的训练样本转换为词向量的表示方式,提高了关键信息提取的准确度。
附图说明
图1为现有技术中数据提取流程;
图2为本发明一种公告文本关键信息提取方法的流程示意图;
图3为本发明一种公告文本关键信息提取方法的HTML文件示意图;
图4为本发明一种公告文本关键信息提取方法的结构化文本示意图;
图5为本发明一种公告文本关键信息提取方法的人工标注样本示意图;
图6为本发明一种公告文本关键信息提取方法的分词标注输出示意图;
图7为本发明一种公告文本关键信息提取方法的命名实体标注输出示意图;
图8为本发明一种公告文本关键信息提取方法的关键信息表单示意图;
图9为本发明一种公告文本关键信息提取方法的完成信息提取后的示意图。
具体实施方式
下面结合附图和具体实施例来对本发明进行详细的说明。
实施例一
请参阅图2,一种公告文本关键信息提取方法,包括如下步骤:将公告文本转换为HTML文件,所述HTML文件中包含DIV控件,每个DIV控件对应代表一行文字;根据DIV控件的描述样式提取文字信息和表格信息,且在提取的过程中将相邻的语义关联的行合并为段落,与相邻行不存在语义关联的行独立成为段落,得到结构化文本,建立包含关键词的关键信息表单(如图8所示),通过特征工程获取关键信息,并该关键信息写入所述关键信息表单中,完成公告文本的关键信息提取,如图9所示。本发明一种公告文本关键信息提取方法及设备,将公告文本转换为计算机能够识读的结构化文本,并通过特征工程获取快速准确获取关键信息,极大减少人工抽取数据的时间,提高投研效率和准确性,为分析过程创造价值。
所述公告文件若为PDF格式的公告文本,可以通过开源工具pdf2htmlEX转换成HTML文件,所述HTML文件如图3所示,所述HTML文件中包含大量的<td>、<tr>、<table>等格式标签,因此,需要将公告文本中的文字和表格信息提取出来,便于后续段落处理及关键信息提取。所述HTML文件中,根据DIV控件的描述样式提取文字和表格信息,具体地,DIV控件的描述样式为:<div class="t m0 x7 h8 y13 ff6 fs1 fc0 sc0 ls0 ws0">”,代表文字实体类;DIV描述样式为“<div class="c x0 y12 w3 hd">”,代表表格实体类。由于每个DIV控件对应代表一行文字,行与行之间相互独立,未能体现公告文本中的段落。在提取的过程中,还要对各行进行段落划分处理,本实例给出了一种将相邻的语义关联的行合并为段落的执行步骤为:若DIV控件对应的行末尾没有空格和回车符,则认定该行与下一行语义关联,同理判断下一行,直至当前行与下一行不存在语义关联,将相邻的语义关联的行划分成段落;若DIV控件对应的行与上一行不存在语义关联,且该行末尾有空格或回车符,则该行独立成为段落。经过上述处理,得到的结构化文本如图4所示。上市公司发出的公告文件一般都包含数字标签:“一”,“二”,“(一)”,“(二)”,“1”,“2”等,根据所述数字标签将所述结构化文本转换成和原始公告文本结构相同的树形结构的结构化文本,如图4所示。目前的公告文本基本都是按照主线条阐述内容,总分结构的样式,树形结构的结构化文本保持了原始文档结构的样式,最大限度地保留了原始文档的逻辑顺序。
所述特征工程的创建过程如下:
步骤10、根据关键信息表单,通过标注工具做样本的人工标注,将关键信息标注出来,获得高质量的标注过的样本;所述标注工具可选用YEDDA(轻量级协作文本跨度注释工具),人工阅读要标注的关键信息,并采用屏幕划词的方式标注出样本中关键信息的位置,标注过程如图5所示。
步骤20、对标注的关键信息采用分词标注或命名实体标注产生训练样本。采用分词标注方式,其输出格式如图6所示,其中B代表这个汉字是词汇的开始字符,M代表这个汉字是词汇的中间字符,E代表这个汉字是词汇的结束字符,而S代表单字词。采用命名实体标注方式,其输出格式如图7所示,其中BA代表这个汉字是地址首字,MA代表这个汉字是地址中间字,EA代表这个汉字是地址的尾字;BO代表这个汉字是机构名的首字,MO代表这个汉字是机构名称的中间字,EO代表这个汉字是机构名的尾字; BP代表这个汉字是人名首字,MP代表这个汉字是人名中间字,EP代表这个汉字是人名尾字,而O代表这个汉字不属于命名实体。
步骤30、将所述训练样本输入深度学习模型,得到关键信息提取模型,具体地:
步骤31、所述深度学习模型加载词库,所述词库包括自定义词典、中文维基语料库等,所述自定义词典包括用户添加的证券、财务相关词组;
步骤32、对输入的训练样本预处理,去停用词、去特殊字符等;
步骤33、对预处理后的训练样本进行分词,例如可以采用jieba分词器进行分词;
步骤34、结合所述词库训练词向量,将输入的样本转换为词向量的表示方式,然后输入所述深度学习模型进行训练,得到所述关键信息提取模型。训练词向量可以使用word2vec,向量维度为200;所述深度学习模型可以使用BiLSTM+CRF进行模型训练;命名实体识别模型BiLSTM(Bi-directional Long Short-Term Memory,RNN的一种)+CRF(条件随机场),专门应用于名称实体的识别,可以有效的识别出如下三大类信息:实体类(人名、公司名、地址名、产品名、机构名)、日期(各种格式的日期)和数值(百分比、金融等数值),根据场景样本的特点和业务要求,微调模型参数,得到较优的提取效果。
在完成特征工程的创建后,将已转换为结构化文本的公告文本,输入所述关键信息提取模型,需要经过如下步骤:对输入的结构化文本,去停用词、去特殊字符等,然后对预处理后的训练样本进行分词,结合所述词库使用word2vec训练词向量,将输入的文本转换为词向量的表示方式,然后输入所述深度学习模型,所述深度学习模型输出结果写入所述关键信息表单,完成关键信息提取。
所述特征工程,采用深度学习模型进行信息提取,深度学习模型是一种基于对数据进行表征学习的方法,是一种能够模拟出人脑的神经结构的机器学习方法。本发明利用这一点特质,将众多公告文本作为样本训练深度学习模型,通过机器学习,能够识别并提取不同表达形式的关键信息,提高信息提取准确率,有效克服了传统的正则表达式只能对有限的设定好的表达形式进行信息提取。
实施例二
一种公告文本关键信息提取设备,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行如下步骤:将公告文本转换为HTML文件,所述HTML文件中包含DIV控件,每个DIV控件对应代表一行文字;根据DIV控件的描述样式提取文字信息和表格信息,且在提取的过程中将相邻的语义关联的行合并为段落,与相邻行不存在语义关联的行独立成为段落,得到结构化文本;建立包含关键词的关键信息表单;通过特征工程获取关键信息,并该关键信息写入所述关键信息表单中。
本实施例的具体步骤可参见方法实施例的相关说明部分。
本发明一种公告文本关键信息提取方法及设备,将公告文本转换为计算机能够识读的结构化文本,并通过特征工程获取快速准确获取关键信息,极大减少人工抽取数据的时间,提高投研效率和准确性,为分析过程创造价值。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种公告文本关键信息提取方法,其特征在于,包括如下步骤:
将公告文本转换为HTML文件,所述HTML文件中包含DIV控件,每个DIV控件对应代表一行文字;
根据DIV控件的描述样式提取文字信息和表格信息,且在提取的过程中将相邻的语义关联的行合并为段落,与相邻行不存在语义关联的行独立成为段落,得到结构化文本;
建立包含关键词的关键信息表单;
通过特征工程获取关键信息,并该关键信息写入所述关键信息表单中,完成公告文本的关键信息提取。
2.根据权利要求1所述的一种公告文本关键信息提取方法,其特征在于:所述将相邻的语义关联的行合并为段落的执行步骤为:若DIV控件对应的行末尾没有空格和回车符,则认定该行与下一行语义关联,同理判断下一行,直至当前行与下一行不存在语义关联,将相邻的语义关联的行划分成段落;若DIV控件对应的行与上一行不存在语义关联,且该行末尾有空格或回车符,则该行独立成为段落。
3.根据权利要求1所述的一种公告文本关键信息提取方法,其特征在于:所述公告文本包含数字标签,根据所述数字标签将所述结构化文本转换成树形结构的结构化文本。
4.根据权利要求1所述的一种公告文本关键信息提取方法,其特征在于:所述特征工程的创建过程如下:
根据关键信息表单,在样本中标注出需要提取的关键信息;
对标注的关键信息采用分词标注或命名实体标注产生训练样本;
用所述训练样本训练深度学习模型,得到关键信息提取模型。
5.根据权利要求4所述的一种公告文本关键信息提取方法,其特征在于:所述深度学习模型的训练步骤如下:
所述深度学习模型加载词库;
对输入的训练样本进行预处理,对预处理后的训练样本进行分词;
结合所述词库训练词向量,将输入的样本转换为词向量的表示方式,然后输入所述深度学习模型进行训练,得到所述关键信息提取模型。
6.根据权利要求5所述的一种公告文本关键信息提取方法,其特征在于:所述结构化文本通过特征工程提取关键信息的步骤为:
对输入的结构化文本进行预处理;
对预处理后的训练样本进行分词;
将输入的样本转换为词向量的表示方式,然后输入所述深度学习模型;
将所述深度学习模型的输出结果写入所述关键信息表单,完成关键信息提取。
7.根据权利要求4所述的一种公告文本关键信息提取方法,其特征在于:所述深度学习模型为BiLSTM-CRF中文命名实体识别模型。
8.一种公告文本关键信息提取设备,其特征在于:包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行如权利要求1至7任意项所述的公告文本关键信息提取方法。
CN201910209213.8A 2019-03-19 2019-03-19 一种公告文本关键信息提取方法及设备 Active CN109933796B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910209213.8A CN109933796B (zh) 2019-03-19 2019-03-19 一种公告文本关键信息提取方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910209213.8A CN109933796B (zh) 2019-03-19 2019-03-19 一种公告文本关键信息提取方法及设备

Publications (2)

Publication Number Publication Date
CN109933796A true CN109933796A (zh) 2019-06-25
CN109933796B CN109933796B (zh) 2022-05-24

Family

ID=66987680

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910209213.8A Active CN109933796B (zh) 2019-03-19 2019-03-19 一种公告文本关键信息提取方法及设备

Country Status (1)

Country Link
CN (1) CN109933796B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377910A (zh) * 2019-07-22 2019-10-25 北京大学 一种表格描述的处理方法、装置、设备及存储介质
CN110750643A (zh) * 2019-09-29 2020-02-04 上证所信息网络有限公司 上市公司非定期公告的分类方法、装置及存储介质
CN110909112A (zh) * 2019-10-18 2020-03-24 深圳价值在线信息科技股份有限公司 数据提取方法、装置、终端设备及介质
CN111401042A (zh) * 2020-03-26 2020-07-10 支付宝(杭州)信息技术有限公司 一种训练文本关键内容提取模型的方法和系统
CN112214987A (zh) * 2020-09-08 2021-01-12 深圳价值在线信息科技股份有限公司 一种信息提取方法、提取装置、终端设备及可读存储介质
CN112445784A (zh) * 2020-12-16 2021-03-05 上海芯翌智能科技有限公司 一种文本结构化的方法、设备及系统
CN112560504A (zh) * 2021-02-24 2021-03-26 北京庖丁科技有限公司 抽取表单文档中信息的方法、电子设备和计算机可读介质
CN115455936A (zh) * 2022-10-28 2022-12-09 北京澜舟科技有限公司 一种公告信息抽取方法、系统及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170300565A1 (en) * 2016-04-14 2017-10-19 Xerox Corporation System and method for entity extraction from semi-structured text documents
CN107797993A (zh) * 2017-11-13 2018-03-13 成都蓝景信息技术有限公司 一种基于序列标注的事件抽取方法
CN108536679A (zh) * 2018-04-13 2018-09-14 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN109190110A (zh) * 2018-08-02 2019-01-11 厦门快商通信息技术有限公司 一种命名实体识别模型的训练方法、系统及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170300565A1 (en) * 2016-04-14 2017-10-19 Xerox Corporation System and method for entity extraction from semi-structured text documents
CN107797993A (zh) * 2017-11-13 2018-03-13 成都蓝景信息技术有限公司 一种基于序列标注的事件抽取方法
CN108536679A (zh) * 2018-04-13 2018-09-14 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN109190110A (zh) * 2018-08-02 2019-01-11 厦门快商通信息技术有限公司 一种命名实体识别模型的训练方法、系统及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨艺等: "基于IOCC的定题Web信息发现机制研究", 《计算机工程与设计》, vol. 29, no. 22, 30 November 2008 (2008-11-30), pages 5906 - 5909 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377910A (zh) * 2019-07-22 2019-10-25 北京大学 一种表格描述的处理方法、装置、设备及存储介质
CN110377910B (zh) * 2019-07-22 2024-03-05 北京大学 一种表格描述的处理方法、装置、设备及存储介质
CN110750643A (zh) * 2019-09-29 2020-02-04 上证所信息网络有限公司 上市公司非定期公告的分类方法、装置及存储介质
CN110750643B (zh) * 2019-09-29 2024-02-09 上证所信息网络有限公司 上市公司非定期公告的分类方法、装置及存储介质
CN110909112A (zh) * 2019-10-18 2020-03-24 深圳价值在线信息科技股份有限公司 数据提取方法、装置、终端设备及介质
CN110909112B (zh) * 2019-10-18 2022-08-26 深圳价值在线信息科技股份有限公司 数据提取方法、装置、终端设备及介质
CN111401042A (zh) * 2020-03-26 2020-07-10 支付宝(杭州)信息技术有限公司 一种训练文本关键内容提取模型的方法和系统
CN111401042B (zh) * 2020-03-26 2023-04-14 支付宝(杭州)信息技术有限公司 一种训练文本关键内容提取模型的方法和系统
CN112214987A (zh) * 2020-09-08 2021-01-12 深圳价值在线信息科技股份有限公司 一种信息提取方法、提取装置、终端设备及可读存储介质
CN112445784B (zh) * 2020-12-16 2023-02-21 上海芯翌智能科技有限公司 一种文本结构化的方法、设备及系统
CN112445784A (zh) * 2020-12-16 2021-03-05 上海芯翌智能科技有限公司 一种文本结构化的方法、设备及系统
CN112560504A (zh) * 2021-02-24 2021-03-26 北京庖丁科技有限公司 抽取表单文档中信息的方法、电子设备和计算机可读介质
CN115455936A (zh) * 2022-10-28 2022-12-09 北京澜舟科技有限公司 一种公告信息抽取方法、系统及存储介质

Also Published As

Publication number Publication date
CN109933796B (zh) 2022-05-24

Similar Documents

Publication Publication Date Title
CN109933796A (zh) 一种公告文本关键信息提取方法及设备
CN109753909A (zh) 一种基于内容分块和BiLSTM模型的简历解析方法
CN107392143A (zh) 一种基于svm文本分类的简历精确解析方法
CN104199871A (zh) 一种用于智慧教学的高速化试题导入方法
CN110991163A (zh) 一种文档比对分析方法、装置、电子设备及存储介质
CN103150381A (zh) 一种高精度汉语谓词识别方法
CN111143531A (zh) 一种问答对构建方法、系统、装置及计算机可读存储介质
CN111651994B (zh) 一种信息抽取方法、装置、电子设备和存储介质
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
US20130326336A1 (en) Generating semantic structured documents from text documents
CN113159969A (zh) 一种金融长文本复核系统
Baron et al. Automatic standardization of spelling for historical text mining
CN109344389B (zh) 一种汉盲对照双语语料库的构建方法和系统
Ibrahim et al. Bel-Arabi: advanced Arabic grammar analyzer
CN111597302A (zh) 文本事件的获取方法、装置、电子设备及存储介质
Agarwal et al. Morphological Analyser for Hindi-A rule based implementation
CN103019924B (zh) 输入法智能性评测系统和方法
CN110516069B (zh) 一种基于FastText-CRF的引文元数据抽取方法
Cronje et al. Automatic slicing and comprehension of cvs
CN106649219A (zh) 一种通信卫星设计文件自动生成方法
Grønvik et al. What should the electronic dictionary do for you–and how?
Iwashokun et al. Structural vetting of academic proposals
Chen A Generic Analysis of English Research Article Abstracts and the Use of Modal Verbs for Financial Economics.
Reddy et al. Text Summarization of Telugu Scripts
CN109657207A (zh) 条款的格式化处理方法和处理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant