CN110390324A - 一种融合视觉与文本特征的简历版面分析算法 - Google Patents
一种融合视觉与文本特征的简历版面分析算法 Download PDFInfo
- Publication number
- CN110390324A CN110390324A CN201910685047.9A CN201910685047A CN110390324A CN 110390324 A CN110390324 A CN 110390324A CN 201910685047 A CN201910685047 A CN 201910685047A CN 110390324 A CN110390324 A CN 110390324A
- Authority
- CN
- China
- Prior art keywords
- text
- resume
- row
- feature
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 21
- 238000003780 insertion Methods 0.000 claims abstract description 19
- 230000037431 insertion Effects 0.000 claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 15
- 238000013528 artificial neural network Methods 0.000 claims abstract description 13
- 238000002372 labelling Methods 0.000 claims abstract description 8
- 238000006116 polymerization reaction Methods 0.000 claims abstract description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000000630 rising effect Effects 0.000 claims 1
- 230000000007 visual effect Effects 0.000 abstract description 8
- 230000004927 fusion Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种融合视觉与文本特征的简历版面分析算法,该简历版面的分析包括以下步骤:步骤1:从pdf读取程序或ocr引擎中得到文本行及其坐标;步骤2:使用神经网络对第i行的文本进行编码,得到文本嵌入向量text_emb(i);步骤3:提取对应行的图像,得到图像嵌入向量img_emb(i);步骤4:提取字号、文字长度特征,并进行归一化得到特征向量;步骤5:聚合步骤2、3、4得到的向量,得到行嵌入line_emb(i);步骤6:使用神经网络对行向量序列[line_emb(i)]进行序列标注。本发明通过结合简历的视觉特征和文本语义特征,对简历进行语义划分,识别独立的段落单元。
Description
技术领域
本发明涉及简历解析领域,尤其涉及一种融合视觉与文本特征的简历版面分析算法。
背景技术
传统的基于视觉的版面分析能区分图片、表格、段落等版面区域,但是很难识别区域的语义信息。在简历解析领域,需要对简历做语义解析,一般主要使用文字作为版面识别的主要依据,例如CN201810489651.X,将简历转化成文本之后,对文本进行建模处理,丢失了视觉特征,不能利用一些明显的视觉特点,比如分割线,字号大小,空白区域大小等等。
也有一些方法通过规则提取简单的视觉特征。例如CN201811613437.7,通过提取字号、是否加粗、字体种类、行文本长度等视觉特征,简历一个区分标题和主体的分类器。该方法没有考虑文本内容,使用字体等简单视觉特征,先区分标题和主体,将简历分块之后,对每块进一步进行处理。无法直接识别简历中不同段落单元的语义类别。
发明内容
本发明的目的在于克服现有技术存在的以上问题,提供一种融合视觉与文本特征的简历版面分析算法,本发明通过结合简历的视觉特征和文本语义特征,对简历进行语义划分,识别独立的段落单元。
为实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:
一种融合视觉与文本特征的简历版面分析算法,该简历版面的分析包括以下步骤:
步骤1):从pdf读取程序或ocr引擎中得到文本行及其坐标;
步骤2):使用神经网络对第i行的文本进行编码,得到文本嵌入向量text_emb(i);
步骤3):提取对应行的图像,得到图像嵌入向量img_emb(i);
步骤4):提取字号、文字长度特征,并进行归一化得到特征向量;
步骤5):聚合步骤2、3、4得到的向量,得到行嵌入line_emb(i);
步骤6):使用神经网络对行向量序列[line_emb(i)]进行序列标注。
作为优选,所述步骤1中的pdf读取程序或ocr引擎通过简历版面得到的文本行及其坐标。
作为优选,所述步骤2中的文本进行编码前先对文本进行预处理,可以使用字符级处理或者词语级处理,然后再使用序列编码的神经网络;包括但不局限于LSTM、CNN和Transformer等等。
作为优选,所述步骤2中的文本进行编码时进一步得到文本特征,用于识别该行的语义类别。
作为优选,所述步骤3中的图像在提取时先对图像进行预处理,得到文字块的掩码图像特征,作为其中一个通道;所述图像嵌入向量采用CNN进行图片级、窗口级和/或行级提取:其中:
图片级:以整个图片作为单位,提取特征,根据坐标映射提取当前行对应的特征;
窗口级:以当前行为中心,截取一个窗口大小的图像,提取特征;
行级:截取当前行的图片,提取特征。
作为优选,所述步骤4中的归一化是指对简历中的文字、字号做归一化处理;其中,字号可以使用排序归一化;字体,可以使用计数编码。采用此技术方案,由于不同简历使用的字体字号都不相同,需要先对特征进行归一化预处理。
作为优选,所述步骤5中的聚合包括但不限于拼接、平均、最大化池化等等。
作为优选,所述步骤5中得到的向量具有多维度的特征,可以更准确的预测语义类别和段落单元的边界。
作为优选,所述步骤6中的序列标注使用CNN或Transformer融合上下行信息,得到一个行向量可以选择再接一个CRF,输出序列标注,得到每一行的语义标注,进而得到每个语义段落单元的起止行号。本发明的有益效果是:
1.本发明通过结合简历的视觉特征和文本语义特征,对简历进行语义划分,识别独立的段落单元;
2.本发明通过结合视觉与文本特征,更准确的识别语义和边界;
3.本发明通过将简历的语义识别和段落单元识别合并成一个步骤,减少分步处理中每步的累积错误。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明。本发明的具体实施方式由以下实施例及其附图详细给出。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明涉及的整体流程结构示意图。
具体实施方式
下面结合附图对本发明作进一步的描述:
参照图1所示,一种融合视觉与文本特征的简历版面分析算法,该简历版面的分析包括以下步骤:
步骤1):从pdf读取程序或ocr引擎中得到文本行及其坐标;
步骤2):使用神经网络对第i行的文本进行编码,得到文本嵌入向量text_emb(i);
步骤3):提取对应行的图像,得到图像嵌入向量img_emb(i);
步骤4):提取字号、文字长度特征,并进行归一化得到特征向量;
步骤5):聚合步骤2、3、4得到的向量,得到行嵌入line_emb(i);
步骤6):使用神经网络对行向量序列[line_emb(i)]进行序列标注。
作为优选,所述步骤1中的pdf读取程序或ocr引擎通过简历版面得到的文本行及其坐标。
作为优选,所述步骤2中的文本进行编码前先对文本进行预处理,可以使用字符级处理或者词语级处理,然后再使用序列编码的神经网络;包括但不局限于LSTM、CNN和Transformer等等。
作为优选,所述步骤2中的文本进行编码时进一步得到文本特征,用于识别该行的语义类别。
作为优选,所述步骤3中的图像在提取时先对图像进行预处理,得到文字块的掩码图像特征,作为其中一个通道;所述图像嵌入向量采用CNN进行图片级、窗口级和/或行级提取:其中:
图片级:以整个图片作为单位,提取特征,根据坐标映射提取当前行对应的特征;
窗口级:以当前行为中心,截取一个窗口大小的图像,提取特征;
行级:截取当前行的图片,提取特征。
作为优选,所述步骤4中的归一化是指对简历中的文字、字号做归一化处理;其中,字号可以使用排序归一化;字体,可以使用计数编码。采用此技术方案,由于不同简历使用的字体字号都不相同,需要先对特征进行归一化预处理。
作为优选,所述步骤5中的聚合包括但不限于拼接、平均、最大化池化等等。
作为优选,所述步骤5中得到的向量具有多维度的特征,可以更准确的预测语义类别和段落单元的边界。
作为优选,所述步骤6中的序列标注使用CNN或Transformer融合上下行信息,得到一个行向量可以选择再接一个CRF,输出序列标注,得到每一行的语义标注,进而得到每个语义段落单元的起止行号。
具体实施例
在实际使用时,先通过pdf读取程序或ocr引擎获得简历中的文本行及其坐标;再通过神经网络对第i行的文本进行编码,得到文本嵌入向量text_emb(i);通过提取对应行的图像,得到图像嵌入向量img_emb(i);然后,提取字号、文字长度等特征,并进行归一化处理,得到特征向量;再聚合文本嵌入向量、图像嵌入向量和特征向量,得得到行嵌入向量line_emb(i);最后,再使用神经网络对行向量序列[line_emb(i)]进行序列标注,得到每一行的语义标注,进而得到每个语义段落单元的起止行号。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (9)
1.一种融合视觉与文本特征的简历版面分析算法,其特征在于:该简历版面的分析包括以下步骤:
步骤1):从pdf读取程序或ocr引擎中得到文本行及其坐标;
步骤2):使用神经网络对第i行的文本进行编码,得到文本嵌入向量text_emb(i);
步骤3):提取对应行的图像,得到图像嵌入向量img_emb(i);
步骤4):提取字号、文字长度特征,并进行归一化得到特征向量;
步骤5):聚合步骤2、3、4得到的向量,得到行嵌入line_emb(i);
步骤6):使用神经网络对行向量序列[line_emb(i)]进行序列标注。
2.根据权利要求1所述的一种融合视觉与文本特征的简历版面分析算法,其特征在于:所述步骤1中的pdf读取程序或ocr引擎通过简历版面得到的文本行及其坐标。
3.根据权利要求1所述的一种融合视觉与文本特征的简历版面分析算法,其特征在于:所述步骤2中的文本进行编码前先对文本进行预处理,可以使用字符级处理或者词语级处理,然后再使用序列编码的神经网络;包括但不局限于LSTM、CNN和Transformer。
4.根据权利要求1所述的一种融合视觉与文本特征的简历版面分析算法,其特征在于:所述步骤2中的文本进行编码时进一步得到文本特征,用于识别该行的语义类别。
5.根据权利要求1所述的一种融合视觉与文本特征的简历版面分析算法,其特征在于:所述步骤3中的图像在提取时先对图像进行预处理,得到文字块的掩码图像特征,作为其中一个通道;所述图像嵌入向量采用CNN进行图片级、窗口级和/或行级提取:其中:
图片级:以整个图片作为单位,提取特征,根据坐标映射提取当前行对应的特征;
窗口级:以当前行为中心,截取一个窗口大小的图像,提取特征;
行级:截取当前行的图片,提取特征。
6.根据权利要求1所述的一种融合视觉与文本特征的简历版面分析算法,其特征在于:所述步骤4中的归一化是指对简历中的文字、字号做归一化处理;其中,字号可以使用排序归一化;字体,可以使用计数编码。
7.根据权利要求1所述的一种融合视觉与文本特征的简历版面分析算法,其特征在于:所述步骤5中的聚合包括但不限于拼接、平均、最大化池化。
8.根据权利要求1所述的一种融合视觉与文本特征的简历版面分析算法,其特征在于:所述步骤5中得到的向量具有多维度的特征,可以更准确的预测语义类别和段落单元的边界。
9.根据权利要求1所述的一种融合视觉与文本特征的简历版面分析算法,其特征在于:所述步骤6中的序列标注使用CNN或Transformer融合上下行信息,得到一个行向量可以选择再接一个CRF,输出序列标注,得到每一行的语义标注,进而得到每个语义段落单元的起止行号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910685047.9A CN110390324A (zh) | 2019-07-27 | 2019-07-27 | 一种融合视觉与文本特征的简历版面分析算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910685047.9A CN110390324A (zh) | 2019-07-27 | 2019-07-27 | 一种融合视觉与文本特征的简历版面分析算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110390324A true CN110390324A (zh) | 2019-10-29 |
Family
ID=68287521
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910685047.9A Pending CN110390324A (zh) | 2019-07-27 | 2019-07-27 | 一种融合视觉与文本特征的简历版面分析算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110390324A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737969A (zh) * | 2020-07-27 | 2020-10-02 | 北森云计算有限公司 | 一种基于深度学习的简历解析方法和系统 |
CN112434568A (zh) * | 2020-11-06 | 2021-03-02 | 北京完美知识科技有限公司 | 一种画作识别方法、装置、存储介质及计算设备 |
CN112597878A (zh) * | 2020-12-21 | 2021-04-02 | 安徽七天教育科技有限公司 | 一种扫描试卷版面分析的样本制作及识别方法 |
WO2021135816A1 (zh) * | 2019-12-30 | 2021-07-08 | 华为技术有限公司 | 识别图像中文本的方法、装置和系统 |
CN113139378A (zh) * | 2021-03-18 | 2021-07-20 | 杭州电子科技大学 | 一种基于视觉嵌入和条件归一化的图像描述方法 |
CN113837190A (zh) * | 2021-08-30 | 2021-12-24 | 厦门大学 | 一种基于Transformer的端到端实例分割方法 |
CN114170423A (zh) * | 2022-02-14 | 2022-03-11 | 成都数之联科技股份有限公司 | 一种图像文档版面识别方法、装置及其系统 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102750541A (zh) * | 2011-04-22 | 2012-10-24 | 北京文通科技有限公司 | 一种文档图像分类识别方法及装置 |
CN105654135A (zh) * | 2015-12-30 | 2016-06-08 | 成都数联铭品科技有限公司 | 一种基于递归神经网络的图像文字序列识别系统 |
CN106156711A (zh) * | 2015-04-21 | 2016-11-23 | 华中科技大学 | 文本行的定位方法及装置 |
WO2017163230A1 (en) * | 2016-03-24 | 2017-09-28 | Ramot At Tel-Aviv University Ltd. | Method and system for converting an image to text |
CN107391609A (zh) * | 2017-07-01 | 2017-11-24 | 南京理工大学 | 一种双向多模态递归网络的图像描述方法 |
US20180101726A1 (en) * | 2016-10-10 | 2018-04-12 | Insurance Services Office Inc. | Systems and Methods for Optical Character Recognition for Low-Resolution Documents |
CN108595708A (zh) * | 2018-05-10 | 2018-09-28 | 北京航空航天大学 | 一种基于知识图谱的异常信息文本分类方法 |
CN108595396A (zh) * | 2018-03-28 | 2018-09-28 | 福建榕基软件工程有限公司 | 一种简历的自动生成方法及终端 |
CN108664474A (zh) * | 2018-05-21 | 2018-10-16 | 众安信息技术服务有限公司 | 一种基于深度学习的简历解析方法 |
US20180336183A1 (en) * | 2017-05-22 | 2018-11-22 | International Business Machines Corporation | Deep Embedding for Natural Language Content Based on Semantic Dependencies |
CN109117848A (zh) * | 2018-09-07 | 2019-01-01 | 泰康保险集团股份有限公司 | 一种文本行字符识别方法、装置、介质和电子设备 |
CN109255047A (zh) * | 2018-07-18 | 2019-01-22 | 西安电子科技大学 | 基于互补语义对齐和对称检索的图像-文本互检索方法 |
CN109543667A (zh) * | 2018-11-14 | 2019-03-29 | 北京工业大学 | 一种基于注意力机制的文本识别方法 |
CN109753909A (zh) * | 2018-12-27 | 2019-05-14 | 广东人啊人网络技术开发有限公司 | 一种基于内容分块和BiLSTM模型的简历解析方法 |
CN109840287A (zh) * | 2019-01-31 | 2019-06-04 | 中科人工智能创新技术研究院(青岛)有限公司 | 一种基于神经网络的跨模态信息检索方法和装置 |
-
2019
- 2019-07-27 CN CN201910685047.9A patent/CN110390324A/zh active Pending
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102750541A (zh) * | 2011-04-22 | 2012-10-24 | 北京文通科技有限公司 | 一种文档图像分类识别方法及装置 |
CN106156711A (zh) * | 2015-04-21 | 2016-11-23 | 华中科技大学 | 文本行的定位方法及装置 |
CN105654135A (zh) * | 2015-12-30 | 2016-06-08 | 成都数联铭品科技有限公司 | 一种基于递归神经网络的图像文字序列识别系统 |
WO2017163230A1 (en) * | 2016-03-24 | 2017-09-28 | Ramot At Tel-Aviv University Ltd. | Method and system for converting an image to text |
US20180101726A1 (en) * | 2016-10-10 | 2018-04-12 | Insurance Services Office Inc. | Systems and Methods for Optical Character Recognition for Low-Resolution Documents |
US20180336183A1 (en) * | 2017-05-22 | 2018-11-22 | International Business Machines Corporation | Deep Embedding for Natural Language Content Based on Semantic Dependencies |
CN107391609A (zh) * | 2017-07-01 | 2017-11-24 | 南京理工大学 | 一种双向多模态递归网络的图像描述方法 |
CN108595396A (zh) * | 2018-03-28 | 2018-09-28 | 福建榕基软件工程有限公司 | 一种简历的自动生成方法及终端 |
CN108595708A (zh) * | 2018-05-10 | 2018-09-28 | 北京航空航天大学 | 一种基于知识图谱的异常信息文本分类方法 |
CN108664474A (zh) * | 2018-05-21 | 2018-10-16 | 众安信息技术服务有限公司 | 一种基于深度学习的简历解析方法 |
CN109255047A (zh) * | 2018-07-18 | 2019-01-22 | 西安电子科技大学 | 基于互补语义对齐和对称检索的图像-文本互检索方法 |
CN109117848A (zh) * | 2018-09-07 | 2019-01-01 | 泰康保险集团股份有限公司 | 一种文本行字符识别方法、装置、介质和电子设备 |
CN109543667A (zh) * | 2018-11-14 | 2019-03-29 | 北京工业大学 | 一种基于注意力机制的文本识别方法 |
CN109753909A (zh) * | 2018-12-27 | 2019-05-14 | 广东人啊人网络技术开发有限公司 | 一种基于内容分块和BiLSTM模型的简历解析方法 |
CN109840287A (zh) * | 2019-01-31 | 2019-06-04 | 中科人工智能创新技术研究院(青岛)有限公司 | 一种基于神经网络的跨模态信息检索方法和装置 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021135816A1 (zh) * | 2019-12-30 | 2021-07-08 | 华为技术有限公司 | 识别图像中文本的方法、装置和系统 |
CN113128494A (zh) * | 2019-12-30 | 2021-07-16 | 华为技术有限公司 | 识别图像中文本的方法、装置和系统 |
CN111737969A (zh) * | 2020-07-27 | 2020-10-02 | 北森云计算有限公司 | 一种基于深度学习的简历解析方法和系统 |
CN111737969B (zh) * | 2020-07-27 | 2020-12-08 | 北森云计算有限公司 | 一种基于深度学习的简历解析方法和系统 |
CN112434568A (zh) * | 2020-11-06 | 2021-03-02 | 北京完美知识科技有限公司 | 一种画作识别方法、装置、存储介质及计算设备 |
CN112597878A (zh) * | 2020-12-21 | 2021-04-02 | 安徽七天教育科技有限公司 | 一种扫描试卷版面分析的样本制作及识别方法 |
CN113139378A (zh) * | 2021-03-18 | 2021-07-20 | 杭州电子科技大学 | 一种基于视觉嵌入和条件归一化的图像描述方法 |
CN113139378B (zh) * | 2021-03-18 | 2022-02-18 | 杭州电子科技大学 | 一种基于视觉嵌入和条件归一化的图像描述方法 |
CN113837190A (zh) * | 2021-08-30 | 2021-12-24 | 厦门大学 | 一种基于Transformer的端到端实例分割方法 |
CN114170423A (zh) * | 2022-02-14 | 2022-03-11 | 成都数之联科技股份有限公司 | 一种图像文档版面识别方法、装置及其系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110390324A (zh) | 一种融合视觉与文本特征的简历版面分析算法 | |
CN109308476B (zh) | 票据信息处理方法、系统及计算机可读存储介质 | |
US20180322339A1 (en) | Page segmentation of vector graphics documents | |
CN108845993B (zh) | 文本信息的翻译方法、装置及终端设备 | |
CN108717406A (zh) | 文本情绪分析方法、装置及存储介质 | |
CN109670494B (zh) | 一种附带识别置信度的文本检测方法及系统 | |
Kacem et al. | Automatic extraction of printed mathematical formulas using fuzzy logic and propagation of context | |
EP3933636A1 (en) | Webpage tampering detection method and related apparatus | |
CN109284758A (zh) | 一种发票印章消除方法、装置和计算机存储介质 | |
CN107729865A (zh) | 一种手写体数学公式离线识别方法及系统 | |
CN110110327A (zh) | 一种基于对抗学习的文本标注方法和设备 | |
CN112396049A (zh) | 文本纠错方法、装置、计算机设备及存储介质 | |
CN108664474A (zh) | 一种基于深度学习的简历解析方法 | |
CN103049750A (zh) | 字符识别方法 | |
CN102194117A (zh) | 文稿页面方向检测方法和装置 | |
CN112766255A (zh) | 一种光学文字识别方法、装置、设备及存储介质 | |
CN115100670A (zh) | 保单信息处理方法及其系统、电子设备、存储介质 | |
CN104516874A (zh) | 一种对名词短语进行依存句法分析的方法及系统 | |
CN114821612B (zh) | 一种证券期货场景下pdf文档的信息抽取方法和系统 | |
CN105389303B (zh) | 一种异源语料自动融合方法 | |
CN116740723A (zh) | 一种基于开源Paddle框架的PDF文档识别方法 | |
CN104331400B (zh) | 一种蒙古文编码转换方法和装置 | |
CN114528840A (zh) | 融合上下文信息的中文实体识别方法、终端及存储介质 | |
Kang et al. | Multi-Page Document Visual Question Answering using Self-Attention Scoring Mechanism | |
CN109902299B (zh) | 一种文本处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191029 |
|
WD01 | Invention patent application deemed withdrawn after publication |