CN107145479A - 基于文本语义的篇章结构分析方法 - Google Patents

基于文本语义的篇章结构分析方法 Download PDF

Info

Publication number
CN107145479A
CN107145479A CN201710307876.4A CN201710307876A CN107145479A CN 107145479 A CN107145479 A CN 107145479A CN 201710307876 A CN201710307876 A CN 201710307876A CN 107145479 A CN107145479 A CN 107145479A
Authority
CN
China
Prior art keywords
node
title
text
processing modules
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710307876.4A
Other languages
English (en)
Other versions
CN107145479B (zh
Inventor
张梦迪
郑锦光
段清华
吴珂皓
鲍捷
马新磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Tupu Intelligent Technology Co ltd
Original Assignee
Beijing Wen Jie Internet Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wen Jie Internet Technology Co Ltd filed Critical Beijing Wen Jie Internet Technology Co Ltd
Priority to CN201710307876.4A priority Critical patent/CN107145479B/zh
Publication of CN107145479A publication Critical patent/CN107145479A/zh
Application granted granted Critical
Publication of CN107145479B publication Critical patent/CN107145479B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明公开了一种基于文本语义的篇章结构分析方法,其步骤如下:步骤1,数据获取;步骤2,正文抽取;步骤3,标题识别和抽取;步骤4,层级结构构建。本发明可以解决纯文本的文档结构信息还原,为文本挖掘任务铺垫基础等技术问题。

Description

基于文本语义的篇章结构分析方法
技术领域
本发明涉及一种文档语义信息分析方法。
背景技术
文本结构是一种天然的文档语义信息,可以辅助阅读者理解文档的层次。文档写作者通常使用视觉手段和语义手段相结合的方法来设计文档结构。视觉信息如字体样式、页面布局等,语义信息包括使用多级标题、区分标题和正文、段落顺序安排等。
文本挖掘(Text Mining)技术是指使用计算机程序自动处理文本内容,对有价值的文本信息进行挖掘和抽取。文本挖掘是一个综合计算机技术,涉及语言学模型、自然语言处理技术、机器学习算法等。
从文档内容的语义角色来说,文档篇章结构一般包括:文档标题、章节标题、章节子标题、正文段落。获取文档的结构信息,对于很多文本信息的挖掘任务十分有帮助,比如在丰富的结构信息基础上进行细粒度的信息抽取、文档检索等。互联网上存在大量的文档数据,而绝大部分文档是非结构化或半结构化的文档格式(此处的非结构化和半结构化,是指机器可读但不易处理的文档格式,如PDF;详见W3C语义数据评级)。以PDF为例的信息抽取,一般先通过开源工具将PDF转化为TXT文本,再进行具体的文本挖掘任务,以减小任务复杂度。然而这个过程会严重丢失掉很多原文的视觉信息,而使文本结构的还原很困难。
发明内容
本发明的目的是提供一种基于文本语义的篇章结构分析方法,以解决纯文本的文档结构信息还原,为文本挖掘任务铺垫基础等技术问题。
为了实现上述发明目的,本发明所采用的分析方法步骤如下:
步骤1,数据获取;
101纯文本数据,使用开源工具将待处理文档转为机器可读的TXT格式,获取机器不可读格式的纯文本TXT数据;
步骤2,正文抽取;
102噪声内容过滤,过滤对结构抽取任务而言的噪音内容,包括:空行、页眉页脚、表格内容;
103目录和正文分割,对于有目录的文本,进行目录和正文的分割;目录部分识别出来后将其所有行以及之前行的内容剔除,仅保留其后的正文内容;
104正文内容分行,切分正文内容为行列表,为之后每一行内容的判断做准备;
步骤3,标题识别和抽取,
105初始化根节点,初始化文档结构树的根节点,作为结构树的顶层节点。一个结构节点代表文章的一个章节结构,包括章节标题内容、章节标题层级、章节父节点、内容段落列表;根节点的标题内容设置为文章标题,标题层级设置为最高级,父节点设置为空,内容段落列表暂设为空;同时设置当前节点为根节点;
106遍历每一行,顺序处理正文中的每一行,进入107步骤判断逻辑;每一次遍历时,记录一个当前行的指针,进入107处理模块;
107识别是否为标题,使用基于规则知识特征的多分类器的标题识别器识别某一行是否为标题;如果识别某一行为标题时,转入109处理模块;反之进入110处理模块;
108标题层级分类,使用标题层级分类器判别一个标题是第几层级的标题;根据经验语义知识,设定不同种类标题的层级关系:判断结束后,更新当前节点的标题层级信息;
109初始化一个新节点,如果107处理模块返回为真时,进入当前处理模块;初始化一个节点,设置节点的标题内容为107模块处理的行的内容;设置新节点的标题层级、父节点、内容段落暂时为空;更改新节点为当前处理节点,进入112处理模块;
110识别是否为内容段落,如果107处理模块返回为假时,进入当前处理模块;使用内容段落识别器识别当前行是否为内容段落;内容段落识别器是一个融合了段落特征信息的二分类器,主要用来剔除正文中的噪声内容,作为102模块处理遗漏情况的补充;内容段落分类器主要用到的特征是行中是否包含句子特征;如果识别结果为真则进入111处理模块;反之返回106处理模块;
步骤4,层级结构构建,
111更新当前行到当前节点的内容列表中;更新当前行的内容到当前节点的内容列表尾部,进入116处理模块。
112判断新节点是否比当前节点层级高,比较新节点和当前节点的标题层级的大小情况;如果新节点比当前节点的标题层级高,则进入115处理模块;如果新节点比当前节点的标题层级低,则进入113处理模块;如果新节点和当前节点的标题层级相等,则进入114处理模块;
113设置新节点为当前节点的子节点,更新新节点的父节点为当前节点;114设置新节点为当前节点的兄弟节点,更新新节点的父节点为当前节点的父节点;
115设置新节点为当前节点父节点的兄弟节点,更新新节点的父节点为当前节点的祖辈节点中第一个与新节点层级相同的节点的父节点;
116判断循环是否结束,判断正文是否处理完毕;如果是则进入117处理模块;反之返回到106处理模块;
117返回根节点,返回文档结构树的根节点引用,以此节点为入口可以回溯整个文档结构。
本发明的优点:本发明方法能够极大的还原了纯文本的文档结构信息,为后续文本挖掘任务铺垫了基础。本发明方法框架通用,可广泛地应用于智能信息处理。
附图说明
图1是本发明的基于文本语义的文档提取过程流程图。
具体实施方式
下面结合实施例详细描述本发明。
一、数据获取
101纯文本数据。获取机器不可读格式如PDF、图片等的纯文本TXT数据。可使用开源工具将待处理文档转为机器可读的TXT格式。比如使用PDFBOX将PDF文档解析为TXT文档,或使用OCR技术将JEPG格式的扫描文件转化为TXT文档。
二、正文抽取
102噪声内容过滤。过滤对结构抽取任务而言的噪音内容,如空行、页眉页脚、表格内容等。页眉页脚可根据每个页的重复信息进行过滤,或基于规则进行特定种类文档的页眉页脚过滤。表格内容可能会影响层级结构判断,需要进行表格识别和剔除。
103目录和正文分割。对于有目录的文本,进行目录和正文的分割。遍历每一行,判断当前行是否为目录起始行、是否为目录条目索引行、是否为目录终止行。目录部分识别出来后将其所有行以及之前行的内容剔除,仅保留其后的正文内容。
104正文内容分行。切分正文内容为行列表,为之后每一行内容的判断做准备。断行可以根据PDF转化为TXT后保留的换行符进行分割。
三、标题识别和抽取
105初始化根节点。初始化文档结构树的根节点,作为结构树的顶层节点。一个结构节点代表文章的一个章节结构,包括了章节标题内容、章节标题层级、章节父节点、内容段落列表。根节点的标题内容设置为文章标题,标题层级设置为最高级,父节点设置为空,内容段落列表暂设为空。同时设置当前节点为根节点。
106遍历每一行。顺序处理正文中的每一行,进入107步骤判断逻辑。每一次遍历时,记录一个当前行的指针。进入107处理模块。
107识别是否为标题。使用标题识别器识别某一行是否为标题。标题识别器是一种基于规则知识特征的二分类器。使用特征包括是否以像”一、”、”1.”等这样标题前缀。这些文本特征不需要依赖视觉信息就能组织文章的结构语义。如果识别某一行为标题时,转入109处理模块;反之进入110处理模块。
108标题层级分类。使用标题层级分类器判别一个标题是第几层级的标题。标题层级分类器是是一个基于规则知识的多分类器。根据经验语义知识,设定不同种类标题的层级关系:比如,以数字汉字如”一二三”开头的标题为同级且设为一级,以阿拉伯数字”123”开头的标题为同级标题且都为二级标题,依次类推。判断结束后,更新当前节点的标题层级信息。
109初始化一个新节点。如果107处理模块返回为真时,进入当前处理模块。初始化一个节点,设置节点的标题内容为107模块处理的行的内容。设置新节点的标题层级、父节点、内容段落暂时为空。更改新节点为当前处理节点。进入112处理模块。
110识别是否为内容段落。如果107处理模块返回为假时,进入当前处理模块。使用内容段落识别器识别当前行是否为内容段落。内容段落识别器是一个融合了段落特征信息的二分类器,主要用来剔除正文中的噪声内容,作为102模块处理遗漏情况的补充。内容段落分类器主要用到的特征是行中是否包含句子特征。如果识别结果为真则进入111处理模块;反之返回106处理模块。
四、层级结构构建
111更新当前行到当前节点的内容列表中。更新当前行的内容到当前节点的内容列表尾部。进入116处理模块。
112判断新节点是否比当前节点层级高。比较新节点和当前节点的标题层级的大小情况。如果新节点比当前节点的标题层级高,则进入115处理模块;如果新节点比当前节点的标题层级低,则进入113处理模块;如果新节点和当前节点的标题层级相等,则进入114处理模块。
113设置新节点为当前节点的子节点。更新新节点的父节点为当前节点。114设置新节点为当前节点的兄弟节点。更新新节点的父节点为当前节点的父节点。
115设置新节点为当前节点父节点的兄弟节点。更新新节点的父节点为当前节点的祖辈节点中第一个与新节点层级相同的节点的父节点。
116判断循环是否结束。判断正文是否处理完毕。如果是则进入117处理模块;反之返回到106处理模块。
117返回根节点。返回文档结构树的根节点引用。以此节点为入口可以回溯整个文档结构。

Claims (1)

1.基于文本语义的篇章结构分析方法,其步骤如下:
步骤1,数据获取;
101纯文本数据,使用开源工具将待处理文档转为机器可读的TXT格式,获取机器不可读格式的纯文本TXT数据;
步骤2,正文抽取;
102噪声内容过滤,过滤对结构抽取任务而言的噪音内容,包括:空行、页眉页脚、表格内容;
103目录和正文分割,对于有目录的文本,进行目录和正文的分割;目录部分识别出来后将其所有行以及之前行的内容剔除,仅保留其后的正文内容;
104正文内容分行,切分正文内容为行列表,为之后每一行内容的判断做准备;
步骤3,标题识别和抽取,
105初始化根节点,初始化文档结构树的根节点,作为结构树的顶层节点。一个结构节点代表文章的一个章节结构,包括章节标题内容、章节标题层级、章节父节点、内容段落列表;根节点的标题内容设置为文章标题,标题层级设置为最高级,父节点设置为空,内容段落列表暂设为空;同时设置当前节点为根节点;
106遍历每一行,顺序处理正文中的每一行,进入107步骤判断逻辑;每一次遍历时,记录一个当前行的指针,进入107处理模块;
107识别是否为标题,使用基于规则知识特征的多分类器的标题识别器识别某一行是否为标题;如果识别某一行为标题时,转入109处理模块;反之进入110处理模块;
108标题层级分类,使用标题层级分类器判别一个标题是第几层级的标题;根据经验语义知识,设定不同种类标题的层级关系:判断结束后,更新当前节点的标题层级信息;
109初始化一个新节点,如果107处理模块返回为真时,进入当前处理模块;初始化一个节点,设置节点的标题内容为107模块处理的行的内容;设置新节点的标题层级、父节点、内容段落暂时为空;更改新节点为当前处理节点,进入112处理模块;
110识别是否为内容段落,如果107处理模块返回为假时,进入当前处理模块;使用内容段落识别器识别当前行是否为内容段落;内容段落识别器是一个融合了段落特征信息的二分类器,主要用来剔除正文中的噪声内容,作为102模块处理遗漏情况的补充;内容段落分类器主要用到的特征是行中是否包含句子特征;如果识别结果为真则进入111处理模块;反之返回106处理模块;
步骤4,层级结构构建,
111更新当前行到当前节点的内容列表中;更新当前行的内容到当前节点的内容列表尾部,进入116处理模块。
112判断新节点是否比当前节点层级高,比较新节点和当前节点的标题层级的大小情况;如果新节点比当前节点的标题层级高,则进入115处理模块;如果新节点比当前节点的标题层级低,则进入113处理模块;如果新节点和当前节点的标题层级相等,则进入114处理模块;
113设置新节点为当前节点的子节点,更新新节点的父节点为当前节点;114设置新节点为当前节点的兄弟节点,更新新节点的父节点为当前节点的父节点;
115设置新节点为当前节点父节点的兄弟节点,更新新节点的父节点为当前节点的祖辈节点中第一个与新节点层级相同的节点的父节点;
116判断循环是否结束,判断正文是否处理完毕;如果是则进入117处理模块;反之返回到106处理模块;
117返回根节点,返回文档结构树的根节点引用,以此节点为入口可以回溯整个文档结构。
CN201710307876.4A 2017-05-04 2017-05-04 基于文本语义的篇章结构分析方法 Active CN107145479B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710307876.4A CN107145479B (zh) 2017-05-04 2017-05-04 基于文本语义的篇章结构分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710307876.4A CN107145479B (zh) 2017-05-04 2017-05-04 基于文本语义的篇章结构分析方法

Publications (2)

Publication Number Publication Date
CN107145479A true CN107145479A (zh) 2017-09-08
CN107145479B CN107145479B (zh) 2020-06-02

Family

ID=59775480

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710307876.4A Active CN107145479B (zh) 2017-05-04 2017-05-04 基于文本语义的篇章结构分析方法

Country Status (1)

Country Link
CN (1) CN107145479B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590131A (zh) * 2017-10-16 2018-01-16 北京神州泰岳软件股份有限公司 一种规范文书处理方法、装置及系统
CN108009137A (zh) * 2017-12-22 2018-05-08 中科鼎富(北京)科技发展有限公司 一种基于配置文件的规范文书处理方法、装置及系统
CN108614898A (zh) * 2018-05-10 2018-10-02 爱因互动科技发展(北京)有限公司 文档解析方法与装置
CN109635681A (zh) * 2018-11-26 2019-04-16 汉王科技股份有限公司 一种文献处理方法及装置
CN109657221A (zh) * 2018-12-13 2019-04-19 北京金山数字娱乐科技有限公司 一种文档段落排序方法、排序装置、电子设备及存储介质
CN110287784A (zh) * 2019-05-20 2019-09-27 暨南大学 一种年报文本结构识别方法
CN110427614A (zh) * 2019-07-16 2019-11-08 深圳追一科技有限公司 段落层级的构建方法、装置、电子设备及存储介质
CN110427884A (zh) * 2019-08-01 2019-11-08 达而观信息科技(上海)有限公司 文档篇章结构识别方法、装置、设备和存储介质
CN110609983A (zh) * 2019-08-19 2019-12-24 广州利科科技有限公司 一种政策文件结构化分解方法
CN110765188A (zh) * 2019-09-05 2020-02-07 中科鼎富(北京)科技发展有限公司 合同相对方信息的结构化方法及装置
CN111046629A (zh) * 2019-12-16 2020-04-21 北大方正集团有限公司 大纲显示方法、装置及设备
CN111460141A (zh) * 2020-03-05 2020-07-28 支付宝(杭州)信息技术有限公司 一种文本处理方法、装置及电子设备
CN111768820A (zh) * 2020-06-04 2020-10-13 上海森亿医疗科技有限公司 纸质病历数字化及目标检测模型训练方法、装置、存储介质
CN112257412A (zh) * 2020-09-25 2021-01-22 科大讯飞股份有限公司 篇章解析方法、电子设备及存储装置
CN112597267A (zh) * 2020-12-14 2021-04-02 北京理工大学 一种基于模式识别的英文论文文档多粒度内容处理方法
CN113642320A (zh) * 2020-04-27 2021-11-12 北京庖丁科技有限公司 文档目录结构的提取方法、装置、设备和介质
CN113779931A (zh) * 2021-08-31 2021-12-10 民商数字科技(深圳)有限公司 基于Word的知识库构建方法及其控制方法
CN115438628A (zh) * 2022-11-08 2022-12-06 宏景科技股份有限公司 结构化文档协作管理方法、系统及文档结构
CN116758565A (zh) * 2023-08-23 2023-09-15 中国电子科技集团公司第十研究所 一种基于决策树的ocr文本还原方法、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101556580A (zh) * 2009-05-20 2009-10-14 北京工商大学 一种基于篇章结构分析的股评观点分类系统及方法
CN101751420A (zh) * 2008-12-10 2010-06-23 华中科技大学 语义脉络文档查询方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751420A (zh) * 2008-12-10 2010-06-23 华中科技大学 语义脉络文档查询方法
CN101556580A (zh) * 2009-05-20 2009-10-14 北京工商大学 一种基于篇章结构分析的股评观点分类系统及方法

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590131A (zh) * 2017-10-16 2018-01-16 北京神州泰岳软件股份有限公司 一种规范文书处理方法、装置及系统
CN108009137B (zh) * 2017-12-22 2021-01-29 鼎富智能科技有限公司 一种基于配置文件的规范文书处理方法、装置及系统
CN108009137A (zh) * 2017-12-22 2018-05-08 中科鼎富(北京)科技发展有限公司 一种基于配置文件的规范文书处理方法、装置及系统
CN108614898A (zh) * 2018-05-10 2018-10-02 爱因互动科技发展(北京)有限公司 文档解析方法与装置
CN109635681A (zh) * 2018-11-26 2019-04-16 汉王科技股份有限公司 一种文献处理方法及装置
CN109635681B (zh) * 2018-11-26 2021-11-26 汉王科技股份有限公司 一种文献处理方法及装置
CN109657221A (zh) * 2018-12-13 2019-04-19 北京金山数字娱乐科技有限公司 一种文档段落排序方法、排序装置、电子设备及存储介质
CN109657221B (zh) * 2018-12-13 2023-08-01 北京金山数字娱乐科技有限公司 一种文档段落排序方法、排序装置、电子设备及存储介质
CN110287784A (zh) * 2019-05-20 2019-09-27 暨南大学 一种年报文本结构识别方法
CN110287784B (zh) * 2019-05-20 2023-12-15 暨南大学 一种年报文本结构识别方法
CN110427614A (zh) * 2019-07-16 2019-11-08 深圳追一科技有限公司 段落层级的构建方法、装置、电子设备及存储介质
CN110427614B (zh) * 2019-07-16 2023-08-08 深圳追一科技有限公司 段落层级的构建方法、装置、电子设备及存储介质
CN110427884A (zh) * 2019-08-01 2019-11-08 达而观信息科技(上海)有限公司 文档篇章结构识别方法、装置、设备和存储介质
CN110427884B (zh) * 2019-08-01 2023-05-09 达而观信息科技(上海)有限公司 文档篇章结构识别方法、装置、设备和存储介质
CN110609983A (zh) * 2019-08-19 2019-12-24 广州利科科技有限公司 一种政策文件结构化分解方法
CN110609983B (zh) * 2019-08-19 2023-06-09 广州利科科技有限公司 一种政策文件结构化分解方法
CN110765188A (zh) * 2019-09-05 2020-02-07 中科鼎富(北京)科技发展有限公司 合同相对方信息的结构化方法及装置
CN111046629B (zh) * 2019-12-16 2022-03-01 北大方正集团有限公司 大纲显示方法、装置及设备
CN111046629A (zh) * 2019-12-16 2020-04-21 北大方正集团有限公司 大纲显示方法、装置及设备
CN111460141A (zh) * 2020-03-05 2020-07-28 支付宝(杭州)信息技术有限公司 一种文本处理方法、装置及电子设备
CN111460141B (zh) * 2020-03-05 2023-12-05 支付宝(杭州)信息技术有限公司 一种文本处理方法、装置及电子设备
CN113642320A (zh) * 2020-04-27 2021-11-12 北京庖丁科技有限公司 文档目录结构的提取方法、装置、设备和介质
CN111768820A (zh) * 2020-06-04 2020-10-13 上海森亿医疗科技有限公司 纸质病历数字化及目标检测模型训练方法、装置、存储介质
CN112257412A (zh) * 2020-09-25 2021-01-22 科大讯飞股份有限公司 篇章解析方法、电子设备及存储装置
CN112257412B (zh) * 2020-09-25 2023-12-01 科大讯飞股份有限公司 篇章解析方法、电子设备及存储装置
CN112597267B (zh) * 2020-12-14 2022-09-20 北京理工大学 一种基于模式识别的英文论文文档多粒度内容处理方法
CN112597267A (zh) * 2020-12-14 2021-04-02 北京理工大学 一种基于模式识别的英文论文文档多粒度内容处理方法
CN113779931A (zh) * 2021-08-31 2021-12-10 民商数字科技(深圳)有限公司 基于Word的知识库构建方法及其控制方法
CN115438628A (zh) * 2022-11-08 2022-12-06 宏景科技股份有限公司 结构化文档协作管理方法、系统及文档结构
CN116758565A (zh) * 2023-08-23 2023-09-15 中国电子科技集团公司第十研究所 一种基于决策树的ocr文本还原方法、设备及存储介质
CN116758565B (zh) * 2023-08-23 2023-11-24 中国电子科技集团公司第十研究所 一种基于决策树的ocr文本还原方法、设备及存储介质

Also Published As

Publication number Publication date
CN107145479B (zh) 2020-06-02

Similar Documents

Publication Publication Date Title
CN107145479A (zh) 基于文本语义的篇章结构分析方法
CN104268160B (zh) 一种基于领域词典和语义角色的评价对象抽取方法
CN106886580B (zh) 一种基于深度学习的图片情感极性分析方法
CN104598577B (zh) 一种网页正文的提取方法
CN107590219A (zh) 网页人物主题相关信息提取方法
CN105975478A (zh) 一种基于词向量分析的网络文章所属事件的检测方法和装置
Dunst et al. The graphic narrative corpus (gnc): design, annotation, and analysis for the digital humanities
CN101727498A (zh) 一种基于web结构的网页信息自动提取方法
CN103077164A (zh) 文本分析方法及文本分析器
CN101937430A (zh) 一种汉语句子中事件句式的抽取方法
Hong et al. Understanding blooming human groups in social networks
CN106502991A (zh) 出版物处理方法和装置
CN104268283A (zh) 一种自动解析互联网网页的方法
WO2017193472A1 (zh) 一种东巴经典古籍数字化释读库的建立方法
CN105224520A (zh) 一种中文专利文献术语自动识别方法
JP2007122403A (ja) 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム
CN111563372B (zh) 一种基于教辅书籍出版的排版文档内容自查重方法
CN113312922A (zh) 一种改进的篇章级三元组信息抽取方法
CN111814476A (zh) 一种实体关系的抽取方法和装置
CN111639185A (zh) 关系信息抽取方法、装置、电子设备和可读存储介质
Ghosh et al. Social media cyberbullying detection using machine learning in bengali language
CN101271448A (zh) 汉语基本名词短语的识别及其规则的生成方法和装置
CN107908749A (zh) 一种基于搜索引擎的人物检索系统及方法
Abdullah et al. Arabic handwriting recognition using neural network classifier.
Li et al. A document classification and extraction system with learning ability

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20201012

Address after: 100094, No. 695, building D, building 24, 68 North Ching Road, Beijing, Haidian District, 4

Patentee after: MEMECT TECHNOLOGY Co.,Ltd.

Patentee after: Hefei Wenyin Internet Technology Co.,Ltd.

Address before: 100094, No. 695, building D, building 24, 68 North Ching Road, Beijing, Haidian District, 4

Patentee before: MEMECT TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210113

Address after: Room 501A, 5 / F, A3 / F, phase I, chuanggu Science Park, no.900, Wangjiang West Road, high tech Zone, Hefei City, Anhui Province, 230011

Patentee after: Hefei Tupu Intelligent Technology Co.,Ltd.

Address before: 100094 695, floor 4, block D, building 24, yard 68, Beiqing Road, Haidian District, Beijing

Patentee before: MEMECT TECHNOLOGY Co.,Ltd.

Patentee before: Hefei Wenyin Internet Technology Co.,Ltd.

TR01 Transfer of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Text structure analysis method based on text semantics

Effective date of registration: 20220401

Granted publication date: 20200602

Pledgee: Industrial Bank Limited by Share Ltd. Hefei branch

Pledgor: Hefei Tupu Intelligent Technology Co.,Ltd.

Registration number: Y2022980003810

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20230704

Granted publication date: 20200602

Pledgee: Industrial Bank Limited by Share Ltd. Hefei branch

Pledgor: Hefei Tupu Intelligent Technology Co.,Ltd.

Registration number: Y2022980003810

PC01 Cancellation of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Method for Analyzing Text Structure Based on Text Semantics

Effective date of registration: 20230713

Granted publication date: 20200602

Pledgee: Industrial Bank Limited by Share Ltd. Hefei branch

Pledgor: Hefei Tupu Intelligent Technology Co.,Ltd.

Registration number: Y2023980048336

PE01 Entry into force of the registration of the contract for pledge of patent right