CN110275938B - 基于非结构化文档的知识提取方法及系统 - Google Patents

基于非结构化文档的知识提取方法及系统 Download PDF

Info

Publication number
CN110275938B
CN110275938B CN201910455327.0A CN201910455327A CN110275938B CN 110275938 B CN110275938 B CN 110275938B CN 201910455327 A CN201910455327 A CN 201910455327A CN 110275938 B CN110275938 B CN 110275938B
Authority
CN
China
Prior art keywords
words
knowledge
word
document
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910455327.0A
Other languages
English (en)
Other versions
CN110275938A (zh
Inventor
黄志春
张定国
谢海涛
陈育翔
伍宇文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Weihong Intelligent Technology Co ltd
Original Assignee
Guangzhou Weihong Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Weihong Intelligent Technology Co ltd filed Critical Guangzhou Weihong Intelligent Technology Co ltd
Priority to CN201910455327.0A priority Critical patent/CN110275938B/zh
Publication of CN110275938A publication Critical patent/CN110275938A/zh
Application granted granted Critical
Publication of CN110275938B publication Critical patent/CN110275938B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于非结构化文档的知识提取方法及系统,包括如下步骤,建立随机森林模型、导入非结构化文档、BERT处理、样本导入、展示提取的知识、对随机森林模型进行补充和修正,本发明结构科学合理,使用安全方便,通过BERT对非结构化文档进行预处理,通过双向特征,筛出词义准确的字词,保证知识提取的准确性,同时将决策后的知识字词进行展示,通过分为三类,便于使用者更准确了解非结构化文档的关键信息和次要信息,提高随机森林模型对非结构化文档字词的提取,同时数据存储内部存储有和字词相关的知识文档,并将提取的字词与字词相关的知识文档链接,通过点击字词能快速了解字词相关知识,提高对非结构化文档的了解。

Description

基于非结构化文档的知识提取方法及系统
技术领域
本发明涉及知识提取技术领域,具体为基于非结构化文档的知识提取方法及系统。
背景技术
非结构化文档是文本结构不规则或不完整,没有预定义的框架,因此在阅读和整理时需要对非结构化文档的知识进行提取,提高使用者观看非结构化文档的便捷;
但是现有的非结构化文档的知识提取时,通过简单的算法对自然语言进行处理,其局限性较大,无法根据上下文分解词义,容易出现字词歧义的现象,进一步造成知识提取时出现偏差,因此人们急需一种基于非结构化文档的知识提取方法及系统来解决上述问题。
发明内容
本发明提供基于非结构化文档的知识提取方法及系统,可以有效解决上述背景技术中提出的等问题。
为实现上述目的,本发明提供如下技术方案:基于非结构化文档的知识提取方法,包括如下步骤:
S1、建立随机森林模型;
S2、导入非结构化文档;
S3、BERT处理;
S4、样本导入;
S5、展示提取的知识;
S6、对随机森林模型进行补充和修正。
根据上述技术方案,所述步骤S1中,建立随机森林模型具体为设定特征数值为Z个,导入训练集,通过Z个特征对字词进行决策,创建决策树选取符合特征的字词。
根据上述技术方案,所述步骤S3中,BERT是基于Transformer 的双向编码器表征,其根基就是Transformer,其中双向的意思表示它在处理一个词的时候,能考虑到该词前面和后面单词的信息,从而获取上下文的语义,将非结构化文档的文字转化为准确且无歧义的词语和字,并将词语或字的总数值记为M。
根据上述技术方案,所述步骤S4中,具体包括如下步骤:
(1)、将BERT处理后的M个字词导入到随机森林模型;
(2)、设定数值N,N为样本字词导入个数,且N小于M;
(3)、设定数值Y,Y为样本的决策特征,且Y小于Z;
(4)、设定数值X,X为决策树数量;
(5)、从M个字词中选取N个样本字词;
(6)、N个样本字词分别随机选定Y个筛选特征进行创建决策树;
(7)、决策树数量是否大于X,否则返回(6);
(8)、样本字词在X个决策树的选取情况,输出提取的知识词语。
根据上述技术方案,所述步骤(8)中在X个决策树中,单个样本字词决策后被选取数值记为K,若K处于0-0.4X之间记为被否决字词,若K处于0.4X-0.7X之间记为次展示字词,若K处于0.7X-X之间记为展示字词。
根据上述技术方案,所述步骤S5中,将展示字词和次展示字词图标向使用者展示,并将展示字词和次展示字词图标均设置为超链接形式,点击展示字词,将数据库内该展示字词相关知识显示给使用者观看阅读,点击次展示字词图标,切换展示页面,使得次展示字词箱使用者展示,并将次展示字词设置为超链接形式,点击次展示字词,将数据库内该次展示字词相关知识显示给使用者观看阅读。
根据上述技术方案,所述步骤S6中,将展示字词和次展示字词中出现的决策错误同义词进行修改,并对随机森林模型中的特征进行补充完善。
根据上述技术方案,基于非结构化文档的知识提取系统,所述基于非结构化文档的知识提取系统包括数据模块、采集模块、处理模块和执行模块;所述数据模块包括数据存储、数据修改和数据联网,所述采集模块包括网络文档导入和本地文档导入,所述处理模块包括BERT处理和决策树处理,所述执行模块包括显示屏展示和投影展示;
所述采集模块、处理模块和执行模块三者均与数据模块连接,所述采集模块输出端与处理模块输入端相连接,所述处理模块输出端与执行模块输入端相连接。
根据上述技术方案,所述采集模块包括网络文档导入和本地文档导入,所述网络文档导入是指将网络云端存储的文档导入至BERT处理区域,所述本地文档导入包括计算机硬盘存储文档和U盘存储文档,并将文档导入至BERT处理区域;
所述处理模块包括BERT处理和决策树处理,所述BERT处理是指将输入的非结构文档译成单独的字词,所述决策树处理是将单独的字词通过随机森林模型进行决策输出。
根据上述技术方案,所述数据模块包括数据存储、数据修改和数据联网,所述数据存储是对知识词语相关文档、系统运行编程以及计算机运行编程的存储,所述数据修改是随机森林模型的筛选特征进行修改,减少提取时同义词错误,所述数据联网使对数据存储内的数据联网更新,以保证系统正常的运行和准确的知识词语对应文档;
所述执行模块包括显示屏展示和投影展示,所述显示屏展示是通过计算机显示屏向使用者展示提取的知识词语,供少量使用者交流观看,所述投影展示是指通过投影机将显示屏内容投影至幕布,供多位使用者同时观看交流,所述执行模块中展示的知识词语设置为超链接,提取的知识词语与数据存储中存储的知识词语相关文档相链接,点击展示的知识词语,获取相应的知识词语相关文档。
与现有技术相比,本发明的有益效果:本发明结构科学合理,使用安全方便:通过BERT对非结构化文档进行预处理,通过双向特征,筛出词义准确的字词,保证知识提取的准确性,同时将决策后的知识字词进行展示,通过分为三类,便于使用者更准确了解非结构化文档的关键信息和次要信息,提高随机森林模型对非结构化文档字词的提取,同时数据存储内部存储有和字词相关的知识文档,并将提取的字词与字词相关的知识文档链接,通过点击字词能快速了解字词相关知识,提高对非结构化文档的了解,同时网络文档导入和本地文档导入便于使用者更便捷的将非结构化文档导入并进行处理,并通过显示屏和投影,便于选择少数人和多数人两者模式进行更换观看,便于不同人数的使用人群。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
在附图中:
图1是本发明的方法步骤图;
图2是本发明样本导入的流程图;
图3是本发明的系统框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例:如图1-3 所示,本发明提供一种技术方案,基于非结构化文档的知识提取方法,包括如下步骤:
S1、建立随机森林模型;
S2、导入非结构化文档;
S3、BERT处理;
S4、样本导入;
S5、展示提取的知识;
S6、对随机森林模型进行补充和修正。
根据上述技术方案,步骤S1中,建立随机森林模型具体为设定特征数值为Z个,导入训练集,通过Z个特征对字词进行决策,创建决策树选取符合特征的字词。
根据上述技术方案,步骤S3中,BERT是基于Transformer 的双向编码器表征,其根基就是Transformer,其中双向的意思表示它在处理一个词的时候,能考虑到该词前面和后面单词的信息,从而获取上下文的语义,将非结构化文档的文字转化为准确且无歧义的词语和字,并将词语或字的总数值记为M。
根据上述技术方案,步骤S4中,具体包括如下步骤:
(1)、将BERT处理后的M个字词导入到随机森林模型;
(2)、设定数值N,N为样本字词导入个数,且N小于M;
(3)、设定数值Y,Y为样本的决策特征,且Y小于Z;
(4)、设定数值X,X为决策树数量;
(5)、从M个字词中选取N个样本字词;
(6)、N个样本字词分别随机选定Y个筛选特征进行创建决策树;
(7)、决策树数量是否大于X,否则返回(6);
(8)、样本字词在X个决策树的选取情况,输出提取的知识词语。
根据上述技术方案,步骤(8)中在X个决策树中,单个样本字词决策后被选取数值记为K,若K处于0-0.4X之间记为被否决字词,若K处于0.4X-0.7X之间记为次展示字词,若K处于0.7X-X之间记为展示字词。
根据上述技术方案,步骤S5中,将展示字词和次展示字词图标向使用者展示,并将展示字词和次展示字词图标均设置为超链接形式,点击展示字词,将数据库内该展示字词相关知识显示给使用者观看阅读,点击次展示字词图标,切换展示页面,使得次展示字词箱使用者展示,并将次展示字词设置为超链接形式,点击次展示字词,将数据库内该次展示字词相关知识显示给使用者观看阅读。
根据上述技术方案,步骤S6中,将展示字词和次展示字词中出现的决策错误同义词进行修改,并对随机森林模型中的特征进行补充完善。
根据上述技术方案,基于非结构化文档的知识提取系统,基于非结构化文档的知识提取系统包括数据模块、采集模块、处理模块和执行模块;数据模块包括数据存储、数据修改和数据联网,采集模块包括网络文档导入和本地文档导入,处理模块包括BERT处理和决策树处理,执行模块包括显示屏展示和投影展示;
采集模块、处理模块和执行模块三者均与数据模块连接,采集模块输出端与处理模块输入端相连接,处理模块输出端与执行模块输入端相连接。
根据上述技术方案,采集模块包括网络文档导入和本地文档导入,网络文档导入是指将网络云端存储的文档导入至BERT处理区域,本地文档导入包括计算机硬盘存储文档和U盘存储文档,并将文档导入至BERT处理区域;
处理模块包括BERT处理和决策树处理,BERT处理是指将输入的非结构文档译成单独的字词,决策树处理是将单独的字词通过随机森林模型进行决策输出。
根据上述技术方案,数据模块包括数据存储、数据修改和数据联网,数据存储是对知识词语相关文档、系统运行编程以及计算机运行编程的存储,数据修改是随机森林模型的筛选特征进行修改,减少提取时同义词错误,数据联网使对数据存储内的数据联网更新,以保证系统正常的运行和准确的知识词语对应文档;
执行模块包括显示屏展示和投影展示,显示屏展示是通过计算机显示屏向使用者展示提取的知识词语,供少量使用者交流观看,投影展示是指通过投影机将显示屏内容投影至幕布,供多位使用者同时观看交流,执行模块中展示的知识词语设置为超链接,提取的知识词语与数据存储中存储的知识词语相关文档相链接,点击展示的知识词语,获取相应的知识词语相关文档;
本发明的工作原理及使用流程:通过BERT对非结构化文档进行预处理,通过双向特征,筛出词义准确的字词,保证知识提取的准确性,同时将决策后的知识字词进行展示,通过分为三类,便于使用者更准确了解非结构化文档的关键信息和次要信息,提高随机森林模型对非结构化文档字词的提取,同时数据存储内部存储有和字词相关的知识文档,并将提取的字词与字词相关的知识文档链接,通过点击字词能快速了解字词相关知识,提高对非结构化文档的了解,同时网络文档导入和本地文档导入便于使用者更便捷的将非结构化文档导入并进行处理,并通过显示屏和投影,便于选择少数人和多数人两者模式进行更换观看,便于不同人数的使用人群。
最后应说明的是:以上所述仅为本发明的优选实例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.基于非结构化文档的知识提取方法,其特征在于:包括如下步骤:
S1、建立随机森林模型;
S2、导入非结构化文档;
S3、BERT处理;
S4、样本导入;
S5、展示提取的知识;
S6、对随机森林模型进行补充和修正;
所述步骤S4中,具体包括如下步骤:
(1)、将BERT处理后的M个字词导入到随机森林模型;
(2)、设定数值N,N为样本字词导入个数,且N小于M;
(3)、设定数值Y,Y为样本的决策特征,且Y小于Z;
(4)、设定数值X,X为决策树数量;
(5)、从M个字词中选取N个样本字词;
(6)、N个样本字词分别随机选定Y个筛选特征进行创建决策树;
(7)、决策树数量是否大于X,否则返回(6);
(8)、样本字词在X个决策树的选取情况,输出提取的知识词语;
所述步骤(8)中在X个决策树中,单个样本字词决策后被选取数值记为K,若K处于0-0.4X之间记为被否决字词,若K处于0.4X-0.7X之间记为次展示字词,若K处于0.7X-X之间记为展示字词。
2.根据权利要求1所述的基于非结构化文档的知识提取方法,其特征在于:所述步骤S1中,建立随机森林模型具体为设定特征数值为Z个,导入训练集,通过Z个特征对字词进行决策,创建决策树选取符合特征的字词。
3.根据权利要求1所述的基于非结构化文档的知识提取方法,其特征在于:所述步骤S3中,BERT是基于Transformer 的双向编码器表征,其根基就是Transformer,其中双向的意思表示它在处理一个词的时候,能考虑到该词前面和后面单词的信息,从而获取上下文的语义,将非结构化文档的文字转化为准确且无歧义的词语和字,并将词语或字的总数值记为M。
4.根据权利要求1所述的基于非结构化文档的知识提取方法,其特征在于:所述步骤S5中,将展示字词和次展示字词图标向使用者展示,并将展示字词和次展示字词图标均设置为超链接形式,点击展示字词,将数据库内该展示字词相关知识显示给使用者观看阅读,点击次展示字词图标,切换展示页面,使得次展示字词箱使用者展示,并将次展示字词设置为超链接形式,点击次展示字词,将数据库内该次展示字词相关知识显示给使用者观看阅读。
5.根据权利要求1所述的基于非结构化文档的知识提取方法,其特征在于:所述步骤S6中,将展示字词和次展示字词中出现的决策错误同义词进行修改,并对随机森林模型中的特征进行补充完善。
6.根据权利要求1-5中任一项所述的基于非结构化文档的知识提取系统,其特征在于:所述基于非结构化文档的知识提取系统包括数据模块、采集模块、处理模块和执行模块;所述数据模块包括数据存储、数据修改和数据联网,所述采集模块包括网络文档导入和本地文档导入,所述处理模块包括BERT处理和决策树处理,所述执行模块包括显示屏展示和投影展示;
所述采集模块、处理模块和执行模块三者均与数据模块连接,所述采集模块输出端与处理模块输入端相连接,所述处理模块输出端与执行模块输入端相连接。
7.根据权利要求6所述的基于非结构化文档的知识提取系统,其特征在于:所述采集模块包括网络文档导入和本地文档导入,所述网络文档导入是指将网络云端存储的文档导入至BERT处理区域,所述本地文档导入包括计算机硬盘存储文档和U盘存储文档,并将文档导入至BERT处理区域;
所述处理模块包括BERT处理和决策树处理,所述BERT处理是指将输入的非结构文档译成单独的字词,所述决策树处理是将单独的字词通过随机森林模型进行决策输出。
8.根据权利要求6所述的基于非结构化文档的知识提取系统,其特征在于:所述数据模块包括数据存储、数据修改和数据联网,所述数据存储是对知识词语相关文档、系统运行编程以及计算机运行编程的存储,所述数据修改是随机森林模型的筛选特征进行修改,减少提取时同义词错误,所述数据联网使对数据存储内的数据联网更新,以保证系统正常的运行和准确的知识词语对应文档;
所述执行模块包括显示屏展示和投影展示,所述显示屏展示是通过计算机显示屏向使用者展示提取的知识词语,供少量使用者交流观看,所述投影展示是指通过投影机将显示屏内容投影至幕布,供多位使用者同时观看交流,所述执行模块中展示的知识词语设置为超链接,提取的知识词语与数据存储中存储的知识词语相关文档相链接,点击展示的知识词语,获取相应的知识词语相关文档。
CN201910455327.0A 2019-05-29 2019-05-29 基于非结构化文档的知识提取方法及系统 Active CN110275938B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910455327.0A CN110275938B (zh) 2019-05-29 2019-05-29 基于非结构化文档的知识提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910455327.0A CN110275938B (zh) 2019-05-29 2019-05-29 基于非结构化文档的知识提取方法及系统

Publications (2)

Publication Number Publication Date
CN110275938A CN110275938A (zh) 2019-09-24
CN110275938B true CN110275938B (zh) 2021-09-17

Family

ID=67960250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910455327.0A Active CN110275938B (zh) 2019-05-29 2019-05-29 基于非结构化文档的知识提取方法及系统

Country Status (1)

Country Link
CN (1) CN110275938B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104789B (zh) * 2019-11-22 2023-12-29 华中师范大学 文本评分方法、装置和系统
CN112836070A (zh) * 2021-02-02 2021-05-25 山东寻声网络科技有限公司 一种nlp技术在数据分析中的应用
US20230237409A1 (en) * 2022-01-27 2023-07-27 Reorg Research, Inc. Automatic computer prediction of enterprise events

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105528437A (zh) * 2015-12-17 2016-04-27 浙江大学 一种基于结构化文本知识提取的问答系统构建方法
CN108710625A (zh) * 2018-03-16 2018-10-26 电子科技大学成都研究院 一种专题知识自动挖掘系统及方法
CN109241392A (zh) * 2017-07-04 2019-01-18 北京搜狗科技发展有限公司 目标词的识别方法、装置、系统及存储介质
CN109657055A (zh) * 2018-11-09 2019-04-19 中山大学 基于层次混合网络的标题党文章检测方法及联邦学习策略
CN109815952A (zh) * 2019-01-24 2019-05-28 珠海市筑巢科技有限公司 品牌名称识别方法、计算机装置及计算机可读存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411563B (zh) * 2010-09-26 2015-06-17 阿里巴巴集团控股有限公司 一种识别目标词的方法、装置及系统
US9501540B2 (en) * 2011-11-04 2016-11-22 BigML, Inc. Interactive visualization of big data sets and models including textual data
WO2014189400A1 (en) * 2013-05-22 2014-11-27 Axon Doo A method for diacritisation of texts written in latin- or cyrillic-derived alphabets
US9361531B2 (en) * 2014-07-21 2016-06-07 Optum, Inc. Targeted optical character recognition (OCR) for medical terminology
CN108093376A (zh) * 2016-11-21 2018-05-29 中国移动通信有限公司研究院 一种垃圾短信的过滤方法及装置
CN108875051B (zh) * 2018-06-28 2020-04-28 中译语通科技股份有限公司 面向海量非结构化文本的知识图谱自动构建方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105528437A (zh) * 2015-12-17 2016-04-27 浙江大学 一种基于结构化文本知识提取的问答系统构建方法
CN109241392A (zh) * 2017-07-04 2019-01-18 北京搜狗科技发展有限公司 目标词的识别方法、装置、系统及存储介质
CN108710625A (zh) * 2018-03-16 2018-10-26 电子科技大学成都研究院 一种专题知识自动挖掘系统及方法
CN109657055A (zh) * 2018-11-09 2019-04-19 中山大学 基于层次混合网络的标题党文章检测方法及联邦学习策略
CN109815952A (zh) * 2019-01-24 2019-05-28 珠海市筑巢科技有限公司 品牌名称识别方法、计算机装置及计算机可读存储介质

Also Published As

Publication number Publication date
CN110275938A (zh) 2019-09-24

Similar Documents

Publication Publication Date Title
US10719898B2 (en) Systems and methods for analyzing documents
KR20210038449A (ko) 문답 처리, 언어 모델 훈련 방법, 장치, 기기 및 저장 매체
US9495347B2 (en) Systems and methods for extracting table information from documents
US8725717B2 (en) System and method for identifying topics for short text communications
US7890852B2 (en) Rich text handling for a web application
US7577963B2 (en) Event data translation system
US10366154B2 (en) Information processing device, information processing method, and computer program product
CN110275938B (zh) 基于非结构化文档的知识提取方法及系统
US10210211B2 (en) Code searching and ranking
US9852217B2 (en) Searching and ranking of code in videos
CN108304375A (zh) 一种信息识别方法及其设备、存储介质、终端
US20180268053A1 (en) Electronic document generation using data from disparate sources
CN104036004B (zh) 搜索纠错方法和搜索纠错装置
CN111858905B (zh) 模型训练方法、信息识别方法、装置、电子设备及存储介质
CN110348020A (zh) 一种英文单词拼写纠错方法、装置、设备及可读存储介质
CN110532567A (zh) 短语的提取方法、装置、电子设备及存储介质
CN111191429A (zh) 数据表格自动填充的系统和方法
CN114595686A (zh) 知识抽取方法、知识抽取模型的训练方法及装置
CN111190920A (zh) 一种基于自然语言的数据交互查询方法及其系统
US9396273B2 (en) Forensic system, forensic method, and forensic program
US10191955B2 (en) Detection and visualization of schema-less data
CN114676231A (zh) 一种目标信息检测方法、设备和介质
CN113407678B (zh) 知识图谱构建方法、装置和设备
KR20220054753A (ko) 음성 검색 방법 및 장치, 전자 기기, 컴퓨터 판독 가능 한 저장 매체 및 컴퓨터 프로그램
CN114115831A (zh) 数据处理方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Knowledge extraction method and system based on unstructured documents

Effective date of registration: 20220830

Granted publication date: 20210917

Pledgee: Bank of China Limited by Share Ltd. Guangzhou Tianhe branch

Pledgor: Guangzhou Weihong Intelligent Technology Co.,Ltd.

Registration number: Y2022980014025

PE01 Entry into force of the registration of the contract for pledge of patent right
CP02 Change in the address of a patent holder

Address after: Room 207, Building 1, No. 315, Huangpu Avenue Middle, Tianhe District, Guangzhou, Guangdong 510000

Patentee after: Guangzhou Weihong Intelligent Technology Co.,Ltd.

Address before: 510660 room 401-404, 4th floor, building B, Anding building, No. 93, Qiming street, chepo, Tianhe District, Guangzhou, Guangdong

Patentee before: Guangzhou Weihong Intelligent Technology Co.,Ltd.

CP02 Change in the address of a patent holder