CN110210025A - 一种基于文本提取的转换方法 - Google Patents

一种基于文本提取的转换方法 Download PDF

Info

Publication number
CN110210025A
CN110210025A CN201910455322.8A CN201910455322A CN110210025A CN 110210025 A CN110210025 A CN 110210025A CN 201910455322 A CN201910455322 A CN 201910455322A CN 110210025 A CN110210025 A CN 110210025A
Authority
CN
China
Prior art keywords
knowledge
text
data
entity
text feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910455322.8A
Other languages
English (en)
Inventor
黄志春
张定国
周志勇
陈育翔
伍宇文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Weihong Intelligent Technology Co Ltd
Original Assignee
Guangzhou Weihong Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Weihong Intelligent Technology Co Ltd filed Critical Guangzhou Weihong Intelligent Technology Co Ltd
Priority to CN201910455322.8A priority Critical patent/CN110210025A/zh
Publication of CN110210025A publication Critical patent/CN110210025A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于文本提取的转换方法,包括系统构建、知识采集、知识导入、数据预处理、分类抽取和分类上传,本发明结构科学合理,使用安全方便,本发明通过数据传输功能,将原始数据语料和文本数据导入至文本提取转换系统内,并进行识别、文本段落识别、语句拆分和分词,输出带有特征的文本语料,文本特征和文本数据可识别出命名实体,并进行抽取,从文本特征和文本数据自动抽取信息来构造语义类并建立实体和语义类的关联,作为实体层面上的规整和抽象,随后对抽取出的知识单元实体构造属性列表,对语义类的实体附加属性值,通过已进行关联处理的知识点表示出知识图谱,以计算机可读取结构对图谱进行存储,待未来使用。

Description

一种基于文本提取的转换方法
技术领域
本发明涉及知识抽取技术领域,具体为一种基于文本提取的转换方法。
背景技术
目前,传统的客服平台都采用手工方式对知识进行一条条录入,需要客服人员对知识进行分库分类,随着客服电话量不断增多,客服人员数量严重不足,客服人员不堪重负,导致服务效率低下,不能及时回复用户问题,且客服人员对知识进行分库分类容易产生错误,准确性无法完全保证,容易影响知识录入的准确性;
本发明目的在于提供一种基于文本提取的转换方法,可以提高客服的服务效率,减少需要人工手动录入的工作量,且具有稳定性高和效率高等特点。
发明内容
本发明提供技术方案,可以有效解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于文本提取的转换方法,包括如下步骤:
S1、系统构建:在本地计算机内构建文本提取转换系统;
S2、知识采集:从互联网、U盘以及存储硬盘中对知识数据进行采集;
S3、知识导入:将采集到的知识数据传输至本地知识数据库内;
S4、数据预处理:将导入的知识数据进行预处理;
S5、分类抽取:将导入的知识进行分类抽取;
S6、分类上传:将分类抽取后的知识分类传输至本地知识数据库内进行存储。
根据上述技术特征,所述步骤1中,在知识数据传输至本地知识数据库前,在本地知识数据库所在计算机内构件文本提取转换系统。
根据上述技术特征,所述步骤2中,是将互联网、U盘以及存储硬盘内的知识数据,通过数据传输功能,传输至本地知识数据库内。
根据上述技术特征,所述步骤3中,传输至本地知识数据库内的原始数据语料和文本数据在临时存储后,会导入至文本提取转换系统内。
根据上述技术特征,所述步骤4中,将导入的知识数据进行预处理是指,从原始数据中找出已知可用的案例,进行识别、文本段落识别、语句拆分和分词,输出带有特征的文本语料。
根据上述技术特征,所述步骤5还包括以下步骤:
a:自然语言分析抽取:利用自然语言理解技术进行语义理解以及文本意图的识别,从而抽取得到文本特征;
b:实体抽取:从导入的文本特征和文本数据中自动识别出命名实体,并进行抽取,抽取出知识单元实体;
c:语义类抽取:从导入的原始数据语料和文本数据中自动抽取信息来构造语义类并建立实体和语义类的关联,作为实体层面上的规整和抽象;
d:属性抽取:对每个本体语义类构造属性列表;
e:属性值抽取:对语义类的实体附加属性值。
根据上述技术特征,所述步骤5中,实体抽取是指由资深、专业人士梳理出语言模型,通过模型的建立对知识概念进行抽取,作为知识特征存储在知识库。
根据上述技术特征,所述步骤5中,自然语言分析是基于文本语料采取自然语言理解NLU技术进行语意理解和文本意图识别,同时对文本语料上下文语境分析提取出文本特征,作为知识特征的补充存储进知识库。
根据上述技术特征,所述步骤6中,提取后分类传输至知识数据库内的知识单元实体、知识单元之间的关系和知识单元属性会通过已进行关联处理的知识点表示出知识图谱,以计算机可读取结构对图谱进行存储,待未来使用。
根据上述技术特征,所述步骤6中,提取后分类传输至知识数据库内的知识单元实体、知识单元之间的关系和知识单元属性会对应本地知识数据库内已存储的知识类目进行存储,本地知识数据库会实时更新至云端知识数据库。
与现有技术相比,本发明的有益效果:本发明结构科学合理,使用安全方便:
首先在本地计算机内构建文本提取转换系统,将互联网、U盘以及存储硬盘内的知识数据,通过数据传输功能,传输至本地计算机的本地知识数据库内,随后传输至本地知识数据库内的原始数据语料和文本数据在临时存储后,导入至文本提取转换系统内,并从原始数据中找出已知可用的案例,进行识别、文本段落识别、语句拆分和分词,输出带有特征的文本语料,文本特征和文本数据可识别出命名实体,并进行抽取,抽取出知识单元实体,并从文本特征和文本数据自动抽取信息来构造语义类并建立实体和语义类的关联,作为实体层面上的规整和抽象,并对抽取出的知识单元实体构造属性列表,对语义类的实体附加属性值,提取后分类传输至知识数据库内的知识单元实体、知识单元之间的关系和知识单元属性会通过已进行关联处理的知识点表示出知识图谱,以计算机可读取结构对图谱进行存储,待未来使用,随后分类传输至知识数据库内的知识单元实体、知识单元之间的关系和知识单元属性会对应本地知识数据库内已存储的知识类目进行存储,本地知识数据库会实时更新至云端知识数据库,对云端知识数据库进行实时更新。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
在附图中:
图1是本发明的流程结构示意图;
图2是本发明分类抽取的流程结构示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例:如图1-2所示,本发明提供技术方案,一种基于文本提取的转换方法,包括如下步骤:
S1、系统构建:在本地计算机内构建文本提取转换系统;
S2、知识采集:从互联网、U盘以及存储硬盘中对知识数据进行采集;
S3、知识导入:将采集到的知识数据传输至本地知识数据库内;
S4、数据预处理:将导入的知识数据进行预处理;
S5、分类抽取:将导入的知识进行分类抽取;
S6、分类上传:将分类抽取后的知识分类传输至本地知识数据库内进行存储。
步骤1中,在知识数据传输至本地知识数据库前,在本地知识数据库所在计算机内构件文本提取转换系统。
步骤2中,是将互联网、U盘以及存储硬盘内的知识数据,通过数据传输功能,传输至本地知识数据库内。
步骤3中,传输至本地知识数据库内的原始数据语料和文本数据在临时存储后,会导入至文本提取转换系统内。
步骤4中,将导入的知识数据进行预处理是指,从原始数据中找出已知可用的案例,进行识别、文本段落识别、语句拆分和分词,输出带有特征的文本语料。
步骤5还包括以下步骤:
a:自然语言分析抽取:利用自然语言理解技术进行语义理解以及文本意图的识别,从而抽取得到文本特征;
b:实体抽取:从导入的文本特征和文本数据中自动识别出命名实体,并进行抽取,抽取出知识单元实体;
c:语义类抽取:从导入的原始数据语料和文本数据中自动抽取信息来构造语义类并建立实体和语义类的关联,作为实体层面上的规整和抽象;
d:属性抽取:对每个本体语义类构造属性列表;
e:属性值抽取:对语义类的实体附加属性值。
步骤5中,实体抽取是指由资深、专业人士梳理出语言模型,通过模型的建立对知识概念进行抽取,作为知识特征存储在知识库。
步骤5中,自然语言分析是基于文本语料采取自然语言理解NLU技术进行语意理解和文本意图识别,同时对文本语料上下文语境分析提取出文本特征,作为知识特征的补充存储进知识库。
步骤6中,提取后分类传输至知识数据库内的知识单元实体、知识单元之间的关系和知识单元属性会通过已进行关联处理的知识点表示出知识图谱,以计算机可读取结构对图谱进行存储,待未来使用。
步骤6中,提取后分类传输至知识数据库内的知识单元实体、知识单元之间的关系和知识单元属性会对应本地知识数据库内已存储的知识类目进行存储,本地知识数据库会实时更新至云端知识数据库。
本发明的工作原理及使用流程:首先在本地计算机内构建文本提取转换系统,将互联网、U盘以及存储硬盘内的知识数据,通过数据传输功能,传输至本地计算机的本地知识数据库内,随后传输至本地知识数据库内的原始数据语料和文本数据在临时存储后,导入至文本提取转换系统内,并从原始数据中找出已知可用的案例,进行识别、文本段落识别、语句拆分和分词,输出带有特征的文本语料,文本特征和文本数据可识别出命名实体,并进行抽取,抽取出知识单元实体,并从文本特征和文本数据自动抽取信息来构造语义类并建立实体和语义类的关联,作为实体层面上的规整和抽象,并对抽取出的知识单元实体构造属性列表,对语义类的实体附加属性值,提取后分类传输至知识数据库内的知识单元实体、知识单元之间的关系和知识单元属性会通过已进行关联处理的知识点表示出知识图谱,以计算机可读取结构对图谱进行存储,待未来使用,随后分类传输至知识数据库内的知识单元实体、知识单元之间的关系和知识单元属性会对应本地知识数据库内已存储的知识类目进行存储,本地知识数据库会实时更新至云端知识数据库,对云端知识数据库进行实时更新。
最后应说明的是:以上所述仅为本发明的优选实例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于文本提取的转换方法,其特征在于,包括如下步骤:
S1、系统构建:在本地计算机内构建文本提取转换系统;
S2、知识采集:从互联网、U盘以及存储硬盘中对知识数据进行采集;
S3、知识导入:将采集到的知识数据传输至本地知识数据库内;
S4、数据预处理:将导入的知识数据进行预处理;
S5、分类抽取:将导入的知识进行分类抽取;
S6、分类上传:将分类抽取后的知识分类传输至本地知识数据库内进行存储。
2.根据权利要求1所述的一种基于文本提取的转换方法,其特征在于,所述步骤1中,在知识数据传输至本地知识数据库前,在本地知识数据库所在计算机内构件文本提取转换系统。
3.根据权利要求1所述的一种基于文本提取的转换方法,其特征在于,所述步骤2中,是将互联网、U盘以及存储硬盘内的知识数据,通过数据传输功能,传输至本地知识数据库内。
4.根据权利要求1所述的一种基于文本提取的转换方法,其特征在于,所述步骤3中,传输至本地知识数据库内的原始数据语料和文本数据在临时存储后,会导入至文本提取转换系统内。
5.根据权利要求1所述的一种基于文本提取的转换方法,其特征在于,所述步骤4中,将导入的知识数据进行预处理是指,从原始数据中找出已知可用的案例,进行识别、文本段落识别、语句拆分和分词,输出带有特征的文本语料。
6.根据权利要求1所述的一种基于文本提取的转换方法,其特征在于,所述步骤5还包括以下步骤:
a:自然语言分析抽取:利用自然语言理解技术进行语义理解以及文本意图的识别,从而抽取得到文本特征;
b:实体抽取:从导入的文本特征和文本数据中自动识别出命名实体,并进行抽取,抽取出知识单元实体;
c:语义类抽取:从导入的原始数据语料和文本数据中自动抽取信息来构造语义类并建立实体和语义类的关联,作为实体层面上的规整和抽象;
d:属性抽取:对每个本体语义类构造属性列表;
e:属性值抽取:对语义类的实体附加属性值。
7.根据权利要求1所述的一种基于文本提取的转换方法,其特征在于,所述步骤5中,实体抽取是指由资深、专业人士梳理出语言模型,通过模型的建立对知识概念进行抽取,作为知识特征存储在知识库。
8.根据权利要求1所述的一种基于文本提取的转换方法,其特征在于,所述步骤5中,自然语言分析是基于文本语料采取自然语言理解NLU技术进行语意理解和文本意图识别,同时对文本语料上下文语境分析提取出文本特征,作为知识特征的补充存储进知识库。
9.根据权利要求1所述的一种基于文本提取的转换方法,其特征在于,所述步骤6中,提取后分类传输至知识数据库内的知识单元实体、知识单元之间的关系和知识单元属性会通过已进行关联处理的知识点表示出知识图谱,以计算机可读取结构对图谱进行存储,待未来使用。
10.根据权利要求1所述的一种基于文本提取的转换方法,其特征在于,所述步骤6中,提取后分类传输至知识数据库内的知识单元实体、知识单元之间的关系和知识单元属性会对应本地知识数据库内已存储的知识类目进行存储,本地知识数据库会实时更新至云端知识数据库。
CN201910455322.8A 2019-05-29 2019-05-29 一种基于文本提取的转换方法 Pending CN110210025A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910455322.8A CN110210025A (zh) 2019-05-29 2019-05-29 一种基于文本提取的转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910455322.8A CN110210025A (zh) 2019-05-29 2019-05-29 一种基于文本提取的转换方法

Publications (1)

Publication Number Publication Date
CN110210025A true CN110210025A (zh) 2019-09-06

Family

ID=67789262

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910455322.8A Pending CN110210025A (zh) 2019-05-29 2019-05-29 一种基于文本提取的转换方法

Country Status (1)

Country Link
CN (1) CN110210025A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674316A (zh) * 2019-09-27 2020-01-10 腾讯科技(深圳)有限公司 一种数据转换的方法及相关装置
CN111898370A (zh) * 2020-07-10 2020-11-06 中国标准化研究院 设计理性知识的获取方法、装置及计算机存储介质
CN112487179A (zh) * 2019-09-11 2021-03-12 珠海格力电器股份有限公司 一种口语语义理解方法、装置及系统
CN112487179B (zh) * 2019-09-11 2024-05-31 珠海格力电器股份有限公司 一种口语语义理解方法、装置及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956052A (zh) * 2016-04-27 2016-09-21 青岛海尔软件有限公司 一种基于垂直领域的知识图谱的构建方法
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
CN108875051A (zh) * 2018-06-28 2018-11-23 中译语通科技股份有限公司 面向海量非结构化文本的知识图谱自动构建方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956052A (zh) * 2016-04-27 2016-09-21 青岛海尔软件有限公司 一种基于垂直领域的知识图谱的构建方法
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
CN108875051A (zh) * 2018-06-28 2018-11-23 中译语通科技股份有限公司 面向海量非结构化文本的知识图谱自动构建方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487179A (zh) * 2019-09-11 2021-03-12 珠海格力电器股份有限公司 一种口语语义理解方法、装置及系统
CN112487179B (zh) * 2019-09-11 2024-05-31 珠海格力电器股份有限公司 一种口语语义理解方法、装置及系统
CN110674316A (zh) * 2019-09-27 2020-01-10 腾讯科技(深圳)有限公司 一种数据转换的方法及相关装置
CN111898370A (zh) * 2020-07-10 2020-11-06 中国标准化研究院 设计理性知识的获取方法、装置及计算机存储介质
CN111898370B (zh) * 2020-07-10 2022-08-16 中国标准化研究院 设计理性知识的获取方法、装置及计算机存储介质

Similar Documents

Publication Publication Date Title
CN107679039B (zh) 用于确定语句意图的方法和装置
CN111026842B (zh) 自然语言处理方法、自然语言处理装置及智能问答系统
CN107766371B (zh) 一种文本信息分类方法及其装置
CN111291570B (zh) 一种实现司法文书中要素识别的方法及装置
CN106886580B (zh) 一种基于深度学习的图片情感极性分析方法
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN108628830B (zh) 一种语义识别的方法和装置
CN111078887B (zh) 文本分类方法和装置
CN107506389B (zh) 一种提取职位技能需求的方法和装置
JP2023529939A (ja) マルチモーダルpoi特徴の抽出方法及び装置
CN109658271A (zh) 一种基于保险专业场景的智能客服系统及方法
CN111709240A (zh) 实体关系抽取方法、装置、设备及其存储介质
WO2020103899A1 (zh) 用于生成图文信息的方法和用于生成图像数据库的方法
CN107436916B (zh) 智能提示答案的方法及装置
CN110111902B (zh) 急性传染病的发病周期预测方法、装置及存储介质
CN110795932B (zh) 基于地质本体的地质报告文本信息提取方法
CN111274814A (zh) 一种新型的半监督文本实体信息抽取方法
CN111177332A (zh) 自动提取裁判文书涉案标的和裁判结果的方法及装置
CN113919366A (zh) 一种面向电力变压器知识问答的语义匹配方法和装置
CN110210025A (zh) 一种基于文本提取的转换方法
CN111144102A (zh) 用于识别语句中实体的方法、装置和电子设备
CN107766498B (zh) 用于生成信息的方法和装置
CN111143394B (zh) 知识数据处理方法、装置、介质及电子设备
CN111143571A (zh) 实体标注模型的训练方法、实体标注方法以及装置
CN114548072A (zh) 用于合同类文件的自动内容解析与信息评测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190906