CN110210025A - 一种基于文本提取的转换方法 - Google Patents
一种基于文本提取的转换方法 Download PDFInfo
- Publication number
- CN110210025A CN110210025A CN201910455322.8A CN201910455322A CN110210025A CN 110210025 A CN110210025 A CN 110210025A CN 201910455322 A CN201910455322 A CN 201910455322A CN 110210025 A CN110210025 A CN 110210025A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- text
- data
- entity
- text feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 48
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000013501 data transformation Methods 0.000 claims abstract description 6
- 239000012634 fragment Substances 0.000 claims abstract description 6
- 230000008676 import Effects 0.000 claims abstract description 4
- 238000013507 mapping Methods 0.000 claims abstract description 4
- 239000000284 extract Substances 0.000 claims description 19
- 210000001520 comb Anatomy 0.000 claims description 3
- 239000013589 supplement Substances 0.000 claims description 3
- 238000005194 fractionation Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于文本提取的转换方法,包括系统构建、知识采集、知识导入、数据预处理、分类抽取和分类上传,本发明结构科学合理,使用安全方便,本发明通过数据传输功能,将原始数据语料和文本数据导入至文本提取转换系统内,并进行识别、文本段落识别、语句拆分和分词,输出带有特征的文本语料,文本特征和文本数据可识别出命名实体,并进行抽取,从文本特征和文本数据自动抽取信息来构造语义类并建立实体和语义类的关联,作为实体层面上的规整和抽象,随后对抽取出的知识单元实体构造属性列表,对语义类的实体附加属性值,通过已进行关联处理的知识点表示出知识图谱,以计算机可读取结构对图谱进行存储,待未来使用。
Description
技术领域
本发明涉及知识抽取技术领域,具体为一种基于文本提取的转换方法。
背景技术
目前,传统的客服平台都采用手工方式对知识进行一条条录入,需要客服人员对知识进行分库分类,随着客服电话量不断增多,客服人员数量严重不足,客服人员不堪重负,导致服务效率低下,不能及时回复用户问题,且客服人员对知识进行分库分类容易产生错误,准确性无法完全保证,容易影响知识录入的准确性;
本发明目的在于提供一种基于文本提取的转换方法,可以提高客服的服务效率,减少需要人工手动录入的工作量,且具有稳定性高和效率高等特点。
发明内容
本发明提供技术方案,可以有效解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于文本提取的转换方法,包括如下步骤:
S1、系统构建:在本地计算机内构建文本提取转换系统;
S2、知识采集:从互联网、U盘以及存储硬盘中对知识数据进行采集;
S3、知识导入:将采集到的知识数据传输至本地知识数据库内;
S4、数据预处理:将导入的知识数据进行预处理;
S5、分类抽取:将导入的知识进行分类抽取;
S6、分类上传:将分类抽取后的知识分类传输至本地知识数据库内进行存储。
根据上述技术特征,所述步骤1中,在知识数据传输至本地知识数据库前,在本地知识数据库所在计算机内构件文本提取转换系统。
根据上述技术特征,所述步骤2中,是将互联网、U盘以及存储硬盘内的知识数据,通过数据传输功能,传输至本地知识数据库内。
根据上述技术特征,所述步骤3中,传输至本地知识数据库内的原始数据语料和文本数据在临时存储后,会导入至文本提取转换系统内。
根据上述技术特征,所述步骤4中,将导入的知识数据进行预处理是指,从原始数据中找出已知可用的案例,进行识别、文本段落识别、语句拆分和分词,输出带有特征的文本语料。
根据上述技术特征,所述步骤5还包括以下步骤:
a:自然语言分析抽取:利用自然语言理解技术进行语义理解以及文本意图的识别,从而抽取得到文本特征;
b:实体抽取:从导入的文本特征和文本数据中自动识别出命名实体,并进行抽取,抽取出知识单元实体;
c:语义类抽取:从导入的原始数据语料和文本数据中自动抽取信息来构造语义类并建立实体和语义类的关联,作为实体层面上的规整和抽象;
d:属性抽取:对每个本体语义类构造属性列表;
e:属性值抽取:对语义类的实体附加属性值。
根据上述技术特征,所述步骤5中,实体抽取是指由资深、专业人士梳理出语言模型,通过模型的建立对知识概念进行抽取,作为知识特征存储在知识库。
根据上述技术特征,所述步骤5中,自然语言分析是基于文本语料采取自然语言理解NLU技术进行语意理解和文本意图识别,同时对文本语料上下文语境分析提取出文本特征,作为知识特征的补充存储进知识库。
根据上述技术特征,所述步骤6中,提取后分类传输至知识数据库内的知识单元实体、知识单元之间的关系和知识单元属性会通过已进行关联处理的知识点表示出知识图谱,以计算机可读取结构对图谱进行存储,待未来使用。
根据上述技术特征,所述步骤6中,提取后分类传输至知识数据库内的知识单元实体、知识单元之间的关系和知识单元属性会对应本地知识数据库内已存储的知识类目进行存储,本地知识数据库会实时更新至云端知识数据库。
与现有技术相比,本发明的有益效果:本发明结构科学合理,使用安全方便:
首先在本地计算机内构建文本提取转换系统,将互联网、U盘以及存储硬盘内的知识数据,通过数据传输功能,传输至本地计算机的本地知识数据库内,随后传输至本地知识数据库内的原始数据语料和文本数据在临时存储后,导入至文本提取转换系统内,并从原始数据中找出已知可用的案例,进行识别、文本段落识别、语句拆分和分词,输出带有特征的文本语料,文本特征和文本数据可识别出命名实体,并进行抽取,抽取出知识单元实体,并从文本特征和文本数据自动抽取信息来构造语义类并建立实体和语义类的关联,作为实体层面上的规整和抽象,并对抽取出的知识单元实体构造属性列表,对语义类的实体附加属性值,提取后分类传输至知识数据库内的知识单元实体、知识单元之间的关系和知识单元属性会通过已进行关联处理的知识点表示出知识图谱,以计算机可读取结构对图谱进行存储,待未来使用,随后分类传输至知识数据库内的知识单元实体、知识单元之间的关系和知识单元属性会对应本地知识数据库内已存储的知识类目进行存储,本地知识数据库会实时更新至云端知识数据库,对云端知识数据库进行实时更新。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
在附图中:
图1是本发明的流程结构示意图;
图2是本发明分类抽取的流程结构示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例:如图1-2所示,本发明提供技术方案,一种基于文本提取的转换方法,包括如下步骤:
S1、系统构建:在本地计算机内构建文本提取转换系统;
S2、知识采集:从互联网、U盘以及存储硬盘中对知识数据进行采集;
S3、知识导入:将采集到的知识数据传输至本地知识数据库内;
S4、数据预处理:将导入的知识数据进行预处理;
S5、分类抽取:将导入的知识进行分类抽取;
S6、分类上传:将分类抽取后的知识分类传输至本地知识数据库内进行存储。
步骤1中,在知识数据传输至本地知识数据库前,在本地知识数据库所在计算机内构件文本提取转换系统。
步骤2中,是将互联网、U盘以及存储硬盘内的知识数据,通过数据传输功能,传输至本地知识数据库内。
步骤3中,传输至本地知识数据库内的原始数据语料和文本数据在临时存储后,会导入至文本提取转换系统内。
步骤4中,将导入的知识数据进行预处理是指,从原始数据中找出已知可用的案例,进行识别、文本段落识别、语句拆分和分词,输出带有特征的文本语料。
步骤5还包括以下步骤:
a:自然语言分析抽取:利用自然语言理解技术进行语义理解以及文本意图的识别,从而抽取得到文本特征;
b:实体抽取:从导入的文本特征和文本数据中自动识别出命名实体,并进行抽取,抽取出知识单元实体;
c:语义类抽取:从导入的原始数据语料和文本数据中自动抽取信息来构造语义类并建立实体和语义类的关联,作为实体层面上的规整和抽象;
d:属性抽取:对每个本体语义类构造属性列表;
e:属性值抽取:对语义类的实体附加属性值。
步骤5中,实体抽取是指由资深、专业人士梳理出语言模型,通过模型的建立对知识概念进行抽取,作为知识特征存储在知识库。
步骤5中,自然语言分析是基于文本语料采取自然语言理解NLU技术进行语意理解和文本意图识别,同时对文本语料上下文语境分析提取出文本特征,作为知识特征的补充存储进知识库。
步骤6中,提取后分类传输至知识数据库内的知识单元实体、知识单元之间的关系和知识单元属性会通过已进行关联处理的知识点表示出知识图谱,以计算机可读取结构对图谱进行存储,待未来使用。
步骤6中,提取后分类传输至知识数据库内的知识单元实体、知识单元之间的关系和知识单元属性会对应本地知识数据库内已存储的知识类目进行存储,本地知识数据库会实时更新至云端知识数据库。
本发明的工作原理及使用流程:首先在本地计算机内构建文本提取转换系统,将互联网、U盘以及存储硬盘内的知识数据,通过数据传输功能,传输至本地计算机的本地知识数据库内,随后传输至本地知识数据库内的原始数据语料和文本数据在临时存储后,导入至文本提取转换系统内,并从原始数据中找出已知可用的案例,进行识别、文本段落识别、语句拆分和分词,输出带有特征的文本语料,文本特征和文本数据可识别出命名实体,并进行抽取,抽取出知识单元实体,并从文本特征和文本数据自动抽取信息来构造语义类并建立实体和语义类的关联,作为实体层面上的规整和抽象,并对抽取出的知识单元实体构造属性列表,对语义类的实体附加属性值,提取后分类传输至知识数据库内的知识单元实体、知识单元之间的关系和知识单元属性会通过已进行关联处理的知识点表示出知识图谱,以计算机可读取结构对图谱进行存储,待未来使用,随后分类传输至知识数据库内的知识单元实体、知识单元之间的关系和知识单元属性会对应本地知识数据库内已存储的知识类目进行存储,本地知识数据库会实时更新至云端知识数据库,对云端知识数据库进行实时更新。
最后应说明的是:以上所述仅为本发明的优选实例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于文本提取的转换方法,其特征在于,包括如下步骤:
S1、系统构建:在本地计算机内构建文本提取转换系统;
S2、知识采集:从互联网、U盘以及存储硬盘中对知识数据进行采集;
S3、知识导入:将采集到的知识数据传输至本地知识数据库内;
S4、数据预处理:将导入的知识数据进行预处理;
S5、分类抽取:将导入的知识进行分类抽取;
S6、分类上传:将分类抽取后的知识分类传输至本地知识数据库内进行存储。
2.根据权利要求1所述的一种基于文本提取的转换方法,其特征在于,所述步骤1中,在知识数据传输至本地知识数据库前,在本地知识数据库所在计算机内构件文本提取转换系统。
3.根据权利要求1所述的一种基于文本提取的转换方法,其特征在于,所述步骤2中,是将互联网、U盘以及存储硬盘内的知识数据,通过数据传输功能,传输至本地知识数据库内。
4.根据权利要求1所述的一种基于文本提取的转换方法,其特征在于,所述步骤3中,传输至本地知识数据库内的原始数据语料和文本数据在临时存储后,会导入至文本提取转换系统内。
5.根据权利要求1所述的一种基于文本提取的转换方法,其特征在于,所述步骤4中,将导入的知识数据进行预处理是指,从原始数据中找出已知可用的案例,进行识别、文本段落识别、语句拆分和分词,输出带有特征的文本语料。
6.根据权利要求1所述的一种基于文本提取的转换方法,其特征在于,所述步骤5还包括以下步骤:
a:自然语言分析抽取:利用自然语言理解技术进行语义理解以及文本意图的识别,从而抽取得到文本特征;
b:实体抽取:从导入的文本特征和文本数据中自动识别出命名实体,并进行抽取,抽取出知识单元实体;
c:语义类抽取:从导入的原始数据语料和文本数据中自动抽取信息来构造语义类并建立实体和语义类的关联,作为实体层面上的规整和抽象;
d:属性抽取:对每个本体语义类构造属性列表;
e:属性值抽取:对语义类的实体附加属性值。
7.根据权利要求1所述的一种基于文本提取的转换方法,其特征在于,所述步骤5中,实体抽取是指由资深、专业人士梳理出语言模型,通过模型的建立对知识概念进行抽取,作为知识特征存储在知识库。
8.根据权利要求1所述的一种基于文本提取的转换方法,其特征在于,所述步骤5中,自然语言分析是基于文本语料采取自然语言理解NLU技术进行语意理解和文本意图识别,同时对文本语料上下文语境分析提取出文本特征,作为知识特征的补充存储进知识库。
9.根据权利要求1所述的一种基于文本提取的转换方法,其特征在于,所述步骤6中,提取后分类传输至知识数据库内的知识单元实体、知识单元之间的关系和知识单元属性会通过已进行关联处理的知识点表示出知识图谱,以计算机可读取结构对图谱进行存储,待未来使用。
10.根据权利要求1所述的一种基于文本提取的转换方法,其特征在于,所述步骤6中,提取后分类传输至知识数据库内的知识单元实体、知识单元之间的关系和知识单元属性会对应本地知识数据库内已存储的知识类目进行存储,本地知识数据库会实时更新至云端知识数据库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910455322.8A CN110210025A (zh) | 2019-05-29 | 2019-05-29 | 一种基于文本提取的转换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910455322.8A CN110210025A (zh) | 2019-05-29 | 2019-05-29 | 一种基于文本提取的转换方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110210025A true CN110210025A (zh) | 2019-09-06 |
Family
ID=67789262
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910455322.8A Pending CN110210025A (zh) | 2019-05-29 | 2019-05-29 | 一种基于文本提取的转换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110210025A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674316A (zh) * | 2019-09-27 | 2020-01-10 | 腾讯科技(深圳)有限公司 | 一种数据转换的方法及相关装置 |
CN111898370A (zh) * | 2020-07-10 | 2020-11-06 | 中国标准化研究院 | 设计理性知识的获取方法、装置及计算机存储介质 |
CN112487179A (zh) * | 2019-09-11 | 2021-03-12 | 珠海格力电器股份有限公司 | 一种口语语义理解方法、装置及系统 |
CN112487179B (zh) * | 2019-09-11 | 2024-05-31 | 珠海格力电器股份有限公司 | 一种口语语义理解方法、装置及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956052A (zh) * | 2016-04-27 | 2016-09-21 | 青岛海尔软件有限公司 | 一种基于垂直领域的知识图谱的构建方法 |
CN106815293A (zh) * | 2016-12-08 | 2017-06-09 | 中国电子科技集团公司第三十二研究所 | 一种面向情报分析的构建知识图谱的系统及方法 |
CN108875051A (zh) * | 2018-06-28 | 2018-11-23 | 中译语通科技股份有限公司 | 面向海量非结构化文本的知识图谱自动构建方法及系统 |
-
2019
- 2019-05-29 CN CN201910455322.8A patent/CN110210025A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956052A (zh) * | 2016-04-27 | 2016-09-21 | 青岛海尔软件有限公司 | 一种基于垂直领域的知识图谱的构建方法 |
CN106815293A (zh) * | 2016-12-08 | 2017-06-09 | 中国电子科技集团公司第三十二研究所 | 一种面向情报分析的构建知识图谱的系统及方法 |
CN108875051A (zh) * | 2018-06-28 | 2018-11-23 | 中译语通科技股份有限公司 | 面向海量非结构化文本的知识图谱自动构建方法及系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112487179A (zh) * | 2019-09-11 | 2021-03-12 | 珠海格力电器股份有限公司 | 一种口语语义理解方法、装置及系统 |
CN112487179B (zh) * | 2019-09-11 | 2024-05-31 | 珠海格力电器股份有限公司 | 一种口语语义理解方法、装置及系统 |
CN110674316A (zh) * | 2019-09-27 | 2020-01-10 | 腾讯科技(深圳)有限公司 | 一种数据转换的方法及相关装置 |
CN111898370A (zh) * | 2020-07-10 | 2020-11-06 | 中国标准化研究院 | 设计理性知识的获取方法、装置及计算机存储介质 |
CN111898370B (zh) * | 2020-07-10 | 2022-08-16 | 中国标准化研究院 | 设计理性知识的获取方法、装置及计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107679039B (zh) | 用于确定语句意图的方法和装置 | |
CN111026842B (zh) | 自然语言处理方法、自然语言处理装置及智能问答系统 | |
CN107766371B (zh) | 一种文本信息分类方法及其装置 | |
CN111291570B (zh) | 一种实现司法文书中要素识别的方法及装置 | |
CN106886580B (zh) | 一种基于深度学习的图片情感极性分析方法 | |
CN109753660B (zh) | 一种基于lstm的中标网页命名实体抽取方法 | |
CN108628830B (zh) | 一种语义识别的方法和装置 | |
CN111078887B (zh) | 文本分类方法和装置 | |
CN107506389B (zh) | 一种提取职位技能需求的方法和装置 | |
JP2023529939A (ja) | マルチモーダルpoi特徴の抽出方法及び装置 | |
CN109658271A (zh) | 一种基于保险专业场景的智能客服系统及方法 | |
CN111709240A (zh) | 实体关系抽取方法、装置、设备及其存储介质 | |
WO2020103899A1 (zh) | 用于生成图文信息的方法和用于生成图像数据库的方法 | |
CN107436916B (zh) | 智能提示答案的方法及装置 | |
CN110111902B (zh) | 急性传染病的发病周期预测方法、装置及存储介质 | |
CN110795932B (zh) | 基于地质本体的地质报告文本信息提取方法 | |
CN111274814A (zh) | 一种新型的半监督文本实体信息抽取方法 | |
CN111177332A (zh) | 自动提取裁判文书涉案标的和裁判结果的方法及装置 | |
CN113919366A (zh) | 一种面向电力变压器知识问答的语义匹配方法和装置 | |
CN110210025A (zh) | 一种基于文本提取的转换方法 | |
CN111144102A (zh) | 用于识别语句中实体的方法、装置和电子设备 | |
CN107766498B (zh) | 用于生成信息的方法和装置 | |
CN111143394B (zh) | 知识数据处理方法、装置、介质及电子设备 | |
CN111143571A (zh) | 实体标注模型的训练方法、实体标注方法以及装置 | |
CN114548072A (zh) | 用于合同类文件的自动内容解析与信息评测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190906 |