CN112380358A - 一种行业知识库的快速构建方法 - Google Patents
一种行业知识库的快速构建方法 Download PDFInfo
- Publication number
- CN112380358A CN112380358A CN202011610385.5A CN202011610385A CN112380358A CN 112380358 A CN112380358 A CN 112380358A CN 202011610385 A CN202011610385 A CN 202011610385A CN 112380358 A CN112380358 A CN 112380358A
- Authority
- CN
- China
- Prior art keywords
- industry
- word
- base
- words
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种行业知识库的快速构建方法,本方法利用词库联想实现知识迭代,从而快速构建行业知识库,构建过程为:首先构建基础词库,然后将基础词库添加至行业知识库,进行行业知识采编并知识库一键训练,最后所建立的行业知识库根据用户意图中的关键信息联想到多个相似的关键信息,从而准确匹配到用户的意图。
Description
技术领域
本发明涉及人工智能领域,属于行业知识采编的重要组成部分,具体是一种行业知识库的快速构建方法。
背景技术
社会经济迅猛发展,对人工智能和机器人的探索已经属于前沿研究领域。在日常生活中的各个角落,越来越能找到机器人的身影。尤其对于行业机器人来说,由于服务对象的特殊性,机器人知识库的准确性要求更高,因此需要学习更多专业知识来充实知识库。通过不断积累的行业数据进行特征提取与权重学习,同时可以抽象较为重要的话题,并由此进行对话数据的整理与学习,形成一个结构化的行业数据库。当对话系统收到问题时,首先会对问题进行分类,并且通过对话管理判断是否与上下文有联系,自动匹配对应的对话模板进行问答反馈。
这样看来,知识库的构建则显得尤为重要。而在构建知识库的过程中,会发现DeepQA以及特定场景的知识居多,甚至大量存在。而手动整理,耗时费力且体验效果不佳,并对后期维护过程造成各种困难。
在长期的探索中,尝试过很多的方法简化知识库构建过程,例如,利用知识平台进行动态数据采编,较好地解决了多样数据自动化管理的问题,平台支持关键词录入,使用者可挑选自己意图中的关键信息作为关键词进行管理,配置和维护更灵活,泛化能力更强。尽管如此,仍需要单个意图录入多个关键词,或相似度较高的多个意图录入重复关键词,重复工作多,工作量大,效率低下。
发明内容
针对现有技术的缺陷,本发明提供一种行业知识库的快速构建方法,根据用户意图中的关键信息联想到多个相似的关键信息,从而准确匹配到用户的意图。
为了解决所述技术问题,本发明采用的技术方案是:一种行业知识库的快速构建方法,包括以下步骤;
S01)、构建基础词库,首先抽取行业关键词作为基础词库的标准词,然后获取行业关键词的相似词列表,基于获取到的行业关键词和关键词的相似词列表,经过人工筛选,将一对多的词库构建成基础词库;
S02)、添加行业知识库,添加行业词库包括两方面,一是引用基础词库,将基础词库的内容全部复制到行业知识库,二是添加本客户独有的行业词库,与此同时将这些词库更新到基础词库;
S03)、行业知识采编,对客户意图进行采编录入时,提取意图中的关键信息,由原来的逐一录入关键词,改为关键词和行业词或行业词与行业词的组合,实现一个意图关键信息联想到过个关键信息;
S04)、知识库一键训练,读取行业知识库,对知识源进行加载并对数据进行解析、重构和二次及结构化,通过机器学习算法,训练生成特征库、索引库、规则库和语义库。
进一步的,构建基础词库的具体过程为:
S11)、从行业用户提供的知识数据中,使用tf-idf技术进行关键词权重排序,进行行业关键词抽取,行业数据越多,抽取到的关键词越准确;
S12)、利用抽取到的行业关键词,从网络平台上爬取相关行业知识数据,然后使用开源腾讯词向量训练词向量矩阵,根据词向量矩阵,使用高维向量索引技术来构建向量索引,遍历行业关键词,以抽取最相似的词,从而获得相似词列表;
S13)、获取到行业关键词和关键词的相似词列表后,经过人工筛选,将一对多的词库构建成基础词库,一是指行业关键词,多是指相似词。
进一步的,在现有知识平台上,建立固定账号存放基础词库,基础词库通过批量导入或者单独添加的方式导入并保存在固定账号里。
进一步的,行业知识采编时,若口语化的意图中包含关键词,则联想到关键词的多个相似词来作为口语化意图的关键信息。
本发明的有益效果:本方法利用词库联想实现知识迭代,从而快速构建行业知识库。所建立的行业知识库根据用户意图中的关键信息联想到多个相似的关键信息,从而准确匹配到用户的意图。
附图说明
图1为基础词库批量导入的示意图;
图2为基础词库单独添加的示意图;
图3为同步基础词库之前的示意图;
图4为同步基础词库之后的示意图;
图5为行业词库应用示意图1;
图6为行业词库应用示意图2;
图7为缴税的词库示意图;
图8为资料的词库示意图;
图9为测试过程及测试成功示意图。
具体实施方式
为了更加直观的介绍本发明的方法,接下来结合附图对本发明中提到的方法做进一步的说明。
实施例1
本实施例公开一种行业知识库的快速构建方法,包括以下步骤:
S01)、构建基础词库,首先抽取行业关键词作为基础词库的标准词,然后获取行业关键词的相似词列表,基于获取到的行业关键词和关键词的相似词列表,经过人工筛选,将一对多的词库构建成基础词库。
具体的,构建基础词库的具体过程为:
S11)、从行业用户提供的知识数据中,使用tf-idf技术进行关键词权重排序,进行行业关键词抽取。例如“减免优惠”中,“减免”可以作为行业关键词被抽取出来。行业数据越多,抽取到的关键词越准确。
S12)、利用抽取到的行业关键词,从网络平台上爬取相关行业知识数据,然后使用开源腾讯词向量训练词向量矩阵,根据词向量矩阵,使用高维向量索引技术来构建向量索引,遍历行业关键词,以抽取最相似的词,从而获得相似词列。例如“减免”的相似词有“免收”、“抵免”“税务优惠”等。
S13)、获取到行业关键词和关键词的相似词列表后,经过人工筛选,将一对多的词库构建成基础词库,一是指行业关键词,多是指相似词。
为了方便和易用,在现有的知识平台上,建立固定账号存放高频词库。首先需要下载批量导入的excel模板,如图1所示,然后将按照模板整理后的数据进行批量导入。如果在行业词数量不多的情况下,可以单独对其进行添加,如图2示。其中,标准词:较规范、较书面的行业词;相似词:偏口语化的行业词,需要注意,相似词支持以“,”连接的词的组合,例如,标准词:资料;相似词:材料|证明|文件|资质|东西|证件|带,啥|带,什么。只要客户意图中包含无论标准词或者相似词中的任何一个,都可匹配到该意图。
S02)、添加行业知识库,添加行业词库包括两方面,一是引用基础词库,将基础词库的内容全部复制到行业知识库,二是添加本客户独有的行业词库,与此同时将这些词库更新到基础词库,待再次需要同步基础库时,新添加的这些词也会被同步到目标库中。
平台支持一键同步,如图3、图4所示,是同步基础词库前后的对比图。
S03)、准备工作完成之后,即可将行业词库进行应用,即行业知识采编,对客户意图进行采编录入时,提取意图中的关键信息,由原来的逐一录入关键词,改为关键词和行业词或行业词与行业词的组合,实现一个意图关键信息联想到过个关键信息,极大的缩短人工录入的时间。
日常生活中,往往都是口语化的意图,出现上文提到的标准意图的情况较少,但是,只要口语化意图中包含关键词,即可联想到此关键词的多个相似词来作为口语化意图的关键信息,从而达到提高意图匹配度的效果。减少了大量重复性的工作,可以大大提高工作效率。
例如客户标准意图一:“去税务厅缴税需要携带什么资料”,可以为:“@缴税,@资料”,如图5所示。
客户标准意图二:“个人所得税起征点”,针对该意图,提取到的关键信息与行业词库结合后形成关键词,可以为:“@个人所得税,起征”, 如图6所示(不区分顺序,也可以为“起征点,@个人所得税”)。
S04)、知识库一键训练,读取行业知识库,对知识源进行加载并对数据进行解析、重构和二次及结构化,通过机器学习算法,训练生成特征库、索引库、规则库和语义库,供语义解析时使用,为语义理解提供数据支撑。同时为后续的对话管理、对话生成和服务状态管理奠定基础。
构建好的行业知识库一方面可以应用于机器人对话,另一方面可以在网页上进行对话测试,简单直观。本文只展示后者,效果与前者相同。
如图7与图8所示,分别是“缴税”和“资料”的词库。
意图样本:
一、标准样本:去税务厅缴税需要携带什么资料
口语化问法:①我想交税,需要带什么证明②我要缴税,需要带啥③我要交房产税,需要带啥去
二、标准样本:个人所得税起征点。
口语化问法:①个税多少起征②个人所得税从多少开始起征
问答效果如图9所示。
本实施例所述方法利用词库联想实现知识迭代,从而快速构建行业知识库。所建立的行业知识库根据用户意图中的关键信息联想到多个相似的关键信息,从而准确匹配到用户的意图。
以上描述的仅是本发明的基本原理和优选实施例,本领域技术人员根据本发明做出的改进和替换,属于本发明的保护范围。
Claims (4)
1.一种行业知识库的快速构建方法,其特征在于:包括以下步骤;
S01)、构建基础词库,首先抽取行业关键词作为基础词库的标准词,然后获取行业关键词的相似词列表,基于获取到的行业关键词和关键词的相似词列表,经过人工筛选,将一对多的词库构建成基础词库;
S02)、添加行业知识库,添加行业词库包括两方面,一是引用基础词库,将基础词库的内容全部复制到行业知识库,二是添加本客户独有的行业词库,与此同时将这些词库更新到基础词库;
S03)、行业知识采编,对客户意图进行采编录入时,提取意图中的关键信息,由原来的逐一录入关键词,改为关键词和行业词或行业词与行业词的组合,实现一个意图关键信息联想到过个关键信息;
S04)、知识库一键训练,读取行业知识库,对知识源进行加载并对数据进行解析、重构和二次结构化,通过机器学习算法,训练生成特征库、索引库、规则库和语义库。
2.根据权利要求1所述的行业知识库的快速构建方法,其特征在于:构建基础词库的具体过程为:
S11)、从行业用户提供的知识数据中,使用tf-idf技术进行关键词权重排序,进行行业关键词抽取,行业数据越多,抽取到的关键词越准确;
S12)、利用抽取到的行业关键词,从网络平台上爬取相关行业知识数据,然后使用开源腾讯词向量训练词向量矩阵,根据词向量矩阵,使用高维向量索引技术来构建向量索引,遍历行业关键词,以抽取最相似的词,从而获得相似词列表;
S13)、获取到行业关键词和关键词的相似词列表后,经过人工筛选,将一对多的词库构建成基础词库,一是指行业关键词,多是指相似词。
3.根据权利要求1所述的行业知识库的快速构建方法,其特征在于:在现有知识平台上,建立固定账号存放基础词库,基础词库通过批量导入或者单独添加的方式导入并保存在固定账号里。
4.根据权利要求1所述的行业知识库的快速构建方法,其特征在于:行业知识采编时,若口语化的意图中包含关键词,则联想到关键词的多个相似词来作为口语化意图的关键信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011610385.5A CN112380358A (zh) | 2020-12-31 | 2020-12-31 | 一种行业知识库的快速构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011610385.5A CN112380358A (zh) | 2020-12-31 | 2020-12-31 | 一种行业知识库的快速构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112380358A true CN112380358A (zh) | 2021-02-19 |
Family
ID=74589989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011610385.5A Pending CN112380358A (zh) | 2020-12-31 | 2020-12-31 | 一种行业知识库的快速构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112380358A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070005345A1 (en) * | 2005-07-01 | 2007-01-04 | Microsoft Corporation | Generating Chinese language couplets |
CN101458692A (zh) * | 2007-12-14 | 2009-06-17 | 北京神州数码有限公司 | 一种战略物资行业知识库的平台及其构建方法 |
CN106600298A (zh) * | 2016-12-23 | 2017-04-26 | 国网山东省电力公司信息通信公司 | 基于工单数据分析的电力信息系统客服知识库构建方法 |
CN110309509A (zh) * | 2019-06-28 | 2019-10-08 | 神思电子技术股份有限公司 | 一种语义知识库构建方法 |
CN111046145A (zh) * | 2019-12-23 | 2020-04-21 | 支付宝(杭州)信息技术有限公司 | 交互意图路径的挖掘方法以及装置 |
CN111125334A (zh) * | 2019-12-20 | 2020-05-08 | 神思电子技术股份有限公司 | 一种基于预训练的搜索问答系统 |
-
2020
- 2020-12-31 CN CN202011610385.5A patent/CN112380358A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070005345A1 (en) * | 2005-07-01 | 2007-01-04 | Microsoft Corporation | Generating Chinese language couplets |
CN101458692A (zh) * | 2007-12-14 | 2009-06-17 | 北京神州数码有限公司 | 一种战略物资行业知识库的平台及其构建方法 |
CN106600298A (zh) * | 2016-12-23 | 2017-04-26 | 国网山东省电力公司信息通信公司 | 基于工单数据分析的电力信息系统客服知识库构建方法 |
CN110309509A (zh) * | 2019-06-28 | 2019-10-08 | 神思电子技术股份有限公司 | 一种语义知识库构建方法 |
CN111125334A (zh) * | 2019-12-20 | 2020-05-08 | 神思电子技术股份有限公司 | 一种基于预训练的搜索问答系统 |
CN111046145A (zh) * | 2019-12-23 | 2020-04-21 | 支付宝(杭州)信息技术有限公司 | 交互意图路径的挖掘方法以及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bangash et al. | What do developers know about machine learning: a study of ml discussions on stackoverflow | |
CN106407211B (zh) | 对实体词的语义关系进行分类的方法和装置 | |
CN111368042A (zh) | 智能问答方法、装置、计算机设备及计算机存储介质 | |
CN112598547A (zh) | 基于自动生产线的教育题目生成方法、装置和电子设备 | |
CN116644167A (zh) | 目标答案的生成方法和装置、存储介质及电子装置 | |
CN116070599A (zh) | 智能化题库生成及辅助管理系统 | |
CN117787409A (zh) | 基于大语言模型的人机交互方法、装置及电子设备 | |
CN113723853A (zh) | 岗位胜任力需求数据处理方法及装置 | |
CN117035078A (zh) | 一种多模态知识图谱统一表示学习框架 | |
CN117112760A (zh) | 一种基于知识库的智能教育大模型 | |
CN117473034A (zh) | 交互文本处理方法、装置、电子设备及存储介质 | |
CN113779345B (zh) | 一种教学材料生成方法、装置、计算机设备和存储介质 | |
CN115438142B (zh) | 一种对话式交互数据分析报告系统 | |
CN118113837A (zh) | 一种使用句向量的语义匹配检索知识产权文档的对话模型 | |
CN117725895A (zh) | 文档生成方法、装置、设备及介质 | |
CN117909466A (zh) | 领域问答系统、构造方法、电子设备及存储介质 | |
CN117909458A (zh) | 基于llm模型的模具专业问答系统的构建方法 | |
CN116681088A (zh) | 一种基于大模型的翻译系统、方法及储存介质 | |
CN112380358A (zh) | 一种行业知识库的快速构建方法 | |
CN114997154A (zh) | 一种对话机器人语料自动构造方法及系统 | |
CN114817448A (zh) | 一种基于人工智能技术的储氢材料数据库构建方法 | |
CN114139053A (zh) | 基于学分银行和大数据分析的终身学习资源智能推送系统 | |
CN112015920A (zh) | 一种基于知识图谱和边缘计算智能辅助学习系统 | |
Yang | HTK-based speech recognition and corpus-based English vocabulary online guiding system | |
CN116451678B (zh) | 数据关系识别及数据表整合方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210219 |