CN110866089B - 基于同义多语境分析的机器人知识库构建系统及方法 - Google Patents
基于同义多语境分析的机器人知识库构建系统及方法 Download PDFInfo
- Publication number
- CN110866089B CN110866089B CN201911110945.8A CN201911110945A CN110866089B CN 110866089 B CN110866089 B CN 110866089B CN 201911110945 A CN201911110945 A CN 201911110945A CN 110866089 B CN110866089 B CN 110866089B
- Authority
- CN
- China
- Prior art keywords
- library
- words
- knowledge base
- word segmentation
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于同义多语境分析的机器人知识库构建系统及方法,从“传统知识库整理、提问库分词、应答库分词、同义扩充、语境分析、知识库索引、新知识库构建”七个方面来实现此方案,首先整理原有知识库;接着将知识库中的提问语句和应答语句分别做分词处理,提取关键词;然后对关键词进行相似度计算,同义扩充;接着通过语境分析,确定语句中各个关键词同时出现的适配评分,同时构建多叉树索引关键词;最后构建新的知识库,通过实现同义词的相似度计算,灵活随机替换应答用语中的同义词,实现应答主题内容不变,应答方式多样化的知识库的构建。
Description
技术领域
本发明涉及电子信息技术领域,具体是一种基于同义多语境分析的机器人知识库构建系统及方法,其通过建立一套自动语义关联的机器人知识库系统,以支持应答机器人用语多样化、拟人化的提问应答,实现电力客服的全自动、精确的客户提问响应。
背景技术
响应网络用户的咨询、提问,是电力客服日常工作的重要环节,是提升服务质量、集聚用户口碑的主要窗口。传统人工的用户应答方式,已不能满足广大电力用户的服务需求,主要体现在:
1)由于业务量较大,需要多人协同完成广大电力用户的咨询服务,无法以绝对相同的标准实现无差别服务;
2)人工应答服务的方式,受个体情绪影响、工作状态影响,应答内容无法做到精确无误;
3)无法高质高量的提供24小时全天候服务。与此同时,随着服务要求的提升与服务内容的拓展,人工客服的培训成本、应答成本也日益提升,电力企业需要招聘并培训大量人员,从事客户的提问应答服务。
基于以上几点,电力客户提问的机器人自动应答系统应运而生。近年来,伴随着人工智能技术、大数据技术等的快速发展,传统的电力客服机器人的应答质量也不断提升,部分地区电力企业的网络服务窗口,已能够提供常用的业务咨询及提问应答,部分取代了传统的人工客服服务;另一方面,传统的电力客服机器人通常采用知识库检索的方式,根据用户提问的关键字,计算相似度,进而匹配知识库中预先存储的答案,输出结果至用户。这种知识库匹配的方式,由于输出结果为匹配率最高的知识库内容,因此对于任何相同的提问,均会产生唯一的结果,应答方式机械且单调,无法完全实现人工应答用语的多样性与丰富性。
发明内容
针对现有技术存在的上述问题,本发明提供一种基于同义多语境分析的机器人知识库构建系统及方法,通过实现同义词的相似度计算,灵活随机替换应答用语中的同义词,实现应答主题内容不变,应答方式多样化的知识库的构建。
一种基于同义多语境分析的机器人知识库构建系统,包括如下步骤:
步骤S1、传统知识库整理:对传统的知识库进行整理、重构,实现冗余数据的过滤、陈旧数据的修正、错别字筛查纠正,知识库中包括提问用语语句和应答用语语句;
步骤S2、提问库分词:将知识库中的提问用语语句,分解为独立的词语,包括主语、谓语、宾语、定语、状语、补语,主要通过关键词匹配分词和训练深度学习网络分词两种方式综合实现;
步骤S3、应答库分词:将知识库中的应答用语语句,分解为独立的词语,包括主语、谓语、宾语、定语、状语、补语,主要通过关键词匹配分词和训练深度学习网络分词两种方式综合实现;
步骤S4、同义扩充:将步骤S2和步骤S3分解得到的关键词,关联并扩充同义词空间;
步骤S5、语境分析:将人工核定后的同义词进一步分类、筛选,根据语境,将同义词分为褒义词、贬义词、中性词,并和原用词匹配;
步骤S6、知识库索引:用于根据用户新的提问语句中的关键词,构建索引结构,随机灵活的组织和组合应答用语;
步骤S7、新知识库构建:将前述步骤构建的电力客服相关的主语库、谓语库、宾语库、定语库、状语库、补语库,以及扩充的同义词属性项,共同组成新的电力客服应答机器人知识库。
进一步的,所述步骤S1具体包括:
1)传统知识库为“提问—回答”的内容对,首先按提问内容排序,并从数据库中导出排序后的全部结果到excel表中;
2)在所述excel表中,逐条查看提问内容,合并或删除内容相同或相似的条目;
3)根据最新电力业务、电力政策内容,更新知识库中陈旧的应答用语;
4)根据excel提示功能,查找并更正知识库导出内容中的错字、别字;
5)删除提问用语中存在敏感词汇、含糊用语的知识库条目;
6)将整理后的数据重新导入至知识库所选用的数据库。
进一步的,所述步骤S2具体包括:
1)搭建Tensorflow深度学习训练环境,用于后续神经网络框架的搭建;
2)搭建卷积神经网络和递归神经网络混合训练框架,用于后续分词模型的训练;
3)制作深度训练样本集,样本集的制作方法为:
a.构建单独的主语库,主语库包括人称代词及电力行业常用的名词;
b.与主语库类似,构建电力客服用语相关的谓语库、宾语库、定语库、状语库和补语库;
c.将从知识库中选取10%-20%的样本,加工分解为为主语、谓语、宾语、定语、状语、补语,样本为该提问的原始语句,样本标签为多标签结构,分别为该语句分解后的主语、谓语、宾语、定语、状语、补语,若无,则空缺;
4)根据步骤3)制作的样本,训练分词模型,具体实现步骤为:
a.根据步骤3)中步骤c的分词结果,建立样本数据库;
b.构建适用于分词的深度学习模型,模型采用5个卷积层,每个卷积之后紧接着最大池化层,最后一层为softmax输出层;
c.对步骤a构建的样本数据库,进一步加工,加入样本标签,生成的样本标签对,实现“样本-样本标签”对;
d.将c步骤生成的样本标签对,用步骤b搭建的深度学习模型训练,最终生成分词模型;
5)对于提问库中未分词语句,首先应用步骤4)中a、b步骤构建的主语库、谓语库、宾语库、定语库、状语库和补语库,匹配提取语句中的相同词语,并提取为对应的主语、谓语、宾语、定语、状语、补语,对于某一词汇同时匹配不同库的情况,如某一名词同时匹配主语和宾语,则不作提取;
6)运用步骤4)训练的分词模型,实现对提问库中未分词语句的分词处理;
7)综合并比较5)和6)分词结果,实现自动化的精确分词,具体实现方法为:
a.人工分词10%-20%样本,并用这些样本构建样本库,采用深度学习训练样本库的方式得到分词模型,进而实现机器学习自动分词;
b.对于前述步骤4)生成的分词模型,将为人工分类样本数据导入分词模型训练;
c.通过训练结果,得到全部数据的自动化分词结果,分词结果各自归类至主语数据库、谓语数据库、宾语数据库、定语数据库、状语数据库和补语数据库;
d.人工对自动分词结果进行审核,对于可能存在少量的分词错误,进行人工修正。
进一步的,所述步骤S4具体包括:
1)根据具体使用场景,制定同义扩充规则,其基本准则为:不替换主语和宾语;
2)在提取的谓语库、定语库、状语库、补语库中,新增加属性项,为每个词语人工设定同义词,每个同义词占据单独一个属性项。
进一步的,所述步骤S5具体包括:
1)在提取的谓语库、定语库、状语库、补语库中,增加属性项,标明原词的情感属性,分为褒义词、贬义词、中性词三大类,具体标注方法为:
a.对于数据库中,明显能够判别词性的数据,直接人工标注感情属性;
b.对于数据库中些常用的敬语归为褒义词一类;
c.对于数据库中,从单个词语并不能直接推断使用环境,不确定其词性的,标注为中性词;
d.对于样本集中可能出现的不文明用语,归为贬义词一类;
2)若原词属性为褒义词或贬义词,则在其同义词中,保留相同情感属性的同义词,去掉不同属性的同义词;
4)将同义词替换至原词所在语句中,生成新的测试语句;
4)截取测试语句关键词所在位置前后若干字的短语句,在Internet网上进行检索,若返回搜索结果,标明该语句在Internet上使用过,则该关键词予以保留;否则,标明该关键词的同义词替换不成功,将改同义词语义剔除。
进一步的,所述步骤S6具体包括:
1)对用户提问语句,首先提取关键词,具体实现方法为:
a.导入电力客服专业词汇库,专业词汇库中包含电力相关的常用词语;
b.对于用户提问语句,匹配电力客服专业词汇库,提取相应关键词;
c.继续匹配前序步骤中生成的数据库,主要为状语数据库、谓语数据库和定语数据库;
d.输出提取的全部关键字;
2)根据提问关键词,匹配提问库;
3)根据提问库的匹配结果,检索到与该关键词对应的应答语句;
4)在对应的应答语句中,提取应答语句关键词,并检索其同义词;
5)根据应答语句各同义词随机组合、替换,生成新的应答语句,随机生成新语句的目的是使回复内容更加生动、多样化,避免重复的模板应答,但必须保证用词用语与标准应答相似,且具有相同的感情色彩,具体实现步骤为:
a.对于原始应答语句,首先进行“应答库分词步骤”的分词处理;
b.根据词类和词性,运用“同义扩充步骤”看,扩充其同义词库,并根据“语境分析步骤”,筛选符合原应答语句的同义词:
c.根据b步骤的同义词扩充结果,随机组合生成新的应答语句;
d.将随机组合生成的新的应答语句,作为最终结果;
6)将新生成的应答语句作为输出,返回给用户作为对用户提问的响应。
一种基于同义多语境分析的机器人知识库构建系统,包括:
知识库整理模块,用于实现传统的知识库的整理、重构,实现冗余数据的过滤、陈旧数据的修正、错别字筛查纠正,知识库中包括提问用语语句和应答用语语句,
分词模块,用于实现提问库和应答库语句内容的分词处理,具体的,语句在此模块中将分解为独立的词语,包括主语、谓语、宾语、定语、状语、补语,主要通过关键词匹配分词和训练深度学习网络分词两种方式综合实现;
同义扩充模块,用于将分词模块分解得到的关键词,关联并扩充同义词空间,为后续步骤的同义词灵活替换、丰富应答用语的多样性提供支持;
语境分析模块,用于将人工核定后的同义词进一步分类、筛选,根据语境,将同义词分为褒义词、贬义词、中性词,并和原用词匹配,生成新的测试语句;
索引模块,用于根据用户新的提问语句中的关键词,构建索引结构,随机灵活的组织和组合应答用语,并将新生成的应答语句作为输出,返回给用户作为对用户提问的响应;
新知识库构建模块,用于根据构建的电力客服相关的主语库、谓语库、宾语库、定语库、状语库、补语库,以及扩充的同义词属性项,共同组成新的电力客服应答机器人知识库。
进一步的,所述知识库整理模块具体实现功能为:将知识库内容从数据库中导出excel中,由人工逐条查看提问内容,合并或删除内容相同或相似的条目,更正知识库导出内容中的错字、别字,删除提问用语中存在敏感词汇、含糊用语的知识库条目。
进一步的,所述同义扩充模块具体实现功能为:根据具体使用场景,制定同义扩充规则,在提取的谓语库、定语库、状语库、补语库中,新增加属性项,为每个词语人工设定同义词,每个同义词占据单独一个属性项,扩充方法以接入第三方同义词库进行自动扩充为主,人工核定的方式扩充同义词库。
进一步的,所述语境分析模块还用于截取测试语句关键词所在位置前后若干字的短语句,在Internet网上进行检索,若返回搜索结果,标明该语句在Internet上使用过,则该关键词予以保留;否则,标明该关键词的同义词替换不成功,将改同义词语义剔除。
本发明从“传统知识库整理、提问库分词、应答库分词、同义扩充、语境分析、知识库索引、新知识库构建”七个方面来实现此方案,首先整理原有知识库;接着将知识库中的提问语句和应答语句分别做分词处理,提取关键词;然后对关键词进行相似度计算,同义扩充;接着通过语境分析,确定语句中各个关键词同时出现的适配评分,同时构建多叉树索引关键词;最后构建新的知识库,通过实现同义词的相似度计算,灵活随机替换应答用语中的同义词,实现应答主题内容不变,应答方式多样化的知识库的构建。
附图说明
图1是本发明基于同义多语境分析的机器人知识库构建系统工作时的流程示意图;
图2是本发明基于同义多语境分析的机器人知识库构建系统的模块框图。
具体实施方式
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述。
如图1所示,本发明实施例提供一种基于同义多语境分析的机器人知识库构建方法,包括以下步骤:
步骤S1、传统知识库整理:对传统的知识库进行整理、重构,实现冗余数据的过滤、陈旧数据的修正、错别字筛查纠正,知识库中包括提问用语语句和应答用语语句。具体实现方法为:
1)传统知识库为“提问—回答”的内容对,首先按提问内容排序,并从数据库中导出排序后的全部结果到excel表中;
2)在所述excel表中,逐条查看提问内容,合并或删除内容相同或相似的条目;
3)根据最新电力业务、电力政策内容,更新知识库中陈旧的应答用语;
4)根据excel提示功能,查找并更正知识库导出内容中的错字、别字;
5)删除提问用语中存在敏感词汇、含糊用语的知识库条目;
6)将整理后的数据重新导入至知识库所选用的数据库。
步骤S2、提问库分词:将知识库中的提问用语语句,分解为独立的词语,包括主语、谓语、宾语、定语、状语、补语,主要通过关键词匹配分词和训练深度学习网络分词两种方式综合实现,具体方法为:
1)搭建Tensorflow深度学习训练环境,用于后续神经网络框架的搭建;
2)搭建卷积神经网络和递归神经网络混合训练框架,用于后续分词模型的训练;
3)制作深度训练样本集,样本集的制作方法为:
a.构建单独的主语库,主语库包括人称代词及电力行业常用的名词;
b.与主语库类似,构建电力客服用语相关的谓语库、宾语库、定语库、状语库和补语库;
c.将知识库中提问库中的内容,由于语句条数较多,仅选取部分条数人工制作样本,便于后续模型训练,实现自动化分解。可选取10%-20%的样本,加工分解为为主语、谓语、宾语、定语、状语、补语,样本为该提问的原始语句,样本标签为多标签结构,分别为该语句分解后的主语、谓语、宾语、定语、状语、补语,若无,则空缺;
4)根据步骤3)制作的样本,训练分词模型,具体实现步骤为:
a.根据步骤3)中步骤c的分词结果,建立样本数据库,如提问语句为“我怎样缴纳电费”,则将“我”加入主语数据库,“怎样”加入状语数据库,“缴纳”加入谓语数据库,“电费”加入宾语数据库;
b.构建适用于分词的深度学习模型,模型采用5个卷积层,每个卷积之后紧接着最大池化层,最后一层为softmax输出层;
c.对步骤a构建的样本数据库,进一步加工,加入样本标签,生成的样本标签对,实现“样本-样本标签”对,便于后续步骤的训练;例如:对于样本“我怎样缴纳电费”,其标签为多标签结构,为:“我”、“怎样”、“缴纳”、“电费”4个标签;
d.将c步骤生成的样本标签对,用步骤b搭建的深度学习模型训练,最终生成分词模型;
5)对于提问库中未分词语句,首先应用步骤4)中a、b步骤构建的主语库、谓语库、宾语库、定语库、状语库和补语库,匹配提取语句中的相同词语,并提取为对应的主语、谓语、宾语、定语、状语、补语,对于某一词汇同时匹配不同库的情况,如某一名词同时匹配主语和宾语,则不作提取;
6)运用步骤4)训练的分词模型,实现对提问库中未分词语句的分词处理;
7)综合并比较5)和6)分词结果,实现自动化的精确分词,具体实现方法为:
a.由于知识库中语句条数较多,人工处理起来耗时耗力,并且不利于后续样本的增量更新,因此采用的方法是:仅人工分词10%-20%样本,并用这些样本构建样本库,采用深度学习训练样本库的方式得到分词模型,进而实现机器学习自动分词;
b.对于前述步骤4)生成的分词模型,将为人工分类样本数据导入分词模型训练;
c.通过训练结果,得到全部数据的自动化分词结果,分词结果各自归类至主语数据库、谓语数据库、宾语数据库、定语数据库、状语数据库和补语数据库;
d.人工对自动分词结果进行审核,对于可能存在少量的分词错误,进行人工修正。
步骤S3、应答库分词:将知识库中的应答用语语句,分解为独立的词语,包括主语、谓语、宾语、定语、状语、补语,分解方法与提问库分词方法类似。
步骤S4、同义扩充:将前述步骤S2和步骤S3分解得到的关键词,关联并扩充同义词空间,为后续步骤的同义词灵活替换、丰富应答用语的多样性提供支持。具体实现方法为:
1)根据具体使用场景,制定同义扩充规则,其基本准则为:不替换主语和宾语;
2)在提取的谓语库、定语库、状语库、补语库中,新增加属性项,为每个词语人工设定同义词,每个同义词占据单独一个属性项;
本发明的同义词扩充方法,可接入第三方同义词库进行自动扩充为主,用人工核定的方式扩充同义词库。
步骤S5、语境分析:将人工核定后的同义词进一步分类、筛选,根据语境,将同义词分为褒义词、贬义词、中性词,并和原用词匹配。具体实现方法为:
1)在提取的谓语库、定语库、状语库、补语库中,增加属性项,标明原词的情感属性,分为褒义词、贬义词、中性词三大类,具体标注方法为:
a.对于数据库中,明显能够判别词性的数据,直接人工标注感情属性,如“恰当”、“尊敬”等形容词直接标定为褒义词;
b.对于数据库中,一些常用的敬语,也归为褒义词一类,如“您”、“您好”、“请”等;
c.对于数据库中,从单个词语并不能直接推断使用环境,不确定其词性的,标注为中性词,如“必须”、“应该”、“是”、“不是”等;
d.对于样本集中可能出现的不文明用语,归为贬义词一类;
e.特别说明:本发明所涉及的褒义词、贬义词、中性词,并非传统意义上的概念,而是根据电力客服业务环境,界定范围做了适应性的调整;
2)若原词属性为褒义词或贬义词,则在其同义词中,保留相同情感属性的同义词,去掉不同属性的同义词,具体实现细节为:
a.对于输出应答回复,同义词替换保证了应答内容相同的情形下,回复语句的多样化,为使语句回复更加自然、贴近原始语句,应保持用词用语的词性相同;需对同义词进行筛选过滤;
b.如表示肯定的回复用语“好的”,其归类为褒义词,其同义词包括“行”、“可以”、“行吧”、“那行吧”、“ok”、“没问题”、“就这样吧”等等;
c.其中,同义词“行”、“ok”、“没问题”回复态度较为积极,归为褒义词类,可作为同情感属性的同义词予以保留;
d.同义词“可以”无法确定其词性属性,前述处理步骤中,应已归为中性词,予以剔除;
e.同义词“行吧”、“那行吧”、“就这样吧”回复较为消极,为贬义词词性,予以剔除;
3)将同义词替换至原词所在语句中,生成新的测试语句;
4)截取测试语句关键词所在位置前后若干字的短语句,在Internet网上进行检索,若返回搜索结果,标明该语句在Internet上使用过,则该关键词予以保留;否则,标明该关键词的同义词替换不成功,将改同义词语义剔除。
步骤S6、知识库索引:用于根据用户新的提问语句中的关键词,构建索引结构,随机灵活的组织和组合应答用语。具体实现方法为:
1)对用户提问语句,首先提取关键词,具体实现方法为:
a.导入电力客服专业词汇库,专业词汇库中包含电力相关的常用词语,如“电费”、“用电”、“电量”、“停电”等;
b.对于用户提问语句,匹配电力客服专业词汇库,提取相应关键词,如用户提问语句为:“请问如何缴纳电费”,则首先提取关键词“电费”;
c.继续匹配前序步骤中生成的数据库,主要为状语数据库、谓语数据库和定语数据库,如在用户提问语句“请问如何缴纳电费”中,则匹配到状语“如何”和谓语“缴纳”;
d.输出提取的全部关键字,此例中包括3个关键字,分别为:电费、如何、缴纳;
2)根据提问关键词,匹配提问库,具体实现方法为:
a.原始提问库中包含:所有用户提问的样本,采用分级匹配的方式实现用语原始提问语句的检索;
b.首先根据前述步骤提取的电力客服专业词汇,进行业务层次的初次检索,如用户提问“请问如何缴纳电费”,首先检索所有包含“电费”词语的用户提问语句,假设为集合A;
c.接着通过该语句提取的其它关键词,做多次检索,如继续在集合A中检索“如何”关键词,找到A中所有包含“如何”的提问语句,也即A的子集B;
d.继续c步骤,直至所有关键词检索完成,在本例中,将继续在B集合中检索关键词“缴纳”,得到B集合的子集C;
e.对于集合C,若C中仅1条记录,则直接作为匹配结果输出;
f.若C中无记录,则返回用户:匹配失败;
g.若C中多于一条记录,则随机输出一条记录作为匹配结果,其它匹配记录作为“相似提问”返回;
3)根据提问库的匹配结果,检索到与该关键词对应的应答语句;
4)在对应的应答语句中,提取应答语句关键词,并检索其同义词;
5)根据应答语句各同义词随机组合、替换,生成新的应答语句,随机生成新语句的目的是使回复内容更加生动、多样化,避免重复的模板应答,但必须保证用词用语与标准应答相似,且具有相同的感情色彩,具体实现步骤为:
a.对于原始应答语句,首先进行“应答库分词步骤”的分词处理,如应答语句“好的,我马上将您的反映的情况记录并通知检修部门同事。”,分词结果如下表1所示:
表1
b.根据词类和词性,运用“同义扩充步骤”看,扩充其同义词库,并根据“语境分析步骤”,筛选符合原应答语句的同义词,扩充结果如下表2所示:
表2
c.根据b步骤的同义词扩充结果,随机组合生成新的应答语句,如应答语句可为:“ok,我立刻把您提到的问题记下来并提交检修部门同事”、“没问题,我这就将您反馈的情况备注并发给检修部门同事”等等。
d.将随机组合生成的新的应答语句,作为最终结果。
6)将新生成的应答语句作为输出,返回给用户作为对用户提问的响应。
步骤S7、新知识库构建:新知识库的构建,包括将前述步骤构建的电力客服相关的主语库、谓语库、宾语库、定语库、状语库、补语库,还包括扩充的同义词属性项,共同组成新的电力客服应答机器人知识库。
如图2所示,本发明实施例提供的一种基于同义多语境分析的机器人知识库构建系统,其包括:
知识库整理模块10,此模块的主要功能为实现传统的知识库的整理、重构,实现冗余数据的过滤、陈旧数据的修正、错别字筛查纠正等。将知识库内容从数据库中导出excel中,由人工逐条查看提问内容,合并或删除内容相同或相似的条目,更正知识库导出内容中的错字、别字,删除提问用语中存在敏感词汇、含糊用语的知识库条目。
分词模块20,此模块的主要功能为实现提问库和应答库语句内容的分词处理。语句在此模块中将分解为独立的词语,包括主语、谓语、宾语、定语、状语、补语,主要通过关键词匹配分词和训练深度学习网络分词两种方式,综合实现。
同义扩充模块30,此模块的主要功能为将前述步骤分解得到的关键词,关联并扩充同义词空间,为后续步骤的同义词灵活替换、丰富应答用语的多样性提供支持。根据具体使用场景,制定同义扩充规则,在提取的谓语库、定语库、状语库、补语库中,新增加属性项,为每个词语人工设定同义词,每个同义词占据单独一个属性项。此模块的扩充方法以接入第三方同义词库进行自动扩充为主,人工核定的方式扩充同义词库。
语境分析模块40,此模块的主要功能用于将人工核定后的同义词进一步分类、筛选,根据语境,将同义词分为褒义词、贬义词、中性词,并和原用词匹配,生成新的测试语句;截取测试语句关键词所在位置前后若干字的短语句,在Internet网上进行检索,若返回搜索结果,标明该语句在Internet上使用过,则该关键词予以保留;否则,标明该关键词的同义词替换不成功,将改同义词语义剔除。
索引模块50,此模块的主要功能用于根据用户新的提问语句中的关键词,构建索引结构,随机灵活的组织和组合应答用语,并将新生成的应答语句作为输出,返回给用户作为对用户提问的响应。
新知识库构建模块60,此模块用于根据前述构建的电力客服相关的主语库、谓语库、宾语库、定语库、状语库、补语库,以及扩充的同义词属性项,共同组成新的电力客服应答机器人知识库。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何属于本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于同义多语境分析的机器人知识库构建方法,其特征在于包括如下步骤:
步骤S1、传统知识库整理:对传统的知识库进行整理、重构,实现冗余数据的过滤、陈旧数据的修正、错别字筛查纠正,知识库中包括提问用语语句和应答用语语句;
步骤S2、提问库分词:将知识库中的提问用语语句,分解为独立的词语,包括主语、谓语、宾语、定语、状语、补语,主要通过关键词匹配分词和训练深度学习网络分词两种方式综合实现;
步骤S3、应答库分词:将知识库中的应答用语语句,分解为独立的词语,包括主语、谓语、宾语、定语、状语、补语,主要通过关键词匹配分词和训练深度学习网络分词两种方式综合实现;
步骤S4、同义扩充:将步骤S2和步骤S3分解得到的关键词,关联并扩充同义词空间;
步骤S5、语境分析:将人工核定后的同义词进一步分类、筛选,根据语境,将同义词分为褒义词、贬义词、中性词,并和原用词匹配;
步骤S6、知识库索引:用于根据用户新的提问语句中的关键词,构建索引结构,随机灵活的组织和组合应答用语;
步骤S7、新知识库构建:将前述步骤构建的电力客服相关的主语库、谓语库、宾语库、定语库、状语库、补语库,以及扩充的同义词,共同组成新的电力客服应答机器人知识库。
2.如权利要求1所述的基于同义多语境分析的机器人知识库构建方法,其特征在于:所述步骤S1具体包括:
1)传统知识库为“提问—回答”的内容对,首先按提问内容排序,并从数据库中导出排序后的全部结果到excel表中;
2)在所述excel表中,逐条查看提问内容,合并或删除内容相同或相似的条目;
3)根据最新电力业务、电力政策内容,更新知识库中陈旧的应答用语;
4)根据excel提示功能,查找并更正知识库导出内容中的错字、别字;
5)删除提问用语中存在敏感词汇、含糊用语的知识库条目;
6)将整理后的数据重新导入至知识库所选用的数据库。
3.如权利要求1所述的基于同义多语境分析的机器人知识库构建方法,其特征在于:所述步骤S2具体包括:
1)搭建Tensorflow深度学习训练环境,用于后续神经网络框架的搭建;
2)搭建卷积神经网络和递归神经网络混合训练框架,用于后续分词模型的训练;
3)制作深度训练样本集,样本集的制作方法为:
a.构建单独的主语库,主语库包括人称代词及电力行业常用的名词;
b.与主语库类似,构建电力客服用语相关的谓语库、宾语库、定语库、状语库和补语库;
c.将从知识库中选取10%-20%的样本,加工分解为为主语、谓语、宾语、定语、状语、补语,样本为该提问的原始语句,样本标签为多标签结构,分别为该语句分解后的主语、谓语、宾语、定语、状语、补语,若无,则空缺;
4)根据步骤3)制作的样本,训练分词模型,具体实现步骤为:
a.根据步骤3)中步骤c的分词结果,建立样本数据库;
b.构建适用于分词的深度学习模型,模型采用5个卷积层,每个卷积之后紧接着最大池化层,最后一层为softmax输出层;
c.对步骤a构建的样本数据库,进一步加工,加入样本标签,生成的样本标签对,实现“样本-样本标签”对;
d.将c步骤生成的样本标签对,用步骤b搭建的深度学习模型训练,最终生成分词模型;
5)对于提问库中未分词语句,首先应用步骤4)中a、b步骤构建的主语库、谓语库、宾语库、定语库、状语库和补语库,匹配提取语句中的相同词语,并提取为对应的主语、谓语、宾语、定语、状语、补语,对于某一词汇同时匹配不同库的情况,如某一名词同时匹配主语和宾语,则不作提取;
6)运用步骤4)训练的分词模型,实现对提问库中未分词语句的分词处理;
7)综合并比较5)和6)分词结果,实现自动化的精确分词,具体实现方法为:
a.人工分词10%-20%样本,并用这些样本构建样本库,采用深度学习训练样本库的方式得到分词模型,进而实现机器学习自动分词;
b.对于前述步骤4)生成的分词模型,将为人工分类样本数据导入分词模型训练;
c.通过训练结果,得到全部数据的自动化分词结果,分词结果各自归类至主语数据库、谓语数据库、宾语数据库、定语数据库、状语数据库和补语数据库;
d.人工对自动分词结果进行审核,对于可能存在少量的分词错误,进行人工修正。
4.如权利要求1所述的基于同义多语境分析的机器人知识库构建方法,其特征在于:所述步骤S4具体包括:
1)根据具体使用场景,制定同义扩充规则,其基本准则为:不替换主语和宾语;
2)在提取的谓语库、定语库、状语库、补语库中,新增加属性项,为每个词语人工设定同义词,每个同义词占据单独一个属性项。
5.如权利要求1所述的基于同义多语境分析的机器人知识库构建方法,其特征在于:所述步骤S5具体包括:
1)在提取的谓语库、定语库、状语库、补语库中,增加属性项,标明原词的情感属性,分为褒义词、贬义词、中性词三大类,具体标注方法为:
a.对于数据库中,明显能够判别词性的数据,直接人工标注感情属性;
b.对于数据库中些常用的敬语归为褒义词一类;
c.对于数据库中,从单个词语并不能直接推断使用环境,不确定其词性的,标注为中性词;
d.对于样本集中可能出现的不文明用语,归为贬义词一类;
2)若原词属性为褒义词或贬义词,则在其同义词中,保留相同情感属性的同义词,去掉不同属性的同义词;
3)将同义词替换至原词所在语句中,生成新的测试语句;
4)截取测试语句关键词所在位置前后若干字的短语句,在Internet网上进行检索,若返回搜索结果,标明该语句在Internet上使用过,则该关键词予以保留;否则,标明该关键词的同义词替换不成功,将改同义词语义剔除。
6.如权利要求1所述的基于同义多语境分析的机器人知识库构建方法,其特征在于:所述步骤S6具体包括:
1)对用户提问语句,首先提取关键词,具体实现方法为:
a.导入电力客服专业词汇库,专业词汇库中包含电力相关的常用词语;
b.对于用户提问语句,匹配电力客服专业词汇库,提取相应关键词;
c.继续匹配前序步骤中生成的数据库,主要为状语数据库、谓语数据库和定语数据库;
d.输出提取的全部关键字;
2)根据提问关键词,匹配提问库;
3)根据提问库的匹配结果,检索到与该关键词对应的应答语句;
4)在对应的应答语句中,提取应答语句关键词,并检索其同义词;
5)根据应答语句各同义词随机组合、替换,生成新的应答语句,随机生成新语句的目的是使回复内容更加生动、多样化,避免重复的模板应答,但必须保证用词用语与标准应答相似,且具有相同的感情色彩,具体实现步骤为:
a.对于原始应答语句,首先进行“应答库分词步骤”的分词处理;
b.根据词类和词性,运用“同义扩充步骤”看,扩充其同义词库,并根据“语境分析步骤”,筛选符合原应答语句的同义词:
c.根据b步骤的同义词扩充结果,随机组合生成新的应答语句;
d.将随机组合生成的新的应答语句,作为最终结果;
6)将新生成的应答语句作为输出,返回给用户作为对用户提问的响应。
7.一种基于同义多语境分析的机器人知识库构建系统,其特征在于包括:
知识库整理模块,用于实现传统的知识库的整理、重构,实现冗余数据的过滤、陈旧数据的修正、错别字筛查纠正,知识库中包括提问用语语句和应答用语语句,
分词模块,用于实现提问库和应答库语句内容的分词处理,具体的,语句在此模块中将分解为独立的词语,包括主语、谓语、宾语、定语、状语、补语,主要通过关键词匹配分词和训练深度学习网络分词两种方式综合实现;
同义扩充模块,用于将分词模块分解得到的关键词,关联并扩充同义词空间,为后续步骤的同义词灵活替换、丰富应答用语的多样性提供支持;
语境分析模块,用于将人工核定后的同义词进一步分类、筛选,根据语境,将同义词分为褒义词、贬义词、中性词,并和原用词匹配,生成新的测试语句;
索引模块,用于根据用户新的提问语句中的关键词,构建索引结构,随机灵活的组织和组合应答用语,并将新生成的应答语句作为输出,返回给用户作为对用户提问的响应;
新知识库构建模块,用于根据构建的电力客服相关的主语库、谓语库、宾语库、定语库、状语库、补语库,以及扩充的同义词,共同组成新的电力客服应答机器人知识库。
8.如权利要求7所述的基于同义多语境分析的机器人知识库构建系统,其特征在于:所述知识库整理模块具体实现功能为:将知识库内容从数据库中导出excel中,由人工逐条查看提问内容,合并或删除内容相同或相似的条目,更正知识库导出内容中的错字、别字,删除提问用语中存在敏感词汇、含糊用语的知识库条目。
9.如权利要求7所述的基于同义多语境分析的机器人知识库构建系统,其特征在于:所述同义扩充模块具体实现功能为:根据具体使用场景,制定同义扩充规则,在提取的谓语库、定语库、状语库、补语库中,新增加属性项,为每个词语人工设定同义词,每个同义词占据单独一个属性项,扩充方法以接入第三方同义词库进行自动扩充为主,人工核定的方式扩充同义词库。
10.如权利要求7所述的基于同义多语境分析的机器人知识库构建系统,其特征在于:所述语境分析模块还用于截取测试语句关键词所在位置前后若干字的短语句,在Internet网上进行检索,若返回搜索结果,标明该语句在Internet上使用过,则该关键词予以保留;否则,标明该关键词的同义词替换不成功,将改同义词语义剔除。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911110945.8A CN110866089B (zh) | 2019-11-14 | 2019-11-14 | 基于同义多语境分析的机器人知识库构建系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911110945.8A CN110866089B (zh) | 2019-11-14 | 2019-11-14 | 基于同义多语境分析的机器人知识库构建系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110866089A CN110866089A (zh) | 2020-03-06 |
CN110866089B true CN110866089B (zh) | 2023-04-28 |
Family
ID=69654012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911110945.8A Active CN110866089B (zh) | 2019-11-14 | 2019-11-14 | 基于同义多语境分析的机器人知识库构建系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110866089B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111949855A (zh) * | 2020-07-31 | 2020-11-17 | 国网上海市电力公司 | 一种基于知识图谱的工程技经知识检索平台及其方法 |
CN112199958A (zh) * | 2020-09-30 | 2021-01-08 | 平安科技(深圳)有限公司 | 概念词序列生成方法、装置、计算机设备及存储介质 |
CN112269858B (zh) * | 2020-10-22 | 2024-04-19 | 中国平安人寿保险股份有限公司 | 同义词典的优化方法、装置、设备及存储介质 |
CN112862519A (zh) * | 2021-01-20 | 2021-05-28 | 北京奥维云网大数据科技股份有限公司 | 一种针对电商平台家电零售数据的销量异常识别方法 |
CN113505202A (zh) * | 2021-07-30 | 2021-10-15 | 中关村科学城城市大脑股份有限公司 | 一种基于情感分析的数据增强方法和系统 |
CN113609273A (zh) * | 2021-08-12 | 2021-11-05 | 云知声(上海)智能科技有限公司 | 一种机器话术配置方法、装置、电子设备和存储介质 |
CN114281945B (zh) * | 2021-12-28 | 2024-02-27 | 合肥工业大学 | 基于绿色产品案例库的减碳策略知识库的构建方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104657346A (zh) * | 2015-01-15 | 2015-05-27 | 深圳市前海安测信息技术有限公司 | 智能交互系统中的问题匹配方法和系统 |
CN105843897A (zh) * | 2016-03-23 | 2016-08-10 | 青岛海尔软件有限公司 | 一种面向垂直领域的智能问答系统 |
CN107729374A (zh) * | 2017-09-13 | 2018-02-23 | 厦门快商通科技股份有限公司 | 一种情感词典的扩充方法及文本情感识别方法 |
CN107958004A (zh) * | 2016-10-17 | 2018-04-24 | 中国移动通信有限公司研究院 | 一种知识库的构建方法和装置 |
CN108256009A (zh) * | 2018-01-03 | 2018-07-06 | 国网江苏省电力有限公司电力科学研究院 | 一种提高电力智能应答机器人回答准确率的方法 |
CN109446337A (zh) * | 2018-09-19 | 2019-03-08 | 中国信息通信研究院 | 一种知识图谱构建方法和装置 |
CN110162611A (zh) * | 2019-04-23 | 2019-08-23 | 苏宁易购集团股份有限公司 | 一种智能客服应答方法及系统 |
CN110362664A (zh) * | 2019-05-31 | 2019-10-22 | 厦门快商通信息咨询有限公司 | 一种对聊天机器人faq知识库存储与匹配的方法及装置 |
-
2019
- 2019-11-14 CN CN201911110945.8A patent/CN110866089B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104657346A (zh) * | 2015-01-15 | 2015-05-27 | 深圳市前海安测信息技术有限公司 | 智能交互系统中的问题匹配方法和系统 |
CN105843897A (zh) * | 2016-03-23 | 2016-08-10 | 青岛海尔软件有限公司 | 一种面向垂直领域的智能问答系统 |
CN107958004A (zh) * | 2016-10-17 | 2018-04-24 | 中国移动通信有限公司研究院 | 一种知识库的构建方法和装置 |
CN107729374A (zh) * | 2017-09-13 | 2018-02-23 | 厦门快商通科技股份有限公司 | 一种情感词典的扩充方法及文本情感识别方法 |
CN108256009A (zh) * | 2018-01-03 | 2018-07-06 | 国网江苏省电力有限公司电力科学研究院 | 一种提高电力智能应答机器人回答准确率的方法 |
CN109446337A (zh) * | 2018-09-19 | 2019-03-08 | 中国信息通信研究院 | 一种知识图谱构建方法和装置 |
CN110162611A (zh) * | 2019-04-23 | 2019-08-23 | 苏宁易购集团股份有限公司 | 一种智能客服应答方法及系统 |
CN110362664A (zh) * | 2019-05-31 | 2019-10-22 | 厦门快商通信息咨询有限公司 | 一种对聊天机器人faq知识库存储与匹配的方法及装置 |
Non-Patent Citations (2)
Title |
---|
LinHua Gao,等.An automatic extraction method based on synonym dictionary for web reptile question and answer.《2018 13th IEEE Conference on Industrial Electronics and Applications (ICIEA)》.2018,第375-378页. * |
赵涛,等.基于深度学习的人机语音交互平台.《信息系统工程》.2019,(第undefined期),第102-104页. * |
Also Published As
Publication number | Publication date |
---|---|
CN110866089A (zh) | 2020-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110866089B (zh) | 基于同义多语境分析的机器人知识库构建系统及方法 | |
Jung | Semantic vector learning for natural language understanding | |
CN110633409B (zh) | 一种融合规则与深度学习的汽车新闻事件抽取方法 | |
US9501467B2 (en) | Systems, methods, software and interfaces for entity extraction and resolution and tagging | |
CN110674252A (zh) | 一种面向司法领域的高精度语义搜索系统 | |
CN114416942A (zh) | 一种基于深度学习的自动化问答方法 | |
JP2006244262A (ja) | 質問回答検索システム、方法およびプログラム | |
CN113886604A (zh) | 一种职位知识图谱生成方法和系统 | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
Ramina et al. | Topic level summary generation using BERT induced Abstractive Summarization Model | |
CN112380848B (zh) | 文本生成方法、装置、设备及存储介质 | |
Humbel et al. | Named-entity recognition for early modern textual documents: a review of capabilities and challenges with strategies for the future | |
CN115840812A (zh) | 一种根据政策文本智能匹配企业的方法及系统 | |
CN115982338B (zh) | 一种基于查询路径排序的领域知识图谱问答方法及系统 | |
CN117453851B (zh) | 基于知识图谱的文本索引增强问答方法及系统 | |
CN111507093A (zh) | 一种基于相似字典的文本攻击方法、装置及存储介质 | |
CN117332789A (zh) | 一种面向对话场景的语义分析方法及系统 | |
CN111666374A (zh) | 一种在深度语言模型中融入额外知识信息的方法 | |
Kiyavitskaya et al. | Semi-Automatic Semantic Annotations for Web Documents. | |
Liu et al. | Recognizing proper names in ur iii texts through supervised learning | |
CN114328902A (zh) | 文本标注模型构建方法和装置 | |
CN114118082A (zh) | 一种简历检索方法及装置 | |
Tian et al. | Semantic similarity measure of natural language text through machine learning and a keyword‐aware cross‐encoder‐ranking summarizer—A case study using UCGIS GIS &T body of knowledge | |
Wambsganss et al. | Using Deep Learning for Extracting User-Generated Knowledge from Web Communities. | |
Uddin et al. | A neural network approach for Bangla POS tagger |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |