CN110674273A - 一种分词的智能问答机器人训练方法 - Google Patents

一种分词的智能问答机器人训练方法 Download PDF

Info

Publication number
CN110674273A
CN110674273A CN201910873592.0A CN201910873592A CN110674273A CN 110674273 A CN110674273 A CN 110674273A CN 201910873592 A CN201910873592 A CN 201910873592A CN 110674273 A CN110674273 A CN 110674273A
Authority
CN
China
Prior art keywords
training
classification
question
word segmentation
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910873592.0A
Other languages
English (en)
Inventor
翟世臣
雷大正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Institute of Information Engineering
Original Assignee
Anhui Institute of Information Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Institute of Information Engineering filed Critical Anhui Institute of Information Engineering
Priority to CN201910873592.0A priority Critical patent/CN110674273A/zh
Publication of CN110674273A publication Critical patent/CN110674273A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及智能训练技术领域,提出一种分词的智能问答机器人训练方法,对分词模型进行训练,所述对分词模型进行训练的步骤包括:以管理员身份进入分词训练界面,选择是否进入训练模式;如果选择不进入训练模式,则提出问题;若能回答问题,则接收答案后结束,若不能回答问题,则进入训练模式;如果选择进入训练模式,则进行语料训练和分类训练,训练完成后结束。本发明在智能问答机器人中加入数据查询系统,并且作为数据展示和交互平台更易于人们使用;不断地进行语料训练,及时更新分类训练模型,让查询更加准确。

Description

一种分词的智能问答机器人训练方法
技术领域
本发明涉及智能训练技术领域,特别涉及一种分词的智能问答机器人训练方法。
背景技术
随着现代科技的不断发展以及信息通信时代的日新月异,在上世纪末,无线通信已经在各个领域得到广泛运用,并指引了各个领域的科技发展。目前市面上主流的机器人都是用作客服和娱乐,客服机器人实际上一个QA数据库,专业性不够,能够回答的问题有限,绝大多数问题都不能准确回答,因此在已有的智能机器人上更新发展为一种通过聊天就能查询数据的服务。
发明内容
本发明的目的在于改善现有技术中所存在的不足,提供一种分词的智能问答机器人训练方法,实现一种通过聊天就能查询数据的服务。
为了实现上述发明目的,本发明实施例提供了以下技术方案:
一种分词的智能问答机器人训练方法,对分词模型进行训练,所述对分词模型进行训练的步骤包括:
以管理员身份进入分词训练界面,选择是否进入训练模式;
如果选择不进入训练模式,则提出问题;若能回答问题,则接收答案后结束,若不能回答问题,则进入训练模式;
如果选择进入训练模式,则进行语料训练和分类训练,训练完成后结束。
所述对分词模型进行训练的步骤还包括:
选择分类训练或语料训练后,再提出问题;
若能回答问题,则接收答案后结束,若不能回答问题,则再次进入训练模式。
所述语料训练的步骤包括:
向标签解析器发送学习标签,标签解析器对接收到的学习标签进行解析;
将解析后的学习标签数据存入操作日常语料数据库;
操作日常语料数据库将存入的学习标签数据整合为训练分类模型。
所述分类训练的步骤包括:
聊天控制器向分类服务层发送训练分类模型;
分类服务器获取到训练分类模型后,根据该训练分类模型在分类服务器中进行分词的分类训练;
在分类服务器中完成分类训练后,线性分类器根据聊天控制器发送的训练分类模型,创造线性分类模式,生成分类训练器;
分类训练器根据线性分类器创造的线性分类模式,对已进行分类训练的分词进行线性分类训练;
不断地进行语料训练,及时更新分类训练模型,让查询更加准确,线性分类训练结束后,完成分类训练。
与现有技术相比,本发明的有益效果:
本发明在智能问答机器人中加入数据查询系统,并且作为数据展示和交互平台更易于人们使用;不断地进行语料训练,及时更新分类训练模型,让查询更加准确。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明训练方法流程图;
图2为本发明分类训练流程图;
图3为本发明语料训练流程图;
图4为本发明查询示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
本发明通过下述技术方案实现,如图1所示,一种分词的智能问答机器人训练方法,对分词模型进行训练,所述对分词模型进行训练的步骤包括:
以管理员身份进入分词训练界面,选择是否进入训练模式;
如果选择不进入训练模式,则提出问题;若能回答问题,则接收答案后结束,若不能回答问题,则进入训练模式;
如果选择进入训练模式,则进行语料训练和分类训练,训练完成后再提出问题;若能回答问题,则接收答案后结束,若不能回答问题,则再次进入训练模式。
如图3所示,所述语料训练的步骤包括:
向标签解析器发送学习标签,标签解析器对接收到的学习标签进行解析;将解析后的学习标签数据存入操作日常语料数据库;操作日常语料数据库将存入的学习标签数据整合为训练分类模型。
如图2所示,所述分类训练的步骤包括:
聊天控制器向分类服务层发送训练分类模型;分类服务器获取到训练分类模型后,根据该训练分类模型在分类服务器中进行分词的分类训练;在分类服务器中完成分类训练后,线性分类器根据聊天控制器发送的训练分类模型,创造线性分类模式,生成分类训练器;分类训练器根据线性分类器创造的线性分类模式,对已进行分类训练的分词进行线性分类训练;线性分类训练结束后,完成分类训练。
上述分类训练为朴素贝叶斯分类,可分为三个阶段:
(1)准备工作阶段:
这个阶段的任务是为朴素贝叶斯分类做必要的准备,主要工作是根据实际训练时确定的特征属性,并对每个特征属性进行适当划分,然后由人工对一部分待分类项进行分类,形成训练样本集合。这一阶段向聊天控制器输入的是所有待分类数据,输出的是特征属性、特征属性划分的类别、训练分类模型等。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段,其质量对整个过程有重要影响,分类服务器的质量很大成都上由特征属性、特征属性划分的类别、训练分类模型的质量决定。
(2)生成分类训练器阶段
这个阶段的任务是生成分类训练器,主要工作是计算每个特征属性的类别在训练分类模型中出现的频率,并记录结果。向线性分类器中输入特征属性和训练分类模型,线性分类器生成分类训练器。
(3)应用阶段
这个阶段的任务是使用分类训练器对分词进行分类,向生成的分类训练器中输入线性分类模式和需要分类的分词,分类训练器完成分类后输出已分类的分词。
本发明的分词分类训练结果可支持以下查询:聊天、文化、体育、军事、新闻、娱乐、财经、科技、战争、最近一周天气等。大致分为新闻和天气两类查询,新闻的查询是默认基于内容的查询,将最靠近当前日期的新闻优先查询,并且支持显示链接和显示原文内容两种展现形式。天气的查询可根据用户输入的查询内容,自动提取时间、地点关键词。
如图4所示,本发明支持手动输入文字查询和语音查询,采用本发明的系统,用户在终端上点击语音按钮,对着终端自带的话筒说话,系统便能自动识别语音,将语音文字显示到输入框中,系统对这个文字进行分词、提取关键词等处理,返还最贴近用户偏好的数据。
其中天气查询的原理为:系统会先使用ALICE开源进行AIML语料查询,匹配到天气关键词后,再进入IKA analyzer(中文分词工具)中天气处理的对应方法,调用FNLP第三方工具类,对时间、地点关键词进行提取和转换,再去天气表查询,并将查询结果返回给用户。
新闻查询的原理为:采用LUCENE对新闻的标题、原文链接、图片链接、ID、时间、类型、来源等建立索引,创建自定义同义词查询,在基于内容查询时,系统会基于时间对新闻的得分进行调整,并将举例当前查询时间最近的新闻优先推荐。
需要说明的是,ALICE开源聊天机器人的AIML语料查询是将输入修改为源代码,使其支持中文分析,系统首先查找语料,若未查找到则使用LUCENE索引进行查询。IKAanalyzer(中文分词工具)对中文进行智能分词,提取关键词,能够对地点、时间等特殊名词进行处理,使用FNLP工具对分类模型进行训练,能够基于用户查询历史,对用户进行分类,通过分类来改变用户偏好,使推荐更加精确。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (4)

1.一种分词的智能问答机器人训练方法,对分词模型进行训练,其特征在于:所述对分词模型进行训练的步骤包括:
以管理员身份进入分词训练界面,选择是否进入训练模式;
如果选择不进入训练模式,则提出问题;若能回答问题,则接收答案后结束,若不能回答问题,则进入训练模式;
如果选择进入训练模式,则进行语料训练和分类训练,训练完成后结束。
2.根据权利要求1所述的一种分词的智能问答机器人训练方法,其特征在于:所述对分词模型进行训练的步骤还包括:
选择分类训练或语料训练后,再提出问题;
若能回答问题,则接收答案后结束,若不能回答问题,则再次进入训练模式。
3.根据权利要求2所述的一种分词的智能问答机器人训练方法,其特征在于:所述语料训练的步骤包括:
向标签解析器发送学习标签,标签解析器对接收到的学习标签进行解析;
将解析后的学习标签数据存入操作日常语料数据库;
操作日常语料数据库将存入的学习标签数据整合为训练分类模型。
4.根据权利要求3所述的一种分词的智能问答机器人训练方法,其特征在于:所述分类训练的步骤包括:
聊天控制器向分类服务层发送训练分类模型;
分类服务器获取到训练分类模型后,根据该训练分类模型在分类服务器中进行分词的分类训练;
在分类服务器中完成分类训练后,线性分类器根据聊天控制器发送的训练分类模型,创造线性分类模式,生成分类训练器;
分类训练器根据线性分类器创造的线性分类模式,对已进行分类训练的分词进行线性分类训练;
线性分类训练结束后,完成分类训练。
CN201910873592.0A 2019-09-17 2019-09-17 一种分词的智能问答机器人训练方法 Pending CN110674273A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910873592.0A CN110674273A (zh) 2019-09-17 2019-09-17 一种分词的智能问答机器人训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910873592.0A CN110674273A (zh) 2019-09-17 2019-09-17 一种分词的智能问答机器人训练方法

Publications (1)

Publication Number Publication Date
CN110674273A true CN110674273A (zh) 2020-01-10

Family

ID=69078399

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910873592.0A Pending CN110674273A (zh) 2019-09-17 2019-09-17 一种分词的智能问答机器人训练方法

Country Status (1)

Country Link
CN (1) CN110674273A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657463A (zh) * 2015-02-10 2015-05-27 乐娟 应用于自动问答系统的问句分类方法及装置
US9384450B1 (en) * 2015-01-22 2016-07-05 International Business Machines Corporation Training machine learning models for open-domain question answering system
CN106484664A (zh) * 2016-10-21 2017-03-08 竹间智能科技(上海)有限公司 一种短文本间相似度计算方法
WO2018149326A1 (zh) * 2017-02-16 2018-08-23 阿里巴巴集团控股有限公司 一种自然语言问句答案的生成方法、装置及服务器
CN110162611A (zh) * 2019-04-23 2019-08-23 苏宁易购集团股份有限公司 一种智能客服应答方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9384450B1 (en) * 2015-01-22 2016-07-05 International Business Machines Corporation Training machine learning models for open-domain question answering system
CN104657463A (zh) * 2015-02-10 2015-05-27 乐娟 应用于自动问答系统的问句分类方法及装置
CN106484664A (zh) * 2016-10-21 2017-03-08 竹间智能科技(上海)有限公司 一种短文本间相似度计算方法
WO2018149326A1 (zh) * 2017-02-16 2018-08-23 阿里巴巴集团控股有限公司 一种自然语言问句答案的生成方法、装置及服务器
CN110162611A (zh) * 2019-04-23 2019-08-23 苏宁易购集团股份有限公司 一种智能客服应答方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
宋万里: ""智能答疑系统的设计与实现"", 《电脑知识与技术》 *
林凌武等: "智能穿戴设备中的自动问答系统研究", 《广东石油化工学院学报》 *

Similar Documents

Publication Publication Date Title
CN115238101B (zh) 一种面向多类型知识库的多引擎智能问答系统
CN107609101B (zh) 智能交互方法、设备及存储介质
US6654735B1 (en) Outbound information analysis for generating user interest profiles and improving user productivity
WO2021017612A1 (zh) 基于语音分析的问答方法、装置、设备及存储介质
CN110888990B (zh) 文本推荐方法、装置、设备及介质
CN109710935B (zh) 一种基于文物知识图谱的博物馆导览与知识推荐方法
CN110795542B (zh) 对话方法及相关装置、设备
US9898464B2 (en) Information extraction supporting apparatus and method
CN110120001B (zh) 一种基于知识图谱库与记忆曲线结合提分的方法及系统
CN107748784B (zh) 一种通过自然语言实现结构化数据搜索的方法
US20090063132A1 (en) Information Processing Apparatus, Information Processing Method, and Program
US10586174B2 (en) Methods and systems for finding and ranking entities in a domain specific system
CN116756295B (zh) 知识库的检索方法、装置及存储介质
TWI743623B (zh) 基於人工智慧的商務智慧系統及其分析方法
CN113076423A (zh) 数据处理方法及装置、数据查询方法及装置
JP7096172B2 (ja) キャラクタ性に応じた形容発話を含む対話シナリオを生成する装置、プログラム及び方法
CN107632974B (zh) 适用于多领域的中文分析平台
US20170109411A1 (en) Assisted creation of a search query
CN114138969A (zh) 文本处理方法及装置
CN106021532A (zh) 关键词的显示方法和装置
CN117420998A (zh) 一种客户端ui交互组件生成方法、装置、终端及介质
CN112597768A (zh) 文本审核方法、装置、电子设备、存储介质及程序产品
CN107807949A (zh) 智能交互方法、设备及存储介质
JP7188879B2 (ja) 提供装置、提供方法及び提供プログラム
KR102539892B1 (ko) 개인화된 검색 브라우저 기반 언어 학습 방법 및 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200110