CN112749264A - 基于智能机器人的问题分发方法、装置、电子设备及存储介质 - Google Patents
基于智能机器人的问题分发方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112749264A CN112749264A CN202011645357.7A CN202011645357A CN112749264A CN 112749264 A CN112749264 A CN 112749264A CN 202011645357 A CN202011645357 A CN 202011645357A CN 112749264 A CN112749264 A CN 112749264A
- Authority
- CN
- China
- Prior art keywords
- text set
- question
- training
- original
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 102
- 239000013598 vector Substances 0.000 claims description 34
- 238000006243 chemical reaction Methods 0.000 claims description 22
- 238000012163 sequencing technique Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000009466 transformation Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000007726 management method Methods 0.000 description 5
- 238000013475 authorization Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013145 classification model Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000005728 strengthening Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种人工智能技术,揭露了一种基于智能机器人的问题分发方法,包括:利用预构建的语言模型对采集的原始问题文本集进行加强训练生成初始问题文本集;对所述初始问题文本集进行权重调整生成标准问题文本集,根据所述标准问题文本集以及所述语言模型生成问答分发模型;接收用户提交的问题文本集,通过所述问答分发模型对所述问题文本集中的问题文本进行问题分发并收集得到的答案输出给用户。此外,本发明还涉及区块链技术,所述问题文本集可存储于区块链中。本发明还提出一种智能问答机器人问题分发模型装置、电子设备以及计算机可读存储介质。本发明可以提高模型分发的准确性和精度并提高效率。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于智能机器人的问题分发方法、装置、电子设备及计算机可读存储介质。
背景技术
问题分发模型是利用一个机器人尝试对用户问题进行意图分析和答案匹配的模型。当前的问题分发模型主要有两种实施方式,一种基于TF-IDF算法,另一种基于传统多分类模型,虽然这两种方式都可达到对用户问题进行意图分析和答案匹配的目的,但有以下缺陷:1、通过TF-IDF算法提炼关键词,组成文本向量,再对其进行分类的方式,对某些客户问题较为简短的场景,存在准确率和精度都不是特别高问题;2、通过传统多分类模型,或者多个分类模型组合的方式,需要花大量时间调整模型参数和结构,因此存在问题分发效率低下的问题。
发明内容
本发明提供一种基于智能机器人的问题分发方法、装置及计算机可读存储介质,其主要目的在于提高模型分发的准确性和精度并提高效率。
为实现上述目的,本发明提供的一种基于智能机器人的问题分发方法,包括:
利用预构建的语言模型对采集的原始问题文本集进行加强训练生成初始问题文本集;
对所述初始问题文本集进行权重调整生成标准问题文本集,根据所述标准问题文本集以及所述语言模型生成问答分发模型;
接收用户提交的问题文本集,通过所述问答分发模型对所述问题文本集中的问题文本进行问题分发并收集得到的答案输出给用户。
可选地,所述语言模型包括自注意力层、多头自注意层以及编码转换层,及所述利用预构建的语言模型对采集的原始问题文本集进行加强训练生成初始问题文本集,包括:
通过所述自注意力层对所述原始问题文本集中的每个字分别执行增强语义向量表示;
利用所述多头自注意层对所述原始问题文本集中执行增强语义向量表示后的每个字匹配到适合的语义场景;
利用所述编码转换层根据所述匹配到的语义场景将所述原始问题文本集转换为初始问题文本集。
可选地,所述将所述原始问题文本集转换为初始问题文本集,包括:
使用所述编码转换层的第一训练层训练所述原始问题文本集中的文本,得到预测问题文本集;
使用所述编码转换层的第二训练层训练所述预测问题文本集中的文本,得到所述初始问题文本集。
可选地,所述使用所述编码转换层的第一训练层训练所述原始问题文本集中的文本,得到预测问题文本集,包括:
遍历所述原始问题文本集中的文本,随机抹去并替换所述文本内的一个或几个词,得到原始替换文本集;
遍历所述原始替换文本集中的文本,预测所述文本中被替换的词,得到预测问题文本集。
可选地,所述使用所述编码转换层的第二训练层训练所述预测问题文本集中的文本,得到所述初始问题文本集,包括:
将所述预测问题文本集中的语句排列顺序打乱,得到预测问题文本乱序集;
从所述预测问题文本集中选取第一数量的未打乱排序的语句对,及从所述预测问题文本乱序集选取第二数量的打乱排序的语句对,汇总所有语序对,得到语句对集;
遍历所述语句对集中的语句对,判断所述语句对中第二句话在文本中是否紧跟在第一句话之后,以得到排序正确的语句;
汇总所有排序正确的语句,得到所述初始问题文本集。
为了解决上述问题,本发明还提供一种基于智能机器人的问题分发装置,所述装置包括:
问题训练模块,用于利用预构建的语言模型对采集的原始问题文本集进行加强训练生成初始问题文本集;
模型生成模块,用于对所述初始问题文本集进行权重调整生成标准问题文本集,根据所述标准问题文本集以及所述语言模型生成问答分发模型;
问题分发模块,用于接收用户提交的问题文本集,通过所述问答分发模型对所述问题文本集中的问题文本进行问题分发并收集得到的答案输出给用户。
可选地,所述所述语言模型包括自注意力层、多头自注意层以及编码转换层,以及所述问题训练模块在生成所述初始问题文本集时具体用于:
通过所述自注意力层对所述原始问题文本集中的每个字分别执行增强语义向量表示;
利用所述多头自注意层对所述原始问题文本集中执行增强语义向量表示后的每个字匹配到适合的语义场景;
利用所述编码转换层根据所述匹配到的语义场景将所述原始问题文本集转换为初始问题文本集。
优选地,所述问题训练模块在生成所述初始问题文本集时还用于:
使用所述编码转换层的第一训练层训练所述原始问题文本集中的文本,得到预测问题文本集;
使用所述编码转换层的第二训练层训练所述预测问题文本集中的文本,得到所述初始问题文本集。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现上述所述的基于智能机器人的问题分发方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的基于智能机器人的问题分发方法。
本发明实施例将采集的原始问题文本集传输至预构建的语言模型中进行加强训练并生成初始问题文本集,不需要提炼关键词进行分类,提高了简短问题场景下问题分发的准确性和精度进一步地,对所述初始问题文本集进行权重调整生成标准问题文本集,将所述标准问题文本集结合所述语言模型生成问答分发模型,因为对所述初始问题文本集进行权重调整,不需要花大量时间调整模型参数和结构,因此提高了模型分发的效率。因此本发明提出的基于智能机器人的问题分发方法、装置及计算机可读存储介质,可以提高模型分发的准确性和精度并提高效率。
附图说明
图1为本发明一实施例提供的基于智能机器人的问题分发方法的流程示意图;
图2为图1中其中一个步骤的详细实施流程示意图;
图3为图1中另一个步骤的详细实施流程示意图;
图4为本发明一实施例提供的基于智能机器人的问题分发装置的功能模块图;
图5为本发明一实施例提供的实现所述基于智能机器人的问题分发方法的电子设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供的基于智能机器人的问题分发方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述基于智能机器人的问题分发方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。
本发明提供一种基于智能机器人的问题分发方法。参照图1所示,为本发明一实施例提供的基于智能机器人的问题分发方法的流程示意图。在本实施例中,所述基于智能机器人的问题分发方法包括:
S1、利用预构建的语言模型对采集的原始问题文本集进行加强训练生成初始问题文本集。
本发明实施例中,所述原始问题集来自于从不同领域采集的客户问题,所述语言模型是基于强化训练的BERT(Bidirectional Encoder Representations fromTransformers,来自变换器的双向编码器表征量)模型。
详细地,所述BERT模型包含自注意力(Self-Attention)、多头自注意力(Multi-head Self-Attention)和编码转换(Transformer Encoder)三层。
其中,所述Self-Attention用于将输入的原始问题文本集中的每个字分别执行增强语义向量表示。所述Self-Attention涉及三个概念:查询(Query)、关键字(Key)和语义(Value)。每个字及其上下文的字都有各自的原始Value,Self-Attention将目标字作为Query、其上下文的各个字作为Key,并将Query与各个Key的相似性作为权重,把上下文各个字的Value融入目标字的原始Value中。本发明实施例中,所述Self-Attention分别将输入的原始问题文本集中的每个字(Key)作为查询(Query),加权融合所述文本集所有字的语义(Value),得到所述每个字的增强语义向量(即在不同语义场景有不同的意思)。
进一步地,所述Multi-head Self-Attention是为了增强所述BERT模型的多样性,进一步利用不同的Self-Attention获得文本中每个字在不同语义场景下的增强语义向量。所述Multi-head Self-Attention可以理解为考虑多种语义场景下目标字与文本中其它字的语义向量的不同融合方式,并将每个字的多个增强语义向量进行线性组合,从而将每个字的多个语义向量正确匹配到不同的语义场景。所述Multi-head Self-Attention的输入和输出在形式上完全相同。在不同的语义场景下,所述BERT模型所重点关注的字应有所不同,如:“南京市长江大桥”,在不同语义场景下对这句话可以有不同的理解:“南京市/长江大桥”,或“南京市长/江大桥”。对于这句话中的“长”字,在前一种语义场景下需要和“江”字组合才能形成一个正确的语义单元;而在后一种语义场景下,它则需要和“市”字组合才能形成一个正确的语义单元。本发明实施例通过所述Multi-head Self-Attention可以匹配到适合的语义场景。
进一步地,所述Transformer Encoder一般连接在Multi-headSelf-Attention之后,用于生成文本。所述Transformer Encoder的内部结构为在Multi-head Self-Attention之上添加了三种关键操作:残差连接、层标准化(Layer Normalization)和线性转换。
其中,所述残差连接将所述Transformer Encoder的输入与输出直接相加,作为最后的输出。由于修改输入比重新构建整个输出更容易,因此可以使网络更容易训练。所述Layer Normalization是对某一层神经网络节点作0均值1方差的标准化。所述线性转换是对每个字的增强语义向量再做两次线性变换,以增强整个模型的表达能力。其中,所述两次线性变换后的向量与原向量保持长度相同。
较佳地,本发明实施例中,所述Transformer Encoder层为训练层,并包括第一训练层和第二训练层。其中,所述第一训练层用于训练所述原始问题文本集中的文本,得到预测问题文本集;以及所述第二训练层用于训练所述预测问题文本集中的文本,得到所述初始问题文本集。
具体地,所述第一训练层可选用当前已公开的标记替代训练层(Masked LM)。所述Masked LM的训练描述为:给定所述原始问题文本集中的一句话,随机抹去并替换这句话中的一个或几个词,要求根据剩余词汇预测被替换的几个词分别是什么。对于在原句中被抹去的词汇,80%情况下采用一个特殊符号[MASK]替换,10%情况下采用一个任意词替换,剩余10%情况下保持原词汇不变,得到原始替换文本集;遍历所述原始替换文本集中的文本,预测所述文本中被替换的词,得到预测问题文本集。这么做的主要好处是:预测一个词汇时,模型并不知道输入对应位置的词汇是否为正确的词汇(10%概率),这就迫使模型更多地依赖于上下文信息去预测词汇,并且赋予了模型一定的纠错能力。
具体地,所述第二训练层可选用当前已公开的下一句预测训练层(Next SentencePrediction)。所述Next Sentence Prediction的训练描述为:给定所述预测问题文本集中的两句话,判断第二句话在文本中是否紧跟在第一句话之后。具体来说,将预测问题文本集中的各段打乱,让下一句预测训练层通过重新排序把原文还原出来,这其实需要所述下一句预测训练层对全文大意有充分、准确的理解。所述下一句预测训练层的任务实际上就是段落重排序的简化版:只考虑两句话,判断是否是所述预测问题文本集中的前后句。在实际加强训练过程中,所述下一句预测训练层从所述预测问题文本集中随机选择50%未打乱排序的语句对,从所述预测问题文本乱序集中选取50%打乱排序的语句对,汇总所有语序对,得到语句对集。对所述语句对集中的语句对进行判断,与所述Masked LM相结合,让所述BERT模型能够更准确地刻画语句乃至篇章层面的语义信息。
综上所述,本发明实施例中所述S1所述利用一个预构建的语言模型对采集的原始问题文本集进行加强训练生成初始问题文本集,包括:
通过所述自注意力(Self-Attention)层对所述原始问题文本集中的每个字分别执行增强语义向量表示;
利用所述多头自注意层(Multi-head Self-Attention)层对所述原始问题文本集中执行增强语义向量表示后的每个字匹配到适合的语义场景;
利用所述编码转换(Transformer Encoder)层根据所述匹配到的语义场景将所述原始问题文本集转换为初始问题文本集。
详细地,参阅图2所示,所述将所述原始问题文本集转换为初始问题文本集,包括:
S10、使用所述编码转换层的第一训练层训练所述原始问题文本集中的文本,得到预测问题文本集;
S11、使用所述编码转换层的第二训练层训练所述预测问题文本集中的文本,得到所述初始问题文本集。
进一步地,所述使用所述编码转换层的第一训练层训练所述原始问题文本集中的文本,得到预测问题文本集,包括:
遍历所述原始问题文本集中的文本,随机抹去并替换所述文本内的一个或几个词,得到原始替换文本集;
遍历所述原始替换文本集中的文本,预测所述文本中被替换的词,得到预测问题文本集。
进一步地,所述使用所述编码转换层的第二训练层训练所述预测问题文本集中的文本,得到所述初始问题文本集,包括:
将所述预测问题文本集中的语句排列顺序打乱,得到预测问题文本乱序集;
从所述预测问题文本集中选取第一数量的未打乱排序的语句对,及从所述预测问题文本乱序集选取第二数量的打乱排序的语句对,汇总所有语序对,得到语句对集;
遍历所述语句对集中的语句对,判断所述语句对中第二句话在文本中是否紧跟在第一句话之后,以得到排序正确的语句,其中,当语句对中第二句话在文本中是否紧跟在第一句话之后,则这两句话为排序正确的语句;
汇总所有排序正确的语句,得到所述初始问题文本集。
S2、对所述初始问题文本集进行权重调整生成标准问题文本集,根据所述标准问题文本集以及所述语言模型生成问答分发模型。
较佳地,参阅图3所示,所述S2具体包括:
S20、计算所述初始问题文本集中不同领域问题的占比P1,P2,P3,...Pn;
S21、根据所述不同领域问题的占比,采用下述方法计算得到所述不同领域问题的类别的权重:计算1/P1,1/P2,1/P3,…1/Pn,并将所述1/P1,1/P2,1/P3,…1/Pn序列进行归一化,得到各个类别的权重系数:
S22、根据所述初始问题文本集中的不同领域问题的类别,调整各个类别问题的权重系数,并生成标准问题文本集。
本发明实施例利用所述标准问题文本集训练所述语言模型,使得所述语言模型根据所述标准问题文本集中的问题的类别权重,能够将不同类别的问题分发至不同领域的机器人进行回答,从而生成问答分发模型。
S3、接收用户提交的问题文本集,通过所述问答分发模型对所述问题文本集中的问题文本进行问题分发并收集得到的答案输出给用户。
本发明实施例中,所述问答分发模型对所述问题文本集中的问题文本分发给不同的机器人进行回答,并收集各个机器人给出的答案输出给用户。
如用户A输入问题为“如果我的证券账户给人家使用,我会不会有什么风险?或者承担什么责任?”,所述问答分发模型会将“我会不会有什么风险”,“承担什么责任”分别分发给不同的机器人进行回答,收集每个机器人回复的答案“一个身份证只能开一个户头,个人在有证券账户的前提下无法用个人的身份证再开证券帐户”及“此证券账户若出现操纵股票市场等违法行为,证券账户的持有人要承担相应的法律责任”,并将收集的问题输出给用户A。
本发明实施例将采集的原始问题文本集传输至预构建的语言模型中进行加强训练并生成初始问题文本集,不需要提炼关键词进行分类,提高了简短问题场景下问题分发的准确性和精度进一步地,对所述初始问题文本集进行权重调整生成标准问题文本集,将所述标准问题文本集结合所述语言模型生成问答分发模型,因为对所述初始问题文本集进行权重调整,不需要花大量时间调整模型参数和结构,因此提高了模型分发的效率。因此本发明提出的基于智能机器人的问题分发方法、装置及计算机可读存储介质,可以提高模型分发的准确性和精度并提高效率。
如图4所示,是本发明一实施例提供的基于智能机器人的问题分发装置的功能模块图。
本发明所述基于智能机器人的问题分发装置100可以安装于电子设备中。根据实现的功能,所述目标物损伤程度判定装置可以包括问题训练模块101、模型生成模块102及问题分发模块103。本发所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述问题训练模块101,用于利用预构建的语言模型对采集的原始问题文本集进行加强训练生成初始问题文本集。
本发明实施例中,所述原始问题集来自于从不同领域采集的客户问题,所述语言模型是基于强化训练的BERT(Bidirectional Encoder Representations fromTransformers,来自变换器的双向编码器表征量)模型。
详细地,所述BERT模型包含自注意力(Self-Attention)、多头自注意力(Multi-head Self-Attention)和编码转换(Transformer Encoder)三层。
其中,所述Self-Attention用于将输入的原始问题文本集中的每个字分别执行增强语义向量表示。所述Self-Attention涉及三个概念:查询(Query)、关键字(Key)和语义(Value)。每个字及其上下文的字都有各自的原始Value,Self-Attention将目标字作为Query、其上下文的各个字作为Key,并将Query与各个Key的相似性作为权重,把上下文各个字的Value融入目标字的原始Value中。本发明实施例中,所述Self-Attention分别将输入的原始问题文本集中的每个字(Key)作为查询(Query),加权融合所述文本集所有字的语义(Value),得到所述每个字的增强语义向量(即在不同语义场景有不同的意思)。
进一步地,所述Multi-head Self-Attention是为了增强所述BERT模型的多样性,进一步利用不同的Self-Attention获得文本中每个字在不同语义场景下的增强语义向量。所述Multi-head Self-Attention可以理解为考虑多种语义场景下目标字与文本中其它字的语义向量的不同融合方式,并将每个字的多个增强语义向量进行线性组合,从而将每个字的多个语义向量正确匹配到不同的语义场景。所述Multi-head Self-Attention的输入和输出在形式上完全相同。在不同的语义场景下,所述BERT模型所重点关注的字应有所不同,如:“南京市长江大桥”,在不同语义场景下对这句话可以有不同的理解:“南京市/长江大桥”,或“南京市长/江大桥”。对于这句话中的“长”字,在前一种语义场景下需要和“江”字组合才能形成一个正确的语义单元;而在后一种语义场景下,它则需要和“市”字组合才能形成一个正确的语义单元。本发明实施例通过所述Multi-head Self-Attention可以匹配到适合的语义场景。
进一步地,所述Transformer Encoder一般连接在Multi-headSelf-Attention之后,用于生成文本。所述Transformer Encoder的内部结构为在Multi-head Self-Attention之上添加了三种关键操作:残差连接、层标准化(Layer Normalization)和线性转换。
其中,所述残差连接将所述Transformer Encoder的输入与输出直接相加,作为最后的输出。由于修改输入比重新构建整个输出更容易,因此可以使网络更容易训练。所述Layer Normalization是对某一层神经网络节点作0均值1方差的标准化。所述线性转换是对每个字的增强语义向量再做两次线性变换,以增强整个模型的表达能力。其中,所述两次线性变换后的向量与原向量保持长度相同。
较佳地,本发明实施例中,所述Transformer Encoder层为训练层,并包括第一训练层和第二训练层。其中,所述第一训练层用于训练所述原始问题文本集中的文本,得到预测问题文本集;以及所述第二训练层用于训练所述预测问题文本集中的文本,得到所述初始问题文本集。
具体地,所述第一训练层可选用当前已公开的标记替代训练层(Masked LM)。所述Masked LM的训练描述为:给定所述原始问题文本集中的一句话,随机抹去并替换这句话中的一个或几个词,要求根据剩余词汇预测被替换的几个词分别是什么。对于在原句中被抹去的词汇,80%情况下采用一个特殊符号[MASK]替换,10%情况下采用一个任意词替换,剩余10%情况下保持原词汇不变,得到原始替换文本集;遍历所述原始替换文本集中的文本,预测所述文本中被替换的词,得到预测问题文本集。这么做的主要好处是:预测一个词汇时,模型并不知道输入对应位置的词汇是否为正确的词汇(10%概率),这就迫使模型更多地依赖于上下文信息去预测词汇,并且赋予了模型一定的纠错能力。
具体地,所述第二训练层可选用当前已公开的下一句预测训练层(Next SentencePrediction)。所述Next Sentence Prediction的训练描述为:给定所述预测问题文本集中的两句话,判断第二句话在文本中是否紧跟在第一句话之后。具体来说,将预测问题文本集中的各段打乱,让下一句预测训练层通过重新排序把原文还原出来,这其实需要所述下一句预测训练层对全文大意有充分、准确的理解。所述下一句预测训练层的任务实际上就是段落重排序的简化版:只考虑两句话,判断是否是所述预测问题文本集中的前后句。在实际加强训练过程中,所述下一句预测训练层从所述预测问题文本集中随机选择50%未打乱排序的语句对,从所述预测问题文本乱序集中选取50%打乱排序的语句对,汇总所有语序对,得到语句对集。对所述语句对集中的语句对进行判断,与所述Masked LM相结合,让所述BERT模型能够更准确地刻画语句乃至篇章层面的语义信息。
综上所述,本发明实施例中所述问题训练模块101所述利用一个预构建的语言模型对采集的原始问题文本集进行加强训练生成初始问题文本集,包括:
通过所述自注意力(Self-Attention)层对所述原始问题文本集中的每个字分别执行增强语义向量表示;
利用所述多头自注意层(Multi-head Self-Attention)层对所述原始问题文本集中执行增强语义向量表示后的每个字匹配到适合的语义场景;
利用所述编码转换(Transformer Encoder)层根据所述匹配到的语义场景将所述原始问题文本集转换为初始问题文本集。
详细地,所述问题训练模块101在将所述原始问题文本集转换为初始问题文本集时具体执行下述操作:
使用所述编码转换层的第一训练层训练所述原始问题文本集中的文本,得到预测问题文本集;
使用所述编码转换层的第二训练层训练所述预测问题文本集中的文本,得到所述初始问题文本集。
进一步地,所述使用所述编码转换层的第一训练层训练所述原始问题文本集中的文本,得到预测问题文本集,包括:
遍历所述原始问题文本集中的文本,随机抹去并替换所述文本内的一个或几个词,得到原始替换文本集;
遍历所述原始替换文本集中的文本,预测所述文本中被替换的词,得到预测问题文本集。
进一步地,所述使用所述编码转换层的第二训练层训练所述预测问题文本集中的文本,得到所述初始问题文本集,包括:
将所述预测问题文本集中的语句排列顺序打乱,得到预测问题文本乱序集;
从所述预测问题文本集中选取第一数量的未打乱排序的语句对,及从所述预测问题文本乱序集选取第二数量的打乱排序的语句对,汇总所有语序对,得到语句对集;
遍历所述语句对集中的语句对,判断所述语句对中第二句话在文本中是否紧跟在第一句话之后,以得到排序正确的语句,其中,当语句对中第二句话在文本中是否紧跟在第一句话之后,则这两句话为排序正确的语句;
汇总所有排序正确的语句,得到所述初始问题文本集。
所述模型生成模块102,用于对所述初始问题文本集进行权重调整生成标准问题文本集,根据所述标准问题文本集以及所述语言模型生成问答分发模型。
详细地,所述模型生成模块102对所述初始问题文本集进行权重调整生成标准问题文本集时,具体执行下述操作:
计算所述初始问题文本集中不同领域问题的占比P1,P2,P3,...Pn;
根据所述不同领域问题的占比,采用下述方法计算得到所述不同领域问题的类别的权重:计算1/P1,1/P2,1/P3,…1/Pn,并将所述1/P1,1/P2,1/P3,…1/Pn序列进行归一化,得到各个类别的权重系数:
根据所述初始问题文本集中的不同领域问题的类别,调整各个类别问题的权重系数,并生成标准问题文本集。
本发明实施例所述模型生成模块102利用所述标准问题文本集训练所述语言模型,使得所述语言模型根据所述标准问题文本集中的问题的类别权重,能够将不同类别的问题分发至不同领域的机器人进行回答,从而生成问答分发模型。
所述问题分发模型103,用于接收用户提交的问题文本集,通过所述问答分发模型对所述问题文本集中的问题文本进行问题分发并收集得到的答案输出给用户。
本发明实施例中,所述问答分发模型103对所述问题文本集中的问题文本分发给不同的机器人进行回答,并收集各个机器人给出的答案输出给用户。
如用户A输入问题为“如果我的证券账户给人家使用,我会不会有什么风险?或者承担什么责任?”,所述问答分发模型会将“我会不会有什么风险”,“承担什么责任”分别分发给不同的机器人进行回答,收集每个机器人回复的答案“一个身份证只能开一个户头,个人在有证券账户的前提下无法用个人的身份证再开证券帐户”及“此证券账户若出现操纵股票市场等违法行为,证券账户的持有人要承担相应的法律责任”,并将收集的问题输出给用户A。
如图5所示,是本发明一实施例提供的实现基于智能机器人的问题分发方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如基于智能机器人的问题分发程序12。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如基于智能机器人的问题分发程序12的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如基于智能机器人的问题分发程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图5仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图5示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的基于智能机器人的问题分发程序12是多个指令的组合,在所述处理器10中运行时,可以实现:
利用预构建的语言模型对采集的原始问题文本集进行加强训练生成初始问题文本集;
对所述初始问题文本集进行权重调整生成标准问题文本集,根据所述标准问题文本集以及所述语言模型生成问答分发模型;
接收用户提交的问题文本集,通过所述问答分发模型对所述问题文本集中的问题文本进行问题分发并收集得到的答案输出给用户。
具体地,所述处理器10对上述指令的具体实现方法可参考图1至图3对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种基于智能机器人的问题分发方法,其特征在于,所述方法包括:
利用预构建的语言模型对采集的原始问题文本集进行加强训练生成初始问题文本集;
对所述初始问题文本集进行权重调整生成标准问题文本集,根据所述标准问题文本集以及所述语言模型生成问答分发模型;
接收用户提交的问题文本集,通过所述问答分发模型对所述问题文本集中的问题文本进行问题分发并收集得到的答案输出给用户。
2.如权利要求1所述的基于智能机器人的问题分发方法,其特征在于,所述语言模型包括自注意力层、多头自注意层以及编码转换层,及所述利用预构建的语言模型对采集的原始问题文本集进行加强训练生成初始问题文本集,包括:
通过所述自注意力层对所述原始问题文本集中的每个字分别执行增强语义向量表示;
利用所述多头自注意层对所述原始问题文本集中执行增强语义向量表示后的每个字匹配到适合的语义场景;
利用所述编码转换层根据所述匹配到的语义场景将所述原始问题文本集转换为初始问题文本集。
3.如权利要求2所述的基于智能机器人的问题分发方法,其特征在于,所述将所述原始问题文本集转换为初始问题文本集,包括:
使用所述编码转换层的第一训练层训练所述原始问题文本集中的文本,得到预测问题文本集;
使用所述编码转换层的第二训练层训练所述预测问题文本集中的文本,得到所述初始问题文本集。
4.如权利要求3所述的基于智能机器人的问题分发方法,其特征在于,所述使用所述编码转换层的第一训练层训练所述原始问题文本集中的文本,得到预测问题文本集,包括:
遍历所述原始问题文本集中的文本,随机抹去并替换所述文本内的一个或几个词,得到原始替换文本集;
遍历所述原始替换文本集中的文本,预测所述文本中被替换的词,得到预测问题文本集。
5.如权利要求3所述的基于智能机器人的问题分发方法,其特征在于,所述使用所述编码转换层的第二训练层训练所述预测问题文本集中的文本,得到所述初始问题文本集,包括:
将所述预测问题文本集中的语句排列顺序打乱,得到预测问题文本乱序集;
从所述预测问题文本集中选取第一数量的未打乱排序的语句对,及从所述预测问题文本乱序集选取第二数量的打乱排序的语句对,汇总所有语序对,得到语句对集;
遍历所述语句对集中的语句对,判断所述语句对中第二句话在文本中是否紧跟在第一句话之后,以得到排序正确的语句;
汇总所有排序正确的语句,得到所述初始问题文本集。
6.一种基于智能机器人的问题分发装置,其特征在于,所述装置包括:
问题训练模块,用于利用预构建的语言模型对采集的原始问题文本集进行加强训练生成初始问题文本集;
模型生成模块,用于对所述初始问题文本集进行权重调整生成标准问题文本集,根据所述标准问题文本集以及所述语言模型生成问答分发模型;
问题分发模块,用于接收用户提交的问题文本集,通过所述问答分发模型对所述问题文本集中的问题文本进行问题分发并收集得到的答案输出给用户。
7.如权利要求6所述的基于智能机器人的问题分发装置,其特征在于,所述语言模型包括自注意力层、多头自注意层以及编码转换层,以及所述问题训练模块在生成所述初始问题文本集时具体用于:
通过所述自注意力层对所述原始问题文本集中的每个字分别执行增强语义向量表示;
利用所述多头自注意层对所述原始问题文本集中执行增强语义向量表示后的每个字匹配到适合的语义场景;
利用所述编码转换层根据所述匹配到的语义场景将所述原始问题文本集转换为初始问题文本集。
8.如权利要求7所述的基于智能机器人的问题分发装置,其特征在于,所述问题训练模块在生成所述初始问题文本集时还用于:
使用所述编码转换层的第一训练层训练所述原始问题文本集中的文本,得到预测问题文本集;
使用所述编码转换层的第二训练层训练所述预测问题文本集中的文本,得到所述初始问题文本集。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至5中任意一项所述的基于智能机器人的问题分发方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任意一项所述的基于智能机器人的问题分发方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011645357.7A CN112749264A (zh) | 2020-12-30 | 2020-12-30 | 基于智能机器人的问题分发方法、装置、电子设备及存储介质 |
PCT/CN2021/090617 WO2022142019A1 (zh) | 2020-12-30 | 2021-04-28 | 基于智能机器人的问题分发方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011645357.7A CN112749264A (zh) | 2020-12-30 | 2020-12-30 | 基于智能机器人的问题分发方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112749264A true CN112749264A (zh) | 2021-05-04 |
Family
ID=75649667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011645357.7A Pending CN112749264A (zh) | 2020-12-30 | 2020-12-30 | 基于智能机器人的问题分发方法、装置、电子设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112749264A (zh) |
WO (1) | WO2022142019A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114492663A (zh) * | 2022-02-15 | 2022-05-13 | 平安国际智慧城市科技股份有限公司 | 事件智能分拨方法、装置、设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108121716A (zh) * | 2016-11-28 | 2018-06-05 | 北京华为数字技术有限公司 | 处理问题单的方法和问题单处理系统 |
US11790223B2 (en) * | 2017-04-07 | 2023-10-17 | Intel Corporation | Methods and systems for boosting deep neural networks for deep learning |
CN108197167A (zh) * | 2017-12-18 | 2018-06-22 | 深圳前海微众银行股份有限公司 | 人机对话处理方法、设备及可读存储介质 |
CN109800284B (zh) * | 2018-12-19 | 2021-02-05 | 中国电子科技集团公司第二十八研究所 | 一种面向任务的非结构化信息智能问答系统构建方法 |
CN110807332B (zh) * | 2019-10-30 | 2024-02-27 | 腾讯科技(深圳)有限公司 | 语义理解模型的训练方法、语义处理方法、装置及存储介质 |
CN111460095B (zh) * | 2020-03-17 | 2023-06-27 | 北京百度网讯科技有限公司 | 问答处理方法、装置、电子设备及存储介质 |
-
2020
- 2020-12-30 CN CN202011645357.7A patent/CN112749264A/zh active Pending
-
2021
- 2021-04-28 WO PCT/CN2021/090617 patent/WO2022142019A1/zh active Application Filing
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114492663A (zh) * | 2022-02-15 | 2022-05-13 | 平安国际智慧城市科技股份有限公司 | 事件智能分拨方法、装置、设备及存储介质 |
CN114492663B (zh) * | 2022-02-15 | 2024-06-07 | 平安国际智慧城市科技股份有限公司 | 事件智能分拨方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2022142019A1 (zh) | 2022-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112380343B (zh) | 问题解析方法、装置、电子设备及存储介质 | |
CN114822812A (zh) | 角色对话模拟方法、装置、设备及存储介质 | |
CN112988963B (zh) | 基于多流程节点的用户意图预测方法、装置、设备及介质 | |
CN115392237B (zh) | 情感分析模型训练方法、装置、设备及存储介质 | |
CN112269875B (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN112559687A (zh) | 问题识别及查询方法、装置、电子设备及存储介质 | |
CN114880449B (zh) | 智能问答的答复生成方法、装置、电子设备及存储介质 | |
CN112507663A (zh) | 基于文本的判断题生成方法、装置、电子设备及存储介质 | |
CN113807973A (zh) | 文本纠错方法、装置、电子设备及计算机可读存储介质 | |
CN115510188A (zh) | 文本关键词关联方法、装置、设备及存储介质 | |
CN115238115A (zh) | 基于中文数据的图像检索方法、装置、设备及存储介质 | |
CN113658002B (zh) | 基于决策树的交易结果生成方法、装置、电子设备及介质 | |
CN114610855A (zh) | 对话回复生成方法、装置、电子设备及存储介质 | |
CN114595321A (zh) | 问题标注方法、装置、电子设备及存储介质 | |
CN117390156A (zh) | 基于跨模态的问答对话方法、系统、设备及存储介质 | |
CN112749264A (zh) | 基于智能机器人的问题分发方法、装置、电子设备及存储介质 | |
CN112347739A (zh) | 适用规则分析方法、装置、电子设备及存储介质 | |
CN116702761A (zh) | 文本纠错方法、装置、设备及存储介质 | |
CN115169330B (zh) | 中文文本纠错及验证方法、装置、设备及存储介质 | |
CN114757154B (zh) | 基于深度学习的作业生成方法、装置、设备及存储介质 | |
CN116705345A (zh) | 医疗实体标注方法、装置、设备及存储介质 | |
CN114625340A (zh) | 基于需求分析的商用软件研发方法、装置、设备及介质 | |
CN113887201A (zh) | 文本定长纠错方法、装置、设备及存储介质 | |
CN112214594A (zh) | 文本简报的生成方法、装置、电子设备及可读存储介质 | |
CN114546882B (zh) | 智能问答系统测试方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |