CN111723583A - 基于意图角色的语句处理方法、装置、设备及存储介质 - Google Patents
基于意图角色的语句处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111723583A CN111723583A CN202010582596.6A CN202010582596A CN111723583A CN 111723583 A CN111723583 A CN 111723583A CN 202010582596 A CN202010582596 A CN 202010582596A CN 111723583 A CN111723583 A CN 111723583A
- Authority
- CN
- China
- Prior art keywords
- intention
- model
- role
- labeling
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本案涉及人工智能领域,应用于语义解析,提供一种基于意图角色的语句处理方法、装置、设备及存储介质。本方法包括:收集少量人工标注的带有意图角色标注的第一语料,并将第一语料输入预置第一序列化标注模型进行训练,得到第一意图角色标注模型;将大量原始文本语料输入所述第一意图角色标注模型进行意图角色标注,得到第二语料,并将第二语料输入第一意图角色标注模型;获取线上用户输入的第一提问语句并输入第二意图角色标注模型进行意图角色标注输出带有意图角色标注的第二提问语句。本发明通过训练得到的意图角色标注模型能独立应用于语义分析的任务,覆盖大部分用户问句的表达,可使用范围广。
Description
技术领域
本发明涉及语义解析领域,应用于人工智能,尤其涉及一种基于意图角色的语句处理方法、装置、设备及存储介质。
背景技术
随着社会的进步和大数据的发展,人工智能越来越普遍,一些包括金融在内的专业领域存在大量专业实体名词和专业名词,用户问句口语化导致的错别字和语法错误等问题依然十分常见,且基于中文本身的特点,中文自然语言处理的项目和任务,一般需要经过分词处理。所以在处理这些任务和相关项目时,经常会用到框架式的语义句法解析。然而,这种语义解析框架技术依赖于分词技术,若分词错误和不准确,将会对后续语义的解析产生较大的影响。
同时,由于现有的框架式语义句法解析工具大多无法应用于含有大量专业领域的专业术语的数据,不能适应于中文文本数据的解析,有的不是开源工具,或者需要行业专家耗费人力物力在特定领域进行标注等,适用范围小。
发明内容
本发明的主要目的在于解决现有的框架式语义解析工具无法识别专业领域的专业术语,意图角色标注依赖于分词等NLP领域常用的工具,不能独立应用于语义分析的任务的技术问题。
本发明第一方面提供了一种基于意图角色的语句处理方法,包括:
收集少量人工标注的带有意图角色标注的第一语料;
将所述第一语料作为第一训练样本集输入预置第一序列化标注模型进行训练,得到第一意图角色标注模型;
将大量原始文本语料输入所述第一意图角色标注模型进行意图角色标注,得到带有意图角色标注的第二语料;
将所述第二语料作为第二训练样本集输入所述第一意图角色标注模型进行训练,得到第二意图角色标注模型;
获取线上用户输入的第一提问语句并输入所述第二意图角色标注模型进行意图角色标注,输出带有意图角色标注的第二提问语句。
可选地,在本发明第一方面的第一种实现方式中,在所述收集少量人工标注的带有意图角色标注的第一语料之前,还包括:
获取原始文本语料并进行标注,得到多个标注语料;
将所述标注语料输入预置序列化标注模型进行训练,输出所述第一序列化标注模型;
其中,所述第一序列化标注模型的训练过程包括:
通过所述序列化标注模型的初始特征网络,获取所述原始文本语料对应的初始向量,其中,所述初始向量包括所述原始文本语料中每个元素的特征向量;
将所述初始向量输入所述序列化标注模型的特征提取网络,得到第三特征向量;
将所述第三特征向量输入所述序列化标注模型的标签预测网络,得到所述第三训练样集的训练标签结果;
基于所述训练标签结果和所述标准标签,对所述序列化标注模型进行迭代修正,得到训练后的第一序列化标注模型。
可选地,在本发明第一方面的第二种实现方式中,所述将所述第一语料作为第一训练样本集输入预置第一序列化标注模型进行训练,得到第一意图角色标注模型包括:
将所述第一训练样本集输入预置第一序列化标注模型进行预训练,并通过所述第一序列化标注模型对所述第一训练样本集中各训练样本进行序列标注,得到多个任务的预测标注结果;
根据所述预测标注结果,计算模型损失值;
将所述模型损失值反向输入所述第一序列化标注模型,判断所述模型损失值是否达到预设损失值;
若未达到,则采用反向传播算法根据所述模型损失值更新所述第一序列化标注模型的参数;
通过参数更新后的第一序列化标注模型对所述第一训练样本集进行处理,得到多个任务的预测标注结果;
基于所述预测标注结果,重新计算所述模型损失值;
若所述模型损失值达到预设损失值,则确认模型收敛,并将所述参数更新后的第一序列化标注模型作为最终训练得到的第一意图角色标注模型。
可选的,在本发明第一方面的第三种实现方式中,所述将所述第二语料作为第二训练样本集输入所述第一意图角色标注模型进行训练,得到第二意图角色标注模型包括:
将所述第二语料作为第二训练样本集输入所述第一意图角色标注模型的循环神经网络层,得到特征序列;
将所述特征序列输入所述第一意图角色标注模型的注意力层,得到所述第二训练样本集中各元素的注意力权重;
基于所述注意力权重,对所述特征序列进行加权,得到各元素的语义信息;
将所述语义信息输入所述第一意图角色标注模型的意图角色预测层,得到所述第二训练样本集的预测结果;
依据所述预测结果,计算Softmax损失函数,所述Softmax损失函数的计算公式如下:
其中N表示第二训练样本集中共有N个训练样本,i表示训练样本的序号,xi表示第二训练样本集中的第i个训练样本,yi表示第i个训练样本对应的预测结果,Yxi表示第二训练样本集对应的预测结果,S(xi,yi)表示预测结果yi的总得分;
计算所述Softmax损失函数的梯度,并根据所述Softmax损失函数的梯度,更新所述第一意图角色标注模型的参数;
当所述Softmax损失函数满足预设收敛条件时,停止参数更新,得到第二意图角色标注模型。
可选的,在本发明第一方面的第四种实现方式中,所述获取线上用户输入的第一提问语句并输入所述第二意图角色标注模型进行意图角色标注,输出带有意图角色标注的第二提问语句包括:
获取线上用户输入的第一提问语句;
将所述第一提问语句输入所述目标意图角色标注模型进行意图角色标注,得到意图角色标注语句;
确定所述意图角色标注语句中的语段及与所述语段中每个字对应的意图角色类型;
基于所述语段中每个字对应的意图角色类型,确定所述语段对应的意图角色类型,并输出带有意图角色标注的第二提问语句。
本发明第二方面提供了一种基于意图角色的语句处理装置,包括:
收集模块,用于收集少量人工标注的带有意图角色标注的第一语料;
第一训练模块,用于将所述第一语料作为第一训练样本集输入预置第一序列化标注模型进行训练,得到第一意图角色标注模型;
输入模块,用于将大量原始文本语料输入所述第一意图角色标注模型进行意图角色标注,得到带有意图角色标注的第二语料;
第二训练模块,用于将所述第二语料作为第二训练样本集输入所述第一意图角色标注模型进行训练,得到第二意图角色标注模型;
标注模块,用于获取线上用户输入的第一提问语句并输入所述第二意图角色标注模型进行意图角色标注,输出带有意图角色标注的第二提问语句。
可选的,所述基于意图角色的语句处理装置还包括:
获取模块,用于获取原始文本语料并进行标注,得到多个标注语料;
第三训练模块,用于将所述标注语料输入预置序列化标注模型进行训练,输出所述第一序列化标注模型;
其中,所述第一序列化标注模型的训练过程包括:
通过所述序列化标注模型的初始特征网络,获取所述原始文本语料对应的初始向量,其中,所述初始向量包括所述原始文本语料中每个元素的特征向量;
将所述初始向量输入所述序列化标注模型的特征提取网络,得到第三特征向量;
将所述第三特征向量输入所述序列化标注模型的标签预测网络,得到所述第三训练样集的训练标签结果;
基于所述训练标签结果和所述标准标签,对所述序列化标注模型进行迭代修正,得到训练后的第一序列化标注模型。
可选地,在本发明第二方面的第一种实现方式中,所述第一训练模块具体用于:
将所述第一训练样本集输入预置第一序列化标注模型进行预训练,并通过所述第一序列化标注模型对所述第一训练样本集中各训练样本进行序列标注,得到多个任务的预测标注结果;
根据所述预测标注结果,计算模型损失值;
将所述模型损失值反向输入所述第一序列化标注模型,判断所述模型损失值是否达到预设损失值;
若未达到,则采用反向传播算法根据所述模型损失值更新所述第一序列化标注模型的参数;
通过参数更新后的第一序列化标注模型对所述第一训练样本集进行处理,得到多个任务的预测标注结果;
基于所述预测标注结果,重新计算所述模型损失值;
若所述模型损失值达到预设损失值,则确认模型收敛,并将所述参数更新后的第一序列化标注模型作为最终训练得到的第一意图角色标注模型。
可选的,在本发明第二方面的第二种实现方式中,所述第二训练模块具体用于:
将所述第二语料作为第二训练样本集输入所述第一意图角色标注模型的循环神经网络层,得到特征序列;
将所述特征序列输入所述第一意图角色标注模型的注意力层,得到所述第二训练样本集中各元素的注意力权重;
基于所述注意力权重,对所述特征序列进行加权,得到各元素的语义信息;
将所述语义信息输入所述第一意图角色标注模型的意图角色预测层,得到所述第二训练样本集的预测结果;
依据所述预测结果,计算Softmax损失函数,所述Softmax损失函数的计算公式如下:
其中,N表示第二训练样本集中共有N个训练样本,i表示训练样本的序号,xi表示第二训练样本集中的第i个训练样本,yi表示第i个训练样本对应的预测结果,Yxi表示第二训练样本集对应的预测结果,S(xi,yi)表示预测结果yi的总得分;
计算所述Softmax损失函数的梯度,并根据所述Softmax损失函数的梯度,更新所述第一意图角色标注模型的参数;
当所述Softmax损失函数满足预设收敛条件时,停止参数更新,得到第二意图角色标注模型。
可选的,在本发明第二方面的第三种实现方式中,所述标注模块具体用于:
获取线上用户输入的第一提问语句;
将所述第一提问语句输入所述目标意图角色标注模型进行意图角色标注,得到意图角色标注语句;
确定所述意图角色标注语句中的语段及与所述语段中每个字对应的意图角色类型;
基于所述语段中每个字对应的意图角色类型,确定所述语段对应的意图角色类型,并输出带有意图角色标注的第二提问语句。
本发明第三方面提供了一种基于意图角色的语句处理设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述基于意图角色的语句处理设备执行上述的基于意图角色的语句处理方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的基于意图角色的语句处理方法。
本发明提供的技术方案中,收集少量人工标注的带有意图角色标注的第一语料,并将第一语料输入预置第一序列化标注模型进行训练,得到第一意图角色标注模型;将大量原始文本语料输入所述第一意图角色标注模型进行意图角色标注,得到第二语料,并将第二语料输入第一意图角色标注模型;获取线上用户输入的第一提问语句并输入第二意图角色标注模型进行意图角色标注输出带有意图角色标注的第二提问语句。本方案可应用于人工智能领域中,从而推动社会进步,解决了现有的框架式语义解析工具无法识别专业领域的专业术语,标注依赖于分词等NLP领域常用的工具,不能独立应用于语义分析的任务的技术问题。
附图说明
图1为本发明基于意图角色的语句处理方法的第一个实施例示意图;
图2为本发明基于意图角色的语句处理方法的第二个实施例示意图;
图3为本发明基于意图角色的语句处理方法的第三个实施例示意图;
图4为本发明基于意图角色的语句处理方法的第四个实施例示意图;
图5为本发明基于意图角色的语句处理方法的第五个实施例示意图;
图6为本发明基于意图角色的语句处理装置的第一个实施例示意图;
图7为本发明基于意图角色的语句处理装置的第二个实施例示意图;
图8为本发明基于意图角色的语句处理设备的一个实施例示意图。
具体实施方式
本发明实施例涉及人工智能,提供了一种基于意图角色的语句处理方法、装置、设备及存储介质,本发明的技术方案中,收集少量人工标注的带有意图角色标注的第一语料,并将第一语料输入预置第一序列化标注模型进行训练,得到第一意图角色标注模型;将大量原始文本语料输入所述第一意图角色标注模型进行意图角色标注,得到第二语料,并将第二语料输入第一意图角色标注模型;获取线上用户输入的第一提问语句并输入第二意图角色标注模型进行意图角色标注输出带有意图角色标注的第二提问语句。本方案属于人工智能领域,通过本方案能够推动社会进步和发展,由于意图角色标注模型不依赖于分词等NLP领域常用的工具,能独立应用于语义分析的任务,且从语用角度出发设计的五种不同的意图角色,从而能够覆盖大部分用户问句的表达,可使用范围广。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明基于意图角色的语句处理方法的第一个实施例包括:
101、收集少量人工标注的带有意图角色标注的第一语料;
本实施例中,收集少量的原始文本数据,并通过对人员进行系统培训,然后对这些原始文本数据进行意图角色标注,得到带有意图角色标注的第一语料。
原始文本数据是指包含有用户问句的语料,大部分情况下还需要对这些原始文本进行清洗工作。其中,“对原始文本进行清洗工作”又叫“数据清洗”,数据清洗是指发现并纠正原始文本中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。按照一定的规则过滤那些不符合要求的数据,对原始文本数据进行修正之后再进行标注。
本实例中,标注人员需要按照按照sub-word级别的BIO模式的序列化标注的格式对原始文本数据的每一个字片段进行标注,得到数以千计的第一语料,和BERT模型训练数据相符。BIO模式的标注规则是将待标注文本中的每个元素标注为“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。比如,我们将标注商品名称(cp),则BIO的三个标记为:B-cp:商品名称的开头,I-cp:商品名称的中间,O:不是商品名称。再比如,“转出提示交易失败,怎么办”→“转,B-Action”、“出,I-Action”、“提B-problem”、“示I-problem”、“交I-problem”、“易I-problem”、“失I-problem”、“败I-problem”、“,O”、“怎B-question”、“么I-question”、“办I-question”。
102、将所述第一语料作为第一训练样本集输入预置第一序列化标注模型进行训练,得到第一意图角色标注模型;
本实施例中,目标序列标注模型被广泛应用于文本处理相关领域,例如分词、词性标注、命名实体识别等方面。主要包括隐马尔科夫模型(HMM),最大熵隐马尔科夫模型(MEMM)以及条件随机场模型(CRF)。
本实施例中,将上述第一语料作为第一训练样本输入至预置的第一序列化标注模型进行训练,目标是得到准确率和召回率均能达到95%以上的意图角色标注模型,以及百万级带有意图角色标注的多个第二语料。其中,该第一训练样本用于建立模型。
由于本实施例中对于准确率和召回率要求比较高,因此这里的第一序列标注模型需要使用最先进前沿的深度学习模型,比如BERT模型。BERT中文预训练语言模型属于是词向量的预训练模型,用Transformer的双向编码器表示,旨在通过联合调节所有层中的上下文来预先训练深度双向表示。针对不同的任务,模型能够在一个token序列中明确地表示单个文本句子或一对文本句子(比如[问题,答案])。对于每一个token,其输入表示通过其对应的token embedding,段表征(segment embedding)和位置表征(position embedding)相加产生。
本实施例中,推断的目标意图角色指的是以下五种意图角色,包括:槽位(Slot),背景(Background),动作(Action),状况(Problem),疑问(Question)。
103、将大量原始文本语料输入所述第一意图角色标注模型进行意图角色标注,得到带有意图角色标注的第二语料;
本实施例中,将大量的原始文本语料输入上个步骤训练得到的第一意图角色标注模型进行意图角色标注,得到带有意图角色色标注的第二语料。
原始文本语料是指包含有用户问句的语料,大部分情况下还需要对这些原始文本进行清洗工作。其中,“对原始文本进行清洗工作”又叫“数据清洗”,数据清洗是指发现并纠正原始文本中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。因为数据仓库中的原始文本数据是面向某一主题的数据的集合,这些数据是从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有些数据是错误数据、有些数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。过滤那些不符合要求的数据,对原始文本数据进行修正之后再进行标注。
104、将所述第二语料作为第二训练样本集输入所述第一意图角色标注模型进行训练,得到第二意图角色标注模型;
上一步骤中的得到的第一意图角色标注模型准确率高,已经能够直接应用,但很难满足工业应用的低成本,快速的要求,因此,要对该高准确率的第一意图角色标注模型进行优化。
本实施例中,由于第一序列标注模型的预测准确率和召回率均比较高。因此,采用第一序列标注模型的预测结果作为训练数据能够大大节省标注的成本和时间。将得到的百万级带有意图角色标注的第二语料作为第二训练样本,输入预置的高速的第二序列化标注模型进行训练,得到能够达到工业化广泛应用要求的目标意图角色标注模型(速率一般需求在2ms每条问句)。
本实施例中,第一意图角色标注模型及目标意图角色标注模型是指对于每一条线上语句(用户问句),我们不需要通过分词进行预处理,只需要将原始语料以字为级别输入意图角色标注模型,即可实现这5个类别的意图角色标注,目的是确定语句中的核心语段,并确定该核心语段所属的意图角色。。
105、获取线上用户输入的第一提问语句并输入所述第二意图角色标注模型进行意图角色标注,输出带有意图角色标注的第二提问语句。
本实施例中,获取用户输入的第一提问语句,并输入到意图角色标注模型进行意图角色标注,输出带有意图角色标注的第二提问语句。意图角色标注是指在对提问语句的意图在语用层面上进行理解解析的过程。
本发明实施例中,首先收集少量人工标注的带有意图角色标注的第一语料,并将第一语料输入预置第一序列化标注模型进行训练,得到第一意图角色标注模型;将大量原始文本语料输入所述第一意图角色标注模型进行意图角色标注,得到第二语料,并将第二语料输入第一意图角色标注模型;获取线上用户输入的第一提问语句并输入第二意图角色标注模型进行意图角色标注输出带有意图角色标注的第二提问语句。本方案属于人工智能领域,通过本方案能够推动社会进步和发展,由于意图角色标注模型不依赖于分词等NLP领域常用的工具,能独立应用于语义分析的任务,且从语用角度出发设计的五种不同的意图角色,能够覆盖大部分用户问句的表达,可使用范围广。
请参阅图2,本发明基于意图角色的语句处理方法的第二个实施例包括:
201、获取原始文本语料并进行标注,得到多个标注语料;
本实施例中,获取原始文本语料,并对该原始文本语料进行序列化标注,得到多个标注的语段。语料就是从与本领域相关的业务网站或则用户数据信息库中获取的用户问句。序列化标注的格式对原始文本语料的每一个字片段进行标注,得到数以千计的标注语料。其中,BIO模式的标注规则是将待标注文本中的每个元素标注为“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。
202、将所述标注语料输入预置序列化标注模型进行训练,输出所述第一序列化标注模型;
本实施例中,将这些进行序列化标注之后的标注语料输入至预先建立好的序列化标注模型。
本实施例中,在获取到标注,开始对预先建立好的序列化标注模型进行训练。其中,该第一序列化标注模型包括初始特征网络、特征提取网络和标签预测网络。初始网络特征用于获得样本序列中每个元素(字以及标签符号)的特征向量表示,特征提取网络用于对初始特征网络得到的特征向量表示进行特征提取,标签预测网络用于预测出样本序列的标签序列。
其中,所述第一序列化标注模型的训练过程包括:
通过所述序列化标注模型的初始特征网络,获取所述原始文本语料对应的初始向量,其中,所述初始向量包括所述原始文本语料中每个元素的特征向量;
本实施例中,通过第一序列化标注模型中的初始网络特征得到原始文本语料中各个训练样本的初始向量。
本实施例中,初始向量包括各个训练样本中每个元素的特征向量。此处的元素可以是各个训练样本中的每个字或者标点符号,因此特征向量可以包括词向量和、或可以是字向量以及位置向量。将原始文本语料输入该序列化标注模型的初始特征网络之后,初始特征网络可以获得各个训练样本的初始向量。
将所述初始向量输入所述序列化标注模型的特征提取网络,得到第三特征向量;
本实施例中,将初始向量输入该第一序列化标注模型的特征提取网络,利用特征提取网络对初始向量进行特征提取。通过第一卷积层对初始向量序列进行卷积处理,得到样本序列中每个元素的卷积特征,将每个元素的卷积特征输入注意力层进行处理,得到每个元素的语义信息。
将所述第三特征向量输入所述序列化标注模型的标签预测网络,得到所述第三训练样集的训练标签结果;
本实施例中,将生成的第三特征向量输入该序列化标注模型的标签预测网络,得到该原始文本语料的训练标签结果。利用特征提取网络得到初始向量序列的特征向量之后,将特征向量输入标签预测网络,利用标签预测网络对特征向量中的每个向量进行标签预测,标签预测网络可以包括前馈神经网络层(feed-forward),或者包括前馈神经网络层+CRF层。通过前馈神经网络层对特征序列进行学习,得到样本序列的所有预测标签序列及每个预测标签序列的初始得分,初始得分包括样本序列中每个元素被预测为一个预设标签的概率之和,预测标签序列包括样本序列中的每个元素的预测标签。比如,预测标签序列包括每个元素的预测标签B,I,O,初始得分包括训练样本中的每个元素被预测为标签集合LabelSet={B,I,O}中一个预设标签的概率之和。将每个预测标签序列的初始得分输入CRF层,通过CRF层引入概率转移矩阵,计算出每个预测标签序列的总得分,概率转移矩阵表征由一个预设标签转移到另一个预设标签的概率。
基于所述训练标签结果和所述标准标签,对所述序列化标注模型进行迭代修正,得到训练后的第一序列化标注模型;
本实施例中,将第三训练样本集输入预先建立的第一序列化标注模型得到训练标签结果后,依据训练标签结果和标准标签之间的误差调节该第一序列化标注模型的参数,可以采用反向传播算法实现参数更新。具体过程可以包括:依据训练标签结果和标准标签序列,获取损失函数,计算损失函数的梯度,并依据损失函数的梯度更新序列标注模型的参数。由于损失函数是用于衡量序列标注模型得到的预测值与真实值的不一致程度的函数,损失函数越小,则表明序列标注模型的性能越好,因此,可以通过计算损失函数的梯度来优化损失函数,直至损失函数达到最小值。最后,判断损失函数是否满足预设收敛条件,若满足,则停止参数更新,得到训练后的第一序列标注模型。
203、收集少量人工标注的带有意图角色标注的第一语料;
204、将所述第一语料作为第一训练样本集输入预置第一序列化标注模型进行训练,得到第一意图角色标注模型;
205、将大量原始文本语料输入所述第一意图角色标注模型进行意图角色标注,得到带有意图角色标注的第二语料;
206、将所述第二语料作为第二训练样本集输入所述第一意图角色标注模型进行训练,得到第二意图角色标注模型;
207、获取线上用户输入的第一提问语句并输入所述第二意图角色标注模型进行意图角色标注,输出带有意图角色标注的第二提问语句。
本发明实施例中,详细描述第一序列化标注模型的训练过程。将获取的原始文本语料输入预先建立好的序列化标注模型,并通过该模型的初始特征网络获取原始文本语料对应的第三特征向量,并输入该模型的标签预测网络,得到原始文本语料的训练标签结果,根据训练标签结果和标准标签,对序列化标注模型进行迭代修正,得到训练后的第一序列化标注模型。本方案属于人工智能领域,通过本方案能够推动社会进步和发展,能独立应用于语义分析的任务,且从语用角度出发设计的五种不同的意图角色,能够覆盖大部分用户问句的表达,可使用范围广。
请参阅图3,本发明基于意图角色的语句处理方法的第三个实施例包括:
301、收集少量人工标注的带有意图角色标注的第一语料;
302、将所述第一训练样本集输入预置第一序列化标注模型进行预训练,并通过所述第一序列化标注模型对所述第一训练样本集中各训练样本进行序列标注,得到多个任务的预测标注结果;
本实施例中,将第一训练样本集输入预置第一序列化标注模型进行训练,并通过第一序列化标注模型对第一训练样本集中各训练样本进行序列标注,得到多个任务的预测标注结果。第一序列化标注模型,比如BERT中文预训练语言模型的标注格式,这里是BIO模式。
标注体系有BIOES体系,BIO体系等。这些标注体系都是以单个或间断的英文字符串在待标注的文本上进行编码。
本实施例中,BIO是指将每个元素标注为“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。比如,我们将X表示为名词短语(Noun Phrase,NP),则BIO的三个标记为:(1)B-NP:名词短语的开头;(2)I-NP:名词短语的中间;(3)O:不是名词短语。因此可以将一段话划分为如下结果:“取消刚才的贷款申请”,“取”B-Action,“消”I-Action,“刚”O,“才”O,“的”O,“贷”B-Slot,“款”I-Slot,“申”I-Slot,“请”I-Slot。
303、根据所述预测标注结果,计算模型损失值;
本实施例中,根据各任务对应的预测标注结果,获取对应的损失函数,根据损失函数对应的损失值,计算模型损失值。其中,损失函数(loss function)或代价函数(costfunction)是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。
304、将所述模型损失值反向输入所述第一序列化标注模型,判断所述模型损失值是否达到预设损失值;
本实施例中,将模型损失值反向输入第一序列化标注模型,判断模型损失值是否达到预设损失值,根据模型损失值的大小对模型对应的参数进行更新,得到优化之后的新模型。
305、若未达到,则采用反向传播算法根据所述模型损失值更新所述第一序列化标注模型的参数;
本实施例中,若模型损失值未达到预设的损失值,则采用反向传播算法,根据模型损失值更新对应第一序列化标注模型的对应参数。
反向传播算法是一种监督学习算法,(即BP算法)适合于多层神经元网络的一种学习算法,它建立在梯度下降法的基础上。BP网络的输入输出关系实质上是一种映射关系:一个n输入m输出的BP神经网络所完成的功能是从n维欧氏空间向m维欧氏空间中一有限域的连续映射,这一映射具有高度非线性。它的信息处理能力来源于简单非线性函数的多次复合,因此具有很强的函数复现能力。
306、通过参数更新后的第一序列化标注模型对所述第一训练样本集进行处理,得到多个任务的预测标注结果;
本实施例中,通过参数更新后的第一序列化标注模型对第一训练样本集中各个训练样本进行处理,得到各个训练样本对应的预测标注结果。
得到预测标注结果后,按照梯度下降算法对序列标注模型进行参数更新,得到训练后的第一意图角色标注模型。
在本实施例中,可以通过梯度下降法来计算损失函数的梯度,确定是否需要更新序列标注模型中第一循环神经网络层的参数W和b、注意力层的参数Wa、以及CRF层的概率转移矩阵A=[Aij],如果序列标注模型包括第二循环神经网络层,则需要更新的参数还包括二循环神经网络层的参数W和b;若需要更新第一意图角色标注模型中各个网络层的参数,则循环获取预测结果并计算损失函数,直到损失函数达到最小值。最后,当所述损失函数满足预设收敛条件时,停止参数更新,得到训练后的第一意图角色标注模型。
307、基于所述预测标注结果,重新计算所述模型损失值;
本实施例中,根据各任务对应的预测标注结果,重新计算对应的模型损失值,根据模型损失值的大小来确认模型是否已经收敛,得到对应优化后的模型。
308、若所述模型损失值达到预设损失值,则确认模型收敛,并将所述参数更新后的第一序列化标注模型作为最终训练得到的第一意图角色标注模型;
本实施例中,若模型损失值达到预设的损失值,则说明模型已经收敛,并将参数更新的第一序列化标注模型作为最终得到的第一意图角色标注模型。需要说明的是,参数的更新算法可基于实际情况进行设置,本申请对此不作具体限定,可选地,基于反向传播算法更新第一序列化标注模型的参数。
收敛条件是指损失函数达到最小值,具体地,预设收敛条件可以是根据经验设定的预设次数或者预设值。也即,当模型的迭代次数达到预设次数、或者损失函数达到预设值时,停止模型的参数更新,得到训练后的第一序列化标注模型。
309、将大量原始文本语料输入所述第一意图角色标注模型进行意图角色标注,得到带有意图角色标注的第二语料;
310、将所述第二语料作为第二训练样本集输入所述第一意图角色标注模型进行训练,得到第二意图角色标注模型;
311、获取线上用户输入的第一提问语句并输入所述第二意图角色标注模型进行意图角色标注,输出带有意图角色标注的第二提问语句。
本发明实施例提供了详细的将第一训练样本集输入预置第一序列化标注模型训练,生成第一意图角色标注模型的过程。本方案属于人工智能领域,通过本方案能够推动社会进步和发展,能独立应用于语义分析的任务,且从语用角度出发设计的五种不同的意图角色,能够覆盖大部分用户问句的表达,可使用范围广。
请参阅图4,本发明基于意图角色的语句处理方法的第四个实施例包括:
401、收集少量人工标注的带有意图角色标注的第一语料;
402、将所述第一语料作为第一训练样本集输入预置第一序列化标注模型进行训练,得到第一意图角色标注模型;
403、将大量原始文本语料输入所述第一意图角色标注模型进行意图角色标注,得到带有意图角色标注的第二语料;
404、将所述第二语料作为第二训练样本集输入所述第一意图角色标注模型的循环神经网络层,得到特征序列;
本实施例中,将第二语料作为第二训练样本集输入训练好的第一意图角色标注模型的循环神经网络层,得到第二训练样本集中各训练样本对应的特征序列。将第二训练样本集中的各训练样本输入第一意图角色标注模型的循环神经网络层,利用循环神经网络对该训练分词序列进行处理,得到循环网络输出序列,以使循环神经网络对该训练分词序列进行初步的学习后,便于后续的其他网络层继续学习。比如,示例性地,以BiLSTM作为循环神经网络为例,则循环网络输出序列u1、u2、…、un的计算过程表示为:
ut=BiLSTM(ut-1,et);
式中,ut表示为循环网络输出序列中第t个元素,且ut∈Rl,即循环网络输出序列中的每一个元素均位于l维空间。
值得说明的是,上述采用BiLSTM作为循环神经网络仅为示意,在本申请实施例其他一些可能的应用场景中,还可以采用例如GRU(Gated Recurrent Unit,门控循环神经网络)、BiGRU(BiGated Recurrent Unit,双向门控循环神经网络)等网络结构作为该循环神经网络,本申请实施例对此不作限定。
405、将所述特征序列输入所述第一意图角色标注模型的注意力层,得到所述第二训练样本集中各元素的注意力权重;
本实施例中,将各训练样本对应的特征序列输入第一意图角色标注模型的注意力层,得到第二训练样本集中各个元素的注意力权重。采用注意力层对第一循环神经网络层输出的特征序列进一步学习,得到包含训练样本中每个元素的语义信息,所有元素的语义信息构成语义序列。假设注意力层输出的语义序列为v=(v1,v2,…,vn),则将第一BiLSTM输出的特征序列u1、u2、…、un输入序列标注模型的注意力层,基于注意力机制得到语义序列的过程,可以包括:首先,将特征序列输入注意力层,得到训练样本中当前元素与每个元素的注意力权重。
406、基于所述注意力权重,对所述特征序列进行加权,得到各元素的语义信息;
本实施例中,根据第二训练样本集中各训练样本对应元素的注意力权重,对特征序列进行加权,得到个元素的语义信息,进一步提高意图角色标注的准确度。
407、将所述语义信息输入所述第一意图角色标注模型的意图角色预测层,得到所述第二训练样本集的预测结果;
本实施例中,将第二训练样本集中各训练样本的语义信息输入第一意图角色标注模型的意图角色标注层,得到第二训练样本集的预测结果。利用意图角色预测层得到训练样本的预测结果;如果序列标注模型包含第二循环神经网络层,则利用第二循环神经网络层学习语义序列的上下文信息,得到输出向量序列,将输出的向量序列输入意图角色预测层,利用意图角色预测层得到各训练样本的预测结果。
408、依据所述预测结果,计算Softmax损失函数,所述Softmax损失函数的计算公式如下:
其中,N表示第二训练样本集中共有N个训练样本,i表示训练样本的序号,xi表示第二训练样本集中的第i个训练样本,yi表示第i个训练样本对应的预测结果,Yxi表示第二训练样本集对应的预测结果,S(xi,yi)表示预测结果yi的总得分;
本实施例中,根据预测结果,获取损失函数,根据损失函数的值,计算对应梯度,更新第一意图角色标注模型的模型参数,得到第二意图角色标注模型。对于给定的样本{xi,yi},i=1,2,…,N,基于预测意图角色标注结果和第二训练样本的标注结果计算得到损失函数。基于该计算得到的损失函数,可以利用梯度下降算法,最小化该损失函数的值,从而更新该词性标注模型的模型参数。
409、计算所述Softmax损失函数的梯度,并根据所述Softmax损失函数的梯度,更新所述第一意图角色标注模型的参数;
计算损失函数的梯度,并依据损失函数的梯度更新第一意图角色标注模型的参数。由于损失函数是用于衡量第一意图角色标注模型得到的预测值与真实值的不一致程度的函数,损失函数越小,则表明模型的性能越好,因此,可以通过计算损失函数的梯度来优化损失函数,直至损失函数达到最小值。
410、当所述Softmax损失函数满足预设收敛条件时,停止参数更新,得到第二意图角色标注模型;
本实施例中,将训练样本输入序列标注模型得到预测结果后,依据标注结果和预测结果,按照梯度下降算法对序列标注模型进行参数更新,得到训练后的序列标注模型,具体过程可以包括:首先,依据预测结果和第二语料的标注结果,获取损失函数;
在本实施例中,损失函数用于衡量第一意图角色标注模型得到的预测序列与标注结果的不一致程度,损失函数越小,表明第一意图角色标注模型的性能越好,可以定义损失函数为:
其中,N表示第二训练样本集中共有N个训练样本,i表示训练样本的序号,xi表示第二训练样本集中的第i个训练样本,yi表示第i个训练样本对应的预测结果,Yxi表示第二训练样本集对应的预测结果,S(xi,yi)表示标注结果yi的总得分。
411、当所述Softmax损失函数满足预设收敛条件时,停止参数更新,得到第二意图角色标注模型;
然后,计算所述损失函数的梯度,并依据所述损失函数的梯度更新所述序列标注模型的参数;
本实施例中,判断该损失函数是否满足预设收敛条件,若满足,则停止更新参数,预设收敛条件是指损失函数达到最小值,具体地,预设收敛条件可以是根据经验设定的预设次数或者预设值。也就是,当高速序列化标注模型的迭代次数达到预设次数、或者损失函数达到预设值时,停止对模型的参数更新,得到训练后的效率达到工业广泛使用要求的意图角色标注模型。
一般模型收敛有两种,一种是随着训练次数的增加,损失值不再减小,反而增大,将损失值最小的模型确定为收敛的模型。另一种是预设一个模型识别的准确率阈值,当输出的预测标注结果与标注信息对比后得到准确率达到阈值时,则判定该模型收敛。将收敛时的自然语言处理模型确定为期望得到的效率达到工业广泛使用要求的意图角色标注模型。
412、获取线上用户输入的第一提问语句并输入所述第二意图角色标注模型进行意图角色标注,输出带有意图角色标注的第二提问语句。
在本发明实施例中,详细描述将第二训练样本集输入第一意图角色标注模型,生成第二意图角色标注模型的详细过程。本方案属于人工智能领域,通过本方案能够推动社会进步和发展,意图角色标注模型的标注效率达到了工业广泛使用要求的意图角色标注模型,解决了标注费时成本高,不能独立应用于语义分析任务的技术问题。
请参阅图5,本发明基于意图角色的语句处理方法的第五个实施例包括:
501、收集少量人工标注的带有意图角色标注的第一语料;
502、将所述第一语料作为第一训练样本集输入预置第一序列化标注模型进行训练,得到第一意图角色标注模型;
503、将大量原始文本语料输入所述第一意图角色标注模型进行意图角色标注,得到带有意图角色标注的第二语料;
504、将所述第二语料作为第二训练样本集输入所述第一意图角色标注模型进行训练,得到第二意图角色标注模型;
505、获取线上用户输入的第一提问语句;
本实施例中,接收用户线上输入的第一提问问句,此处的第一提问问句是指用户在进行一些操作或者业务查询时输入放入句子,比如“你好,生存金可以抵交保费吗?”、“取消刚才的贷款申请”或者“账户转出提示交易失败,怎么办?”
506、将所述第一提问语句输入所述目标意图角色标注模型进行意图角色标注,得到意图角色标注语句;
本实施例中,对该第一提问语句进行意图角色标注,获取该第一提问语句中包含的语段。
在本实施例中,通过意图角色标注模型对该第一提问语句进行意图角色标注,主要用于意图角色标注,其中,意图角色标注模型是预先训练好的。
如输入的语言文本为“请问我的身份证丢失了如何补办”,经过序列标注模型的标注后,得到的标注序列为:“请”[O]“问”[O]“我”[B-background]“的”[I-background]“身”[I-slot]“份”[I-slot]“证”[I-slot]……。
507、确定所述意图角色标注语句中的语段及与所述语段中每个字对应的意图角色类型;
在本实施例中,根据该意图角色序列标注,确定第一提问语句中的语段。比如,“取消刚才的贷款申请”,“取”B-Action,“消”I-Action,“刚”O,“才”O,“的”O,“贷”B-Slot,“款”I-Slot,“申”I-Slot,“请”I-Slot。B表示“begin”,而I表示“intermediate”,因此“取”和“消”为一个语段,“贷”、“款”“申”及“请”为一个完整的语段。
508、基于所述语段中每个字对应的意图角色类型,确定所述语段对应的意图角色类型,并输出带有意图角色标注的第二提问语句。
在本实施例中,根据语段中每个字对应的意图角色类型,确定语段对应的意图角色类型,输出带有意图角色标注的第二提问语句。比如,“取消刚才的贷款申请”,“取”B-Action,“消”I-Action,“刚”O,“才”O,“的”O,“贷”B-Slot,“款”I-Slot,“申”I-Slot,“请”I-Slot。B表示“begin”,而I表示“intermediate”,其中,“取”和“消”对应的意图角色类型均为Action,因此语段“取消”对应的意图角色类型为Action,“贷”、“款”“申”及“请”对应的意图角色类型均为Slot,因此,语段“取消贷款”的意图角色类型为Slot。进一步地,输出带有意图角色标注的第二提问语句。比如:“我的信用卡(Slot)明天到期(Background),我想还款(Action),但找不到页面(Problem),怎么办(Question)?”。
本实施例在上一实施例基础上,增加线上用户输入的第一提问语句的意图标注过程,获取线上用户输入的第一提问语句,并输入至意图角色标注模型进行意图角色标注,得到意图角色标注序列,并确定第一提问语句中的语段及与各语段中每个字对应的意图角色类型,进而确定各语段对应的意图角色类型,输出带有意图角色标注的第二提问语句。本方案属于人工智能领域,通过本方案能够推动社会进步和发展,解决了现有的框架式语义解析工具无法识别专业领域的专业术语,意图角色标注依赖于分词等NLP领域常用的工具,不能独立应用于语义分析的任务的技术问题。
上面对本发明实施例中基于意图角色的语句处理方法进行了描述,下面对本发明实施例中基于意图角色的语句处理装置进行描述,请参阅图6,本发明基于意图角色的语句处理装置的第一个实施例包括:
收集模块601,用于收集少量人工标注的带有意图角色标注的第一语料;
第一训练模块602,用于将所述第一语料作为第一训练样本集输入预置第一序列化标注模型进行训练,得到第一意图角色标注模型;
输入模块603,用于将大量原始文本语料输入所述第一意图角色标注模型进行意图角色标注,得到带有意图角色标注的第二语料;
第二训练模块604,用于将所述第二语料作为第二训练样本集输入所述第一意图角色标注模型进行训练,得到第二意图角色标注模型;
标注模块605,用于获取线上用户输入的第一提问语句并输入所述第二意图角色标注模型进行意图角色标注,输出带有意图角色标注的第二提问语句。
可选的,所述第一训练模块602具体用于:
将所述第一训练样本集输入预置第一序列化标注模型,得到所述第一训练样本集对应的向量数据;
将所述第一训练样本集输入预置第一序列化标注模型进行预训练,并通过所述第一序列化标注模型对所述第一训练样本集中各训练样本进行序列标注,得到多个任务的预测标注结果;
根据所述预测标注结果,计算模型损失值;
将所述模型损失值反向输入所述第一序列化标注模型,判断所述模型损失值是否达到预设损失值;
若未达到,则采用反向传播算法根据所述模型损失值更新所述第一序列化标注模型的参数;
通过参数更新后的第一序列化标注模型对所述第一训练样本集进行处理,得到多个任务的预测标注结果;
基于所述预测标注结果,重新计算所述模型损失值;
若所述模型损失值达到预设损失值,则确认模型收敛,并将所述参数更新后的第一序列化标注模型作为最终训练得到的第一意图角色标注模型。
可选的,所述第二训练模块604具体用于:
将所述第二语料作为第二训练样本集输入所述第一意图角色标注模型的循环神经网络层,得到特征序列;
将所述特征序列输入所述第一意图角色标注模型的注意力层,得到所述第二训练样本集中各元素的注意力权重;
基于所述注意力权重,对所述特征序列进行加权,得到各元素的语义信息;
将所述语义信息输入所述第一意图角色标注模型的意图角色预测层,得到所述第二训练样本集的预测结果;
依据所述预测结果,计算Softmax损失函数,所述Softmax损失函数的计算公式如下:
其中,N表示第二训练样本集中共有N个训练样本,i表示训练样本的序号,xi表示第二训练样本集中的第i个训练样本,yi表示第i个训练样本对应的预测结果,Yxi表示第二训练样本集对应的预测结果,S(xi,yi)表示预测结果yi的总得分;
计算所述Softmax损失函数的梯度,并根据所述Softmax损失函数的梯度,更新所述第一意图角色标注模型的参数;
当所述Softmax损失函数满足预设收敛条件时,停止参数更新,得到第二意图角色标注模型。
可选的,所述标注模块605具体用于:
获取线上用户输入的第一提问语句;
将所述第一提问语句输入所述目标意图角色标注模型进行意图角色标注,得到意图角色标注语句;
确定所述意图角色标注语句中的语段及与所述语段中每个字对应的意图角色类型;
基于所述语段中每个字对应的意图角色类型,确定所述语段对应的意图角色类型,并输出带有意图角色标注的第二提问语句。
本发明实施例中,收集少量人工标注的带有意图角色标注的第一语料,并将第一语料输入预置第一序列化标注模型进行训练,得到第一意图角色标注模型;将大量原始文本语料输入所述第一意图角色标注模型进行意图角色标注,得到第二语料,并将第二语料输入第一意图角色标注模型;获取线上用户输入的第一提问语句并输入第二意图角色标注模型进行意图角色标注输出带有意图角色标注的第二提问语句。本方案属于人工智能领域,通过本方案能够推动社会进步和发展,由于意图角色标注模型不依赖于分词等NLP领域常用的工具,能独立应用于语义分析的任务,且从语用角度出发设计的五种不同的意图角色,能够覆盖大部分用户问句的表达,可使用范围广。
请参阅图7,本发明基于意图角色的语句处理装置的第二个实施例包括:
收集模块701,用于收集少量人工标注的带有意图角色标注的第一语料;
第一训练模块702,用于将所述第一语料作为第一训练样本集输入预置第一序列化标注模型进行训练,得到第一意图角色标注模型;
输入模块703,用于将大量原始文本语料输入所述第一意图角色标注模型进行意图角色标注,得到带有意图角色标注的第二语料;
第二训练模块704,用于将所述第二语料作为第二训练样本集输入所述第一意图角色标注模型进行训练,得到第二意图角色标注模型;
标注模块705,用于获取线上用户输入的第一提问语句并输入所述第二意图角色标注模型进行意图角色标注,输出带有意图角色标注的第二提问语句;
获取模块706,用于获取原始文本语料并进行标注,得到多个标注语料;
第三训练模块707,用于将所述标注语料输入预置序列化标注模型进行训练,输出所述第一序列化标注模型;
其中,所述第一序列化标注模型的训练过程包括:
通过所述序列化标注模型的初始特征网络,获取所述原始文本语料对应的初始向量,其中,所述初始向量包括所述原始文本语料中每个元素的特征向量;
将所述初始向量输入所述序列化标注模型的特征提取网络,得到第三特征向量;
将所述第三特征向量输入所述序列化标注模型的标签预测网络,得到所述第三训练样集的训练标签结果;
基于所述训练标签结果和所述标准标签,对所述序列化标注模型进行迭代修正,得到训练后的第一序列化标注模型。
可选的,所述第一训练模块702具体用于:
将所述第一训练样本集输入预置第一序列化标注模型进行预训练,并通过所述第一序列化标注模型对所述第一训练样本集中各训练样本进行序列标注,得到多个任务的预测标注结果;
根据所述预测标注结果,计算模型损失值;
将所述模型损失值反向输入所述第一序列化标注模型,判断所述模型损失值是否达到预设损失值;
若未达到,则采用反向传播算法根据所述模型损失值更新所述第一序列化标注模型的参数;
通过参数更新后的第一序列化标注模型对所述第一训练样本集进行处理,得到多个任务的预测标注结果;
基于所述预测标注结果,重新计算所述模型损失值;
若所述模型损失值达到预设损失值,则确认模型收敛,并将所述参数更新后的第一序列化标注模型作为最终训练得到的第一意图角色标注模型。
可选的,所述第二训练模块704具体用于:
将所述第二语料作为第二训练样本集输入所述第一意图角色标注模型的循环神经网络层,得到特征序列;
将所述特征序列输入所述第一意图角色标注模型的注意力层,得到所述第二训练样本集中各元素的注意力权重;
基于所述注意力权重,对所述特征序列进行加权,得到各元素的语义信息;
将所述语义信息输入所述第一意图角色标注模型的意图角色预测层,得到所述第二训练样本集的预测结果;
依据所述预测结果,计算Softmax损失函数,所述Softmax损失函数的计算公式如下:
其中,N表示第二训练样本集中共有N个训练样本,i表示训练样本的序号,xi表示第二训练样本集中的第i个训练样本,yi表示第i个训练样本对应的预测结果,Yxi表示第二训练样本集对应的预测结果,S(xi,yi)表示预测结果yi的总得分;
计算所述Softmax损失函数的梯度,并根据所述Softmax损失函数的梯度,更新所述第一意图角色标注模型的参数;
当所述Softmax损失函数满足预设收敛条件时,停止参数更新,得到第二意图角色标注模型。
可选的,所述标注模块705具体用于:
获取线上用户输入的第一提问语句;
将所述第一提问语句输入所述目标意图角色标注模型进行意图角色标注,得到意图角色标注语句;
确定所述意图角色标注语句中的语段及与所述语段中每个字对应的意图角色类型;
基于所述语段中每个字对应的意图角色类型,确定所述语段对应的意图角色类型,并输出带有意图角色标注的第二提问语句。
本发明实施例中,收集少量人工标注的带有意图角色标注的第一语料,并将第一语料输入预置第一序列化标注模型进行训练,得到第一意图角色标注模型;将大量原始文本语料输入所述第一意图角色标注模型进行意图角色标注,得到第二语料,并将第二语料输入第一意图角色标注模型;获取线上用户输入的第一提问语句并输入第二意图角色标注模型进行意图角色标注输出带有意图角色标注的第二提问语句。本方案属于人工智能领域,通过本方案能够推动社会进步和发展,由于意图角色标注模型不依赖于分词等NLP领域常用的工具,能独立应用于语义分析的任务,且从语用角度出发设计的五种不同的意图角色,能够覆盖大部分用户问句的表达,可使用范围广。
上面图6和图7从模块化功能实体的角度对本发明实施例中的基于意图角色的语句处理装置进行详细描述,下面从硬件处理的角度对本发明实施例中基于意图角色的语句处理设备进行详细描述。
图8是本发明实施例提供的一种基于意图角色的语句处理设备的结构示意图,该基于意图角色的语句处理设备800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)810(例如,一个或一个以上处理器)和存储器820,一个或一个以上存储应用程序833或数据832的存储介质830(例如一个或一个以上海量存储设备)。其中,存储器820和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对基于意图角色的语句处理设备800中的一系列指令操作。更进一步地,处理器810可以设置为与存储介质830通信,在基于意图角色的语句处理设备800上执行存储介质830中的一系列指令操作。
基于意图角色的语句处理设备800还可以包括一个或一个以上电源840,一个或一个以上有线或无线网络接口850,一个或一个以上输入输出接口860,和/或,一个或一个以上操作系统831,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图8示出的基于意图角色的语句处理设备结构并不构成对基于意图角色的语句处理设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述基于意图角色的语句处理方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于意图角色的语句处理方法,其特征在于,所述基于意图角色的语句处理方法包括:
收集少量人工标注的带有意图角色标注的第一语料;
将所述第一语料作为第一训练样本集输入预置第一序列化标注模型进行训练,得到第一意图角色标注模型;
将大量原始文本语料输入所述第一意图角色标注模型进行意图角色标注,得到带有意图角色标注的第二语料;
将所述第二语料作为第二训练样本集输入所述第一意图角色标注模型进行训练,得到第二意图角色标注模型;
获取线上用户输入的第一提问语句并输入所述第二意图角色标注模型进行意图角色标注,输出带有意图角色标注的第二提问语句。
2.根据权利要求1所述的基于意图角色的语句处理方法,其特征在于,在所述收集少量人工标注的带有意图角色标注的第一语料之前,还包括:
获取原始文本语料并进行标注,得到多个标注语料;
将所述标注语料输入预置序列化标注模型进行训练,输出所述第一序列化标注模型;
其中,所述第一序列化标注模型的训练过程包括:
通过所述序列化标注模型的初始特征网络,获取所述原始文本语料对应的初始向量,其中,所述初始向量包括所述原始文本语料中每个元素的特征向量;
将所述初始向量输入所述序列化标注模型的特征提取网络,得到第三特征向量;
将所述第三特征向量输入所述序列化标注模型的标签预测网络,得到所述第三训练样集的训练标签结果;
基于所述训练标签结果和所述标准标签,对所述序列化标注模型进行迭代修正,得到训练后的第一序列化标注模型。
3.根据权利要求1所述的基于意图角色的语句处理方法,其特征在于,所述将所述第一语料作为第一训练样本集输入预置第一序列化标注模型进行训练,得到第一意图角色标注模型包括:
将所述第一训练样本集输入预置第一序列化标注模型进行预训练,并通过所述第一序列化标注模型对所述第一训练样本集中各训练样本进行序列标注,得到多个任务的预测标注结果;
根据所述预测标注结果,计算模型损失值;
将所述模型损失值反向输入所述第一序列化标注模型,判断所述模型损失值是否达到预设损失值;
若未达到,则采用反向传播算法根据所述模型损失值更新所述第一序列化标注模型的参数;
通过参数更新后的第一序列化标注模型对所述第一训练样本集进行处理,得到多个任务的预测标注结果;
基于所述预测标注结果,重新计算所述模型损失值;
若所述模型损失值达到预设损失值,则确认模型收敛,并将所述参数更新后的第一序列化标注模型作为最终训练得到的第一意图角色标注模型。
4.根据权利要求1所述的基于意图角色的语句处理方法,其特征在于,所述将所述第二语料作为第二训练样本集输入所述第一意图角色标注模型进行训练,得到第二意图角色标注模型包括:
将所述第二语料作为第二训练样本集输入所述第一意图角色标注模型的循环神经网络层,得到特征序列;
将所述特征序列输入所述第一意图角色标注模型的注意力层,得到所述第二训练样本集中各元素的注意力权重;
基于所述注意力权重,对所述特征序列进行加权,得到各元素的语义信息;
将所述语义信息输入所述第一意图角色标注模型的意图角色预测层,得到所述第二训练样本集的预测结果;
依据所述预测结果,计算Softmax损失函数,所述Softmax损失函数的计算公式如下:
其中,N表示第二训练样本集中共有N个训练样本,i表示训练样本的序号,xi表示第二训练样本集中的第i个训练样本,yi表示第i个训练样本对应的预测结果,Yxi表示第二训练样本集对应的预测结果,S(xi,yi)表示预测结果yi的总得分;
计算所述Softmax损失函数的梯度,并根据所述Softmax损失函数的梯度,更新所述第一意图角色标注模型的参数;
当所述Softmax损失函数满足预设收敛条件时,停止参数更新,得到第二意图角色标注模型。
5.根据权利要求1-4中任一项所述的基于意图角色的语句处理方法,其特征在于,所述获取线上用户输入的第一提问语句并输入所述第二意图角色标注模型进行意图角色标注,输出带有意图角色标注的第二提问语句包括:
获取线上用户输入的第一提问语句;
将所述第一提问语句输入所述目标意图角色标注模型进行意图角色标注,得到意图角色标注语句;
确定所述意图角色标注语句中的语段及与所述语段中每个字对应的意图角色类型;
基于所述语段中每个字对应的意图角色类型,确定所述语段对应的意图角色类型,并输出带有意图角色标注的第二提问语句。
6.一种基于意图角色的语句处理装置,其特征在于,所述基于意图角色的语句处理装置包括:
收集模块,用于收集少量人工标注的带有意图角色标注的第一语料;
第一训练模块,用于将所述第一语料作为第一训练样本集输入预置第一序列化标注模型进行训练,得到第一意图角色标注模型;
输入模块,用于将大量原始文本语料输入所述第一意图角色标注模型进行意图角色标注,得到带有意图角色标注的第二语料;
第二训练模块,用于将所述第二语料作为第二训练样本集输入所述第一意图角色标注模型进行训练,得到第二意图角色标注模型;
标注模块,用于获取线上用户输入的第一提问语句并输入所述第二意图角色标注模型进行意图角色标注,输出带有意图角色标注的第二提问语句。
7.根据权利要求6所述的基于意图角色的语句处理装置,其特征在于,所述第一训练模块具体用于:
将所述第一训练样本集输入预置第一序列化标注模型进行预训练,并通过所述第一序列化标注模型对所述第一训练样本集中各训练样本进行序列标注,得到多个任务的预测标注结果;
根据所述预测标注结果,计算模型损失值;
将所述模型损失值反向输入所述第一序列化标注模型,判断所述模型损失值是否达到预设损失值;
若未达到,则采用反向传播算法根据所述模型损失值更新所述第一序列化标注模型的参数;
通过参数更新后的第一序列化标注模型对所述第一训练样本集进行处理,得到多个任务的预测标注结果;
基于所述预测标注结果,重新计算所述模型损失值;
若所述模型损失值达到预设损失值,则确认模型收敛,并将所述参数更新后的第一序列化标注模型作为最终训练得到的第一意图角色标注模型。
8.根据权利要求6所述的基于意图角色的语句处理装置,其特征在于,所述第二训练模块具体用于:
将所述第二语料作为第二训练样本集输入所述第一意图角色标注模型的循环神经网络层,得到特征序列;
将所述特征序列输入所述第一意图角色标注模型的注意力层,得到所述第二训练样本集中各元素的注意力权重;
基于所述注意力权重,对所述特征序列进行加权,得到各元素的语义信息;
将所述语义信息输入所述第一意图角色标注模型的意图角色预测层,得到所述第二训练样本集的预测结果;
依据所述预测结果,计算Softmax损失函数,所述Softmax损失函数的计算公式如下:
其中,N表示第二训练样本集中共有N个训练样本,i表示训练样本的序号,xi表示第二训练样本集中的第i个训练样本,yi表示第i个训练样本对应的预测结果,Yxi表示第二训练样本集对应的预测结果,S(xi,yi)表示预测结果yi的总得分;
计算所述Softmax损失函数的梯度,并根据所述Softmax损失函数的梯度,更新所述第一意图角色标注模型的参数;
当所述Softmax损失函数满足预设收敛条件时,停止参数更新,得到第二意图角色标注模型。
9.一种基于意图角色的语句处理设备,其特征在于,所述基于意图角色的语句处理设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述基于意图角色的语句处理设备执行如权利要求1-5中任意一项所述的基于意图角色的语句处理方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-5中任意一项所述基于意图角色的语句处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010582596.6A CN111723583B (zh) | 2020-06-23 | 2020-06-23 | 基于意图角色的语句处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010582596.6A CN111723583B (zh) | 2020-06-23 | 2020-06-23 | 基于意图角色的语句处理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111723583A true CN111723583A (zh) | 2020-09-29 |
CN111723583B CN111723583B (zh) | 2023-02-10 |
Family
ID=72570032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010582596.6A Active CN111723583B (zh) | 2020-06-23 | 2020-06-23 | 基于意图角色的语句处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111723583B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113343677A (zh) * | 2021-05-28 | 2021-09-03 | 中国平安人寿保险股份有限公司 | 一种意图识别方法、装置、电子设备及存储介质 |
WO2022213864A1 (zh) * | 2021-04-06 | 2022-10-13 | 华为云计算技术有限公司 | 一种语料标注方法、装置及相关设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009589A (zh) * | 2017-12-12 | 2018-05-08 | 腾讯科技(深圳)有限公司 | 样本数据处理方法、装置和计算机可读存储介质 |
CN110110086A (zh) * | 2019-05-13 | 2019-08-09 | 湖南星汉数智科技有限公司 | 一种中文语义角色标注方法、装置、计算机装置及计算机可读存储介质 |
CN110459282A (zh) * | 2019-07-11 | 2019-11-15 | 新华三大数据技术有限公司 | 序列标注模型训练方法、电子病历处理方法及相关装置 |
CN110633724A (zh) * | 2018-06-25 | 2019-12-31 | 中兴通讯股份有限公司 | 意图识别模型动态训练方法、装置、设备和存储介质 |
-
2020
- 2020-06-23 CN CN202010582596.6A patent/CN111723583B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009589A (zh) * | 2017-12-12 | 2018-05-08 | 腾讯科技(深圳)有限公司 | 样本数据处理方法、装置和计算机可读存储介质 |
CN110633724A (zh) * | 2018-06-25 | 2019-12-31 | 中兴通讯股份有限公司 | 意图识别模型动态训练方法、装置、设备和存储介质 |
CN110110086A (zh) * | 2019-05-13 | 2019-08-09 | 湖南星汉数智科技有限公司 | 一种中文语义角色标注方法、装置、计算机装置及计算机可读存储介质 |
CN110459282A (zh) * | 2019-07-11 | 2019-11-15 | 新华三大数据技术有限公司 | 序列标注模型训练方法、电子病历处理方法及相关装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022213864A1 (zh) * | 2021-04-06 | 2022-10-13 | 华为云计算技术有限公司 | 一种语料标注方法、装置及相关设备 |
CN113343677A (zh) * | 2021-05-28 | 2021-09-03 | 中国平安人寿保险股份有限公司 | 一种意图识别方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111723583B (zh) | 2023-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112528672B (zh) | 一种基于图卷积神经网络的方面级情感分析方法及装置 | |
CN110737758A (zh) | 用于生成模型的方法和装置 | |
WO2021051513A1 (zh) | 基于神经网络的中英翻译方法、及其相关设备 | |
JP7259650B2 (ja) | 翻訳装置、翻訳方法及びプログラム | |
JP2011118526A (ja) | 単語意味関係抽出装置 | |
CN111428490B (zh) | 一种利用语言模型的指代消解弱监督学习方法 | |
CN115357719B (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN116050425A (zh) | 建立预训练语言模型的方法、文本预测方法及装置 | |
CN111723583B (zh) | 基于意图角色的语句处理方法、装置、设备及存储介质 | |
CN111222330A (zh) | 一种中文事件的检测方法和系统 | |
Huang et al. | Chinese spelling check system based on tri-gram model | |
US11610113B2 (en) | System and method for understanding questions of users of a data management system | |
CN114943220B (zh) | 一种面向科研立项查重的句向量生成方法及查重方法 | |
CN113761875B (zh) | 事件抽取方法、装置、电子设备及存储介质 | |
CN108875024B (zh) | 文本分类方法、系统、可读存储介质及电子设备 | |
CN112989829B (zh) | 一种命名实体识别方法、装置、设备及存储介质 | |
JP2022003544A (ja) | 業界テキスト増分方法、関連装置、およびコンピュータプログラム製品 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
Han et al. | Lexicalized neural unsupervised dependency parsing | |
CN116186219A (zh) | 一种人机对话交互方法方法、系统及存储介质 | |
Chen | Identification of Grammatical Errors of English Language Based on Intelligent Translational Model | |
Cahyani et al. | Indonesian part of speech tagging using maximum entropy markov model on Indonesian manually tagged corpus | |
CN114186020A (zh) | 一种语义联想方法 | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
CN114239555A (zh) | 一种关键词提取模型的训练方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |