CN112347786A - 人工智能评分训练方法和装置 - Google Patents

人工智能评分训练方法和装置 Download PDF

Info

Publication number
CN112347786A
CN112347786A CN202011161582.3A CN202011161582A CN112347786A CN 112347786 A CN112347786 A CN 112347786A CN 202011161582 A CN202011161582 A CN 202011161582A CN 112347786 A CN112347786 A CN 112347786A
Authority
CN
China
Prior art keywords
data
sample
classification
regression model
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011161582.3A
Other languages
English (en)
Inventor
刘谦
杜新凯
吕超
牛国扬
蔡岩松
高峰
王彦昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sunshine Insurance Group Co Ltd
Original Assignee
Sunshine Insurance Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sunshine Insurance Group Co Ltd filed Critical Sunshine Insurance Group Co Ltd
Priority to CN202011161582.3A priority Critical patent/CN112347786A/zh
Publication of CN112347786A publication Critical patent/CN112347786A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Acoustics & Sound (AREA)
  • Probability & Statistics with Applications (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种人工智能评分训练方法和装置,包括:获取用于训练人工智能的原始数据,原始数据包括对比数据和迭代数据;根据预设数据清洗规则,清洗原始数据,生成样本数据;根据样本数据的属性,提取对应样本数据属性的分类‑回归模型样本;根据分类‑回归模型样本,构建相似度分类‑回归模型;获取用户数据,并根据相似度分类‑回归模型分析用户数据的相似度。用以结合数据收集、数据清洗与增广、模型架构设计、模型训练,模型上线等流程机制,基于注意力机制、孪生网络、预训练模型等多项自然语言处理技术生成学员与培训标准之间的语义相似度得分,使机器人具备理解学员培训水平,识别学员后续意图的智能,达成智能化人机对练。

Description

人工智能评分训练方法和装置
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种人工智能评分训练方法和装置。
背景技术
在保险行业内,传统的培训通常以面授方式为主,需要学员和导师同时在场,进行授课与考试。但培训的学员例如销售人员、客服人员的流动性较大,使用传统的培训模式培训效率较低,且考核方式更为困难。另外一方面,每个导师都有自己的一套培训方法,方法的留存性、复用性都较低。
发明内容
本申请实施例的目的在于提供一种人工智能评分训练方法和装置,用以解决现有技术中存在的技术问题。
第一方面,本申请实施例提供一种人工智能评分训练方法,包括:获取用于训练人工智能的原始数据,原始数据包括对比数据和迭代数据;根据预设数据清洗规则,清洗原始数据,生成样本数据;根据样本数据的属性,提取对应样本数据属性的分类-回归模型样本;根据分类-回归模型样本,构建相似度分类-回归模型;获取用户数据,并根据相似度分类-回归模型分析用户数据的相似度。
在可选的实施方式中,用于训练人工智能的原始数据包括:语音识别文本和对应语音识别文本的音素样本;根据预设数据清洗规则,清洗原始数据,生成样本数据,包括:将语音识别文本和音素样本规整为两个字段;提取字段中的字符,并删除字段中的无效字符;根据预设字符对照表匹配字段中的标点;提取字符中的非中文字符,并给非中文字符匹配音素。
在可选的实施方式中,样本数据的属性包括文本样本;根据样本数据的属性,提取对应样本数据属性的分类-回归模型样本,包括:向标准文本混合通用语料数据,生成预训练模型样本。
在可选的实施方式中,样本数据的属性包括文本样本;根据样本数据的属性,提取对应样本数据属性的分类-回归模型样本,还包括:抽取来源相同的两个文本样本作为正样本;放回式抽取不同来源的两个文本样本作为负样本;判断对比数据和迭代数据中的句子元素个数是否超过预设上限个数;若超过预设上限个数,则随机丢弃若干个元素,生成文本分类模型样本。
在可选的实施方式中,根据分类-回归模型样本,构建相似度分类-回归模型,包括:根据预训练模型样本和文本分类模型样本,构建预训练孪生网络相似度分类模型。
在可选的实施方式中,样本数据的属性包括文本样本;根据样本数据的属性,提取对应样本数据属性的分类-回归模型样本,还包括:将文本样本在随机位置丢弃预设长度,生成第一处理样本;将第一处理样本与样本数据中任一文本样本,可重复地放回式抽取,构成目标相似度的第二处理样本;判断对比数据和迭代数据中的句子元素个数是否超过预设上限个数;若超过预设上限个数,则随机丢弃若干个元素,生成文本回归模型样本。
在可选的实施方式中,根据分类-回归模型样本,构建相似度分类-回归模型,包括:根据预训练模型样本和文本回归模型样本,构建预训练嵌入双塔结构相似度回归模型。
在可选的实施方式中,样本数据的属性包括音素样本;根据样本数据的属性,提取对应样本数据属性的分类-回归模型样本,还包括:抽取来源相同的两个音素样本作为正样本;放回式抽取不同来源的两个音素样本作为负样本;判断对比数据和迭代数据中的句子元素个数是否超过预设上限个数;若超过预设上限个数,则随机丢弃若干个元素,生成音素分类模型样本。
在可选的实施方式中,根据分类-回归模型样本,构建相似度分类-回归模型,包括:根据音素分类模型样本,构建注意力-卷积孪生网络相似度分类模型。
第二方面,本申请实施例还提供了一种语料合成装置,包括:第一获取模块,用于获取用于训练人工智能的原始数据,原始数据包括对比数据和迭代数据;第一生成模块,用于根据预设数据清洗规则,清洗原始数据,生成样本数据;第一提取模块,用于根据样本数据的属性,提取对应样本数据属性的分类-回归模型样本;第一构建模块,用于根据分类-回归模型样本,构建相似度分类-回归模型;第一分析模块,用于获取用户数据,并根据相似度分类-回归模型分析用户数据的相似度。
在可选的实施方式中,用于训练人工智能的原始数据包括:语音识别文本和对应语音识别文本的音素样本;第一生成模块还用于:将语音识别文本和音素样本规整为两个字段;提取字段中的字符,并删除字段中的无效字符;根据预设字符对照表匹配字段中的标点;提取字符中的非中文字符,并给非中文字符匹配音素。
在可选的实施方式中,样本数据的属性包括文本样本;第一提取模块还用于:向标准文本混合通用语料数据,生成预训练模型样本。
在可选的实施方式中,样本数据的属性包括文本样本;第一提取模块还用于:抽取来源相同的两个文本样本作为正样本;放回式抽取不同来源的两个文本样本作为负样本;判断对比数据和迭代数据中的句子元素个数是否超过预设上限个数;若超过预设上限个数,则随机丢弃若干个元素,生成文本分类-回归模型样本。
在可选的实施方式中,第一构建模块还用于:根据预训练模型样本和文本分类模型样本,构建预训练孪生网络相似度分类模型。
在可选的实施方式中,样本数据的属性包括文本样本;第一提取模块还用于:将文本样本在随机位置丢弃预设长度,生成第一处理样本;将第一处理样本与样本数据中任一文本样本,可重复地放回式抽取,构成目标相似度的第二处理样本;判断对比数据和迭代数据中的句子元素个数是否超过预设上限个数;若超过预设上限个数,则随机丢弃若干个元素,生成文本回归模型样本。
在可选的实施方式中,第一构建模块还用于:根据预训练模型样本和文本回归模型样本,构建预训练嵌入双塔结构相似度回归模型。
在可选的实施方式中,样本数据的属性包括音素样本;第一提取模块还用于:抽取来源相同的两个音素样本作为正样本;放回式抽取不同来源的两个音素样本作为负样本;判断对比数据和迭代数据中的句子元素个数是否超过预设上限个数;若超过预设上限个数,则随机丢弃若干个元素,生成音素分类模型样本。
在可选的实施方式中,第一构建模块还用于:根据音素分类模型样本,构建注意力-卷积孪生网络相似度分类模型。
第三方面,本发明实施例提供一种电子设备,包括:存储器,用以存储计算机程序;处理器,用以执行如前述实施方式中任一项的方法。
本申请实施例提供的一种人工智能评分训练方法和装置,其语料合成过程中具有如下优点:
系统基于AI技术用机器人替代导师,模拟实际场景中的人员培训模式,实现人机对练式智能培训应用,助力培训效率提升。
本申请提出的基于attention(注意力)的打分机制与方法,即是用于智能培训机器人核心功能上,结合数据收集、数据清洗与增广、模型架构设计、模型训练,模型上线等流程机制,基于注意力机制、孪生网络、预训练模型等多项自然语言处理技术生成学员与培训标准之间的语义相似度得分,该得分一方面使机器人具备理解学员培训水平的能力,另一方面具有识别学员后续意图的智能,达成智能化人机对练。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种电子设备的结构示意图;
图2为本申请实施例提供的一种人工智能评分训练方法的流程图;
图3为本申请实施例提供的一种人工智能评分训练装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
如图1所示,本实施例提供一种电子设备1,包括:至少一个处理器11和存储器12,图1中以一个处理器为例。处理器11和存储器12通过总线10连接,存储器12存储有可被处理器11执行的指令,指令被处理器11执行。
于一实施例中,电子设备1可以是手机、笔记本电脑等设备。可以通过数据采集,结合领域内文本数据收集,人工标注扩展话术、培训师标准样本录入、用户样本录入多项方法,达到降本增效式数据收集工作。采用样本增广和生成方法,同节点跨节点抽取正负样本生成方式并随机去字增强鲁棒性作为分类-回归模型样本,按百分比保留文本生成回归模型样本。引入音素数据用于智能培训机器人的相似度计算,扩充中文字词外的语义信息。混合BM25算法、Attention-CNN孪生网络结构相似度分类模型、预训练孪生网络结构相似度分类模型、预训练Embedding(嵌入)双塔结构相似度回归模型得分,并使用预存储技术加快模型使用以实现实时调用。
如图2所示,其为本申请实施例提供的一种人工智能评分训练方法的流程图,该方法可由图1所示的电子设备1来执行。该方法包括如下步骤:
步骤201:获取用于训练人工智能的原始数据。
在本步骤中,原始数据包括对比数据和迭代数据。为了使得机器人获得评判能力,需要预先收集数据用于智能机器人的训练。于一实施例中,对比数据收集以下多种数据,应用于不同阶段:
1、长期收集保险领域销售、客服话术语料数据,一方面用于增强预训练模型对领域内文本的理解能力,另一方面部分金牌话术直接作为训练科目的标准文本。对接多个接口持续收集保险领域内文本数据,包括各个保险产品(含已下线)的介绍文档,各类保险的基本条款文本,积累的销售话术、电销话术,客服基本流程用语,事件处理话术等等。按来源接口名称、类目名称、文本内容、来源时间存储。预计上线的话术将作为金牌话术另存储于话术及科目管理中,包含科目ID、话术ID、话术内容、更新时间等信息。金牌话术由专家扩展出扩展话术,分为两部分进行,一部分保护金牌话术中设定为关键词的部分,只变动非保护部分。另一部分进行自由发挥,在维持语义不变的基础上,尽量变换表达,最大化话术正确空间。
2、对于具体的训练科目,在训练科目上线前,聘请标注人员给出标准话术的扩展话术并通过转换生成文本+音素样本,用于相似度模型训练。
3、对于具体的训练科目,在训练科目上线前,招募培训师给出标准ASR(AutomaticSpeech Recognition,语音识别)文本+音素样本,用于相似度模型训练。由培训师对照话术录入ASR数据,可获得话术的标准ASR文本及音素数据,与标准话术及拓展话术做字和词匹配的简单计算,删除掉匹配程度较低的样本,如果费用昂贵,可省略该模块。
于一实施例中,迭代数据可以在具体的训练科目系统上线后,持续收集相似度满足要求的用户ASR文本+音素样本,用于相似度模型迭代训练。系统上线后,持续收集用户使用过程中的ASR文本及音素数据,并利用现有打分模型初筛合格的文本及音素数据,并利用长度要求、字词匹配程度要求等规则去除部分不合格样本,作为最终收集。
步骤202:根据预设数据清洗规则,清洗原始数据,生成样本数据。
在本步骤中,将语音识别文本和音素样本规整为两个字段,然后提取字段中的字符,并删除字段中的无效字符,并且根据预设字符对照表匹配字段中的标点,最后提取字符中的非中文字符,并给非中文字符匹配音素。具体地,文本音素数据分隔:部分数据收集端文本与音素数据交杂在一起,将其清洗规整为2个字段。文本格式清洗:去除换行、空格等无效字符。文本标点清洗:对常见标点归一,对于未在常见字符表内的标点设置通配符。文本数字清洗:对于数字、百分号、加减乘除等有中文读法的内容进行读法转换。
步骤203:根据样本数据的属性,提取对应样本数据属性的分类-回归模型样本。
在本步骤中,收集到的数据经过清洗之后,进行一些增广的工作来扩充丰富我们的样本,最终分为三部分样本使用。
在可选的实施方式中,样本数据的属性包括文本样本,在长期收集保险领域销售、客服话术语料数据,一方面用于增强预训练模型对领域内文本的理解能力,另一方面部分金牌话术直接作为训练科目的标准文本,向这些文本中混合通用语料数据,生成预训练模型样本,进而在预训练模型中继续训练使用。
在可选的实施方式中,抽取来源相同的两个文本样本作为正样本,放回式抽取不同来源的两个文本样本作为负样本,判断对比数据和迭代数据中的句子元素个数是否超过预设上限个数,若超过预设上限个数,则随机丢弃若干个元素,生成文本分类模型样本。具体地,对于每个具体的训练科目中的具体节点,将标准话术的文本样本、扩展话术的文本样本、ASR标准文本样本、ASR用户合格的文本样本作为该节点文本样本。
抽取同节点内A、B两个文本样本作为正样本,放回式抽取,其次抽取跨节点A、B两个文本样本作为负样本,正负样本构造比例为γ∈[0.5,0.9]可调节。
对A、B两边句子元素个数超过20的都随机丢弃0-3个元素,增强鲁棒性。对于超过设定长度L∈[256,512](可调节)的进行截断。
在可选的实施方式中,将文本样本在随机位置丢弃预设长度,生成第一处理样本,将第一处理样本与样本数据中任一文本样本,可重复地放回式抽取,构成目标相似度的第二处理样本,判断对比数据和迭代数据中的句子元素个数是否超过预设上限个数,若超过预设上限个数,则随机丢弃若干个元素,生成文本回归模型样本。具体地,对于每个具体的训练科目中的具体节点,将标准话术的文本样本、扩展话术的文本样本、ASR标准文本样本、ASR用户合格的文本样本作为该节点文本样本。
对于某节点内任意文本样本A,随机位置丢弃20%长度的文本样本A'与该节点内任意样本B,放回式抽取可重复,构成相似度80%的样本,若随机位置位于后20%,则向文本开头继续丢弃;抽取某节点内任意文本样本A,随机位置丢弃40%长度的文本样本A'与该节点内任意样本B,放回式抽取可重复,构成相似度60%的样本,若丢弃长度L超过20,可随机选择丢弃L/2,再丢弃L/2;依此类推构造相似度40%,20%的样本,并同时构造得分为1和0的样本。
对两边句子元素个数超过20的都随机丢弃0-3个元素,增强鲁棒性。对于超过设定长度L∈[256,512](可调节)的进行截断。
在可选的实施方式中,抽取来源相同的两个音素样本作为正样本,放回式抽取不同来源的两个音素样本作为负样本,判断对比数据和迭代数据中的句子元素个数是否超过预设上限个数,若超过预设上限个数,则随机丢弃若干个元素,生成音素分类模型样本。具体地,对于每个具体的训练科目中的具体节点,将标准话术的音素样本、扩展话术的音素样本、ASR标准音素样本、ASR用户合格的音素样本作为该节点音素样本。
抽取同节点内A、B两个音素样本作为正样本,放回式抽取,抽取跨节点A、B两个音素样本作为负样本,正负样本构造比例为γ∈[0.5,0.9]可调节。对A、B两边句子元素个数超过20的都随机丢弃0-3个元素,增强鲁棒性。对于超过设定长度L∈[256,512]可调节的进行截断。
步骤204:根据分类-回归模型样本,构建相似度分类-回归模型。
在本步骤中,根据预训练模型样本和文本分类-回归模型样本,构建预训练孪生网络相似度分类模型。具体地,模型包括:(1)Embedding+句子信息提取层:使用预训练继续训练后的预训练模型,12层包含self-attention的block结构中的前三层(如果计算资源充足,也可灵活选用其它层,或层的组合结果),两边权值共享,参与调参。(2)加法拼接层:两个句子表达的结果+两个句子表达之差的绝对值。(3)全连接层:2个全连接提取交互信息,最终映射到分类问题上:(4)分类softmax,损失使用交叉熵损失函数。
在可选的实施方式中,根据预训练模型样本和文本回归模型样本,构建预训练嵌入双塔结构相似度回归模型。具体的,模型包括:(1)Embedding+句子信息提取层:直接使用预训练继续训练后的预训练模型,12层包含self-attention的block结构中的前3层张量的平均,固定下来不再参与后续参数训练,如果计算资源充足,也可灵活选用其它层,或层的组合结果。(2)加法拼接层:两个句子表达的结果+两个句子表达之差的绝对值。(3)全连接层:2个全连接提取交互信息。最终映射到回归问题上:(4)回归sigmoid,损失使用均方误差函数。
在可选的实施方式中,根据音素分类模型样本,构建注意力-卷积孪生网络相似度分类模型。具体地,模型包括:(1)Embedding层:每个句子分别经过Embedding层嵌入。(2)句子信息提取层:1次self-Attention层理解句内信息、2次CNN层提取句内信息获得句子表达。嵌入阶段和句子信息提取阶段共享参数形成孪生。其后进入两个句子的交互阶段:(3)加法拼接层:两个句子表达的结果+两个句子表达之间交互attention+两个句子表达之差的绝对值。(4)全连接层:2个全连接提取交互信息。最终映射到分类问题上:(5)分类softmax,损失使用交叉熵损失函数。
在可选的实施方式中,还可以设置评价相似度的非监督模型BM25,无需训练,主要通过对比两个句子内词的相似情况。主要原理为对A语句进行分词,分词后计算每个语素或词与另一个B句子之间相关性,再求加权和。
步骤205:获取用户数据,并根据相似度分类-回归模型分析用户数据的相似度。
在本步骤中,由于学员参与具体科目的训练,机器人与学员产生人机对话,该发明机制接收到学员的输入,将该输入与该科目空间下所有标准话术按设定模型计算相似度,得分最高的即为该机制判定的用户意图,同时该得分作为该学员的在此标准话术下的表现效果。针对销售、客服等不同的业务方,会有不同的时效要求和硬件设施情况,可灵活调整上线方法:
1、上线模型混合步骤204中的多种结构,可灵活调整Model1_Score、Model2_Score、Model3_Score、Model4_Score的权重[ω_1,ω_2,ω_3,ω_4],其中ω_1+ω_2+ω_3+ω_4=1,ω_i,i∈1,2,3,4in[0,1]。
2、可预存标准话术的任意模型Embedding+句子信息提取层结果,实时调用时仅计算用户输入的模型Embedding+句子信息提取层和后续交互,可大幅增速。
参阅图3,其为本申请实施例提供的一种人工智能评分训练装置300,该人工智能评分训练装置300可应用于图1所示的电子设备1,以通过数据采集,结合领域内文本数据收集,人工标注扩展话术、培训师标准样本录入、用户样本录入多项方法,达到降本增效式数据收集工作。采用样本增广和生成方法,同节点跨节点抽取正负样本生成方式并随机去字增强鲁棒性作为分类-回归模型样本,按百分比保留文本生成回归模型样本。引入音素数据用于智能培训机器人的相似度计算,扩充中文字词外的语义信息。混合BM25算法、Attention-CNN孪生网络结构相似度分类模型、预训练孪生网络结构相似度分类模型、预训练Embedding(嵌入)双塔结构相似度回归模型得分,并使用预存储技术加快模型使用以实现实时调用。该装置包括:第一获取模块301,第一生成模块302,第一提取模块303,第一构建模块304和第一分析模块305。具体原理关系如下:
第一获取模块301,用于获取用于训练人工智能的原始数据,原始数据包括对比数据和迭代数据。详细请参阅上述实施例中对步骤201的描述。
第一生成模块302,用于根据预设数据清洗规则,清洗原始数据,生成样本数据。
在可选的实施方式中,用于训练人工智能的原始数据包括:语音识别文本和对应语音识别文本的音素样本;第一生成模块302还用于:将语音识别文本和音素样本规整为两个字段;提取字段中的字符,并删除字段中的无效字符;根据预设字符对照表匹配字段中的标点;提取字符中的非中文字符,并给非中文字符匹配音素。详细请参阅上述实施例中对步骤202的描述。
第一提取模块303,用于根据样本数据的属性,提取对应样本数据属性的分类-回归模型样本。
在可选的实施方式中,样本数据的属性包括文本样本;第一提取模块303还用于:向标准文本混合通用语料数据,生成预训练模型样本。
在可选的实施方式中,样本数据的属性包括文本样本;第一提取模块303还用于:抽取来源相同的两个文本样本作为正样本;放回式抽取不同来源的两个文本样本作为负样本;判断对比数据和迭代数据中的句子元素个数是否超过预设上限个数;若超过预设上限个数,则随机丢弃若干个元素,生成文本分类-回归模型样本。
在可选的实施方式中,样本数据的属性包括文本样本;第一提取模块303还用于:将文本样本在随机位置丢弃预设长度,生成第一处理样本;将第一处理样本与样本数据中任一文本样本,可重复地放回式抽取,构成目标相似度的第二处理样本;判断对比数据和迭代数据中的句子元素个数是否超过预设上限个数;若超过预设上限个数,则随机丢弃若干个元素,生成文本回归模型样本。
在可选的实施方式中,样本数据的属性包括音素样本;第一提取模块303还用于:抽取来源相同的两个音素样本作为正样本;放回式抽取不同来源的两个音素样本作为负样本;判断对比数据和迭代数据中的句子元素个数是否超过预设上限个数;若超过预设上限个数,则随机丢弃若干个元素,生成音素分类模型样本。详细请参阅上述实施例中对步骤203的描述。
第一构建模块304,用于根据分类-回归模型样本,构建相似度分类-回归模型。
在可选的实施方式中,第一构建模块304还用于:根据预训练模型样本和文本分类模型样本,构建预训练孪生网络相似度分类模型。
在可选的实施方式中,第一构建模块304还用于:根据预训练模型样本和文本回归模型样本,构建预训练嵌入双塔结构相似度回归模型。
在可选的实施方式中,第一构建模块304还用于:根据音素分类模型样本,构建注意力-卷积孪生网络相似度分类模型。详细请参阅上述实施例中对步骤204的描述。
第一分析模块305,用于获取用户数据,并根据相似度分类-回归模型分析用户数据的相似度。详细请参阅上述实施例中对步骤205的描述。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
需要说明的是,功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种人工智能评分训练方法,其特征在于,包括:
获取用于训练人工智能的原始数据,所述原始数据包括对比数据和迭代数据;
根据预设数据清洗规则,清洗所述原始数据,生成样本数据;
根据所述样本数据的属性,提取对应所述样本数据属性的分类-回归模型样本;
根据所述分类-回归模型样本,构建相似度分类-回归模型;
获取用户数据,并根据所述相似度分类-回归模型分析所述用户数据的相似度。
2.根据权利要求1所述的方法,其特征在于,所述用于训练人工智能的原始数据包括:语音识别文本和对应所述语音识别文本的音素样本;所述根据预设数据清洗规则,清洗所述原始数据,生成样本数据,包括:
将所述语音识别文本和所述音素样本规整为两个字段;
提取所述字段中的字符,并删除所述字段中的无效字符;
根据预设字符对照表匹配所述字段中的标点;
提取所述字符中的非中文字符,并给所述非中文字符匹配音素。
3.根据权利要求1所述的方法,其特征在于,所述样本数据的属性包括文本样本;所述根据所述样本数据的属性,提取对应所述样本数据属性的分类-回归模型样本,包括:
向所述标准文本混合通用语料数据,生成预训练模型样本。
4.根据权利要求3所述的方法,其特征在于,所述样本数据的属性包括文本样本;所述根据所述样本数据的属性,提取对应所述样本数据属性的分类-回归模型样本,还包括:
抽取来源相同的两个所述文本样本作为正样本;
放回式抽取不同来源的两个所述文本样本作为负样本;
判断所述对比数据和所述迭代数据中的句子元素个数是否超过预设上限个数;
若超过所述预设上限个数,则随机丢弃若干个元素,生成文本分类模型样本。
5.根据权利要求4所述的方法,其特征在于,所述根据所述分类-回归模型样本,构建相似度分类-回归模型,包括:
根据所述预训练模型样本和所述文本分类-回归模型样本,构建预训练孪生网络相似度分类模型。
6.根据权利要求3所述的方法,其特征在于,所述样本数据的属性包括文本样本;所述根据所述样本数据的属性,提取对应所述样本数据属性的分类-回归模型样本,还包括:
将所述文本样本在随机位置丢弃预设长度,生成第一处理样本;
将所述第一处理样本与所述样本数据中任一所述文本样本,可重复地放回式抽取,构成目标相似度的第二处理样本;
判断所述对比数据和所述迭代数据中的句子元素个数是否超过预设上限个数;
若超过所述预设上限个数,则随机丢弃若干个元素,生成文本回归模型样本。
7.根据权利要求6所述的方法,其特征在于,所述根据所述分类-回归模型样本,构建相似度分类-回归模型,包括:
根据所述预训练模型样本和所述文本回归模型样本,构建预训练嵌入双塔结构相似度回归模型。
8.根据权利要求1所述的方法,其特征在于,所述样本数据的属性包括音素样本;所述根据所述样本数据的属性,提取对应所述样本数据属性的分类-回归模型样本,还包括:
抽取来源相同的两个所述音素样本作为正样本;
放回式抽取不同来源的两个所述音素样本作为负样本;
判断所述对比数据和所述迭代数据中的句子元素个数是否超过预设上限个数;
若超过所述预设上限个数,则随机丢弃若干个元素,生成音素分类模型样本。
9.根据权利要求8所述的方法,其特征在于,所述根据所述分类-回归模型样本,构建相似度分类-回归模型,包括:
根据所述音素分类模型样本,构建注意力-卷积孪生网络相似度分类模型。
10.一种人工智能评分训练装置,其特征在于,包括:
第一获取模块,用于获取用于训练人工智能的原始数据,所述原始数据包括对比数据和迭代数据;
第一生成模块,用于根据预设数据清洗规则,清洗所述原始数据,生成样本数据;
第一提取模块,用于根据所述样本数据的属性,提取对应所述样本数据属性的分类-回归模型样本;
第一构建模块,用于根据所述分类-回归模型样本,构建相似度分类-回归模型;
第一分析模块,用于获取用户数据,并根据所述相似度分类-回归模型分析所述用户数据的相似度。
CN202011161582.3A 2020-10-27 2020-10-27 人工智能评分训练方法和装置 Pending CN112347786A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011161582.3A CN112347786A (zh) 2020-10-27 2020-10-27 人工智能评分训练方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011161582.3A CN112347786A (zh) 2020-10-27 2020-10-27 人工智能评分训练方法和装置

Publications (1)

Publication Number Publication Date
CN112347786A true CN112347786A (zh) 2021-02-09

Family

ID=74359075

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011161582.3A Pending CN112347786A (zh) 2020-10-27 2020-10-27 人工智能评分训练方法和装置

Country Status (1)

Country Link
CN (1) CN112347786A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117726992A (zh) * 2024-02-07 2024-03-19 吉林大学 护理技能培训辅助系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117726992A (zh) * 2024-02-07 2024-03-19 吉林大学 护理技能培训辅助系统及方法
CN117726992B (zh) * 2024-02-07 2024-04-16 吉林大学 护理技能培训辅助系统及方法

Similar Documents

Publication Publication Date Title
CN108363743B (zh) 一种智能问题生成方法、装置和计算机可读存储介质
Mohammad Sentiment analysis: Automatically detecting valence, emotions, and other affectual states from text
Bharadiya A comprehensive survey of deep learning techniques natural language processing
Hsieh et al. Author profiling from facebook corpora
Abainia DZDC12: a new multipurpose parallel Algerian Arabizi–French code-switched corpus
Hassani BLARK for multi-dialect languages: towards the Kurdish BLARK
CN114528919A (zh) 自然语言处理方法、装置及计算机设备
Nerabie et al. The impact of Arabic part of speech tagging on sentiment analysis: A new corpus and deep learning approach
Xu et al. Implicitly incorporating morphological information into word embedding
CN116362591A (zh) 基于情感分析的多维度教师评价辅助方法和系统
Tahayna et al. Automatic sentiment annotation of idiomatic expressions for sentiment analysis task
CN113761377B (zh) 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质
Varaprasad et al. Applications and Techniques of Natural Language Processing: An Overview.
CN114416969A (zh) 一种基于背景增强的lstm-cnn在线评论情感分类方法及系统
Babu et al. Sentiment Analysis on Dravidian Code-Mixed YouTube Comments using Paraphrase XLM-RoBERTa Model.
CN112347786A (zh) 人工智能评分训练方法和装置
Kaur et al. Sentiment detection from Punjabi text using support vector machine
CN115017271A (zh) 用于智能生成rpa流程组件块的方法及系统
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
Tho et al. A comparison of lexicon-based and transformer-based sentiment analysis on code-mixed of low-resource languages
del-Hoyo et al. Hybrid text affect sensing system for emotional language analysis
Basnayake et al. Plagiarism detection in Sinhala language: A software approach
Bruchansky Political footprints: Political discourse analysis using pre-trained word vectors
Khandait et al. Automatic question generation through word vector synchronization using lamma
Jati et al. Multilingual Named Entity Recognition Model for Indonesian Health Insurance Question Answering System

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination