CN106815198A - 模型训练方法及装置和语句业务类型的识别方法及装置 - Google Patents

模型训练方法及装置和语句业务类型的识别方法及装置 Download PDF

Info

Publication number
CN106815198A
CN106815198A CN201510850386.XA CN201510850386A CN106815198A CN 106815198 A CN106815198 A CN 106815198A CN 201510850386 A CN201510850386 A CN 201510850386A CN 106815198 A CN106815198 A CN 106815198A
Authority
CN
China
Prior art keywords
sentence
service
type
training
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510850386.XA
Other languages
English (en)
Inventor
刘粉香
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510850386.XA priority Critical patent/CN106815198A/zh
Publication of CN106815198A publication Critical patent/CN106815198A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种模型训练方法及装置和语句业务类型的识别方法及装置。其中,该方法包括:采集多个业务类型中每个业务类型的多条文本信息,并标注采集到的文本信息中每条语句所属的业务类型,得到第一训练集;确定第一训练集中每条语句对应的语句向量,其中,语句向量为用于唯一表示对应的语句的多维数组;利用支持向量机对多个业务类型中每个业务类型的语句对应的语句向量分别进行训练,得到每个业务类型对应的支持向量机的训练模型,其中,支持向量机的训练模型用于识别语句的业务类型。本申请解决了现有技术中语句的业务类型识别的准确性低的技术问题。

Description

模型训练方法及装置和语句业务类型的识别方法及装置
技术领域
本申请涉及文本处理领域,具体而言,涉及一种模型训练方法及装置和语句业务类型的识别方法及装置。
背景技术
目前,计算机系统能够识别出用户咨询的问题,并确定出用户所要咨询的业务类型,业务类型是指该计算机系统所提供的业务的类型,例如,某网站业务分为交通、旅游等类型。计算机系统识别出用户咨询的业务类型之后,会搜索相关的信息以对用户进行答复,例如,当用户在线咨询“故宫怎么去?”计算机系统识别信息类型,回复交通类业务的信息,并进入相关流程,如调用地图等;而当用户咨询“故宫门票多少钱”,计算机系统应回复旅游类业务信息。
对于用户咨询的业务类型的识别,目前主要是对用户输入的文本进行识别,对文本的语句中关键词匹配,输出关键词相关结果,然而,这种通过关键词来识别语句对应的业务类型的方式,通常是将与该关键词相关的所有业务类型输出,而非语句的业务类型,导致识别准确性低,例如将“故宫怎么去?”可能识别出“故宫”,然后输出旅游类或者门票类信息等各种业务类型信息。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种模型训练方法及装置和语句业务类型的识别方法及装置,以至少解决现有技术中语句的业务类型识别的准确性低的技术问题。
根据本申请实施例的一个方面,提供了一种模型训练方法,包括:采集多个业务类型中每个业务类型的多条文本信息,并标注采集到的文本信息中每条语句所属的业务类型,得到第一训练集;确定所述第一训练集中每条语句对应的语句向量,其中,所述语句向量为用于唯一表示对应的语句的多维数组;利用支持向量机对多个业务类型中每个业务类型的语句对应的语句向量分别进行训练,得到每个业务类型对应的支持向量机的训练模型,其中,所述支持向量机的训练模型用于识别语句的业务类型。
进一步地,利用支持向量机对多个业务类型中每个业务类型的语句对应的语句向量分别进行训练,得到每个业务类型对应的支持向量机的训练模型包括:对于所述多个业务类型中每个业务类型,分别执行以下步骤直到训练得到每个业务类型对应的支持向量机的训练模型:将标注为当前业务类型的语句对应的语句向量作为正样本,将标注为所述多个业务类型中其他的业务类型的语句对应的语句向量作为负样本,输入到支持向量机的初始模型中,训练得到当前业务类型对应的支持向量机的训练模型。
进一步地,确定所述第一训练集中每条语句对应的语句向量包括:对所述第一训练集中每条语句进行分词处理;查找每条语句分词后每个词语对应的词向量,其中,所述词向量为用于唯一表示对应的词语的多维数组;根据每条语句中每个词语对应的词向量确定出相应语句的语句向量。
进一步地,在查找每条语句分词后每个词语对应的词向量之前,所述模型训练方法还包括:采集多个业务类型中每个业务类型的预设数据量的文本信息,得到文本信息集合;利用机器学习方式生成所述文本信息集合中每个词语的词向量,得到每个业务类型的词向量集合;其中,查找每条语句分词后每个词语对应的词向量包括:从每个业务类型的词向量集合查找出所述分词后每个词语对应的词向量。
根据本申请实施例的另一方面,还提供了一种语句业务类型的识别方法,包括:确定待测语句对应的语句向量;将待测语句对应的语句向量输入到支持向量机的训练模型中,利用所述支持向量机的训练模型识别出所述待测语句的业务类型。
根据本申请实施例的另一方面,还提供了一种模型训练装置,包括:第一采集单元,用于采集多个业务类型中每个业务类型的多条文本信息,并标注采集到的文本信息中每条语句所属的业务类型,得到第一训练集;确定单元,用于确定所述第一训练集中每条语句对应的语句向量,其中,所述语句向量为用于唯一表示对应的语句的多维数组;训练单元,用于利用支持向量机对多个业务类型中每个业务类型的语句对应的语句向量分别进行训练,得到每个业务类型对应的支持向量机的训练模型,其中,所述支持向量机的训练模型用于识别语句的业务类型。
进一步地,所述训练单元具体用于执行以下步骤直到训练得到每个业务类型对应的支持向量机的训练模型:将标注为当前业务类型的语句对应的语句向量作为正样本,将标注为所述多个业务类型中其他的业务类型的语句对应的语句向量作为负样本,输入到支持向量机的初始模型中,训练得到当前业务类型对应的支持向量机的训练模型。
进一步地,所述确定单元包括:分词模块,用于对所述第一训练集中每条语句进行分词处理;查询模块,用于查找每条语句分词后每个词语对应的词向量,其中,所述词向量为用于唯一表示对应的词语的多维数组;确定模块,用于根据每条语句中每个词语对应的词向量确定出相应语句的语句向量。
进一步地,所述模型训练装置还包括:第二采集单元,用于在查找每条语句分词后每个词语对应的词向量之前,采集多个业务类型中每个业务类型的预设数据量的文本信息,得到文本信息集合;生成单元,用于利用机器学习方式生成所述文本信息集合中每个词语的词向量,得到每个业务类型的词向量集合;其中,所述查询模块具体用于从每个业务类型的词向量集合查找出所述分词后每个词语对应的词向量。
根据本申请实施例的另一方面,还提供了一种语句业务类型的识别装置,包括:向量确定单元,用于确定待测语句对应的语句向量;识别单元,用于将待测语句对应的语句向量输入到支持向量机的训练模型中,利用所述支持向量机的训练模型识别出所述待测语句的业务类型。
根据本申请实施例,通过采集多个业务类型中每个业务类型的多条文本信息,并标注采集到的文本信息中每条语句所属的业务类型,得到第一训练集;确定第一训练集中每条语句对应的语句向量,其中,语句向量为用于唯一表示对应的语句的多维数组;利用支持向量机对多个业务类型中每个业务类型的语句对应的语句向量分别进行训练,得到每个业务类型对应的支持向量机的训练模型,以便于利用支持向量机的训练模型识别语句的业务类型。由于训练得到的训练模型是以语句单位来识别其对应的业务类型,相对于现有技术中通过语句中的关键词来识别业务类型的方式,其识别的准确性高,解决了现有技术中语句的业务类型识别的准确性低的技术问题,提高了语句的业务类型识别的准确性。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的模型训练方法的流程图;
图2是根据本申请实施例的语句业务类型的识别方法的流程图;
图3是根据本申请实施例的模型训练装置的示意图;
图4是根据本申请实施例的语句业务类型的识别装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例,提供了一种模型训练方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请实施例的模型训练方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,采集多个业务类型中每个业务类型的多条文本信息,并标注采集到的文本信息中每条语句所属的业务类型,得到第一训练集。
本申请实施例中的业务类型可以是任意一种计算机系统内设置分类方式分成的业务类型,例如,业务类型可以为按视频类型、文本类型、领域类型分类等各种分类方式。以某政府部门的网站为例,可以将用户问题按领域分为“交通、旅游、政务、办事”等类型。本申请实施例中的业务类型不限定于上述几种情况,只要是按照业务划分,均属于本申请的保护范围。
本实施例中,对于已经划分好的多个业务类型,采集其中每个业务类型的文本信息,且对每个业务类型采集多条该业务类型的文本信息。对于采集到的文本信息,以语句为单位标注每条语句的业务类型,从而得到第一训练集。
例如,目标系统中,将业务划分成“交通”、“旅游”两个业务类型,并用“J”表示“交通”,“L”表示“旅游”,对“交通”的业务类型采集多条文本信息,将采集到的文本信息中每条语句标注“J”;对“旅游”的业务类型采集多条文本信息,将采集到的文本信息中每条语句标注“L”。
步骤S104,确定第一训练集中每条语句对应的语句向量,其中,语句向量为用于唯一表示对应的语句的多维数组。
第一训练集中每条语句对应的语句向量可以是按照预先定义的规则生成的语句向量,不同语句对应的语句向量各不相同。由于第一训练集中每条语句携带有与标注对应的业务类型,因此,每条语句对应的语句向量也对应着与该语句相同的业务类型。
步骤S106,利用支持向量机对多个业务类型中每个业务类型的语句对应的语句向量分别进行训练,得到每个业务类型对应的支持向量机的训练模型,其中,支持向量机的训练模型用于识别语句的业务类型。
在确定出每条语句之后,利用支持向量机(Support Vector Machine,简称为SVM)对每个业务类型的语句对应的语句向量进行训练,得到与每个业务类型一一对应的多个支持向量机的训练模型,其中,每个业务类型对应一个支持向量机的训练模型,然后通过训练得到的支持向量机的训练模型来识别待测语句的业务类型。通过支持向量机来来训练得到训练模型,机器可以以训练模型中的参数来记忆每个业务类型中词语及其组合形式,当再次接收到相关业务类型的语句时,就能够识别出该语句的业务类型。
根据本申请实施例,通过采集多个业务类型中每个业务类型的多条文本信息,并标注采集到的文本信息中每条语句所属的业务类型,得到第一训练集;确定第一训练集中每条语句对应的语句向量,其中,语句向量为用于唯一表示对应的语句的多维数组;利用支持向量机对多个业务类型中每个业务类型的语句对应的语句向量分别进行训练,得到每个业务类型对应的支持向量机的训练模型,以便于利用支持向量机的训练模型识别语句的业务类型。由于训练得到的训练模型是以语句单位来识别其对应的业务类型,相对于现有技术中通过语句中的关键词来识别业务类型的方式,其识别的准确性高,解决了现有技术中语句的业务类型识别的准确性低的技术问题,提高了语句的业务类型识别的准确性。
优选地,利用支持向量机对多个业务类型中每个业务类型的语句对应的语句向量进行训练,得到每个业务类型对应的支持向量机的训练模型包括:对于多个业务类型中每个业务类型,分别执行以下步骤直到训练得到每个业务类型对应的支持向量机的训练模型;将标注为当前业务类型的语句对应的语句向量作为正样本,将标注为多个业务类型中其他的业务类型的语句对应的语句向量作为负样本,输入到支持向量机的初始模型中,训练得到当前业务类型对应的支持向量机的训练模型。
本实施例中的当前业务类型依次取上述多个业务类型中的每个业务类型,直到每个业务类型都训练得到对应的支持向量机的训练模型。
对于当前业务类型,将该业务类型所采集到的语句对应的语句向量作为正样本,其他业务类型的语句对应的语句向量作为负样本,输入到支持向量机的初始模型中进行训练,得到当前业务类型的支持向量机的训练模型。
以上述中“交通”、“旅游”两个业务类型为例,在训练“交通”的业务类型的支持向量机的训练模型时,将采集到的“交通”的业务类型的语句对应的语句向量作为正样本,将采集到的“旅游”的业务类型的语句对应的语句向量作为负样本,输入到支持向量机的初始模型中进行训练,得到“交通”的业务类型的支持向量机的训练模型。这样,当将待测语句输入到“交通”的业务类型的支持向量机的训练模型中之后,如果该待测语句属于“交通”的业务类型,则在输出该语句属于“交通”的业务类型的输出结果,反之,则输出不属于“交通”的业务类型的输出结果。例如,通过训练模型识别之后得到每个语句的标记,例如,属于某类型业务标记为1,不属于的标记为0,进而可根据该业务类型设定的计算机程序进行应答。
根据本申请实施例,以语句向量为支持向量机的初始模型的输入内容,机器可以记忆每个类型业务语句中的词及其组合形式,并以模型中的参数记忆这些组合。
优选地,确定第一训练集中每条语句对应的语句向量包括:对第一训练集中每条语句进行分词处理;查找每条语句分词后每个词语对应的词向量,其中,词向量为用于唯一表示对应的词语的多维数组;根据每条语句中每个词语对应的词向量确定出相应语句的语句向量。
本实施例中,对于语句向量的确定,可以是将第一训练集中每条语句进行分词处理,然后查询每条语句中每个词语对应的词向量。其中,分词结果为按照原有语句将词进行顺序排列,包括标点符号例如,将“故宫怎么去?”分词为“故宫 怎么 去?”或者为“故宫 怎么去?”。其中,每个词语的词向量可以从预先生成的词向量集合中查询每个词语对应的词向量,也可以利用预先生成的规则生成每个词语对应的词向量。
根据语句中的词语对应的词向量生成该语句对应的语句向量可以是把该语句中每个词对应的词向量相加得到该语句对应的语句向量,即将每个词向量相应位置上的数值相加得到的值作为语句向量该相应位置上的数值;或者,把该语句中每个词对应的词向量相加之后除以词向量个数,即将每个词向量相应位置上的数值相加再除以词向量个数,得到的值作为语句向量该相应位置上的数值。
进一步地,在查找每条语句分词后每个词语对应的词向量之前,模型训练方法还包括:采集多个业务类型中每个业务类型的预设数据量的文本信息,得到文本信息集合;利用机器学习方式生成文本信息集合中每个词语的词向量,得到每个业务类型的词向量集合;其中,查找每条语句分词后每个词语对应的词向量包括:从每个业务类型的词向量集合查找出分词后每个词语对应的词向量。
本实施例中,采集与每个业务类型相关的大量文本,利用机器学习方法生成词向量,得到每个业务类型相关文本的词向量集合。其中,用机器学习方法生成词向量,可以是利用谷歌word2vec进行词向量训练等方法得到。
通过预先生成每个业务类型的词向量集合,以便于在根据词向量生成语句向量时,可以直接从词向量集合中查询相应词语的词向量,从而提高语句向量的确定的效率。
本申请实施例的模型训练方法的一种可选方式包括:
步骤一、对每个业务类型采集多条文本信息,并标注每个业务分类,作为训练集1即第一训练集。其中,业务类型可以为按视频类型、文本类型、领域类型分类等各种分类方式。如某政府部门将用户问题按领域分为“交通、旅游、政务、办事”等类型。
步骤二、对训练集1中每条文本以语句为单位进行分词,作为业务分类训练集2。其中,分词结果为按照原有语句将词进行顺序排列,包括标点符号。如,将用户询问的问题“故宫怎么去?”可能分词为“故宫 怎么 去?”或者为“故宫 怎么去?”。
步骤三、采集与每个业务类型相关的大量文本,利用机器学习方法生成词向量,得到每个业务类型相关文本的词向量集合,作为词向量训练集3。其中,用机器学习方法生成词向量,可以是利用谷歌word2vec进行词向量训练等方法得到。
步骤四、根据上述中带有业务类型的词向量训练集3,找出训练集2中每条语句对应的语句向量。其中,语句向量的计算方法可以为把句中每个词对应的词向量相加除以此向量个数。
步骤五、对每个类型业务,将步骤四中的该业务类型的语句向量作为正样本,其他业务类型的语句向量作为负样本,输入支持向量机的初始模型,得到每个业务类型的SVM训练模型(模型中参数确定)。其中,以语句向量为SVM(支持向量机)初始模型的输入内容,机器可以记忆每个类型业务语句中的词及其组合形式,并以模型中的参数记忆这些组合。
根据本申请实施例还提供了一种语句业务类型的识别方法,该语句业务类型的识别方法可以用于通过本申请上述实施例的模型训练方法训练得到的支持向量机来识别待测语句的业务类型。如图2所示,该语句业务类型的识别方法包括:
步骤S202,确定待测语句对应的语句向量。
对于待测语句对应的语句向量的确定,可以参照本申请上述实施例中关于采集的业务类型的文本中的语句对应的语句向量的确定方式,这里不做赘述。
步骤S204,将待测语句对应的语句向量输入到支持向量机的训练模型中,利用支持向量机的训练模型识别出待测语句的业务类型。
本申请实施例的支持向量机的训练模型为本申请上述实施例的模型训练方法训练得到的支持向量机的训练模型。
由于通过支持向量机来来训练得到训练模型,机器可以以训练模型中的参数来记忆每个业务类型中词语及其组合形式,当再次接收到相关业务类型的语句时,就能够识别出该语句的业务类型。其中,当将待测的大量目标语句的词向量输入每个业务类型的SVM训练模型,通过模型的计算,将得到每个语句的标记,例如,属于某类型业务标记为1,不属于标记为0,进而可根据该业务类型设定的计算机程序进行应答。
由于训练得到的训练模型是以语句单位来识别其对应的业务类型,相对于现有技术中通过语句中的关键词来识别业务类型的方式,其识别的准确性高,解决了现有技术中语句的业务类型识别的准确性低的技术问题,提高了语句的业务类型识别的准确性。
本申请实施例还提供了一种模型训练装置,该装置可以用于执行本申请实施例的模型训练方法,如图3所示,该装置包括:第一采集单元301、确定单元303和训练单元305。
第一采集单元301用于采集多个业务类型中每个业务类型的多条文本信息,并标注采集到的文本信息中每条语句所属的业务类型,得到第一训练集。
本申请实施例中的业务类型可以是任意一种计算机系统内设置分类方式分成的业务类型,例如,业务类型可以为按视频类型、文本类型、领域类型分类等各种分类方式。以某政府部门的网站为例,可以将用户问题按领域分为“交通、旅游、政务、办事”等类型。本申请实施例中的业务类型不限定于上述几种情况,只要是按照业务划分,均属于本申请的保护范围。
本实施例中,对于已经划分好的多个业务类型,采集其中每个业务类型的文本信息,且每个业务类型采集多条该业务类型的文本信息。对于采集到的文本信息,以语句为单位标注每条语句的业务类型,从而得到第一训练集。
例如,目标系统中,将业务划分成“交通”、“旅游”两个业务类型,并用“J”表示“交通”,“L”表示“旅游”,对“交通”的业务类型采集多条文本信息,将采集到的文本信息中每条语句标注“J”;对“旅游”的业务类型采集多条文本信息,将采集到的文本信息中每条语句标注“L”。
确定单元303用于确定第一训练集中每条语句对应的语句向量,其中,语句向量为用于唯一表示对应的语句的多维数组。
第一训练集中每条语句对应的语句向量可以是按照预先定义的规则生成的语句向量,不同语句对应的语句向量各不相同。由于第一训练集中每条语句携带有与标注对应的业务类型,因此,每条语句对应的语句向量也对应着与该语句相同的业务类型。
训练单元305用于利用支持向量机对多个业务类型中每个业务类型的语句对应的语句向量分别进行训练,得到每个业务类型对应的支持向量机的训练模型,其中,支持向量机的训练模型用于识别语句的业务类型。
在确定出每条语句之后,利用支持向量机(Support Vector Machine,简称为SVM)对每个业务类型的语句对应的语句向量进行训练,得到与每个业务类型一一对应的多个支持向量机的训练模型,其中,每个业务类型对应一个支持向量机的训练模型,然后通过训练得到的支持向量机的训练模型来识别待测语句的业务类型。通过支持向量机来来训练得到训练模型,机器可以以训练模型中的参数来记忆每个业务类型中词语及其组合形式,当再次接收到相关业务类型的语句时,就能够识别出该语句的业务类型。
根据本申请实施例,通过采集多个业务类型中每个业务类型的多条文本信息,并标注采集到的文本信息中每条语句所属的业务类型,得到第一训练集;确定第一训练集中每条语句对应的语句向量,其中,语句向量为用于唯一表示对应的语句的多维数组;利用支持向量机对多个业务类型中每个业务类型的语句对应的语句向量分别进行训练,得到每个业务类型对应的支持向量机的训练模型,以便于利用支持向量机的训练模型识别语句的业务类型。由于训练得到的训练模型是以语句单位来识别其对应的业务类型,相对于现有技术中通过语句中的关键词来识别业务类型的方式,其识别的准确性高,解决了现有技术中语句的业务类型识别的准确性低的技术问题,提高了语句的业务类型识别的准确性。
优选地,训练单元具体用于执行以下步骤直到训练得到每个业务类型对应的支持向量机的训练模型:将标注为当前业务类型的语句对应的语句向量作为正样本,将标注为多个业务类型中其他的业务类型的语句对应的语句向量作为负样本,输入到支持向量机的初始模型中,训练得到当前业务类型对应的支持向量机的训练模型。
本实施例中的当前业务类型依次取上述多个业务类型中的每个业务类型,直到每个业务类型都训练得到对应的支持向量机的训练模型。
对于当前业务类型,将该业务类型所采集到的语句对应的语句向量作为正样本,其他业务类型的语句对应的语句向量作为负样本,输入到支持向量机的初始模型中进行训练,得到当前业务类型的支持向量机的训练模型。
以上述中“交通”、“旅游”两个业务类型为例,在训练“交通”的业务类型的支持向量机的训练模型时,将采集到的“交通”的业务类型的语句对应的语句向量作为正样本,将采集到的“旅游”的业务类型的语句对应的语句向量作为负样本,输入到支持向量机的初始模型中进行训练,得到“交通”的业务类型的支持向量机的训练模型。这样,当将待测语句输入到“交通”的业务类型的支持向量机的训练模型中之后,如果该待测语句属于“交通”的业务类型,则在输出该语句属于“交通”的业务类型的输出结果,反之,则输出不属于“交通”的业务类型的输出结果。例如,通过训练模型识别之后得到每个语句的标记,例如,属于某类型业务标记为1,不属于的标记为0,进而可根据该业务类型设定的计算机程序进行应答。
根据本申请实施例,以语句向量为支持向量机的初始模型的输入内容,机器可以记忆每个类型业务语句中的词及其组合形式,并以模型中的参数记忆这些组合。
优选地,确定单元包括:分词模块,用于对第一训练集中每条语句进行分词处理;查询模块,用于查找每条语句分词后每个词语对应的词向量,其中,词向量为用于唯一表示对应的词语的多维数组;确定模块,用于根据每条语句中每个词语对应的词向量确定出相应语句的语句向量。
本实施例中,对于语句向量的确定,可以是将第一训练集中每条语句进行分词处理,然后查询每条语句中每个词语对应的词向量。其中,分词结果为按照原有语句将词进行顺序排列,包括标点符号例如,将“故宫怎么去?”分词为“故宫 怎么 去?”或者为“故宫 怎么去?”。其中,每个词语的词向量可以从预先生成的词向量集合中查询每个词语对应的词向量,也可以利用预先生成的规则生成每个词语对应的词向量。
根据语句中的词语对应的词向量生成该语句对应的语句向量可以是把该语句中每个词对应的词向量相加得到该语句对应的语句向量,即将每个词向量相应位置上的数值相加得到的值作为语句向量该相应位置上的数值;或者,把该语句中每个词对应的词向量相加之后除以词向量个数,即将每个词向量相应位置上的数值相加再除以词向量个数,得到的值作为语句向量该相应位置上的数值。
进一步地,模型训练装置还包括:第二采集单元,用于在查找每条语句分词后每个词语对应的词向量之前,采集多个业务类型中每个业务类型的预设数据量的文本信息,得到文本信息集合;生成单元,用于利用机器学习方式生成文本信息集合中每个词语的词向量,得到每个业务类型的词向量集合;其中,查询模块具体用于从每个业务类型的词向量集合查找出分词后每个词语对应的词向量。
本实施例中,采集与每个业务类型相关的大量文本,利用机器学习方法生成词向量,得到每个业务类型相关文本的词向量集合。其中,用机器学习方法生成词向量,可以是利用谷歌word2vec进行词向量训练等方法得到。
通过预先生成每个业务类型的词向量集合,以便于在根据词向量生成语句向量时,可以直接从词向量集合中查询相应词语的词向量,从而提高语句向量的确定的效率。
所述模型训练装置包括处理器和存储器,上述第一采集单元301、确定单元303和训练单元305等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来训练每个业务类型的支持向量机的训练模型。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:采集多个业务类型中每个业务类型的多条文本信息,并标注采集到的文本信息中每条语句所属的业务类型,得到第一训练集;确定第一训练集中每条语句对应的语句向量,其中,语句向量为用于唯一表示对应的语句的多维数组;利用支持向量机对多个业务类型中每个业务类型的语句对应的语句向量分别进行训练,得到每个业务类型对应的支持向量机的训练模型,其中,支持向量机的训练模型用于识别语句的业务类型。
本申请实施例还提供了一种语句业务类型的识别装置,该装置可以用于执行本申请实施例的语句业务类型的识别方法,如图4所示,该装置包括:向量确定单元401和识别单元403。
向量确定单元401用于确定待测语句对应的语句向量。
对于待测语句对应的语句向量的确定,可以参照本申请上述实施例中关于采集的业务类型的文本中的语句对应的语句向量的确定方式,这里不做赘述。
识别单元403用于将待测语句对应的语句向量输入到支持向量机的训练模型中,利用支持向量机的训练模型识别出待测语句的业务类型。
本申请实施例的支持向量机的训练模型为本申请上述实施例的模型训练方法训练得到的支持向量机的训练模型。
由于通过支持向量机来来训练得到训练模型,机器可以以训练模型中的参数来记忆每个业务类型中词语及其组合形式,当再次接收到相关业务类型的语句时,就能够识别出该语句的业务类型。其中,当将待测的大量目标语句的词向量输入每个业务类型的SVM训练模型,通过模型的计算,将得到每个语句的标记,例如,属于某类型业务标记为1,不属于标记为0,进而可根据该业务类型设定的计算机程序进行应答。
由于训练得到的训练模型是以语句单位来识别其对应的业务类型,相对于现有技术中通过语句中的关键词来识别业务类型的方式,其识别的准确性高,解决了现有技术中语句的业务类型识别的准确性低的技术问题,提高了语句的业务类型识别的准确性。
所述语句业务类型的识别装置包括处理器和存储器,上述向量确定单元401和识别单元403等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元。处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来识别待测语句的业务类型。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:确定待测语句对应的语句向量;将待测语句对应的语句向量输入到支持向量机的训练模型中,利用支持向量机的训练模型识别出待测语句的业务类型。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种模型训练方法,其特征在于,包括:
采集多个业务类型中每个业务类型的多条文本信息,并标注采集到的文本信息中每条语句所属的业务类型,得到第一训练集;
确定所述第一训练集中每条语句对应的语句向量,其中,所述语句向量为用于唯一表示对应的语句的多维数组;
利用支持向量机对多个业务类型中每个业务类型的语句对应的语句向量分别进行训练,得到每个业务类型对应的支持向量机的训练模型,其中,所述支持向量机的训练模型用于识别语句的业务类型。
2.根据权利要求1所述的模型训练方法,其特征在于,利用支持向量机对多个业务类型中每个业务类型的语句对应的语句向量分别进行训练,得到每个业务类型对应的支持向量机的训练模型包括:
对于所述多个业务类型中每个业务类型,分别执行以下步骤,直到训练得到每个业务类型对应的支持向量机的训练模型:
将标注为当前业务类型的语句对应的语句向量作为正样本,将标注为所述多个业务类型中其他的业务类型的语句对应的语句向量作为负样本,输入到支持向量机的初始模型中,训练得到当前业务类型对应的支持向量机的训练模型。
3.根据权利要求1所述的模型训练方法,其特征在于,确定所述第一训练集中每条语句对应的语句向量包括:
对所述第一训练集中每条语句进行分词处理;
查找每条语句分词后每个词语对应的词向量,其中,所述词向量为用于唯一表示对应的词语的多维数组;
根据每条语句中每个词语对应的词向量确定出相应语句的语句向量。
4.根据权利要求3所述的模型训练方法,其特征在于,在查找每条语句分词后每个词语对应的词向量之前,所述模型训练方法还包括:
采集多个业务类型中每个业务类型的预设数据量的文本信息,得到文本信息集合;
利用机器学习方式生成所述文本信息集合中每个词语的词向量,得到每个业务类型的词向量集合;
其中,查找每条语句分词后每个词语对应的词向量包括:从每个业务类型的词向量集合查找出所述分词后每个词语对应的词向量。
5.一种语句业务类型的识别方法,其特征在于,包括:
确定待测语句对应的语句向量;
将待测语句对应的语句向量输入到权利要求1至4中任一项所述的模型训练方法训练得到的支持向量机的训练模型中,利用所述支持向量机的训练模型识别出所述待测语句的业务类型。
6.一种模型训练装置,其特征在于,包括:
第一采集单元,用于采集多个业务类型中每个业务类型的多条文本信息,并标注采集到的文本信息中每条语句所属的业务类型,得到第一训练集;
确定单元,用于确定所述第一训练集中每条语句对应的语句向量,其中,所述语句向量为用于唯一表示对应的语句的多维数组;
训练单元,用于利用支持向量机对多个业务类型中每个业务类型的语句对应的语句向量分别进行训练,得到每个业务类型对应的支持向量机的训练模型,其中,所述支持向量机的训练模型用于识别语句的业务类型。
7.根据权利要求6所述的模型训练装置,其特征在于,所述训练单元具体用于执行以下步骤直到训练得到每个业务类型对应的支持向量机的训练模型:
将标注为当前业务类型的语句对应的语句向量作为正样本,将标注为所述多个业务类型中其他的业务类型的语句对应的语句向量作为负样本,输入到支持向量机的初始模型中,训练得到当前业务类型对应的支持向量机的训练模型。
8.根据权利要求6所述的模型训练装置,其特征在于,所述确定单元包括:
分词模块,用于对所述第一训练集中每条语句进行分词处理;
查询模块,用于查找每条语句分词后每个词语对应的词向量,其中,所述词向量为用于唯一表示对应的词语的多维数组;
确定模块,用于根据每条语句中每个词语对应的词向量确定出相应语句的语句向量。
9.根据权利要求8所述的模型训练装置,其特征在于,所述模型训练装置还包括:
第二采集单元,用于在查找每条语句分词后每个词语对应的词向量之前,采集多个业务类型中每个业务类型的预设数据量的文本信息,得到文本信息集合;
生成单元,用于利用机器学习方式生成所述文本信息集合中每个词语的词向量,得到每个业务类型的词向量集合;
其中,所述查询模块具体用于从每个业务类型的词向量集合查找出所述分词后每个词语对应的词向量。
10.一种语句业务类型的识别装置,其特征在于,包括:
向量确定单元,用于确定待测语句对应的语句向量;
识别单元,用于将待测语句对应的语句向量输入到权利要求1至4中任一项所述的模型训练方法训练得到的支持向量机的训练模型中,利用所述支持向量机的训练模型识别出所述待测语句的业务类型。
CN201510850386.XA 2015-11-27 2015-11-27 模型训练方法及装置和语句业务类型的识别方法及装置 Pending CN106815198A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510850386.XA CN106815198A (zh) 2015-11-27 2015-11-27 模型训练方法及装置和语句业务类型的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510850386.XA CN106815198A (zh) 2015-11-27 2015-11-27 模型训练方法及装置和语句业务类型的识别方法及装置

Publications (1)

Publication Number Publication Date
CN106815198A true CN106815198A (zh) 2017-06-09

Family

ID=59156048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510850386.XA Pending CN106815198A (zh) 2015-11-27 2015-11-27 模型训练方法及装置和语句业务类型的识别方法及装置

Country Status (1)

Country Link
CN (1) CN106815198A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614464A (zh) * 2018-10-31 2019-04-12 阿里巴巴集团控股有限公司 用于业务问题识别的方法及装置
CN110046648A (zh) * 2019-03-13 2019-07-23 阿里巴巴集团控股有限公司 基于至少一个业务分类模型进行业务分类的方法及装置
CN110110038A (zh) * 2018-08-17 2019-08-09 平安科技(深圳)有限公司 话务预测方法、装置、服务器及存储介质
CN110851321A (zh) * 2019-10-10 2020-02-28 平安科技(深圳)有限公司 一种业务告警方法、设备及存储介质
CN111274382A (zh) * 2018-11-20 2020-06-12 北京京东尚科信息技术有限公司 文本分类方法、装置、设备及存储介质
CN111291253A (zh) * 2018-12-06 2020-06-16 北京嘀嘀无限科技发展有限公司 模型训练方法、咨询推荐方法、装置及电子设备
CN111291570A (zh) * 2018-12-07 2020-06-16 北京国双科技有限公司 一种实现司法文书中要素识别的方法及装置
CN111782792A (zh) * 2020-08-05 2020-10-16 支付宝(杭州)信息技术有限公司 用于信息处理的方法和装置
CN112131379A (zh) * 2020-08-20 2020-12-25 彭涛 用于识别问题类别的方法、装置、电子设备及存储介质
CN112860884A (zh) * 2019-11-12 2021-05-28 马上消费金融股份有限公司 分类模型的训练和信息识别方法、装置、设备及存储介质
CN113535945A (zh) * 2020-06-15 2021-10-22 腾讯科技(深圳)有限公司 文本类别的识别方法、装置、设备及计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573046A (zh) * 2015-01-20 2015-04-29 成都品果科技有限公司 一种基于词向量的评论分析方法及系统
CN104881401A (zh) * 2015-05-27 2015-09-02 大连理工大学 一种专利文献聚类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573046A (zh) * 2015-01-20 2015-04-29 成都品果科技有限公司 一种基于词向量的评论分析方法及系统
CN104881401A (zh) * 2015-05-27 2015-09-02 大连理工大学 一种专利文献聚类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
雷帮军: "《实用性目标检测与跟踪算法原理及应用》", 30 April 2015, 国防工业出版社 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110038A (zh) * 2018-08-17 2019-08-09 平安科技(深圳)有限公司 话务预测方法、装置、服务器及存储介质
CN109614464A (zh) * 2018-10-31 2019-04-12 阿里巴巴集团控股有限公司 用于业务问题识别的方法及装置
CN109614464B (zh) * 2018-10-31 2023-10-27 创新先进技术有限公司 用于业务问题识别的方法及装置
CN111274382A (zh) * 2018-11-20 2020-06-12 北京京东尚科信息技术有限公司 文本分类方法、装置、设备及存储介质
CN111291253A (zh) * 2018-12-06 2020-06-16 北京嘀嘀无限科技发展有限公司 模型训练方法、咨询推荐方法、装置及电子设备
CN111291253B (zh) * 2018-12-06 2023-09-19 北京嘀嘀无限科技发展有限公司 模型训练方法、咨询推荐方法、装置及电子设备
CN111291570A (zh) * 2018-12-07 2020-06-16 北京国双科技有限公司 一种实现司法文书中要素识别的方法及装置
CN110046648A (zh) * 2019-03-13 2019-07-23 阿里巴巴集团控股有限公司 基于至少一个业务分类模型进行业务分类的方法及装置
CN110851321B (zh) * 2019-10-10 2022-06-28 平安科技(深圳)有限公司 一种业务告警方法、设备及存储介质
WO2021068831A1 (zh) * 2019-10-10 2021-04-15 平安科技(深圳)有限公司 一种业务告警方法、设备及存储介质
CN110851321A (zh) * 2019-10-10 2020-02-28 平安科技(深圳)有限公司 一种业务告警方法、设备及存储介质
CN112860884A (zh) * 2019-11-12 2021-05-28 马上消费金融股份有限公司 分类模型的训练和信息识别方法、装置、设备及存储介质
CN113535945A (zh) * 2020-06-15 2021-10-22 腾讯科技(深圳)有限公司 文本类别的识别方法、装置、设备及计算机可读存储介质
CN113535945B (zh) * 2020-06-15 2023-09-15 腾讯科技(深圳)有限公司 文本类别的识别方法、装置、设备及计算机可读存储介质
CN111782792A (zh) * 2020-08-05 2020-10-16 支付宝(杭州)信息技术有限公司 用于信息处理的方法和装置
CN112131379A (zh) * 2020-08-20 2020-12-25 彭涛 用于识别问题类别的方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN106815198A (zh) 模型训练方法及装置和语句业务类型的识别方法及装置
CN106815192B (zh) 模型训练方法及装置和语句情感识别方法及装置
CN109635117B (zh) 一种基于知识图谱识别用户意图方法及装置
CN106815194A (zh) 模型训练方法及装置和关键词识别方法及装置
CN108363821A (zh) 一种信息推送方法、装置、终端设备及存储介质
CN110163647B (zh) 一种数据处理方法及装置
CN109872162B (zh) 一种处理用户投诉信息的风控分类识别方法及系统
CN111444344B (zh) 实体分类方法、装置、计算机设备和存储介质
CN107944718A (zh) 一种企业政策评估系统及方法
CN113377936B (zh) 智能问答方法、装置及设备
CN109684627A (zh) 一种文本分类方法及装置
CN107798102A (zh) 一种页面展示方法及装置
CN110321437B (zh) 一种语料数据处理方法、装置、电子设备及介质
CN110019703B (zh) 数据标记方法及装置、智能问答方法及系统
CN109684441A (zh) 对职位和简历进行匹配的方法、系统、设备和介质
CN108920677A (zh) 问卷调查方法、调查系统及电子设备
CN108241867B (zh) 一种分类方法及装置
CN112101578A (zh) 基于联邦学习的分布式语言关系识别方法、系统和装置
CN106815193A (zh) 模型训练方法及装置和错别字识别方法及装置
CN109582792A (zh) 一种文本分类的方法及装置
CN111369294B (zh) 软件造价估算方法及装置
CN113157867A (zh) 一种问答方法、装置、电子设备及存储介质
CN114528413B (zh) 众包标注支持的知识图谱更新方法、系统和可读存储介质
CN115659226A (zh) 一种获取app标签的数据处理系统
CN109146606B (zh) 一种品牌推荐方法、电子设备、存储介质及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170609