CN111126038B - 信息获取模型生成方法、装置及信息获取方法、装置 - Google Patents

信息获取模型生成方法、装置及信息获取方法、装置 Download PDF

Info

Publication number
CN111126038B
CN111126038B CN201911348446.2A CN201911348446A CN111126038B CN 111126038 B CN111126038 B CN 111126038B CN 201911348446 A CN201911348446 A CN 201911348446A CN 111126038 B CN111126038 B CN 111126038B
Authority
CN
China
Prior art keywords
sales
sentence
statement
processed
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911348446.2A
Other languages
English (en)
Other versions
CN111126038A (zh
Inventor
李犇
张�杰
罗华刚
于皓
徐世超
吴涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201911348446.2A priority Critical patent/CN111126038B/zh
Publication of CN111126038A publication Critical patent/CN111126038A/zh
Application granted granted Critical
Publication of CN111126038B publication Critical patent/CN111126038B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Databases & Information Systems (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

一种信息获取模型生成方法、装置及信息获取方法、装置,包括:获取第一样本销售语句、第一样本销售语句对应的语句标签以及第一样本销售语句的所属销售环节信息;将第一样本销售语句、第一样本销售语句对应的语句标签以及第一样本销售语句的所属销售环节信息作为训练样本迭代训练预先构建的第一分类模型,得到用于获取销售语句所属销售环节信息的信息获取模型。由于由于采用训练样本训练了分类模型,并生成了用于获取销售语句所属销售环节信息的信息获取模型,因此能够用于后续销售环节信息的自动获取,从而节省了人力成本,且提高了信息获取效率。

Description

信息获取模型生成方法、装置及信息获取方法、装置
技术领域
本文涉及信息处理技术,尤指一种信息获取模型生成方法、装置及信息获取方法、装置。
背景技术
随着经济的高速发展,人们对于消费的诉求逐渐增强,零售行业也随之蓬勃发展,然而零售行业需要面对的一个难题就是销售,如何高效的提升销售人员的销售水平,进而提高商品成单率,是一个亟待解决的问题。
相关技术中,业务专家往往通过听取销售录音以获取销售文本,从而根据自身经验获取销售文本的所述销售环节信息,然后基于销售人员对于销售环节的把握对销售人员开展有针对性的培训。
然而,这种销售环节信息的获取方法完全依靠人工方式进行,因此十分耗费人力成本,且信息获取效率低下。
发明内容
本申请提供了一种信息获取模型生成方法、装置及信息获取方法、装置,能够用于后续销售环节信息的自动获取,从而节省人力成本,且提高信息获取效率。
本申请提供了一种信息获取模型生成方法,包括:
信息获取模型生成方法,其特征在于,包括:
获取第一样本销售语句、所述第一样本销售语句对应的语句标签以及所述第一样本销售语句的所属销售环节信息;
将所述第一样本销售语句、所述第一样本销售语句对应的语句标签以及所述第一样本销售语句的所属销售环节信息作为训练样本迭代训练预先构建的第一分类模型,得到用于获取销售语句所属销售环节信息的信息获取模型。
所述第一样本销售语句是从基于样本销售对话文本预先划分的若干个销售环节中抽取的,且至少包括:每个销售环节的起始语句。
所述语句标签包括:产品标签和话术标签。
所述产品标签包括:产地标签、材质标签、品类标签、风格标签、颜色标签、系列标签,价格标签和尺寸标签。
所述话术标签包括:角色标签、句式标签、情感标签、搭配标签和评价标签。
所述第一样本销售语句对应的语句标签中的一部分是通过正则表达式获得的,所述第一样本销售语句对应的语句标签中的一部分是通过预先建立的关键词与词标签的对应关系获得的,所述第一样本销售语句对应的语句标签中的剩余部分是通过预先建立的判别模型获取的。
所述第一样本销售语句对应的语句标签中的一部分是通过预先建立的关键词与词标签的对应关系获得的,包括:
当所述第一样本销售语句中包含待处理关键词,获取与所述待处理关键词对应的此标签作为待处理词标签;其中,所述待处理关键词为存在于所述关键词与词标签的对应关系中的关键词;
将所述待处理词标签作为一部分与所述第一样本销售语句对应的语句标签。
所述关键词的一部分是利用信息检索数据挖掘的常用加权技术(TermFrequency–Inverse Document Frequency,TF-IDF)从样本销售对话文本中获得的,所述关键词的另一部分是通过对主题词筛选获得的;其中,所述主题词是利用文档主题生成模型从所述样本销售对话文本中获得的。
所述判别模型包括:句式判别模型和情感判别模型。
所述句式判别模型是以第二样本销售语句的特征向量和预先标注的第二样本销售语句的句式信息作为训练样本集训练预先构建的第二分类模型得到的;
所述情感判别模型是以第三样本销售语句的特征向量和预先标注的第三样本销售语句的情感信息作为训练样本集训练预先构建的第三分类模型得到的。
所述将第一样本销售语句、第一样本销售语句对应的语句标签以及第一样本销售语句的所属销售环节信息作为训练样本迭代训练预先构建的第一分类模型,包括:
获取所述第一样本销售语句的平均词向量,并获取所述第一样本销售语句对应的语句标签的向量;
对获得的平均词向量和语句标签的向量进行拼接,得到所述第一样本销售语句的语句向量;
将所述第一样本销售语句的语句向量作为输入,将所述第一样本销售语句的所属销售环节信息作为输出迭代训练所述第一分类模型。
所述获取第一样本销售语句对应的语句标签的向量,包括:
创建维度与所述语句标签的所有最小子类数量之和相同的预设向量组;
确定所述预设向量组中的元素所对应的标签的种类以及用于表示该种类标签的值;
根据所述第一样本销售语句对应的语句标签、所述预设向量组中的元素所对应的标签的种类以及用于表示该种类标签的值填充所述预设向量组,得到所述第一样本销售语句对应的语句标签的向量。
本申请还提供了一种信息获取方法,包括:
获取待处理销售对话文本;
将所述待处理销售对话文本进行语句划分,得到待处理销售语句;
获取所述待处理销售语句的语句标签;
将所述待处理销售语句和所述待处理销售语句的语句标签输入至如上述任一项所述的信息获取模型生成方法生成的信息获取模型中,得到所述待处理销售语句的所属销售环节信息。
所述获取待处理销售语句的语句标签,包括:
通过预先构建的正则表达式获取所述待处理销售语句的第一部分语句标签;
通过预先建立的关键词与词标签的对应关系获取所述待处理销售语句的第二部分语句标签;
通过预先构建的判别模型获取所述待处理销售语句的第三部分语句标签;
将所述第一部分语句标签、所述第二部分语句标签和所述第三部分语句标签进行合并,得到所述待处理销售语句的语句标签。
其特征在于,所述通过预先建立的关键词与词标签的对应关系获取待处理销售语句的第二部分语句标签,包括:
获取所述待处理销售对话文本中的关键词;
获取获得的关键词中存在于所述关键词与词标签的对应关系中的关键词,作为目标关键词;
在所述关键词与词标签的对应关系中获取与所述目标关键词对应的标签,作为目标标签;
将所述目标标签作为所述待处理销售语句的第二部分语句标签。
所述获取待处理销售对话文本中的关键词,包括:
利用TF-IDF从所述待处理销售对话文本中获取一部分关键词;
利用文档主题生成模型从所述待处理销售对话文本中获取主题词,并通过对获得的主题词筛选得到另一部分关键词;
将获得的两部分关键词合并得到所述待处理销售对话文本中的关键词。
所述判别模型包括:句式判别模型和情感判别模型;所述通过预先构建的判别模型获取待处理销售语句的第三部分语句标签,包括:
将所述待处理销售语句输入所述句式判别模型以得到所述待处理销售语句的句式信息,并将所述待处理销售语句输入所述情感判别模型以得到所述待处理销售语句的情感信息;
将获得的句式信息和情感信息作为所述待处理销售语句的第三部分语句标签。
其特征在于,所述将待处理销售语句和待处理销售语句的语句标签输入至如上述任一项所述的信息获取模型生成方法生成的信息获取模型中,包括:
获取所述待处理销售语句的平均词向量,并获取所述待处理销售语句对应的语句标签的向量;
对获得的平均词向量和语句标签的向量进行拼接,得到所述待处理销售语句的语句向量;
将所述待处理销售语句的语句向量输入至如权利要求1-12任一项所述的信息获取模型生成方法生成的信息获取模型中。
所述获取待处理销售语句对应的语句标签的向量,包括:
根据所述待处理销售语句对应的语句标签、预设向量组中的元素所对应的标签的种类以及用于表示该种类标签的值填充所述预设向量组,得到所述待处理销售语句对应的语句标签的向量。
本申请还提供了一种信息获取模型生成装置,包括:
第一获取模块,用于获取第一样本销售语句、所述第一样本销售语句对应的语句标签以及所述第一样本销售语句的所属销售环节信息;
第一处理模块,用于将所述第一样本销售语句、所述第一样本销售语句对应的语句标签以及所述第一样本销售语句的所属销售环节信息作为训练样本迭代训练预先构建的第一分类模型,得到用于获取销售语句所属销售环节信息的信息获取模型。
本申请还提供了一种信息获取装置,包括:
第二获取模块,用于获取待处理销售对话文本;
预处理模块,用于将所述待处理销售对话文本进行语句划分,得到待处理销售语句;
所述第二获取模块,还用于获取所述待处理销售语句的语句标签;
第二处理模块,用于将所述待处理销售语句和所述待处理销售语句的语句标签输入至上述所述的信息获取模型生成装置生成的信息获取模型中,得到所述待处理销售语句的所属销售环节信息。
与相关技术相比,本申请包括:获取第一样本销售语句、第一样本销售语句对应的语句标签以及第一样本销售语句的所属销售环节信息;将第一样本销售语句、第一样本销售语句对应的语句标签以及第一样本销售语句的所属销售环节信息作为训练样本迭代训练预先构建的第一分类模型,得到用于获取销售语句所属销售环节信息的信息获取模型。由于采用训练样本训练了分类模型,并生成了用于获取销售语句所属销售环节信息的信息获取模型,因此能够用于后续销售环节信息的自动获取,从而节省了人力成本,且提高了信息获取效率。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本申请技术方案的理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本申请实施例提供的一种信息获取模型生成方法的流程示意图;
图2为本申请实施例提供的一种信息获取方法的流程示意图;
图3为本申请实施例提供的另一种信息获取方法的流程示意图;
图4为本申请实施例提供的一种信息获取模型生成装置的结构示意图;
图5为本申请实施例提供的一种信息获取装置的结构示意图。
具体实施方式
本申请描述了多个实施例,但是该描述是示例性的,而不是限制性的,并且对于本领域的普通技术人员来说显而易见的是,在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合,并在具体实施方式中进行了讨论,但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外,任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用,或可以替代任何其它实施例中的任何其他特征或元件。
本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合,以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合,以形成另一个由权利要求限定的独特的发明方案。因此,应当理解,在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此,除了根据所附权利要求及其等同替换所做的限制以外,实施例不受其它限制。此外,可以在所附权利要求的保护范围内进行各种修改和改变。
此外,在描述具有代表性的实施例时,说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而,在该方法或过程不依赖于本文所述步骤的特定顺序的程度上,该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的,其它的步骤顺序也是可能的。因此,说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外,针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤,本领域技术人员可以容易地理解,这些顺序可以变化,并且仍然保持在本申请实施例的精神和范围内。
本申请实施例提供一种信息获取模型生成方法,如图1所示,包括:
步骤101、获取第一样本销售语句、第一样本销售语句对应的语句标签以及第一样本销售语句的所属销售环节信息。
步骤102、将第一样本销售语句、第一样本销售语句对应的语句标签以及第一样本销售语句的所属销售环节信息作为训练样本迭代训练预先构建的第一分类模型,得到用于获取销售语句所属销售环节信息的信息获取模型。
在一种示例性实例中,第一分类模型包括:支持向量机(Support VectorMachine,SVM)模型和梯度提升迭代决策树(Gradient Boosting Decision Tree,GBDT)模型。
在一种示例性实例中,第一样本销售语句是从基于样本销售对话文本预先划分的若干个销售环节中抽取的,且至少包括:每个销售环节的起始语句。
在一种示例性实例中,样本销售对话文本可以是通过录音设备采集的销售录音获取的,当获取到销售录音后可以通过语音识别(Automatic Speech Recognition,ASR)技术将销售对话识别出来得到样本销售对话文本。
在一种示例性实例中,语句标签包括:产品标签和话术标签。
在一种示例性实例中,产品标签包括:产地标签、材质标签、品类标签、风格标签、颜色标签、系列标签,价格标签和尺寸标签。
在一种示例性实例中,话术标签包括:角色标签、句式标签、情感标签、搭配标签和评价标签。
在一种示例性实例中,第一样本销售语句对应的语句标签的个数可能是多个。
在一种示例性实例中,第一样本销售语句对应的语句标签中的一部分是通过正则表达式获得的,第一样本销售语句对应的语句标签中的一部分是通过预先建立的关键词与词标签的对应关系获得的,第一样本销售语句对应的语句标签中的剩余部分是通过预先建立的判别模型获取的。
在一种示例性实例中,关键词与词标签的对应关系可以以字典的形式表示,当关键词与词标签的对应关系以字典的形式表示时,关键词字典形式可以如下所示:
梨花木:材质,欧式:风格,孔雀蓝:颜色,促销:折扣。
在一种示例性实例中,可以通过正则表达式获取价格、尺寸等方面的标签,可以通过关键词与词标签的对应关系获取品类、产地、风格等方面的标签,可以通过判别模型获取句式、情感等方面的标签。
在一种示例性实例中,第一样本销售语句对应的语句标签中的一部分是通过预先建立的关键词与词标签的对应关系获得的,包括:
首先、当第一样本销售语句中包含待处理关键词,获取与待处理关键词对应的此标签作为待处理词标签;其中,待处理关键词为存在于关键词与词标签的对应关系中的关键词。
其次、将待处理词标签作为一部分与第一样本销售语句对应的语句标签。
在一种示例性实例中,关键词的一部分是利用信息检索数据挖掘的常用加权技术TF-IDF从样本销售对话文本中获得的,关键词的另一部分是通过对主题词筛选获得的;其中,主题词是利用文档主题生成模型从样本销售对话文本中获得的。
在一种示例性实例中,文档主题生成模型包括:隐狄利克雷分配(LatentDirichlet Allocation,LDA)模型。
在一种示例性实例中,判别模型包括:句式判别模型和情感判别模型。
在一种示例性实例中,句式判别模型是以第二样本销售语句的特征向量和预先标注的第二样本销售语句的句式信息作为训练样本集训练预先构建的第二分类模型得到的。
在一种示例性实例中,预先标注的第二样本销售语句的句式信息包括:问句和陈述句。
在一种示例性实例中,以第二样本销售语句的特征向量和预先标注的第二样本销售语句的句式信息作为训练样本集训练预先构建的第二分类模型的过程包括:
首先、基于TF-IDF算法或者word2vec算法生成第二样本销售语句的特征向量。
其次、将所述第二样本销售语句的特征向量作为输入,第二样本销售语句的句式信息作为输出迭代训练第二分类模型。
在一种示例性实例中,第二分类模型包括:XGBoost或者LightGBM等分类模型。
在一种示例性实例中,当句式判别模型生成后,输入待判断句式信息的语句,预测结果大于一定阈值,标注为问句,小于一定的阈值,标注为陈述句。
在一种示例性实例中,情感判别模型是以第三样本销售语句的特征向量和预先标注的第三样本销售语句的情感信息作为训练样本集训练预先构建的第三分类模型得到的。
在一种示例性实例中,预先标注的第三样本销售语句的情感信息包括:正向评价和负向评价。
在一种示例性实例中,以第三样本销售语句的特征向量和预先标注的第三样本销售语句的情感信息作为训练样本集训练预先构建的第三分类模型的过程包括:
首先、生成第三样本销售语句的特征向量。
其次、将所述第三样本销售语句的特征向量作为输入,第三样本销售语句的情感信息作为输出迭代训练第三分类模型。
在一种示例性实例中,当情感判别模型生成后,输入待判断情感信息的语句,预测结果大于一定阈值,标注为正向评价,小于一定的阈值,标注为负向评价。
在一种示例性实例中,将第一样本销售语句、第一样本销售语句对应的语句标签以及第一样本销售语句的所属销售环节信息作为训练样本迭代训练预先构建的第一分类模型,包括:
首先、获取第一样本销售语句的平均词向量,并获取第一样本销售语句对应的语句标签的向量。
在一种示例性实例中,获取第一样本销售语句的平均词向量,包括:
首先、利用word2vec算法计算第一样本销售语句中每个词的词向量。
其次、根据第一销售语句中所有词的词向量计算第一样本销售语句的平均词向量。
接着、对获得的平均词向量和语句标签的向量进行拼接,得到第一样本销售语句的语句向量。
最后、将第一样本销售语句的语句向量作为输入,将第一样本销售语句的所属销售环节信息作为输出迭代训练第一分类模型。
在一种示例性实例中,获取第一样本销售语句对应的语句标签的向量,包括:
首先、创建维度与语句标签的所有最小子类数量之和相同的预设向量组。
在一种示例性实例中,假设语句标签的所有最小子类数量之和为N,则预设向量组的的维度为N。
其次、确定预设向量组中的元素所对应的标签的种类以及用于表示该种类标签的值。
最后、根据第一样本销售语句对应的语句标签、预设向量组中的元素所对应的标签的种类以及用于表示该种类标签的值填充预设向量组,得到第一样本销售语句对应的语句标签的向量。
本申请实施例提供的信息获取模型生成方法,由于采用训练样本训练了分类模型,并生成了用于获取销售语句所属销售环节信息的信息获取模型,因此能够用于后续销售环节信息的自动获取,从而节省了人力成本,且提高了信息获取效率。
本申请实施例还提供一种信息获取方法,如图2所示,包括:
步骤201、获取待处理销售对话文本。
步骤202、将待处理销售对话文本进行语句划分,得到待处理销售语句。
步骤203、获取待处理销售语句的语句标签。
步骤204、将待处理销售语句和待处理销售语句的语句标签输入至如上述任意一种实施例描述的信息获取模型生成方法生成的信息获取模型中,得到待处理销售语句的所属销售环节信息。
在一种示例性实例中,获取待处理销售语句的语句标签,包括:
首先、通过预先构建的正则表达式获取待处理销售语句的第一部分语句标签。
其次、通过预先建立的关键词与词标签的对应关系获取待处理销售语句的第二部分语句标签。
接着、通过预先构建的判别模型获取待处理销售语句的第三部分语句标签。
最后、将第一部分语句标签、第二部分语句标签和第三部分语句标签进行合并,得到待处理销售语句的语句标签。
在一种示例性实例中,通过预先建立的关键词与词标签的对应关系获取待处理销售语句的第二部分语句标签,包括:
首先、获取待处理销售对话文本中的关键词。
其次、获取获得的关键词中存在于关键词与词标签的对应关系中的关键词,作为目标关键词。
接着、在关键词与词标签的对应关系中获取与目标关键词对应的标签,作为目标标签。
最后、将目标标签作为待处理销售语句的第二部分语句标签。
在一种示例性实例中,获取待处理销售对话文本中的关键词,包括:
首先、利用TF-IDF从待处理销售对话文本中获取一部分关键词。
其次、利用文档主题生成模型从待处理销售对话文本中获取主题词,并通过对获得的主题词筛选得到另一部分关键词。
最后、将获得的两部分关键词合并得到待处理销售对话文本中的关键词。
在一种示例性实例中,判别模型包括:句式判别模型和情感判别模型;通过预先构建的判别模型获取待处理销售语句的第三部分语句标签,包括:
首先、将待处理销售语句输入句式判别模型以得到待处理销售语句的句式信息,并将待处理销售语句输入情感判别模型以得到待处理销售语句的情感信息。
其次、将获得的句式信息和情感信息作为待处理销售语句的第三部分语句标签。
在一种示例性实例中,将待处理销售语句和待处理销售语句的语句标签输入至如上述任意一种实施例描述的信息获取模型生成方法生成的信息获取模型中,包括:
首先、获取待处理销售语句的平均词向量,并获取待处理销售语句对应的语句标签的向量;
其次、对获得的平均词向量和语句标签的向量进行拼接,得到待处理销售语句的语句向量;
最后、将待处理销售语句的语句向量输入至如上述任意一种实施例描述的信息获取模型生成方法生成的信息获取模型中。
在一种示例性实例中,获取待处理销售语句对应的语句标签的向量,包括:
根据待处理销售语句对应的语句标签、预设向量组中的元素所对应的标签的种类以及用于表示该种类标签的值填充预设向量组,得到待处理销售语句对应的语句标签的向量。
在一种示例性实例中,本申请上述实施例提供的信息获取方法可以如图3所示。
本申请实施例提供的信息获取方法,由于采用训练样本训练了分类模型,并生成了用于获取销售语句所属销售环节信息的信息获取模型,因此实现了销售环节信息的自动获取,从而节省了人力成本,且提高了信息获取效率。
本申请实施例还提供一种信息获取模型生成装置,如图4所示,包括:
第一获取模块31,用于获取第一样本销售语句、第一样本销售语句对应的语句标签以及第一样本销售语句的所属销售环节信息。
第一处理模块32,用于将第一样本销售语句、第一样本销售语句对应的语句标签以及第一样本销售语句的所属销售环节信息作为训练样本迭代训练预先构建的第一分类模型,得到用于获取销售语句所属销售环节信息的信息获取模型。
在一种示例性实例中,第一样本销售语句是从基于样本销售对话文本预先划分的若干个销售环节中抽取的,且至少包括:每个销售环节的起始语句。
在一种示例性实例中,语句标签包括:产品标签和话术标签。
在一种示例性实例中,产品标签包括:产地标签、材质标签、品类标签、风格标签、颜色标签、系列标签,价格标签和尺寸标签。
在一种示例性实例中,话术标签包括:角色标签、句式标签、情感标签、搭配标签和评价标签。
在一种示例性实例中,第一样本销售语句对应的语句标签中的一部分是通过正则表达式获得的,第一样本销售语句对应的语句标签中的一部分是通过预先建立的关键词与词标签的对应关系获得的,第一样本销售语句对应的语句标签中的剩余部分是通过预先建立的判别模型获取的。
在一种示例性实例中,第一处理模块32具体用于:
当第一样本销售语句中包含待处理关键词,获取与待处理关键词对应的此标签作为待处理词标签;其中,待处理关键词为存在于关键词与词标签的对应关系中的关键词。
将待处理词标签作为一部分与第一样本销售语句对应的语句标签。
在一种示例性实例中,关键词的一部分是利用信息检索数据挖掘的常用加权技术TF-IDF从样本销售对话文本中获得的,关键词的另一部分是通过对主题词筛选获得的;其中,主题词是利用文档主题生成模型从样本销售对话文本中获得的。
在一种示例性实例中,判别模型包括:句式判别模型和情感判别模型。
在一种示例性实例中,句式判别模型是以第二样本销售语句的特征向量和预先标注的第二样本销售语句的句式信息作为训练样本集训练预先构建的第二分类模型得到的。
在一种示例性实例中,情感判别模型是以第三样本销售语句的特征向量和预先标注的第三样本销售语句的情感信息作为训练样本集训练预先构建的第三分类模型得到的。
在一种示例性实例中,第一处理模块32具体还用于:
获取第一样本销售语句的平均词向量,并获取第一样本销售语句对应的语句标签的向量。
对获得的平均词向量和语句标签的向量进行拼接,得到第一样本销售语句的语句向量。
将第一样本销售语句的语句向量作为输入,将第一样本销售语句的所属销售环节信息作为输出迭代训练第一分类模型。
在一种示例性实例中,第一处理模块32具体还用于:
创建维度与语句标签的所有最小子类数量之和相同的预设向量组。
确定预设向量组中的元素所对应的标签的种类以及用于表示该种类标签的值。
根据第一样本销售语句对应的语句标签、预设向量组中的元素所对应的标签的种类以及用于表示该种类标签的值填充预设向量组,得到第一样本销售语句对应的语句标签的向量。
本申请实施例提供的信息获取模型生成装置,由于采用训练样本训练了分类模型,并生成了用于获取销售语句所属销售环节信息的信息获取模型,因此能够用于后续销售环节信息的自动获取,从而节省了人力成本,且提高了信息获取效率。
=在实际应用中,所述第一获取模块31和第一处理模块32均由位于信息获取模型生成装置中的中央处理器(Central Processing Unit,CPU)、微处理器(Micro ProcessorUnit,MPU)、数字信号处理器(Digital Signal Processor,DSP)或现场可编程门阵列(Field Programmable Gate Array,FPGA)等实现。
本申请实施例还提供一种信息获取装置,如图5所示,包括:
第二获取模块41,用于获取待处理销售对话文本。
预处理模块42,用于将待处理销售对话文本进行语句划分,得到待处理销售语句。
第二获取模块41,还用于获取待处理销售语句的语句标签。
第二处理模块43,用于将待处理销售语句和待处理销售语句的语句标签输入至如上述任意一种实施例描述的信息获取模型生成装置生成的信息获取模型中,得到待处理销售语句的所属销售环节信息。
在一种示例性实例中,第二获取模块41具体用于:
通过预先构建的正则表达式获取待处理销售语句的第一部分语句标签。
通过预先建立的关键词与词标签的对应关系获取待处理销售语句的第二部分语句标签。
通过预先构建的判别模型获取待处理销售语句的第三部分语句标签。
将第一部分语句标签、第二部分语句标签和第三部分语句标签进行合并,得到待处理销售语句的语句标签。
在一种示例性实例中,第二获取模块41具体还用于:
获取待处理销售对话文本中的关键词。
获取获得的关键词中存在于关键词与词标签的对应关系中的关键词,作为目标关键词。
在关键词与词标签的对应关系中获取与目标关键词对应的标签,作为目标标签。
将目标标签作为待处理销售语句的第二部分语句标签。
在一种示例性实例中,第二获取模块41具体还用于:
利用TF-IDF从待处理销售对话文本中获取一部分关键词。
利用文档主题生成模型从待处理销售对话文本中获取主题词,并通过对获得的主题词筛选得到另一部分关键词。
将获得的两部分关键词合并得到待处理销售对话文本中的关键词。
在一种示例性实例中,句式判别模型和情感判别模型。
在一种示例性实例中,第二获取模块41具体还用于:
将待处理销售语句输入句式判别模型以得到待处理销售语句的句式信息,并将待处理销售语句输入情感判别模型以得到待处理销售语句的情感信息。
将获得的句式信息和情感信息作为待处理销售语句的第三部分语句标签。
在一种示例性实例中,第二处理模块43具体用于:
获取待处理销售语句的平均词向量,并获取待处理销售语句对应的语句标签的向量。
对获得的平均词向量和语句标签的向量进行拼接,得到待处理销售语句的语句向量。
将待处理销售语句的语句向量输入至如上述任意一种实施例描述的信息获取模型生成装置生成的信息获取模型中。
在一种示例性实例中,第二处理模块43,具体还用于根据待处理销售语句对应的语句标签、预设向量组中的元素所对应的标签的种类以及用于表示该种类标签的值填充预设向量组,得到待处理销售语句对应的语句标签的向量。
本申请实施例提供的信息获取模型生成装置,由于采用训练样本训练了分类模型,并生成了用于获取销售语句所属销售环节信息的信息获取模型,因此实现了销售环节信息的自动获取,从而节省了人力成本,且提高了信息获取效率。
在实际应用中,所述第二获取模块41、预处理模块42和第二处理模块42均由位于信息获取装置中的CPU、MPU、DSP或FPGA等实现。
本申请实施例还提供一种信息处理装置,包括:处理器和存储器,其中,存储器中存储有计算机程序,计算机程序被处理器执行时实现如上述任意一种的方法的处理。
本申请实施例还提供一种存储介质,存储介质上存储有计算机可执行命令,计算机可执行命令用于执行如上述任意一种的方法的处理。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

Claims (20)

1.一种信息获取模型生成方法,其特征在于,包括:
获取第一样本销售语句、所述第一样本销售语句对应的语句标签以及所述第一样本销售语句的所属销售环节信息;
其中,所述第一样本销售语句对应的语句标签中的第一部分是通过正则表达式获得的,所述第一样本销售语句对应的语句标签中的第二部分是通过预先建立的关键词与词标签的对应关系获得的,所述第一样本销售语句对应的语句标签中的第三部分是通过训练样本集训练得到的预先建立的判别模型获取的;
将所述第一样本销售语句、所述第一样本销售语句对应的语句标签以及所述第一样本销售语句的所属销售环节信息作为训练样本迭代训练预先构建的第一分类模型,得到用于获取销售语句所属销售环节信息的信息获取模型。
2.根据权利要求1所述的方法,其特征在于,所述第一样本销售语句是从基于样本销售对话文本预先划分的若干个销售环节中抽取的,且至少包括:每个销售环节的起始语句。
3.根据权利要求1所述的方法,其特征在于,所述语句标签包括:产品标签和话术标签。
4.根据权利要求3所述的方法,其特征在于,所述产品标签包括:产地标签、材质标签、品类标签、风格标签、颜色标签、系列标签,价格标签和尺寸标签。
5.根据权利要求3所述的方法,其特征在于,所述话术标签包括:角色标签、句式标签、情感标签、搭配标签和评价标签。
6.根据权利要求1所述的方法,其特征在于,所述第一样本销售语句对应的语句标签中的一部分是通过预先建立的关键词与词标签的对应关系获得的,包括:
当所述第一样本销售语句中包含待处理关键词,获取与所述待处理关键词对应的此标签作为待处理词标签;其中,所述待处理关键词为存在于所述关键词与词标签的对应关系中的关键词;
将所述待处理词标签作为一部分与所述第一样本销售语句对应的语句标签。
7.根据权利要求1或6所述的方法,其特征在于,所述关键词的一部分是利用信息检索数据挖掘的常用加权技术TF-IDF从样本销售对话文本中获得的,所述关键词的另一部分是通过对主题词筛选获得的;其中,所述主题词是利用文档主题生成模型从所述样本销售对话文本中获得的。
8.根据权利要求1所述的方法,其特征在于,所述判别模型包括:句式判别模型和情感判别模型。
9.根据权利要求8所述的方法,其特征在于,所述句式判别模型是以第二样本销售语句的特征向量和预先标注的第二样本销售语句的句式信息作为训练样本集训练预先构建的第二分类模型得到的;
所述情感判别模型是以第三样本销售语句的特征向量和预先标注的第三样本销售语句的情感信息作为训练样本集训练预先构建的第三分类模型得到的。
10.根据权利要求1所述的方法,其特征在于,将第一样本销售语句、第一样本销售语句对应的语句标签以及第一样本销售语句的所属销售环节信息作为训练样本迭代训练预先构建的第一分类模型,包括:
获取所述第一样本销售语句的平均词向量,并获取所述第一样本销售语句对应的语句标签的向量;
对获得的平均词向量和语句标签的向量进行拼接,得到所述第一样本销售语句的语句向量;
将所述第一样本销售语句的语句向量作为输入,将所述第一样本销售语句的所属销售环节信息作为输出迭代训练所述第一分类模型。
11.根据权利要求10所述的方法,其特征在于,所述获取第一样本销售语句对应的语句标签的向量,包括:
创建维度与所述语句标签的所有最小子类数量之和相同的预设向量组;
确定所述预设向量组中的元素所对应的标签的种类以及用于表示该种类标签的值;
根据所述第一样本销售语句对应的语句标签、所述预设向量组中的元素所对应的标签的种类以及用于表示该种类标签的值填充所述预设向量组,得到所述第一样本销售语句对应的语句标签的向量。
12.一种信息获取方法,其特征在于,包括:
获取待处理销售对话文本;
将所述待处理销售对话文本进行语句划分,得到待处理销售语句;
获取所述待处理销售语句的语句标签;
将所述待处理销售语句和所述待处理销售语句的语句标签输入至如权利要求1-11任一项所述的信息获取模型生成方法生成的信息获取模型中,得到所述待处理销售语句的所属销售环节信息。
13.根据权利要求12所述的方法,其特征在于,所述获取待处理销售语句的语句标签,包括:
通过预先构建的正则表达式获取所述待处理销售语句的第一部分语句标签;
通过预先建立的关键词与词标签的对应关系获取所述待处理销售语句的第二部分语句标签;
通过预先构建的判别模型获取所述待处理销售语句的第三部分语句标签;
将所述第一部分语句标签、所述第二部分语句标签和所述第三部分语句标签进行合并,得到所述待处理销售语句的语句标签。
14.根据权利要求13所述的方法,其特征在于,所述通过预先建立的关键词与词标签的对应关系获取待处理销售语句的第二部分语句标签,包括:
获取所述待处理销售对话文本中的关键词;
获取获得的关键词中存在于所述关键词与词标签的对应关系中的关键词,作为目标关键词;
在所述关键词与词标签的对应关系中获取与所述目标关键词对应的标签,作为目标标签;
将所述目标标签作为所述待处理销售语句的第二部分语句标签。
15.根据权利要求14所述的方法,其特征在于,所述获取待处理销售对话文本中的关键词,包括:
利用TF-IDF从所述待处理销售对话文本中获取一部分关键词;
利用文档主题生成模型从所述待处理销售对话文本中获取主题词,并通过对获得的主题词筛选得到另一部分关键词;
将获得的两部分关键词合并得到所述待处理销售对话文本中的关键词。
16.根据权利要求13所述的方法,其特征在于,所述判别模型包括:句式判别模型和情感判别模型;所述通过预先构建的判别模型获取待处理销售语句的第三部分语句标签,包括:
将所述待处理销售语句输入所述句式判别模型以得到所述待处理销售语句的句式信息,并将所述待处理销售语句输入所述情感判别模型以得到所述待处理销售语句的情感信息;
将获得的句式信息和情感信息作为所述待处理销售语句的第三部分语句标签。
17.根据权利要求12所述的方法,其特征在于,将待处理销售语句和待处理销售语句的语句标签输入至所述信息获取模型生成方法生成的信息获取模型中,包括:
获取所述待处理销售语句的平均词向量,并获取所述待处理销售语句对应的语句标签的向量;
对获得的平均词向量和语句标签的向量进行拼接,得到所述待处理销售语句的语句向量;
将所述待处理销售语句的语句向量输入至所述信息获取模型生成方法生成的信息获取模型中。
18.根据权利要求17所述的方法,其特征在于,所述获取待处理销售语句对应的语句标签的向量,包括:
根据所述待处理销售语句对应的语句标签、预设向量组中的元素所对应的标签的种类以及用于表示该种类标签的值填充预设向量组,得到所述待处理销售语句对应的语句标签的向量。
19.一种信息获取模型生成装置,其特征在于,包括:
第一获取模块,用于获取第一样本销售语句、所述第一样本销售语句对应的语句标签以及所述第一样本销售语句的所属销售环节信息;
其中,所述第一样本销售语句对应的语句标签中的第一部分是通过正则表达式获得的,所述第一样本销售语句对应的语句标签中的第二部分是通过预先建立的关键词与词标签的对应关系获得的,所述第一样本销售语句对应的语句标签中的第三部分是通过训练样本集训练得到的预先建立的判别模型获取的;
第一处理模块,用于将所述第一样本销售语句、所述第一样本销售语句对应的语句标签以及所述第一样本销售语句的所属销售环节信息作为训练样本迭代训练预先构建的第一分类模型,得到用于获取销售语句所属销售环节信息的信息获取模型。
20.一种信息获取装置,其特征在于,包括:
第二获取模块,用于获取待处理销售对话文本;
预处理模块,用于将所述待处理销售对话文本进行语句划分,得到待处理销售语句;
所述第二获取模块,还用于获取所述待处理销售语句的语句标签;
第二处理模块,用于将所述待处理销售语句和所述待处理销售语句的语句标签输入至如权利要求19所述的信息获取模型生成装置生成的信息获取模型中,得到所述待处理销售语句的所属销售环节信息。
CN201911348446.2A 2019-12-24 2019-12-24 信息获取模型生成方法、装置及信息获取方法、装置 Active CN111126038B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911348446.2A CN111126038B (zh) 2019-12-24 2019-12-24 信息获取模型生成方法、装置及信息获取方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911348446.2A CN111126038B (zh) 2019-12-24 2019-12-24 信息获取模型生成方法、装置及信息获取方法、装置

Publications (2)

Publication Number Publication Date
CN111126038A CN111126038A (zh) 2020-05-08
CN111126038B true CN111126038B (zh) 2023-05-23

Family

ID=70500283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911348446.2A Active CN111126038B (zh) 2019-12-24 2019-12-24 信息获取模型生成方法、装置及信息获取方法、装置

Country Status (1)

Country Link
CN (1) CN111126038B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069498B (zh) * 2020-09-21 2023-11-21 全球能源互联网研究院有限公司 一种sql注入检测模型构建方法及检测方法
CN114186559B (zh) * 2021-12-09 2022-09-13 北京深维智信科技有限公司 一种从销售会话中确定会话主体角色标签的方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104516986A (zh) * 2015-01-16 2015-04-15 青岛理工大学 一种语句识别方法及装置
CN108197109A (zh) * 2017-12-29 2018-06-22 北京百分点信息科技有限公司 一种基于自然语言处理的多语言分析方法和装置
CN110334904A (zh) * 2019-05-30 2019-10-15 北京理工大学 基于LightGBM的关键信息基础设施类型单位归属判定方法
CN110555096A (zh) * 2018-06-01 2019-12-10 深圳狗尾草智能科技有限公司 用户意图识别方法、系统、终端及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10146762B2 (en) * 2013-01-15 2018-12-04 Tata Consultancy Services Limited Automated classification of business rules from text

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104516986A (zh) * 2015-01-16 2015-04-15 青岛理工大学 一种语句识别方法及装置
CN108197109A (zh) * 2017-12-29 2018-06-22 北京百分点信息科技有限公司 一种基于自然语言处理的多语言分析方法和装置
CN110555096A (zh) * 2018-06-01 2019-12-10 深圳狗尾草智能科技有限公司 用户意图识别方法、系统、终端及介质
CN110334904A (zh) * 2019-05-30 2019-10-15 北京理工大学 基于LightGBM的关键信息基础设施类型单位归属判定方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘坤 等.基于条件随机场的商品评论信息抽取研究.湖北工业大学学报.2015,第30卷(第05期),第77-81页. *

Also Published As

Publication number Publication date
CN111126038A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN109271521B (zh) 一种文本分类方法及装置
EP3227836B1 (en) Active machine learning
US11860684B2 (en) Few-shot named-entity recognition
US10678769B2 (en) Artificial intelligence system and method for auto-naming customer tree nodes in a data structure
KR20200127020A (ko) 의미 텍스트 데이터를 태그와 매칭시키는 방법, 장치 및 명령을 저장하는 컴퓨터 판독 가능한 기억 매체
CN111639516B (zh) 基于机器学习的分析平台
US11797823B2 (en) Model training with retrospective loss
US11429810B2 (en) Question answering method, terminal, and non-transitory computer readable storage medium
JP7287699B2 (ja) 機械学習を通じての学習モデルを使った情報提供方法および装置
US20220114490A1 (en) Methods and systems for processing unstructured and unlabelled data
CN110555451A (zh) 信息识别方法和装置
CN112528031A (zh) 一种工单智能派发方法和系统
JP7291419B2 (ja) 機械学習基盤類似アイテムに関する情報を提供する方法および装置
CN111126038B (zh) 信息获取模型生成方法、装置及信息获取方法、装置
Fazayeli et al. Towards auto-labelling issue reports for pull-based software development using text mining approach
US11983202B2 (en) Computer-implemented method for improving classification of labels and categories of a database
CN115730581A (zh) 用于投标文档中项目和公司基础信息提取方法和装置
Ghaffari et al. Generative-AI in e-Commerce: Use-cases and Implementations
EP4196900A1 (en) Identifying noise in verbal feedback using artificial text from non-textual parameters and transfer learning
US20230351121A1 (en) Method and system for generating conversation flows
US11809477B1 (en) Topic focused related entity extraction
CN113822390B (zh) 用户画像构建方法、装置、电子设备和存储介质
CN113724055B (zh) 一种商品属性挖掘方法及装置
KR102299618B1 (ko) 리뷰 광고 매칭 장치 및 방법
CN113297482A (zh) 基于多模型的搜索引擎数据的用户画像刻画方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant