CN114186559A - 一种从销售会话中确定会话主体角色标签的方法及系统 - Google Patents

一种从销售会话中确定会话主体角色标签的方法及系统 Download PDF

Info

Publication number
CN114186559A
CN114186559A CN202111500655.1A CN202111500655A CN114186559A CN 114186559 A CN114186559 A CN 114186559A CN 202111500655 A CN202111500655 A CN 202111500655A CN 114186559 A CN114186559 A CN 114186559A
Authority
CN
China
Prior art keywords
session
conversation
role
role label
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111500655.1A
Other languages
English (en)
Other versions
CN114186559B (zh
Inventor
陈竑
韩三普
杨晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shenwei Zhixin Technology Co ltd
Original Assignee
Beijing Shenwei Zhixin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shenwei Zhixin Technology Co ltd filed Critical Beijing Shenwei Zhixin Technology Co ltd
Priority to CN202111500655.1A priority Critical patent/CN114186559B/zh
Publication of CN114186559A publication Critical patent/CN114186559A/zh
Application granted granted Critical
Publication of CN114186559B publication Critical patent/CN114186559B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种从销售会话中确定会话主体角色标签的方法,属于自然语言处理技术领域,解决了目前销售会话存在的角色标签识别效果较差的问题。该方法包括:对销售会话进行文字转录,得到多条会话片段;其中,每一会话片段对应一个会话主体,每一会话主体对应一个角色标签;根据销售会话所属领域,确定该领域中销售会话涉及的角色标签、以及各角色标签对应的正则规则库;过滤符合过滤规则的会话片段,得到备用会话片段;分别基于正则规则库方式、机器学习方式对所述备用会话片段进行角色识别,获取每一会话主体在两种方式下被识别为各角色标签的得分;根据每一会话主体在两种方式下被识别为各角色标签的得分,确定各会话主体的角色标签。

Description

一种从销售会话中确定会话主体角色标签的方法及系统
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种从销售会话中确定会话主体角色标签的方法及系统。
背景技术
在销售会话系统中,获取会话音频或视频、并将会话音频或视频快速准确的转换为文本对话,是企业提取分析销售数据、进行后续决策与经营活动的重要前提。将会话音频或视频转换成文本对话中的重要的一环是:如何从多种对话行业、多个说话人身份中快速精准的确认说话人(即会话主体)角色标签。
销售领域中涉及的行业众多,相应地,说话人在销售对话系统中也有很多可能的角色。根据根对话所涉及的领域,说话人的身份可能是“猎头”、“候选人”、“售后客服”、“代理商”等中的任何一个,因此对说话人角色标签进行确认存在一定的挑战。业界的角色标签确认方案主要可分为人工确认方法与基于关键词匹配的方法,其中:
基于人工确认的方法需要在获取到文本会话内容后,通过人工介入以确认说话人角色标签。这种方法严重依赖于操作人员的经验水平与处理速度,效率低,不适合批量处理大规模会话内容,更不利于整个销售系统的自动化。
基于关键词匹配的方法通过预设一部分关键词,在获取到文本会话内容后,通过匹配关键词的方式确认说话人的角色标签。这种方法需要根据先验知识提取行业相关关键词,因此无法直接应用于新的行业及领域,扩展性较差。此外,由于说话人所处通话环境的复杂性、录音硬件的质量及业界自动语音识别技术的局限性等因素,在通过自动语音识别技术得到的文本内容的效果较差的情况下,转录文本中可能存在大量的错误文字,基于关键词的方案将难以得到良好的结果。
发明内容
鉴于上述的分析,本发明实施例旨在提供一种从销售会话中确定说话人角色标签的方法及系统,用以解决目前销售会话存在的角色标签识别效果较差的问题。
一方面,本发明公开了一种从销售会话中确定会话主体角色标签的方法,包括:
对销售会话进行文字转录,得到多条会话片段;其中,每一会话片段对应一个会话主体,每一会话主体对应一个角色标签;
根据所述销售会话所属领域,确定该领域中销售会话涉及的角色标签、以及各角色标签对应的正则规则库;
过滤符合过滤规则的会话片段,将剩余会话片段作为备用会话片段;
分别基于正则规则库方式、机器学习方式对所述备用会话片段进行角色识别,获取每一会话主体在两种方式下被识别为各角色标签的得分;
根据每一会话主体在两种方式下被识别为各角色标签的得分,确定各会话主体的角色标签。
在上述方案的基础上,本发明还做出了如下改进:
进一步,通过执行以下操作确定各会话主体的角色标签:
分别获取第i个会话主体被识别为第一角色标签、第二角色标签的综合得分FSi、FCi
Figure BDA0003401479090000031
Figure BDA0003401479090000032
其中,NSi、NCi分别表示第i个会话主体在正则规则库方式下被识别为第一角色标签、第二角色标签的得分;NSj、NCj分别表示第j个会话主体在正则规则库方式下被识别为第一角色标签、第二角色标签的得分;MSi、MCi分别表示第i个会话主体在机器学习方式下被识别为第一角色标签、第二角色标签的得分;MSj、MCj分别表示第j个会话主体在机器学习方式下被识别为第一角色标签、第二角色标签的得分;α表示角色识别加权系数;i、j的取值范围均为1到N,N表示会话主体的总数,N为大于等于2的整数;
若FSi>FCi,则第i个会话主体的角色标签为第一角色标签;若FSi<FCi,则第i个会话主体的角色标签为第二角色标签。
进一步,通过执行以下操作获取每一会话主体在正则规则库方式下被识别为各角色标签的得分:
获取每一备用会话片段匹配于各角色标签的正则规则库中正则规则的数量,并将该备用会话片段标记为匹配正则规则数量较多的一方的角色标签;
分类汇总各备用会话片段的角色标签的数量,得到每一会话主体在正则规则库方式下被识别为各角色标签的会话片段的数量;
对每一会话主体在正则规则库方式下被识别为各角色标签的会话片段的数量进行归一化处理,得到每一会话主体在正则规则库方式下被识别为相应角色标签的得分。
进一步,通过以下公式实现所述归一化处理,从而得到每一会话主体在正则规则库方式下被识别为各角色标签的得分:
第i个会话主体在正则规则库方式下被识别为第一角色标签的得分NSi
Figure BDA0003401479090000041
第i个会话主体在正则规则库方式下被识别为第二角色标签的得分NCi
Figure BDA0003401479090000042
其中,Si、Ci分别表示第i个会话主体在正则规则库方式下被识别为第一角色标签、第二角色标签的数量。
进一步,通过执行以下操作获取每一会话主体在机器学习方式下被识别为各角色标签的得分:
获取每一备用会话片段的特征向量;
将每一备用会话片段的特征向量分别输入至机器学习模型,由机器学习模型处理所述特征向量,得到每一备用会话片段被识别为各角色标签的概率;
将每一会话主体的全部备用会话片段被识别为每一角色标签的概率平均值,作为该会话主体在机器学习方式下被识别为相应角色标签的得分。
进一步,通过执行以下操作获取每一备用会话片段的特征向量:
对每一备用会话片段进行分词、滤除停用词处理,获得每一备用会话片段的词语列表;
获取所述词语列表中每个词的词向量编码及tf-idf值;
以每个词的tf-idf值为该词的词向量编码的权重,分别对所有词向量编码中的每一维元素分别进行加权,将加权处理后得到的单一词向量编码作为当前备用会话片段的特征向量。
进一步,所述机器学习模型为双向长短期记忆模型;
或者,
所述机器学习模型包括以下三个模型:支持向量机、Adaboost及双向长短期记忆模型;当机器学习模型包括三个模型时,分别得到每一备用会话片段在各个模型下被识别为各角色标签的概率,将三个模型的概率的加权结果作为该备用会话片段被识别为相应角色标签的概率。
进一步,根据两种方式的角色识别正确率,调整所述角色识别加权系数α。
进一步,所述过滤规则包括:
过滤仅包含语气词的会话片段;
过滤在不同会话主体中都出现过的会话片段;
过滤文本长度小于3的会话片段。
另一方面,本发明还公开了一种从销售会话中确定会话主体角色标签的系统,包括:
文字转录模块,对销售会话进行文字转录,得到多条会话片段;其中,每一会话片段对应一个会话主体,每一会话主体对应一个角色标签;
角色标签信息及正则规则库获取模块,用于根据所述销售会话所属领域,确定该领域中销售会话涉及的角色标签、以及各角色标签对应的正则规则库;
过滤模块,过滤符合过滤规则的会话片段,将剩余会话片段作为备用会话片段;
得分获取模块,分别基于正则规则库方式、机器学习方式对所述备用会话片段进行角色识别,获取每一会话主体在两种方式下被识别为各角色标签的得分;
角色标签确定模块,根据每一会话主体在两种方式下被识别为各角色标签的得分,确定各会话主体的角色标签。
与现有技术相比,本发明至少可实现如下有益效果之一:
本发明公开的从销售会话中确定说话人角色标签的方法及系统,具备如下优点:
1、基于正则规则库方式、机器学习方式两种方式进行角色标签识别,并对两种方式下的识别得分进行加权,有效克服了现有关键词识别法存在的识别效果较差的问题。同时,由于正则规则库方式对文字比较敏感,只有满足正则规则要求才能被准确识别;而机器学习方式对文字不敏感,对于文字转录具有一定的容忍度。因此,通过将两种方式有机结合,能够充分利用两种角色标签识别方式的优势,实现互补,从而提高角色标签识别的精确度;同时,两种方式相结合,使得角色标签识别结果不完全依赖转录文字的特征,能够有效避免文字转录效果差导致的影响;
2、流程自动化,扩展性好。对于新的行业及领域,可以先采用默认的机器学习通用模型,作为该新领域的基础模型,对说话人角色进行区分,基础模型相对来说对各行业比较通用,但同时也拥有比较高的准确率。然后,系统使用者只需要通过很少量的人工运营,对预测错误的会话进行角色标签一键调换,即可结合在线学习完成对机器学习通用模型的优化过程。
3、准确率高。本发明融合了基于正则规则匹配及机器学习模型的角色标签识别结果,在特定领域内,角色标签识别准确率可达98%以上。
4、处理速度快,效率高。使用本发明方案对招聘行业10,000条文本会话共计492,013条会话片断进行角色标签确认,耗时仅为24.5秒,平均每条销售会话识别过程仅需要24.5毫秒。
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为本发明实施例1中的从销售会话中确定会话主体角色标签的方法流程图;
图2为本发明实施例2中的从销售会话中确定会话主体角色标签的系统结构示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
实施例1
本发明的一个具体实施例,公开了一种从销售会话中确定会话主体角色标签的方法,流程图如图1所示,包括以下步骤:
步骤S1:对销售会话进行文字转录,得到多条会话片段;其中,每一会话片段对应一个会话主体,每一会话主体对应一个角色标签;
本实施例中的方法对音频或视频格式的销售会话具备较好的角色标签识别效果。因此,本实施例中的销售会话以音频或视频格式为主,也可以是其他格式,只要能够得到文本格式的会话片段即可。
同时,需要说明的是,本实施例中的销售会话,可在两个或多个会话主体之间展开。但是,无论存在多少个会话主体,角色标签始终只有两种,即销售类和客户类。同时,具体到不同的领域,销售类、客户类角色标签均有其相应的名称。在本实施例中的角色标签获取过程中,要获取销售会话在具体领域的角色标签,以便更好地实现特定领域的角色标签识别。
在将音频或视频格式的销售会话转录成文本格式的过程中,首先需要判断音视频文件的声道情况,现将不同应用场景下的声道情况说明如下:
1、多声道:每个会话主体分别占用一个独立的声道(以两个会话主体的双声道居多);
此时,根据声道的不同,可以天然地将各个会话主体分开;多声道的转录效果比较好,角色识别准确率也相应的比较高;
2、单声道:所有会话主体的声音混合在一个声道内;
此时,可以基于人声分离方式(例如,基于声纹识别的人声分离算法)将将每个会话主体的说话内容分开;但是,单声道情况下,容易出现以下异常:会话主体A的部分话语被安在会话主体B上;同时,由于双方声音之间相互干扰,文字转录错误也会相应增多,给角色识别造成了一定困难;因此,基于传统的关键词和正则表达式的角色识别方法很难达到比较高的准确率;
3、混合多声道:录音设备为多声道,但是处于开放场景中直接录制(例如使用多声道的录音笔或手机,直接放在身边,对双方说话一起录)时,多个声道均有声音,但每个声道都是所有会话主体的声音混在一起,因此,混合多声道的情况比单声道的情况更加复杂,针对此种情况,会保留一个主声道,将其他声道的声音关闭,转换为单声道进行处理。
由于在单声道与混合多声道的场景下,转录效果对角色的识别结果有较大影响,因此,在本实施例中的角色识别过程中,需要考虑不同声道带来的影响。
步骤S2:根据所述销售会话所属领域,确定该领域中销售会话涉及的角色标签、以及各角色标签对应的正则规则库。
不同领域的角色标签、以及各角色标签对应的高频词库存在一定区别。在实际实施过程中,可以根据不同领域的销售会话常见用语,预设不同领域的销售会话涉及的角色标签、以及各角色标签对应的正则规则库。并可以根据实际情况更新预设的正则规则库,使其能够更好地反映实际销售会话中的正则规则库。下面,以互联网招聘行业和房产中介行业为例,对这两个领域中销售会话涉及的角色标签、以及各角色标签对应的正则规则库做如下说明:
在互联网招聘行业,涉及的角色标签包括猎头和候选人;示例性地,
角色标签【猎头】对应的正则规则库中,可以包括以下正则规则:
(拿|有|发).*offer.*吗;
(祝|希望)(你|您);
(你|您).*(忙|有空|有时间|方便)吗;
(关注|看|考虑).{0,10}(工作|机会);
我.{0,4}建议;
角色标签【候选人】对应的正则规则库中,可以包括以下正则规则:
我.{0,5}(在|有).{0,3}(面试|会|忙|事|上班);
我.{0,3}(不|没).{0,3}(兴趣|想法|考虑|看|关注);
(电话|试听|智能)(助理|助手);
在房产中介行业中,涉及的角色标签包括房产顾问和客户;示例性地,
角色标签【房产顾问】对应的正则规则库中,可以包括以下正则规则:
(我们|我司).{0,5}主(要)?做;
(为|给|称呼)您;
(总包|总价|单价)\d+;
角色标签【客户】对应的正则规则库中,可以包括以下正则规则:
我(只|就)(考虑|要);
(能|可以)约?看吗;
有.{0,3}(新房|现房|在售).{0,3}吗;
实际应用过程中,正则规则可根据具体领域的高频词汇和常见句式进行预先设置,本实施例对此不做限定。一般地,在设置正则规则的过程中,还会预先设置高频词库,并在正则规则中体现高频词库中的高频词,这里,对各领域的高频词做如下举例说明:
角色标签【猎头】对应的高频词库中,可以包括以下高频词:
“打扰”,“职位”,“请问”,“业务”,“情况”,“薪资”,“团队”,“沟通”,“方便”,“了解”,“猎头”,“我这边”,“你好”,“岗位”,“您好”,“微信”,“明白”,“leader”,“住哪儿”,“还在”等等;
角色标签【候选人】对应的高频词库中,可以包括以下高频词:
“提升”,“不好意思”,“匹配”,“股权”,“待会儿”,“哪位”,“暂时”,“专业”,“不用”,“拆解”,“地方”,“股票”,“开车”,“再说”,“考虑”,“位置”,“晋升”,“风险”,“开会”,“上班”,“待遇”,“在忙”等等。
角色标签【房产顾问】对应的高频词库中,可以包括以下高频词:
“介绍”,“称呼”,“先生”,“女士”,“给您”,“您好”,“高端”,“我们公司”,“明白”,“您看”,“微信”,“沟通”,“你好”,“需求”,“诚意”,“豪宅”,“安排”,“电话”,“能看”,“出售”,“业主”,“周边”,“紧邻”,“钥匙”等等;
角色标签【客户】对应的高频词库中,可以包括以下高频词:
“有吗”,“还在”,“多少”,“不够”,“有没有”,“太小”,“帮我”,“不行”,“要”,“你们”,“同类型”,“这样”,“偏”,“附近”,“怎么样”,“几层”,“能不能”,“我看”,“几年”,“几居”,“落户”等。
步骤S3:过滤符合过滤规则的会话片段,将剩余会话片段作为备用会话片段;优选地,所述过滤规则包括:
(1)过滤仅包含语气词的会话片段;比如“哦。嗯。”
(2)过滤在不同会话主体中都出现过的会话片段;
(3)过滤文本长度小于3的会话片段。
满足过滤规则项(1)、(3)的会话片段,对角色识别的意义不大;通过提前过滤掉此类会话片段,能够有效减少后续用于角色识别的备用会话片段的体量,同时提升角色标签识别效率和精确度;
不同会话主体中都出现同一会话片段的原因主要是:采用单声道方式获得的销售会话在文字转录过程中出现的转录异常;因此,本实施例为这类异常设计了过滤规则项(2)。同时,对满足过滤规则项(2)的会话片段执行过滤操作,还有更深层次的考虑,具体说明如下:
若不同的会话主体对应的角色标签不同,当将在不同会话主体中都出现过的会话片段送入后续的机器学习模型时,机器学习模型输出的角色标签概率相同,从而导致这类的会话片段无法被准确识别,同时对机器学习模型的识别准确率造成影响。
因此,基于上述考虑,设计了本实施例中的过滤规则项(2)。
同时,需要说明的是,本实施例对步骤S2、S3的执行顺序不做限定,可以依次执行步骤S2、S3,也可以依次执行步骤S3、S2,还可以同时执行步骤S2和S3。
步骤S4:分别基于正则规则库方式、机器学习方式对所述备用会话片段进行角色识别,获取每一会话主体在两种方式下被识别为各角色标签的得分;具体地,该步骤包括:
步骤S41:获取每一会话主体在正则规则库方式下被识别为各角色标签的得分:
步骤S411:获取每一备用会话片段匹配于各角色标签的正则规则库中正则规则的数量,并将该备用会话片段标记为匹配正则规则数量较多的一方的角色标签;同时,若备用会话片段匹配于各角色标签的正则规则库中正则规则的数量相同,则该备用会话片段不属于任何角色标签。
步骤S412:分类汇总各备用会话片段的角色标签的数量,得到每一会话主体在正则规则库方式下被识别为各角色标签的会话片段的数量;
示例性地,第i个会话主体在正则规则库方式下被识别为第一角色标签的数量表示为Si,第i个会话主体在正则规则库方式下被识别为第二角色标签的数量表示为Ci,其中,第一角色标签为销售类和客户类角色标签中的一种,第二角色标签为销售类和客户类角色标签中的另一种。
示例性地,当销售会话属于互联网招聘行业时,可以将猎头和候选人之一作为第一角色标签,将猎头和候选人中的另一个作为第二角色标签;当销售会话属于房产中介行业时,可以将房产顾问和客户之一作为第一角色标签,将房产顾问和客户中的另一个作为第二角色标签。
步骤S413:对每一会话主体在正则规则库方式下被识别为各角色标签的会话片段的数量进行归一化处理,得到每一会话主体在正则规则库方式下被识别为相应角色标签的得分。
具体地,通过以下公式实现所述归一化处理,从而得到每一会话主体在正则规则库方式下被识别为各角色标签的得分:
第i个会话主体在正则规则库方式下被识别为第一角色标签的得分NSi
Figure BDA0003401479090000131
第i个会话主体在正则规则库方式下被识别为第二角色标签的得分NCi
Figure BDA0003401479090000132
其中,Si、Ci分别表示第i个会话主体在正则规则库方式下被识别为第一角色标签、第二角色标签的数量。
步骤S42:获取每一会话主体在机器学习方式下被识别为各角色标签的得分:
步骤S421:获取每一备用会话片段的特征向量;具体地,
步骤S4211:对每一备用会话片段进行分词、滤除停用词处理,获得每一备用会话片段的词语列表;
在步骤S4211中,可使用中文分词器对对每一备用会话片段进行分词处理;同时,停用词的选取可以预先设定,也可以直接使用现有的停用词。
步骤S4212:获取所述词语列表中每个词的词向量编码及tf-idf值;
在步骤S4212中,可以选用FastText获得每个词的词向量编码。
步骤S4213:以每个词的tf-idf值为该词的词向量编码的权重,分别对所有词向量编码中的每一维元素分别进行加权,将加权处理后得到的单一词向量编码作为当前备用会话片段的特征向量。
tf-idf值采用现有方式得到,此处不再赘述。
示例性地,假设在一个备用会话片段的词语列表中,各词对应的词向量编码和tf-idf值如表1所示:
表1词语列表中每一词的词向量及tf-idf值示例
词向量编码 tf-idf
[0,1,0.5,0.3] 0.8
[1,0,0.3,0.2] 0.5
此时,对每一维元素分别进行加权,即:
0*0.8+1*0.5=0.5
1*0.8+0*0.5=0.8
0.5*0.8+0.3*0.5=0.55
0.3*0.8+0.2*0.5=0.34
因此,该备用会话片段的特征向量即为[0.5,0.8,0.55,0.34]。
步骤S422:将每一备用会话片段的特征向量分别输入至机器学习模型,由机器学习模型处理所述特征向量,得到每一备用会话片段被识别为各角色标签的概率;
优选地,所述机器学习模型为双向长短期记忆模型;在本实施例中,机器学习模型为一个二分类模型。以多个带角色标签的会话片段生成训练样本集和验证样本集;在训练阶段,以多个带角色标签的会话片段作为样本集,获取样本的特征向量,并将该特征向量和对应的角色标签输入至机器学习模型,以获取角色标签的识别概率,直至满足识别准确度要求,训练通过。还可以选用验证样本集对训练通过的机器模型进行验证,验证通过后,机器学习模型即可投入使用。
优选地,所述机器学习模型还包括以下三个模型:支持向量机、Adaboost及双向长短期记忆模型;当机器学习模型包括三个模型时,分别得到每一备用会话片段在各个模型下被识别为各角色标签的概率,将三个模型的概率的加权结果作为该备用会话片段被识别为相应角色标签的概率。这种方式能够充分利用不同机器学习模型的优势,实现优势互补,使得角色标签识别准确度更高。
示例性地,在某次实施过程中,对三种模型的预测结果按3:3:4的比例进行加权整合,即通过以下公式计算最终概率:S=g1*0.3+g2*0.4+g3*0.4。
步骤S423:将每一会话主体的全部备用会话片段被识别为每一角色标签的概率平均值,作为该会话主体在机器学习方式下被识别为相应角色标签的得分。
本实施例对步骤S41和S42的执行顺序也不做限定。
步骤S5:根据每一会话主体在两种方式下被识别为各角色标签的得分,确定各会话主体的角色标签。具体地,
步骤S51:分别获取第i个会话主体被识别为第一角色标签、第二角色标签的综合得分FSi、FCi
Figure BDA0003401479090000151
Figure BDA0003401479090000152
其中,NSi、NCi分别表示第i个会话主体在正则规则库方式下被识别为第一角色标签、第二角色标签的得分;NSj、NCj分别表示第j个会话主体在正则规则库方式下被识别为第一角色标签、第二角色标签的得分;MSi、MCi分别表示第i个会话主体在机器学习方式下被识别为第一角色标签、第二角色标签的得分;MSj、MCj分别表示第j个会话主体在机器学习方式下被识别为第一角色标签、第二角色标签的得分;α表示角色识别加权系数;i、j的取值范围均为1到N,N表示会话主体的总数,N为大于等于2的整数;
优选地,在该步骤中,可以根据两种方式的角色识别正确率,调整所述角色识别加权系数α。
若正则规则库方式的角色识别正确率越高,则α的取值越高;否则,α的取值越低。α的取值范围为0≤α≤1。
步骤S52:若FSi>FCi,则第i个会话主体的角色标签为第一角色标签;若FSi<FCi,则第i个会话主体的角色标签为第二角色标签。
按照本实施例中的处理方式,FSi和FCi均为浮点型数据,因此,FSi和FCi相等的概率极小,但是,FSi和FCi理论上可能出现相等。针对这一特殊情况,设计了相应的解决方式。具体地,如果出现FSi=FCi的情况,执行以下操作:
步骤S521:若所述销售会话在两个会话主体之间展开,另一个会话主体的角色标签已确定,则第i个会话主体的角色标签自动分配为另一角色标签;
步骤S522:若所述销售会话在多个会话主体之间展开,剩余N-i个会话主体的角色标签已确定、且均为同一角色标签,则第i个会话主体的角色标签自动分配为另一会话主体的角色标签;
步骤S523:若所述销售会话在多个会话主体之间展开,剩余N-i个会话主体的角色标签已确定、且为不同的角色标签,则通过以下判断过程确定第i个会话主体的角色标签:
判断第i个会话主体是否为第1个说出超过销售初始会话片段长度阈值的一方,
若是,则第i个会话主体的角色标签为销售类的角色标签;
若否,根据销售会话所属行业中不同角色标签的会话主体的会话顺序习惯,确定第i个会话主体的角色标签。
对步骤S523的具体执行过程做如下举例:
第一步:判断第i个会话主体是否为第一个说出大于7个字的会话片段的一方,
若是,则认为第i个会话主体是销售的角色;
若否,则进入第二步判断;
第二步:判断第i个会话主体是否为第一个说话的人,根据不同行业、不同公司业务给出不同的角色标签识别结果,第二步可以确定的给出唯一结果。
关于执行第一步的理由:
根据数据统计,销售是大概率先说出大于7个字的一方,因为销售方一般会在一开始进行自我介绍或确认客户身份,而客户方一般仅仅是“喂您好”或者“哪位”。
关于执行第二步的理由:
不同领域、不同公司的业务特点有所不同,有的公司以销售主动联系线索客户为主,此时大部分的电话由销售打出,而由客户接到电话后率先说出“喂您好”之类的打招呼话语;而有的业务以客户主动打咨询电话为主,则会由销售率先说出“您好,这里是xxxx”或者“欢迎致电xxx”等话语,所以根据不同行业、不同公司的业务特点,会产生不同但确定唯一的结果。
实施例2
本发明实施例2公开了一种从销售会话中确定会话主体角色标签的系统,结构示意图如图2所示,包括:
文字转录模块,对销售会话进行文字转录,得到多条会话片段;其中,每一会话片段对应一个会话主体,每一会话主体对应一个角色标签;
角色标签信息及正则规则库获取模块,用于根据所述销售会话所属领域,确定该领域中销售会话涉及的角色标签、以及各角色标签对应的正则规则库;
过滤模块,过滤符合过滤规则的会话片段,将剩余会话片段作为备用会话片段;
得分获取模块,分别基于正则规则库方式、机器学习方式对所述备用会话片段进行角色识别,获取每一会话主体在两种方式下被识别为各角色标签的得分;
角色标签确定模块,根据每一会话主体在两种方式下被识别为各角色标签的得分,确定各会话主体的角色标签。
综上,本发明的系统实施例的具体实施过程参见上述方法实施例即可,本实施例在此不再赘述。由于本系统实施例与上述方法实施例原理相同,所以本系统也具有上述方法实施例相应的技术效果。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种从销售会话中确定会话主体角色标签的方法,其特征在于,包括:
对销售会话进行文字转录,得到多条会话片段;其中,每一会话片段对应一个会话主体,每一会话主体对应一个角色标签;
根据所述销售会话所属领域,确定该领域中销售会话涉及的角色标签、以及各角色标签对应的正则规则库;
过滤符合过滤规则的会话片段,将剩余会话片段作为备用会话片段;
分别基于正则规则库方式、机器学习方式对所述备用会话片段进行角色识别,获取每一会话主体在两种方式下被识别为各角色标签的得分;
根据每一会话主体在两种方式下被识别为各角色标签的得分,确定各会话主体的角色标签。
2.根据权利要求1所述的从销售会话中确定会话主体角色标签的方法,其特征在于,通过执行以下操作确定各会话主体的角色标签:
分别获取第i个会话主体被识别为第一角色标签、第二角色标签的综合得分FSi、FCi
Figure FDA0003401479080000011
Figure FDA0003401479080000012
其中,NSi、NCi分别表示第i个会话主体在正则规则库方式下被识别为第一角色标签、第二角色标签的得分;NSj、NCj分别表示第j个会话主体在正则规则库方式下被识别为第一角色标签、第二角色标签的得分;MSi、MCi分别表示第i个会话主体在机器学习方式下被识别为第一角色标签、第二角色标签的得分;MSj、MCj分别表示第j个会话主体在机器学习方式下被识别为第一角色标签、第二角色标签的得分;α表示角色识别加权系数;i、j的取值范围均为1到N,N表示会话主体的总数,N为大于等于2的整数;
若FSi>FCi,则第i个会话主体的角色标签为第一角色标签;若FSi<FCi,则第i个会话主体的角色标签为第二角色标签。
3.根据权利要求2所述的从销售会话中确定会话主体角色标签的方法,其特征在于,通过执行以下操作获取每一会话主体在正则规则库方式下被识别为各角色标签的得分:
获取每一备用会话片段匹配于各角色标签的正则规则库中正则规则的数量,并将该备用会话片段标记为匹配正则规则数量较多的一方的角色标签;
分类汇总各备用会话片段的角色标签的数量,得到每一会话主体在正则规则库方式下被识别为各角色标签的会话片段的数量;
对每一会话主体在正则规则库方式下被识别为各角色标签的会话片段的数量进行归一化处理,得到每一会话主体在正则规则库方式下被识别为相应角色标签的得分。
4.根据权利要求3所述的从销售会话中确定会话主体角色标签的方法,其特征在于,通过以下公式实现所述归一化处理,从而得到每一会话主体在正则规则库方式下被识别为各角色标签的得分:
第i个会话主体在正则规则库方式下被识别为第一角色标签的得分NSi
Figure FDA0003401479080000021
第i个会话主体在正则规则库方式下被识别为第二角色标签的得分NCi
Figure FDA0003401479080000031
其中,Si、Ci分别表示第i个会话主体在正则规则库方式下被识别为第一角色标签、第二角色标签的数量。
5.根据权利要求2所述的从销售会话中确定会话主体角色标签的方法,其特征在于,通过执行以下操作获取每一会话主体在机器学习方式下被识别为各角色标签的得分:
获取每一备用会话片段的特征向量;
将每一备用会话片段的特征向量分别输入至机器学习模型,由机器学习模型处理所述特征向量,得到每一备用会话片段被识别为各角色标签的概率;
将每一会话主体的全部备用会话片段被识别为每一角色标签的概率平均值,作为该会话主体在机器学习方式下被识别为相应角色标签的得分。
6.根据权利要求5所述的从销售会话中确定会话主体角色标签的方法,其特征在于,通过执行以下操作获取每一备用会话片段的特征向量:
对每一备用会话片段进行分词、滤除停用词处理,获得每一备用会话片段的词语列表;
获取所述词语列表中每个词的词向量编码及tf-idf值;
以每个词的tf-idf值为该词的词向量编码的权重,分别对所有词向量编码中的每一维元素分别进行加权,将加权处理后得到的单一词向量编码作为当前备用会话片段的特征向量。
7.根据权利要求5所述的从销售会话中确定会话主体角色标签的方法,其特征在于,
所述机器学习模型为双向长短期记忆模型;
或者,
所述机器学习模型包括以下三个模型:支持向量机、Adaboost及双向长短期记忆模型;当机器学习模型包括三个模型时,分别得到每一备用会话片段在各个模型下被识别为各角色标签的概率,将三个模型的概率的加权结果作为该备用会话片段被识别为相应角色标签的概率。
8.根据权利要求2所述的从销售会话中确定会话主体角色标签的方法,其特征在于,根据两种方式的角色识别正确率,调整所述角色识别加权系数α。
9.根据权利要求1所述的从销售会话中确定会话主体角色标签的方法,其特征在于,所述过滤规则包括:
过滤仅包含语气词的会话片段;
过滤在不同会话主体中都出现过的会话片段;
过滤文本长度小于3的会话片段。
10.一种从销售会话中确定会话主体角色标签的系统,其特征在于,包括:
文字转录模块,对销售会话进行文字转录,得到多条会话片段;其中,每一会话片段对应一个会话主体,每一会话主体对应一个角色标签;
角色标签信息及正则规则库获取模块,用于根据所述销售会话所属领域,确定该领域中销售会话涉及的角色标签、以及各角色标签对应的正则规则库;
过滤模块,过滤符合过滤规则的会话片段,将剩余会话片段作为备用会话片段;
得分获取模块,分别基于正则规则库方式、机器学习方式对所述备用会话片段进行角色识别,获取每一会话主体在两种方式下被识别为各角色标签的得分;
角色标签确定模块,根据每一会话主体在两种方式下被识别为各角色标签的得分,确定各会话主体的角色标签。
CN202111500655.1A 2021-12-09 2021-12-09 一种从销售会话中确定会话主体角色标签的方法及系统 Active CN114186559B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111500655.1A CN114186559B (zh) 2021-12-09 2021-12-09 一种从销售会话中确定会话主体角色标签的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111500655.1A CN114186559B (zh) 2021-12-09 2021-12-09 一种从销售会话中确定会话主体角色标签的方法及系统

Publications (2)

Publication Number Publication Date
CN114186559A true CN114186559A (zh) 2022-03-15
CN114186559B CN114186559B (zh) 2022-09-13

Family

ID=80604060

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111500655.1A Active CN114186559B (zh) 2021-12-09 2021-12-09 一种从销售会话中确定会话主体角色标签的方法及系统

Country Status (1)

Country Link
CN (1) CN114186559B (zh)

Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102523219A (zh) * 2011-12-16 2012-06-27 清华大学 正则表达式匹配系统及匹配方法
CN105512105A (zh) * 2015-12-07 2016-04-20 百度在线网络技术(北京)有限公司 语义解析方法和装置
CN105590225A (zh) * 2015-12-22 2016-05-18 成都小多科技有限公司 基于客户问题识别销售阶段的方法及装置
CN106326363A (zh) * 2016-08-11 2017-01-11 海信集团有限公司 一种基于正则表达式的匹配方法及装置
CN107358945A (zh) * 2017-07-26 2017-11-17 谢兵 一种基于机器学习的多人对话音频识别方法及系统
CN107688651A (zh) * 2017-08-31 2018-02-13 平安科技(深圳)有限公司 新闻情感方向判断方法、电子设备及计算机可读存储介质
CN107993665A (zh) * 2017-12-14 2018-05-04 科大讯飞股份有限公司 多人会话场景中发言人角色确定方法、智能会议方法及系统
CN108280149A (zh) * 2018-01-04 2018-07-13 东南大学 一种基于多维度分类标签的医患纠纷类案件推荐方法
CN108735200A (zh) * 2018-06-27 2018-11-02 北京灵伴即时智能科技有限公司 一种说话人自动标注方法
CN109710756A (zh) * 2018-11-23 2019-05-03 京华信息科技股份有限公司 基于语义角色标注的文书体裁分类系统及方法
CN111126038A (zh) * 2019-12-24 2020-05-08 北京明略软件系统有限公司 信息获取模型生成方法、装置及信息获取方法、装置
CN111177310A (zh) * 2019-12-06 2020-05-19 广西电网有限责任公司 电力服务机器人智能场景会话方法及装置
CN111583906A (zh) * 2019-02-18 2020-08-25 中国移动通信有限公司研究院 一种语音会话的角色识别方法、装置及终端
CN111651497A (zh) * 2020-04-30 2020-09-11 北京大米科技有限公司 用户标签挖掘方法、装置、存储介质及电子设备
CN111798871A (zh) * 2020-09-08 2020-10-20 共道网络科技有限公司 会话环节识别方法、装置及设备、存储介质
CN111967251A (zh) * 2020-07-28 2020-11-20 中国第一汽车股份有限公司 客户声音智慧洞察系统
CN111984779A (zh) * 2020-09-10 2020-11-24 支付宝(杭州)信息技术有限公司 一种对话文本分析方法、装置、设备和可读介质
CN112364660A (zh) * 2020-10-27 2021-02-12 中国平安人寿保险股份有限公司 语料文本处理方法、装置、计算机设备及存储介质
CN112765971A (zh) * 2019-11-05 2021-05-07 北京火山引擎科技有限公司 文本语音的转换方法、装置、电子设备及存储介质
CN112765991A (zh) * 2021-01-14 2021-05-07 中山大学 一种基于知识增强的深度对话语义角色标注方法及系统
CN113626573A (zh) * 2021-08-11 2021-11-09 北京深维智信科技有限公司 一种销售会话异议及应对提取方法及系统

Patent Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102523219A (zh) * 2011-12-16 2012-06-27 清华大学 正则表达式匹配系统及匹配方法
CN105512105A (zh) * 2015-12-07 2016-04-20 百度在线网络技术(北京)有限公司 语义解析方法和装置
CN105590225A (zh) * 2015-12-22 2016-05-18 成都小多科技有限公司 基于客户问题识别销售阶段的方法及装置
CN106326363A (zh) * 2016-08-11 2017-01-11 海信集团有限公司 一种基于正则表达式的匹配方法及装置
CN107358945A (zh) * 2017-07-26 2017-11-17 谢兵 一种基于机器学习的多人对话音频识别方法及系统
CN107688651A (zh) * 2017-08-31 2018-02-13 平安科技(深圳)有限公司 新闻情感方向判断方法、电子设备及计算机可读存储介质
CN107993665A (zh) * 2017-12-14 2018-05-04 科大讯飞股份有限公司 多人会话场景中发言人角色确定方法、智能会议方法及系统
CN108280149A (zh) * 2018-01-04 2018-07-13 东南大学 一种基于多维度分类标签的医患纠纷类案件推荐方法
CN108735200A (zh) * 2018-06-27 2018-11-02 北京灵伴即时智能科技有限公司 一种说话人自动标注方法
CN109710756A (zh) * 2018-11-23 2019-05-03 京华信息科技股份有限公司 基于语义角色标注的文书体裁分类系统及方法
CN111583906A (zh) * 2019-02-18 2020-08-25 中国移动通信有限公司研究院 一种语音会话的角色识别方法、装置及终端
CN112765971A (zh) * 2019-11-05 2021-05-07 北京火山引擎科技有限公司 文本语音的转换方法、装置、电子设备及存储介质
CN111177310A (zh) * 2019-12-06 2020-05-19 广西电网有限责任公司 电力服务机器人智能场景会话方法及装置
CN111126038A (zh) * 2019-12-24 2020-05-08 北京明略软件系统有限公司 信息获取模型生成方法、装置及信息获取方法、装置
CN111651497A (zh) * 2020-04-30 2020-09-11 北京大米科技有限公司 用户标签挖掘方法、装置、存储介质及电子设备
CN111967251A (zh) * 2020-07-28 2020-11-20 中国第一汽车股份有限公司 客户声音智慧洞察系统
CN111798871A (zh) * 2020-09-08 2020-10-20 共道网络科技有限公司 会话环节识别方法、装置及设备、存储介质
CN111984779A (zh) * 2020-09-10 2020-11-24 支付宝(杭州)信息技术有限公司 一种对话文本分析方法、装置、设备和可读介质
CN112364660A (zh) * 2020-10-27 2021-02-12 中国平安人寿保险股份有限公司 语料文本处理方法、装置、计算机设备及存储介质
CN112765991A (zh) * 2021-01-14 2021-05-07 中山大学 一种基于知识增强的深度对话语义角色标注方法及系统
CN113626573A (zh) * 2021-08-11 2021-11-09 北京深维智信科技有限公司 一种销售会话异议及应对提取方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
APACHECN: "4.2 正则表达式标注器", 《WWW.BOOKSTACK.CN/READ/NLP-PY-2E-ZH/SPLIT.19.5.MD》 *
JIYING WANG 等: ""Data extraction and label assignment for web databases"", 《WWW03》 *
史宪军: ""文本信息人工标注辅助系统的设计与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
白如江 等: "科学事件知识图谱构建研究", 《情报理论与实践》 *

Also Published As

Publication number Publication date
CN114186559B (zh) 2022-09-13

Similar Documents

Publication Publication Date Title
CN112804400B (zh) 客服呼叫语音质检方法、装置、电子设备及存储介质
US11380327B2 (en) Speech communication system and method with human-machine coordination
US10347244B2 (en) Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response
US11450311B2 (en) System and methods for accent and dialect modification
CN104598445B (zh) 自动问答系统和方法
CN110472224B (zh) 服务质量的检测方法、装置、计算机设备和存储介质
US10592611B2 (en) System for automatic extraction of structure from spoken conversation using lexical and acoustic features
US10839788B2 (en) Systems and methods for selecting accent and dialect based on context
CN110310663A (zh) 违规话术检测方法、装置、设备及计算机可读存储介质
US11070673B1 (en) Call monitoring and feedback reporting using machine learning
US20130253932A1 (en) Conversation supporting device, conversation supporting method and conversation supporting program
CN111785275A (zh) 语音识别方法及装置
KR20200119410A (ko) 전역 및 지역 문맥 기반 한국어 대화문 감정 인식 시스템 및 방법
CN112233680B (zh) 说话人角色识别方法、装置、电子设备及存储介质
CN112235470B (zh) 基于语音识别的来电客户跟进方法、装置及设备
CN114818649A (zh) 基于智能语音交互技术的业务咨询处理方法及装置
CN113744742A (zh) 对话场景下的角色识别方法、装置和系统
CN114186559B (zh) 一种从销售会话中确定会话主体角色标签的方法及系统
Cole et al. Experiments with a spoken dialogue system for taking the US census
CN115022471B (zh) 一种智能机器人语音交互系统和方法
CN112395394B (zh) 短文本语义理解模板检验方法、模板生成方法及装置
CN111818290B (zh) 一种在线访谈的方法及系统
CN113435902A (zh) 一种基于语音信息分析的智能物流客服机器人
Vergin et al. On the use of some divergence measures in speaker recognition
Pranto et al. Aims talk: Intelligent call center support in bangla language with speaker authentication

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Room 805, floor 8, No. 23, Zhichun Road, Haidian District, Beijing 100191

Applicant after: Beijing Shenwei Zhixin Technology Co.,Ltd.

Address before: Room 1508b, floor 15, No. 23, Zhichun Road, Haidian District, Beijing 100191

Applicant before: Beijing Shenwei Zhixin Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant