CN107688600A - 知识点挖掘方法及装置 - Google Patents

知识点挖掘方法及装置 Download PDF

Info

Publication number
CN107688600A
CN107688600A CN201710565988.XA CN201710565988A CN107688600A CN 107688600 A CN107688600 A CN 107688600A CN 201710565988 A CN201710565988 A CN 201710565988A CN 107688600 A CN107688600 A CN 107688600A
Authority
CN
China
Prior art keywords
focus
real
text
keyword
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710565988.XA
Other languages
English (en)
Other versions
CN107688600B (zh
Inventor
张杰伟
王冠群
王经委
董美豪
郝卓琳
平善涛
艾娟
杨帆
胡建华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710565988.XA priority Critical patent/CN107688600B/zh
Publication of CN107688600A publication Critical patent/CN107688600A/zh
Application granted granted Critical
Publication of CN107688600B publication Critical patent/CN107688600B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种知识点挖掘方法及装置。该知识点挖掘方法包括:从非实时的用户交互语音数据中挖掘非实时关注点;从实时的用户交互数据中挖掘实时关注点;以及基于非实时关注点和实时关注点生成底层应用知识。根据本申请实施例的技术方案,通过分别对非实时和实时的用户交互数据挖掘关注点,实现了多种模式下用户交互数据的知识点挖掘,也使得所生成的底层应用知识更加全面准确。

Description

知识点挖掘方法及装置
技术领域
本公开一般涉及信息处理技术领域,具体涉及一种知识点挖掘方法及装置。
背景技术
呼叫中心客服系统是客户和商家沟通的重要平台,客户可以通过统一的电话或在线接口及时联系到商家,从而可以实时便利地解决问题,提升了服务质量。
目前市场上有很多呼叫中心客服系统,但由于每类商家的具体业务类型不同,其系统底层所依赖的知识差别较大。因此,如何满足不同商家对于客服系统中个性化知识的需求,是极为重要的工作。
已知一些系统基于人工知识总结和语音转义文本的简单挖掘来生成底层知识。该方法的缺陷在于:待挖掘的数据不全面,从而导致挖掘结果不准确;挖掘的关注点不准确,不能有效确定客服或客户关注的重点;关注点识别不准确,不能作为参考来有效解决客服问题;无法实现对于关注点的及时补充。因此,现有系统和方法无法保障关注点的准确性,从而导致无法及时有效地辅助客服解决客户的问题。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种精确沉淀客服和客户的关注点,并且可对该关注点进行准确地知识点挖掘方法及装置。
第一方面,本申请实施例提供了一种知识点挖掘方法,包括:
从非实时的用户交互语音数据中挖掘非实时关注点;
从实时的用户交互数据中挖掘实时关注点;以及
基于非实时关注点和实时关注点生成底层应用知识。
在一些实施例中,从非实时的用户交互语音数据中挖掘非实时关注点,包括:基于用户交互语音数据获取语音转义文本;对语音转义文本进行预处理和分词,获得分词序列;对文本的分词序列进行聚类;根据相似度对聚类结果进行归纳,得到若干关注点;以及对各关注点,分别挖掘其中具有代表性的文本,并将各关注点和对应的文本存入底层应用知识库。
在一些实施例中,从非实时的用户交互语音数据中挖掘非实时关注点,还包括:对未在底层应用知识库的文本,计算其与底层应用知识库中文本的相似度;根据计算结果,选取相似度高的文本,对底层应用知识库中文本所对应的关注点进行补充。
在一些实施例中,从实时的用户交互数据中挖掘实时关注点,包括:提取实时的用户交互数据中的关键词;查找底层应用知识库是否包括该关键词;若底层应用知识库包括该关键词,则展示该关键词对应的话述;若底层应用知识库不包括该关键词,则将关键词及对应的关注点补入底层应用知识库。
第二方面,本申请实施例提供了知识点挖掘装置,包括:
非实时数据挖掘单元,用于从非实时的用户交互语音数据中挖掘非实时关注点;
实时数据挖掘单元,用于从实时的用户交互数据中挖掘实时关注点;以及
知识生成单元,用于基于非实时关注点和实时关注点生成底层应用知识。
第三方面,本申请实施例提供了一种设备,包括:
一个或多个处理器和存储器;
其中,存储器包含可由该一个或多个处理器执行的指令以使得该一个或多个处理器执行根据本申请各实施例提供的智能提示答案的方法。
第四方面,本申请实施例提供了一种存储有计算机程序的计算机可读存储介质,该计算机程序使计算机执行根据本申请各实施例提供的智能提示答案的方法。
本申请实施例提供的知识点挖掘方法及装置,通过分别对非实时和实时的用户交互数据挖掘关注点,实现了多种模式下用户交互数据的知识点挖掘,也使得所生成的底层应用知识更加全面准确。
本申请的一些实施例提供的知识点挖掘方法进一步通过对非实时交互语音数据的聚类结果进行归纳,得到关注点,并对关注点进行挖掘,实现了对客服和客户所关注知识的精确沉淀和挖掘,使得所生成的底层应用知识更加准确。
本申请的一些实施例提供的知识点挖掘方法进一步通过将未在底层应用知识库中的文本补充至知识库中对应的关注点,使得知识点挖掘更加全面,实现了对底层应用知识库的进一步充实。
本申请的一些实施例提供的知识点挖掘方法进一步通过对实时用户交互数据中的关键词进行提取和查找,根据查找结果对关键词进行展示或补入,既便于客服及时获取所关注知识点的相关内容,又有利于客服对知识库所欠缺的关注点进行精确挖掘和实时补充。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出了根据本申请实施例的知识点挖掘方法的示例性流程图;
图2为图1所示方法的一种优选实施方式的示例性流程图;
图3为图2所示方法的一种优选实施方式的示例性流程图;
图4为图1所示方法的一种优选实施方式的示例性流程图;
图5示出了本申请一实施例提供的知识点挖掘装置的结构示意图;
图6为图5所示装置的一种优选实施方式的结构示意图;
图7为图6所示装置的一种优选实施方式的结构示意图;
图8为图5所示装置的一种优选实施方式的结构示意图;以及
图9示出了适于用来实现本申请实施例的设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了根据本申请实施例的知识点挖掘方法的示例性流程图。
如图1所示,该知识点挖掘方法包括:
步骤S10:从非实时的用户交互语音数据中挖掘非实时关注点。
在步骤S10中,非实时的用户交互语音数据可以是已经产生的客户与客服的电话沟通录音,可以通过呼叫中心客服系统对客户与客服的电话沟通语音随时记录并保存。基于已经产生的客户与客服的电话沟通录音,可以根据需求配置不同的挖掘方法进行非实时关注点的挖掘,其中,非实时关注点可以根据客户或客服所关注的重点做具体调整和归纳,如价格、数量、性能、联系方式。
步骤S20:从实时的用户交互数据中挖掘实时关注点。
在步骤S20中,实时的用户交互数据可以为客户与客服实时沟通所产生的数据,具体地,该数据可以是以下的任意一种或多种:电话沟通语音、线上聊天文本、线上截图。基于客户与客服实时沟通数据,可以根据需求配置不同的挖掘方法进行实时关注点的挖掘,其中,实时关注点可以根据客户或客服所关注的重点做具体调整和归纳,可以为非实时关注点所包括的关注点,也可以为非实时关注点未包括的关注点。
步骤S30:基于非实时关注点和实时关注点生成底层应用知识。
在步骤S30中,可以将步骤S10中的得到非实时关注点和步骤S20中得到的实时关注点一并作为底层应用知识存入底层应用知识库;也可以先将非实时关注点作为底层应用知识存入底层应用知识库,再将实时关注点中未包含在非实时关注点中的内容对底层应用知识库进行补充;上述过程反之亦可。可以理解,步骤S10和S20并非以特定顺序来执行上述操作,可以根据具体需求,配置步骤S10和S20同时执行或以先后顺序执行。该底层应用知识库可以接入呼叫中心客服系统,以供客服与客户沟通时使用,如获取关注点的详细信息、补充其他关注点。
本实施例中,通过分别对非实时和实时的用户交互数据挖掘关注点,实现了多种模式下用户交互数据的知识点挖掘,也使得所生成的底层应用知识更加全面准确。
图2为图1所示方法中的步骤S10的一种优选实施方式的示例性流程图。
如图2所示,在一优选实施例中,图1中的步骤S10从非实时的用户交互语音数据中挖掘非实时关注点可以包括:
步骤S11:基于用户交互语音数据获取语音转义文本。
具体地,在步骤S11中,通过将获得的非实时的用户交互语音数据进行语音识别转换,得到对应的语音转义文本。可以采用各种语音识别技术进行语音识别,本申请在此方面没有限制。
步骤S12:对语音转义文本进行预处理和分词,获得分词序列。
在步骤S12中,对语音转义文本的预处理可以包括各种文本规范化处理,例如包括但不限于清除标点符号和中英文统一等。对预处理好的文本,可以根据需求采用已有的不同的分词工具进行分词,获得分词序列。
步骤S14:对文本的分词序列进行聚类。
在步骤S14中,对文本的分词序列进行向量表示,再将该文本向量进行聚类。向量表示方法和聚类方法均可以根据需求采用不同的方法实现。例如,向量表示方法可以为bow、cnn、word2vec,聚类方法可以为k-means、分层聚类等。
步骤S15:根据相似度对聚类结果进行归纳,得到若干关注点。
在步骤S15中,对聚类后的文本,可以参照客服或客户所关注的重点,提取相似度高的类进行归纳总结,得到关注点。具体地,该归纳总结可以根据不同需求依据不同的规则进行,例如,聚类结果中词集1包括“降价”、“打折”、“促销”等词,词集2包括“多少钱”、“单价”、“批发价”等词,词集3包括“耐用”、“结实”、“寿命”等词,词集4包括“手感”、“舒适度”等词,词集1和2可以归纳为关注点“价格”,词集3和4则可以归纳为关注点“性能”。
步骤S16:对各关注点,分别挖掘其中具有代表性的文本,并将各关注点和对应的文本存入底层应用知识库。
在步骤S16中,针对各关注点,挖掘具有代表性的文本可以通过选取靠近聚类结果类中心的文本获得。例如,词集1包括“降价”、“打折”、“促销”等词,其类中心为“促销”,词集2包括“多少钱”、“单价”、“批发价”等词,其类中心为“单价”和“批发价”,词集1和2归纳得到的关注点为“价格”,则关注点“价格”所对应的具有代表性的文本为“促销”、“单价”和“批发价”。
进一步地,在步骤S12之后,还可以包括:
步骤S13:对分词序列进行修正,合并各领域常见的核心名词。
具体地,各领域常见的核心名词可以包括但不限于以下词汇:地名、品牌名、成分名、商业术语、法律术语等,可以根据各领域词库对分词序列进行修正。通过修正,可以使得分词更加准确,避免了因分词不当而影响后续聚类及归纳过程的不准确。
本实施例中,通过对非实时交互语音数据的聚类结果进行归纳,得到关注点,并对关注点进行挖掘,实现了对客服和客户所关注知识的精确沉淀和挖掘,使得所生成的底层应用知识更加准确。
在更多实施例中,在步骤S10中还可以采用本领域常用的不同的挖掘方法挖掘非实时交互语音数据的关注点,可以实现相同的技术效果。
图3为图2所示方法的一种优选实施方式的示例性流程图。
如图3所示,在一优选实施例中,上述方法还包括:
步骤S17:对未在底层应用知识库的文本,计算其与底层应用知识库中文本的相似度;
步骤S18:根据计算结果,选取相似度高的文本,对底层应用知识库中文本所对应的关注点进行补充。
具体地,在步骤S17中,未在底层应用知识库的文本可以为上述步骤S11-S16中归纳提取后剩余的文本,也可以为其他已获取的但未在底层应用知识库的文本。相似度计算可以为不同的已知的相似度计算方法,如余弦相似度。
在步骤S18中,根据相似度计算结果,可以选取相似度高的一个或多个文本,对进行相似度比较的底层应用知识库中文本所对应的关注点,进行补充,其中,该选取规则可以根据不同需求设置不同的相似度范围制定。
本实施例中,通过将未在底层应用知识库中的文本补充至知识库中对应的关注点,得知识点挖掘更加全面,实现了对底层应用知识库的进一步充实。
在更多实施例中,还可以采用本领域常用的不同的文本补充方法对底层应用知识库进行补充,可以实现相同的技术效果。
图4为图1所示方法中步骤S20的一种优选实施方式的示例性流程图。
如图4所示,在一优选实施例中,图1中的步骤S20从实时的用户交互数据中挖掘实时关注点可以包括:
步骤S21:提取实时的用户交互数据中的关键词。
用户可以通过多种方式与客户进行交互。这些方式包括但不限于电话沟通、网络语音聊天、网络文本和/或图像通信等。因此,步骤S21中提取实时的用户交互数据中的关键词可以包括以下至少一项:接收对实时语音转换文本的划词所得到的关键词;接收对图像截图识别文本的划词所得到的关键词;接收对文本的屏幕划词所得到的关键词。其中,实时语音可以通过语音识别转换将其转换成文本;图像截图可以为线上实时交流中客户所发的截图,可以利用OCR识别技术将划词的关键词转换成文本;文本可以为线上实时交流中的文字。实时语音可以通过电话或微信语音实现,线上实时交流可采用即时通信工具,如QQ、MSN、微信、阿里旺旺。
步骤S22:查找底层应用知识库是否包括该关键词。
步骤S22中,底层应用知识库为预先构建而成,可以通过前述步骤S10挖掘非实时的用户交互语音数据得到的关注点构建而成,也可以是通过其他方法构建而成。
步骤S23:若底层应用知识库包括该关键词,则展示关键词对应的话述。
话述可以是同关键词相关的描述性内容,如文字、图像、视频等资料,以便于客服充分了解关键词涉及的内容,从而可以向客户做出准确回答。例如,关键词“温碧泉”展示的话述可以包括:品牌简介、品牌历程、产品介绍、产品价格、竞争对手产品、产品优略势等。
步骤S24:若底层应用知识库不包括该关键词,则将关键词及对应的关注点补入底层应用知识库。
步骤S24中,对未在底层应用知识库中的关键词,可以进行补充,具体地,可以根据不同需求采用不同方法实现。
进一步地,在一些实施例中,步骤S24中的将关键词及对应的关注点补入底层应用知识库包括:对关键词进行向量表示,计算其与底层应用知识库中的文本向量的相似度,根据计算结果选取相似度高的向量对应的关键词,提取关注点,将关键词和对应的关注点补入底层应用知识库。
具体地,提取的关注点可以是底层应用知识库中已经包括的,也可以是未包括的。对于已经包括的关注点,将关键词对应补入该关注点;对于未包括的关注点,将关注点和对应的关键词一起补入知识库。
举例而言,关键词“会员卡”、“贵宾卡”、“VIP”、“年卡”、“卡车”等并未包括在现有底层应用知识库中,将其同知识库已有的文本进行相似度计算后,得到相似度较高的关键词“会员卡”、“贵宾卡”、“VIP”、“年卡”,提取关注点,得到“优惠卡”,将“优惠卡”同对应的关键词补入知识库。
应当注意,上述关键词可以为一个或多个词语,也可以是一个或多个句子,可以理解,上述关键词是指通过划词或其他方式提取的文本,以与其他文本进行区别描述。
本实施例中,通过对实时用户交互数据中的关键词进行提取和查找,根据查找结果对关键词进行展示或补入,既便于客服及时获取所关注知识点的相关内容,又有利于客服对知识库所欠缺的关注点进行精确挖掘和实时补充。
在更多实施例中,在步骤S20中还可以采用本领域常用的不同的挖掘方法挖掘实时交互数据的关注点,可以实现相同的技术效果。
图5示出了本申请一实施例提供的知识点挖掘装置的结构示意图。图5所示的装置可对应执行前文结合图1描述的方法。
如图5所示,在本实施例中,本申请提供一种知识点挖掘装置,包括:
非实时数据挖掘单元10,用于从非实时的用户交互语音数据中挖掘非实时关注点。
对于非实时数据挖掘单元10,非实时的用户交互语音数据可以是已经产生的客户与客服的电话沟通录音,可以通过呼叫中心客服系统对客户与客服的电话沟通语音随时记录并保存。基于已经产生的客户与客服的电话沟通录音,可以根据需求配置不同的挖掘方法进行非实时关注点的挖掘,其中,非实时关注点可以根据客户或客服所关注的重点做具体调整和归纳,如价格、数量、性能、联系方式。
实时数据挖掘单元20,用于从实时的用户交互数据中挖掘实时关注点。
对于实时数据挖掘单元20,实时的用户交互数据可以为客户与客服实时沟通所产生的数据,具体地,该数据可以是以下的任意一种或多种:电话沟通语音、线上聊天文本、线上截图。基于客户与客服实时沟通数据,可以根据需求配置不同的挖掘方法进行实时关注点的挖掘,其中,实时关注点可以根据客户或客服所关注的重点做具体调整和归纳,可以为非实时关注点所包括的关注点,也可以为非实时关注点未包括的关注点。
知识生成单元30,用于基于非实时关注点和实时关注点生成底层应用知识。
知识生成单元30,可以用于将非实时数据挖掘单元10得到的非实时关注点和实时数据挖掘单元20中得到的实时关注点一并作为底层应用知识存入底层应用知识库;也可以先将非实时关注点作为底层应用知识存入底层应用知识库,再将实时关注点中未包含在非实时关注点中的内容对底层应用知识库进行补充;上述过程反之亦可。可以理解,非实时数据挖掘单元10和实时数据挖掘单元20并非以特定顺序来执行上述操作,可以根据具体需求,配置两者同步执行或以先后顺序执行。该底层应用知识库可以接入呼叫中心客服系统,以供客服与客户沟通时使用,如获取某些关注点的详细信息、补充某些关注点。
图6为图5所示装置中非实时数据挖掘单元10的一种优选实施方式的结构示意图。图6所示的装置可对应执行前文结合图2描述的方法。
如图6所示,在一优选实施例中,非实时数据挖掘单元10可以包括:
语音转义文本获取单元11,用于基于用户交互语音数据获取语音转义文本。
具体地,语音转义文本获取单元11,通过将获得的非实时的用户交互语音数据进行语音识别转换,得到对应的语音转义文本。可以采用各种语音识别技术进行语音识别,本申请在此方面没有限制。
分词单元12,用于对语音转义文本进行预处理和分词,获得分词序列。
分词单元12,用于预处理和分词,其中,预处理包括各种文本规范化处理,例如包括但不限于清除标点符号和中英文统一等。对预处理好的文本,可以根据需求采用已有的不同的分词工具进行分词,获得分词序列。
聚类单元14,用于对文本的分词序列进行聚类。
聚类单元14,用于对文本的分词序列进行向量表示,再将该文本向量进行聚类。向量表示方法和聚类方法均可以根据需求采用不同的方法实现。例如,向量表示方法可以为bow、cnn、word2vec,聚类方法可以为k-means、分层聚类等。
归纳单元15,用于根据相似度对聚类结果进行归纳,得到若干关注点。
归纳单元15,用于对聚类后的文本,可以参照客服或客户所关注的重点,提取相似度高的类进行归纳总结,得到关注点。具体地,该归纳总结可以根据不同需求依据不同的规则进行,例如,聚类结果中词集1包括“降价”、“打折”、“促销”等词,词集2包括“多少钱”、“单价”、“批发价”等词,词集3包括“耐用”、“结实”、“寿命”等词,词集4包括“手感”、“舒适度”等词,词集1和2可以归纳为关注点“价格”,词集3和4则可以归纳为关注点“性能”。
挖掘单元16,用于对各关注点,分别挖掘其中具有代表性的文本,并将各关注点和对应的文本存入底层应用知识库。
挖掘单元16,用于针对各关注点,挖掘具有代表性的文本可以通过选取靠近聚类结果类中心的文本获得。例如,词集1包括“降价”、“打折”、“促销”等词,其类中心为“促销”,词集2包括“多少钱”、“单价”、“批发价”等词,其类中心为“单价”和“批发价”,词集1和2归纳得到的关注点为“价格”,则关注点“价格”所对应的具有代表性的文本为“促销”、“单价”和“批发价”。
进一步地,非实时数据挖掘单元10还包括:
修正单元13,用于对分词序列进行修正,合并各领域常见的核心名词。
具体地,各领域常见的核心名词可以包括但不限于以下词汇:地名、品牌名、成分名、商业术语、法律术语等,可以根据各领域词库对分词序列进行修正。通过修正,可以使得分词更加准确,避免了因分词不当而影响后续聚类及归纳过程的不准确。
在更多实施例中,非实时数据挖掘单元10还可以采用本领域常用的不同的挖掘方法挖掘非实时交互语音数据的关注点,可以实现相同的技术效果。
图7为图6所示装置的一种优选实施方式的结构示意图。图7所示的装置可对应执行前文结合图3描述的方法。
如图7所示,在一优选实施例中,非实时数据挖掘单元10还包括:
文本补充单元17,用于:
对未在所述底层应用知识库的文本,计算其与所述底层应用知识库中文本的相似度;
根据计算结果,选取相似度高的文本,对所述底层应用知识库中文本所对应的关注点进行补充。
具体地,未在底层应用知识库的文本可以为上述归纳提取后剩余的文本,也可以为其他已获取的但未在底层应用知识库的文本。相似度计算可以为不同的已知的相似度计算方法,如余弦相似度。
根据相似度计算结果,可以选取相似度高的一个或多个文本,对进行相似度比较的底层应用知识库中文本所对应的关注点,进行补充,其中,该选取规则可以根据不同需求设置不同的相似度范围制定。
在更多实施例中,文本补充单元17还可以采用本领域常用的不同的文本补充方法对底层应用知识库进行补充,可以实现相同的技术效果。
图8为图5所示装置中实时数据挖掘单元20的一种优选实施方式的结构示意图。图8所示的装置可对应执行前文结合图4描述的方法。
如图8所示,在一优选实施例中,实时数据挖掘单元20包括:
提取单元21,用于提取实时的用户交互数据中的关键词。
用户可以通过多种方式与客户进行交互。这些方式包括但不限于电话沟通、网络语音聊天、网络文本和/或图像通信等。因此,步提取单元21包括以下至少一项:语音数据提取单元211,用于接收对实时语音转换文本的划词所得到的关键词;图像数据提取单元212,用于接收对图像截图识别文本的划词所得到的关键词;文本数据提取单元213,用于接收对文本的屏幕划词所得到的关键词。其中,实时语音可以通过语音识别转换将其转换成文本;图像截图可以为线上实时交流中客户所发的截图,可以利用OCR识别技术将划词的关键词转换成文本;文本可以为线上实时交流中的文字。实时语音可以通过电话或微信语音实现,线上实时交流可采用即时通信工具,如QQ、MSN、微信、阿里旺旺。
查找单元22,用于查找底层应用知识库是否包括关键词。
查找单元22用于查找的底层应用知识库为预先构建而成,可以通过挖掘非实时的用户交互语音数据得到的关注点构建而成,也可以是通过其他方法构建而成。
展示单元23,用于展示底层应用知识库所包括的关键词所对应的话述。
展示单元23所展示的话述可以是同关键词相关的描述性内容,如文字、图像、视频等资料,以便于客服充分了解关键词涉及的内容,从而可以向客户做出准确回答。例如,关键词“温碧泉”展示的话述可以包括:品牌简介、品牌历程、产品介绍、产品价格、竞争对手产品、产品优略势等。
关键词补入单元24,用于将关键词及对应的关注点补入底层应用知识库。
关键词补入单元24,用于对未在底层应用知识库中的关键词,可以进行补充,具体地,可以根据不同需求采用不同方法实现。
进一步地,在一些实施例中,关键词补入单元24用于:
对关键词进行向量表示,计算其与底层应用知识库中的文本向量的相似度,根据计算结果选取相似度高的向量对应的关键词,提取关注点,将关键词和对应的关注点补入底层应用知识库。
举例而言,关键词“会员卡”、“贵宾卡”、“VIP”、“年卡”、“卡车”等并未包括在现有底层应用知识库中,将其同知识库已有的文本进行相似度计算后,得到相似度较高的关键词“会员卡”、“贵宾卡”、“VIP”、“年卡”,提取关注点,得到“优惠卡”,将“优惠卡”同对应的关键词补入知识库。
应当注意,上述关键词可以为一个或多个词语,也可以是一个或多个句子,可以理解,上述关键词是指通过划词或其他方式提取的文本,以与其他文本进行区别描述。
在更多实施例中,实时数据挖掘单元20还可以采用本领域常用的不同的挖掘方法挖掘实时交互数据的关注点,可以实现相同的技术效果。
图9示出了适于用来实现本申请实施例的设备的结构示意图。
如图9所示,设备900包括中央处理单元(CPU)901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 909中,还存储有设备900操作所需的各种程序和数据。CPU901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
以下部件连接至I/O接口905:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
特别地,根据本公开的实施例,上文参考图1-图4描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,该计算机程序包含用于执行图1-图4的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中。这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本申请的方法。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (16)

1.一种知识点挖掘方法,其特征在于,所述方法包括:
从非实时的用户交互语音数据中挖掘非实时关注点;
从实时的用户交互数据中挖掘实时关注点;以及
基于所述非实时关注点和所述实时关注点生成底层应用知识。
2.根据权利要求1所述的方法,其特征在于,所述从非实时的用户交互语音数据中挖掘非实时关注点包括:
基于所述用户交互语音数据获取语音转义文本;
对所述语音转义文本进行预处理和分词,获得分词序列;
对文本的分词序列进行聚类;
根据相似度对聚类结果进行归纳,得到若干关注点;以及
对各关注点,分别挖掘其中具有代表性的文本,并将各关注点和对应的文本存入底层应用知识库。
3.根据权利要求2所述的方法,其特征在于,所述对所述语音转义文本进行预处理和分词,获得分词序列之后,还包括:
对所述分词序列进行修正,合并各领域常见的核心名词。
4.根据权利要求2或3所述的方法,其特征在于,所述方法还包括:
对未在所述底层应用知识库的文本,计算其与所述底层应用知识库中文本的相似度;
根据计算结果,选取相似度高的文本,对所述底层应用知识库中文本所对应的关注点进行补充。
5.根据权利要求1-4任一所述的方法,其特征在于,所述从实时的用户交互数据中挖掘实时关注点包括:
提取所述实时的用户交互数据中的关键词;
查找所述底层应用知识库是否包括所述关键词;
若所述底层应用知识库包括所述关键词,则展示所述关键词对应的话述;
若所述底层应用知识库不包括所述关键词,则将所述关键词及对应的关注点补入所述底层应用知识库。
6.根据权利要求5所述的方法,其特征在于,所述将所述关键词及对应的关注点补入所述底层应用知识库包括:
对所述关键词进行向量表示,计算其与所述底层应用知识库中的文本向量的相似度,根据计算结果选取相似度高的向量对应的关键词,提取关注点,将所述关键词和对应的关注点补入所述底层应用知识库。
7.根据权利要求5所述的方法,其特征在于,所述提取所述实时的用户交互数据中的关键词包括以下至少一项:
接收对实时语音转换文本的划词所得到的关键词;
接收对图像截图识别文本的划词所得到的关键词;
接收对文本的屏幕划词所得到的关键词。
8.一种知识点挖掘装置,其特征在于,所述装置包括:
非实时数据挖掘单元,用于从非实时的用户交互语音数据中挖掘非实时关注点;
实时数据挖掘单元,用于从实时的用户交互数据中挖掘实时关注点;以及
知识生成单元,用于基于所述非实时关注点和所述实时关注点生成底层应用知识。
9.根据权利要求8所述的装置,其特征在于,所述非实时数据挖掘单元包括:
语音转义文本获取单元,用于基于所述用户交互语音数据获取语音转义文本;
分词单元,用于对所述语音转义文本进行预处理和分词,获得分词序列;
聚类单元,用于对文本的分词序列进行聚类;
归纳单元,用于根据相似度对聚类结果进行归纳,得到若干关注点;以及
挖掘单元,用于对各关注点,分别挖掘其中具有代表性的文本,并将各关注点和对应的文本存入底层应用知识库。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
修正单元,用于对所述分词序列进行修正,合并各领域常见的核心名词。
11.根据权利要求9或10所述的装置,其特征在于,所述装置还包括文本补充单元,用于:
对未在所述底层应用知识库的文本,计算其与所述底层应用知识库中文本的相似度;
根据计算结果,选取相似度高的文本,对所述底层应用知识库中文本所对应的关注点进行补充。
12.根据权利要求8-11任一所述的装置,其特征在于,所述实时数据挖掘单元包括:
提取单元,用于提取所述实时的用户交互数据中的关键词;
查找单元,用于查找所述底层应用知识库是否包括所述关键词;
展示单元,用于展示所述底层应用知识库所包括的关键词所对应的话述;
关键词补入单元,用于将所述关键词及对应的关注点补入所述底层应用知识库。
13.根据权利要求12所述的装置,其特征在于,所述关键词补入单元用于:
对所述关键词进行向量表示,计算其与所述底层应用知识库中的文本向量的相似度,根据计算结果选取相似度高的向量对应的关键词,提取关注点,将所述关键词和对应的关注点补入所述底层应用知识库。
14.根据权利要求12所述的装置,其特征在于,所述提取单元包括以下至少一项:
语音数据提取单元,用于接收对实时语音转换文本的划词所得到的关键词;
图像数据提取单元,用于接收对图像截图识别文本的划词所得到的关键词;
文本数据提取单元,用于接收对文本的屏幕划词所得到的关键词。
15.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN201710565988.XA 2017-07-12 2017-07-12 知识点挖掘方法及装置 Active CN107688600B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710565988.XA CN107688600B (zh) 2017-07-12 2017-07-12 知识点挖掘方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710565988.XA CN107688600B (zh) 2017-07-12 2017-07-12 知识点挖掘方法及装置

Publications (2)

Publication Number Publication Date
CN107688600A true CN107688600A (zh) 2018-02-13
CN107688600B CN107688600B (zh) 2021-06-25

Family

ID=61152793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710565988.XA Active CN107688600B (zh) 2017-07-12 2017-07-12 知识点挖掘方法及装置

Country Status (1)

Country Link
CN (1) CN107688600B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110744A (zh) * 2019-03-27 2019-08-09 平安国际智慧城市科技股份有限公司 基于语义理解的文本配对方法、装置及计算机设备
CN112100976A (zh) * 2020-09-24 2020-12-18 上海松鼠课堂人工智能科技有限公司 知识点关系标注方法及系统
CN113792149A (zh) * 2021-11-15 2021-12-14 北京博瑞彤芸科技股份有限公司 一种基于用户关注度分析产生获客方案的方法和装置

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030236699A1 (en) * 2002-06-24 2003-12-25 Anne Krebs System and method of intellectual/immaterial/intangible resource control
CN101004762A (zh) * 2007-01-10 2007-07-25 张百川 一种动态多维互联网网页系统
CN101093561A (zh) * 2006-06-20 2007-12-26 上海全成通信技术有限公司 基于营销知识库系统的数据业务个性化支撑处理方法
CN101216822A (zh) * 2007-01-05 2008-07-09 中兴通讯股份有限公司 嵌入式浏览器的浏览方法和系统
CN101576881A (zh) * 2008-05-07 2009-11-11 万德洪 一种数据可视化系统及实现方法
CN101667203A (zh) * 2009-09-04 2010-03-10 北京中易中标电子信息技术有限公司 一种数字化知识挖掘的方法
CN101799822A (zh) * 2010-02-23 2010-08-11 李祯 分层网状知识模型建模方法及知识仓库系统建立方法
CN101882164A (zh) * 2010-07-16 2010-11-10 张为斌 用于存储多维知识的数据仓库模型
CN103399883A (zh) * 2013-07-19 2013-11-20 百度在线网络技术(北京)有限公司 根据用户兴趣点/关注点进行个性化推荐的方法和系统
CN103984771A (zh) * 2014-06-04 2014-08-13 武汉大学 一种英文微博中地理兴趣点抽取和感知其时间趋势的方法
CN104536950A (zh) * 2014-12-11 2015-04-22 北京百度网讯科技有限公司 生成文本摘要的方法及装置
CN104809106A (zh) * 2015-05-15 2015-07-29 合肥汇众知识产权管理有限公司 一种专利方案的挖掘系统及挖掘方法
CN105574092A (zh) * 2015-12-10 2016-05-11 百度在线网络技术(北京)有限公司 信息挖掘方法和装置
US20160140119A1 (en) * 2013-06-17 2016-05-19 Digital Collaborations Corporation Knowledge management device, knowledge management device terminal device and knowledge management device program
CN105786941A (zh) * 2014-12-26 2016-07-20 中国移动通信集团上海有限公司 一种信息挖掘方法和装置
CN106294616A (zh) * 2016-08-02 2017-01-04 长江大学 一种基于移动互联网的智能问答机器人系统
CN106354858A (zh) * 2016-09-06 2017-01-25 中国传媒大学 一种基于标签聚类的信息资源推荐方法

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030236699A1 (en) * 2002-06-24 2003-12-25 Anne Krebs System and method of intellectual/immaterial/intangible resource control
CN101093561A (zh) * 2006-06-20 2007-12-26 上海全成通信技术有限公司 基于营销知识库系统的数据业务个性化支撑处理方法
CN101216822A (zh) * 2007-01-05 2008-07-09 中兴通讯股份有限公司 嵌入式浏览器的浏览方法和系统
CN101004762A (zh) * 2007-01-10 2007-07-25 张百川 一种动态多维互联网网页系统
CN101576881A (zh) * 2008-05-07 2009-11-11 万德洪 一种数据可视化系统及实现方法
CN101667203A (zh) * 2009-09-04 2010-03-10 北京中易中标电子信息技术有限公司 一种数字化知识挖掘的方法
CN101799822A (zh) * 2010-02-23 2010-08-11 李祯 分层网状知识模型建模方法及知识仓库系统建立方法
CN101882164A (zh) * 2010-07-16 2010-11-10 张为斌 用于存储多维知识的数据仓库模型
US20160140119A1 (en) * 2013-06-17 2016-05-19 Digital Collaborations Corporation Knowledge management device, knowledge management device terminal device and knowledge management device program
CN103399883A (zh) * 2013-07-19 2013-11-20 百度在线网络技术(北京)有限公司 根据用户兴趣点/关注点进行个性化推荐的方法和系统
CN103984771A (zh) * 2014-06-04 2014-08-13 武汉大学 一种英文微博中地理兴趣点抽取和感知其时间趋势的方法
CN104536950A (zh) * 2014-12-11 2015-04-22 北京百度网讯科技有限公司 生成文本摘要的方法及装置
CN105786941A (zh) * 2014-12-26 2016-07-20 中国移动通信集团上海有限公司 一种信息挖掘方法和装置
CN104809106A (zh) * 2015-05-15 2015-07-29 合肥汇众知识产权管理有限公司 一种专利方案的挖掘系统及挖掘方法
CN105574092A (zh) * 2015-12-10 2016-05-11 百度在线网络技术(北京)有限公司 信息挖掘方法和装置
CN106294616A (zh) * 2016-08-02 2017-01-04 长江大学 一种基于移动互联网的智能问答机器人系统
CN106354858A (zh) * 2016-09-06 2017-01-25 中国传媒大学 一种基于标签聚类的信息资源推荐方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110744A (zh) * 2019-03-27 2019-08-09 平安国际智慧城市科技股份有限公司 基于语义理解的文本配对方法、装置及计算机设备
CN112100976A (zh) * 2020-09-24 2020-12-18 上海松鼠课堂人工智能科技有限公司 知识点关系标注方法及系统
CN112100976B (zh) * 2020-09-24 2021-11-16 上海松鼠课堂人工智能科技有限公司 知识点关系标注方法及系统
CN113792149A (zh) * 2021-11-15 2021-12-14 北京博瑞彤芸科技股份有限公司 一种基于用户关注度分析产生获客方案的方法和装置

Also Published As

Publication number Publication date
CN107688600B (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN107766371B (zh) 一种文本信息分类方法及其装置
KR20210038449A (ko) 문답 처리, 언어 모델 훈련 방법, 장치, 기기 및 저장 매체
WO2020233269A1 (zh) 由2d图像重建3d模型的方法、装置、设备及存储介质
CN110377740A (zh) 情感极性分析方法、装置、电子设备及存储介质
CN117056471A (zh) 知识库构建方法及基于生成式大语言模型的问答对话方法和系统
US20130103381A1 (en) Systems and methods for enhancing machine translation post edit review processes
CN108932220A (zh) 文章生成方法和装置
CN116127020A (zh) 生成式大语言模型训练方法以及基于模型的搜索方法
CN113360699B (zh) 模型训练方法和装置、图像问答方法和装置
CN107436916B (zh) 智能提示答案的方法及装置
WO2021174864A1 (zh) 基于少量训练样本的信息抽取方法及装置
CN115982376B (zh) 基于文本、多模数据和知识训练模型的方法和装置
CN108305050A (zh) 报案信息及服务需求信息的提取方法、装置、设备及介质
CN107688600A (zh) 知识点挖掘方法及装置
CN106407381A (zh) 一种基于人工智能的推送信息的方法和装置
CN114841274B (zh) 语言模型的训练方法、装置、电子设备和存储介质
US11645452B2 (en) Performance characteristics of cartridge artifacts over text pattern constructs
CN111368066B (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN103678270B (zh) 语义单元抽取方法和语义单元抽取设备
CN110362656A (zh) 一种语义要素提取方法及装置
US11929100B2 (en) Video generation method, apparatus, electronic device, storage medium and program product
WO2023016163A1 (zh) 文字识别模型的训练方法、识别文字的方法和装置
CN113807390A (zh) 模型训练方法、装置、电子设备及存储介质
CN112926318A (zh) 一种基于句法分析的网购评论新情感词提取方法
CN113569741A (zh) 图像试题的答案生成方法、装置、电子设备及可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant