CN108415980A - 问答数据处理方法、电子装置及存储介质 - Google Patents
问答数据处理方法、电子装置及存储介质 Download PDFInfo
- Publication number
- CN108415980A CN108415980A CN201810135748.0A CN201810135748A CN108415980A CN 108415980 A CN108415980 A CN 108415980A CN 201810135748 A CN201810135748 A CN 201810135748A CN 108415980 A CN108415980 A CN 108415980A
- Authority
- CN
- China
- Prior art keywords
- answer
- sentence
- question
- entry
- banquet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003860 storage Methods 0.000 title claims abstract description 27
- 238000003672 processing method Methods 0.000 title claims abstract description 22
- 235000021167 banquet Nutrition 0.000 claims abstract description 107
- 238000012163 sequencing technique Methods 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims description 39
- 238000000034 method Methods 0.000 claims description 27
- 230000011218 segmentation Effects 0.000 claims description 22
- 238000001914 filtration Methods 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 16
- 238000012216 screening Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 9
- 238000007477 logistic regression Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000007670 refining Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种问答数据处理方法,包括:从数据库获取坐席文本数据,将所述坐席文本数据分为若干组问答记录,按照记录的时间顺序排列每组问答记录中的问题语句和答案语句,得到若干个候选问答对,然后统计每个候选问答对的多个指定特征,针对每个候选问答对使用特征权重对所述多个指定特征进行加权计算,得到每个候选问答对的匹配度,再根据所述匹配度从所有候选问答对中筛选出匹配度高于第二预设阈值的候选问答对作为目标问答对补充到问答知识库中。本发明还提供一种电子装置及存储介质。利用本发明可以从坐席文本数据中选择出合适的目标问答对,对问答知识库进行维护和更新,从而节约人力和提高效率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种问答数据处理方法、电子装置及存储介质。
背景技术
随着科技的发展,人工智能(Artificial Intelligence,AI)正逐步改变着我们的生活方式,例如智能问答就是其中一种。当客户通过文字或语音在线咨询时,可以由线上的智能客服机器人或线上智能客服应答系统为客户进行智能答复。智能问答可以有效缓解客户服务的等待状况,提升服务质量,因而有着非常广阔的前景。
目前,面向特定领域的智能问答的实现都需要有一个庞大的问答知识库,所述问答知识库中包含大量设定的问题答案对,例如问题是“保修期多久”,则相应的答案为“保修期一年”,智能问答中客服即是基于所述问答知识库进行智能答复的。然而,为了保证答复的准确性,需要及时补充完善问答知识库,而目前问答知识库的维护耗费着大量的人力资源,并且效率低下。
发明内容
鉴于以上原因,有必要提供一种问答数据处理方法、电子装置及存储介质,可以自动从坐席文本数据中选择出合适的目标问答对,对问答知识库进行维护和更新,从而节约人力和提高效率。
为实现上述目的,本发明提供一种问答数据处理方法,该方法包括:获取步骤:从数据库获取坐席文本数据,所述坐席文本数据包括所有客户与客服在问答过程中记录的问答数据;分组步骤:将所述坐席文本数据分为若干组问答记录,同一组问答记录属于同一客户和相应的客服,每组问答记录包括客户的若干个问题语句和客服的若干个答案语句;排序步骤:按照记录的时间顺序排列每组问答记录中的问题语句和答案语句,去除无相应答案语句的问题语句和无相应问题语句的答案语句,将每组问答记录中的问题语句和答案语句排列为一问一答的形式,从而得到若干个候选问答对,每个候选问答对包括一个问题语句和一个相应的答案语句;提取步骤:对每个候选问答对中的问题语句和答案语句进行分词处理得到各个词条,统计各词条在所述坐席文本数据中出现的词频,根据所统计的各词条的词频为相应词条计算词条权重,将词条权重大于第一预设阈值的词条作为相应问题语句或答案语句的关键词;计算步骤:统计每个候选问答对的多个指定特征,对每个所述指定特征分别赋予相应的预设特征权重,针对每个候选问答对,使用所述特征权重对所述多个指定特征进行加权计算,得到每个候选问答对的匹配度;筛选步骤:从所有候选问答对中筛选出匹配度高于第二预设阈值的候选问答对作为目标问答对,将所述目标问答对补充到问答知识库中,所述问答知识库用于为客户基于问答知识库中的问答对进行智能应答。
可选地,所述从数据库获取坐席文本数据之后,还包括对所述坐席文本数据进行数据清洗操作,所述数据清洗操作包括:统计坐席文本数据中各语句的出现频率,获取出现频率高于第三预设阈值的语句作为高频语句;对每个所述高频语句进行分词处理,统计分词处理后得到的各词条在所有高频语句中的出现频率,将出现频率高于第四预设阈值的词条作为寒暄词;计算坐席文本数据各语句中所有寒暄词在所属语句所有词条中的占比,将所计算出的占比高于第五预设阈值的语句作为寒暄类语句;确定坐席文本数据中的短文本语句,所述短文本语句包括字符数小于第六预设阈值的语句,以及只包含数字和/或符号的语句;从所述坐席文本数据中过滤掉所述寒暄类语句和所述短文本语句,从而完成所述数据清洗操作。
可选地,所述根据所统计的各词条的词频为相应词条计算词条权重包括:采用以下公式计算所述词条权重w:w=log(n/df);其中n为相应词条在所述坐席文本数据中的词频,df为在预设的大规模语料库中包含相应词条的文档数。
可选地,所述多个指定特征包括:问题语句和答案语句的共同关键词数目a1;问题语句和答案语句的共同关键词长度a2;问题语句和答案语句的共同词条的数目a3;问题语句和答案语句的共同词条的长度a4;问题语句的长度a5;答案语句的长度a6;问题语句和答案语句的主题相似度a7;问题语句和答案语句的句法相似度a8;所述使用所述特征权重对所述多个指定特征进行加权计算,得到每个候选问答对的匹配度包括:对所述多个指定特征采用多元逻辑回归模型进行加权回归拟合计算,得到每个候选问答对的匹配度g(z),公式如下:g(z)=1/(1+ez),e为自然常数;其中,z=a1*x1+a2*x2+a3*x3+a4*x4+a5*x5+a6*x6+a7*x7+a8*x8,x1、x2...x8分别为所述a1、a2...a8的特征权重。
可选地,所述将所述目标问答对补充到问答知识库之前,还包括:将所述各个目标问答对中,对应相同问题语句的答案语句进行合并处理,使每个目标问答对之间包含的问题语句互不相同,每个目标问答对中包括一个或多个答案语句。
可选地,所述将所述目标问答对补充到问答知识库之前,还包括:对每个目标问答对中的问题语句和答案语句分别采用朴素贝叶斯分类器判断相应的问题语句是否为询问句,以及相应的答案语句是否为陈述句;将包含问题语句不为询问句的目标问答对过滤掉,以及将包含答案语句不为陈述句的目标问答对过滤掉,得到待补充到问答知识库的目标问答对。
为实现上述目的,本发明还提供一种电子装置,该电子装置包括存储器和处理器,所述存储器中包括问答数据处理程序,该问答数据处理程序被所述处理器执行时实现如下步骤:从数据库获取坐席文本数据,所述坐席文本数据包括所有客户与客服在问答过程中记录的问答数据;分组步骤:将所述坐席文本数据分为若干组问答记录,同一组问答记录属于同一客户和相应的客服,每组问答记录包括客户的若干个问题语句和客服的若干个答案语句;排序步骤:按照记录的时间顺序排列每组问答记录中的问题语句和答案语句,去除无相应答案语句的问题语句和无相应问题语句的答案语句,将每组问答记录中的问题语句和答案语句排列为一问一答的形式,从而得到若干个候选问答对,每个候选问答对包括一个问题语句和一个相应的答案语句;提取步骤:对每个候选问答对中的问题语句和答案语句进行分词处理得到各个词条,统计各词条在所述坐席文本数据中出现的词频,根据所统计的各词条的词频为相应词条计算词条权重,将词条权重大于第一预设阈值的词条作为相应问题语句或答案语句的关键词;计算步骤:统计每个候选问答对的多个指定特征,对每个所述指定特征分别赋予相应的预设特征权重,针对每个候选问答对,使用所述特征权重对所述多个指定特征进行加权计算,得到每个候选问答对的匹配度;筛选步骤:从所有候选问答对中筛选出匹配度高于第二预设阈值的候选问答对作为目标问答对,将所述目标问答对补充到问答知识库中,所述问答知识库用于为客户基于问答知识库中的问答对进行智能应答。
可选地,所述从数据库获取坐席文本数据之后,还包括对所述坐席文本数据进行数据清洗操作,所述数据清洗操作包括:统计坐席文本数据中各语句的出现频率,获取出现频率高于第三预设阈值的语句作为高频语句;对每个所述高频语句进行分词处理,统计分词处理后得到的各词条在所有高频语句中的出现频率,将出现频率高于第四预设阈值的词条作为寒暄词;计算坐席文本数据各语句中所有寒暄词在所属语句所有词条中的占比,将所计算出的占比高于第五预设阈值的语句作为寒暄类语句;确定坐席文本数据中的短文本语句,所述短文本语句包括字符数小于第六预设阈值的语句,以及只包含数字和/或符号的语句;从所述坐席文本数据中过滤掉所述寒暄类语句和所述短文本语句,从而完成所述数据清洗操作。
可选地,所述根据所统计的各词条的词频为相应词条计算词条权重包括:采用以下公式计算所述词条权重w:w=log(n/df);其中n为相应词条在所述坐席文本数据中的词频,df为在预设的大规模语料库中包含相应词条的文档数。
可选地,所述多个指定特征包括:问题语句和答案语句的共同关键词数目a1;问题语句和答案语句的共同关键词长度a2;问题语句和答案语句的共同词条的数目a3;问题语句和答案语句的共同词条的长度a4;问题语句的长度a5;答案语句的长度a6;问题语句和答案语句的主题相似度a7;问题语句和答案语句的句法相似度a8;所述使用所述特征权重对所述多个指定特征进行加权计算,得到每个候选问答对的匹配度包括:对所述多个指定特征采用多元逻辑回归模型进行加权回归拟合计算,得到每个候选问答对的匹配度g(z),公式如下:g(z)=1/(1+ez),e为自然常数;其中,z=a1*x1+a2*x2+a3*x3+a4*x4+a5*x5+a6*x6+a7*x7+a8*x8,x1、x2...x8分别为所述a1、a2...a8的特征权重。
可选地,所述将所述目标问答对补充到问答知识库之前,还包括:将所述各个目标问答对中,对应相同问题语句的答案语句进行合并处理,使每个目标问答对之间包含的问题语句互不相同,每个目标问答对中包括一个或多个答案语句。
可选地,所述将所述目标问答对补充到问答知识库之前,还包括:对每个目标问答对中的问题语句和答案语句分别采用朴素贝叶斯分类器判断相应的问题语句是否为询问句,以及相应的答案语句是否为陈述句;将包含问题语句不为询问句的目标问答对过滤掉,以及将包含答案语句不为陈述句的目标问答对过滤掉,得到待补充到问答知识库的目标问答对。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括问答数据处理程序,该问答数据处理程序被处理器执行时,实现如上所述的问答数据处理方法的任意步骤。
本发明提出的问答数据处理方法、电子装置及计算机可读存储介质,通过首先从数据库获取坐席文本数据,将所述坐席文本数据分为若干组问答记录,其次按照记录的时间顺序排列每组问答记录中的问题语句和答案语句,得到若干个候选问答对,然后统计每个候选问答对的多个指定特征,对每个所述指定特征分别赋予相应的预设特征权重,针对每个候选问答对,使用所述特征权重对所述多个指定特征进行加权计算,得到每个候选问答对的匹配度,再根据所述匹配度从所有候选问答对中筛选出匹配度高于第二预设阈值的候选问答对作为目标问答对补充到问答知识库中,可以自动从坐席文本数据中选择出合适的目标问答对,对问答知识库进行维护和更新,从而节约人力和提高效率。
附图说明
图1为本发明电子装置较佳实施例的运行环境示意图;
图2为本发明电子装置与客户端较佳实施例的交互示意图;
图3为本发明问答数据处理方法较佳实施例的流程图;
图4为图3中数据清洗方法较佳实施例的流程图;
图5为图1中问答数据处理程序的程序模块图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将参考若干具体实施例来描述本发明的原理和精神。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本领域的技术人员知道,本发明的实施方式可以实现为一种方法、装置、设备、系统或计算机程序产品。因此,本发明可以具体实现为完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施例,提出了一种问答数据处理方法、电子装置及存储介质。
参照图1所示,为本发明电子装置较佳实施例的运行环境示意图。
该电子装置1可以是服务器、便携式计算机、桌上型计算机等具有存储和运算功能的终端设备。
该电子装置1包括存储器11、处理器12、网络接口13及通信总线14。所述网络接口13可选地可以包括标准的有线接口和无线接口(如WI-FI接口)。通信总线14用于实现上述组件之间的连接通信。
存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中,所述可读存储介质可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘。在另一些实施例中,所述可读存储介质也可以是所述电子装置1的外部存储器11,例如所述电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
在本实施例中,所述存储器11的可读存储介质通常用于存储安装于所述电子装置1的问答数据处理程序10、数据库2及问答知识库3等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行问答数据处理程序10等。
图1仅示出了具有组件11-14以及问答数据处理程序10的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,该电子装置1还可以包括用户接口,用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等。可选地,用户接口还可以包括标准的有线接口、无线接口。
可选地,该电子装置1还可以包括显示器,显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)显示器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。
可选地,该电子装置1还包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外,这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且,所述触摸传感器不仅包括接触式的触摸传感器,也可包括接近式的触摸传感器等。此外,所述触摸传感器可以为单个传感器,也可以为例如阵列布置的多个传感器。用户可以通过触摸所述触控区域启动问答数据处理程序10。
此外,该电子装置1的显示器的面积可以与所述触摸传感器的面积相同,也可以不同。可选地,将显示器与所述触摸传感器层叠设置,以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。
该电子装置1还可以包括射频(Radio Frequency,RF)电路、传感器和音频电路等等,在此不再赘述。
参阅图2所示,为本发明电子装置1较佳实施例的交互示意图。所述问答数据处理程序10运行于电子装置1中,所述电子装置1可以为运行智能问答程序相关的服务器。因此,该电子装置1可以通过网络与客户端通信连接,从而接收客户通过客户端提出的问题,在问答知识库3中查找相应的答案,并将所述答案通过客户端反馈给客户,以实现智能答复。此外,电子装置1还可以记录日常客户与客服的坐席文本数据,并将所述坐席文本数据保存在数据库2中。所述坐席文本数据包括所有客户与客服在问答过程中记录的问答数据,例如每一个问题及其输入时间,每一个答案及其输出时间,客户身份标识,客服身份标识等。所述问答数据处理程序10用于通过对数据库2中的坐席文本数据进行处理,从而提取出符合问答知识库3要求的目标问答对,以对问答知识库3的更新和维护。
参阅图3所示,为本发明问答数据处理方法较佳实施例的流程图。电子装置1的处理器12执行存储器11中存储的问答数据处理程序10时实现问答数据处理方法的如下步骤:
步骤S1,从数据库2获取坐席文本数据,所述坐席文本数据包括所有客户与客服在问答过程中记录的问答数据,例如每一个问题及其输入时间,每一个答案及其输出时间,客户身份标识,客服身份标识等。所述坐席文本数据记录的是原始的问答数据,即所述坐席文本数据中的问答数据未经过任何处理,而是原样记录。
通常客户与客服的问答过程中,除了特定领域咨询相关的问题语句与答案语句外,还会存在一些其它的纯交流语句,这些纯交流语句相较于问答知识库3而言,没有太大意义。为了去除坐席文本数据中此类无意义的数据,例如仅仅是相互寒暄的语句,包括“您好”、“再见”、“很高兴为您服务”等,以及过于短而很难表达出实际意义的语句,例如“为什么呢”,或者只包含数字和/或符号的语句等,步骤S1在从数据库2获取所述坐席文本数据之后,还可以先对所述坐席文本数据进行数据清洗操作,参阅图4所示,所述数据清洗操作例如可以包括以下步骤:
步骤S11,统计坐席文本数据中各语句的出现频率,获取出现频率高于第三预设阈值的语句作为高频语句;
步骤S12,对每个所述高频语句进行分词处理,统计分词处理后得到的各词条在所有高频语句中的出现频率,将出现频率高于第四预设阈值的词条作为寒暄词;
步骤S13,计算坐席文本数据各语句中所有寒暄词在所属语句所有词条中的占比,将所计算出的占比高于第五预设阈值的语句作为寒暄类语句;
步骤S14,确定坐席文本数据中的短文本语句,所述短文本语句包括字符数小于第六预设阈值的语句,以及只包含数字和/或符号的语句;
步骤S15,从所述坐席文本数据中过滤掉所述寒暄类语句和所述短文本语句,从而完成所述数据清洗操作。
步骤S2,将所述坐席文本数据分为若干组问答记录,同一组问答记录属于同一客户和相应的客服,每组问答记录包括客户的若干个问题语句和客服的若干个答案语句。
具体地,步骤S2可以将不同客户对应的问答数据映射到相应的客户ID下,从而根据映射关系将所述坐席文本数据分为若干组问答记录,同一组问答记录属于同一客户和相应的客服。在每组问答记录中,根据客户与客服的问答过程,可以包括客户的若干个问题语句和客服的若干个答案语句,但在该组问答记录中,客户的问题语句和客服的答案语句可以是无特定顺序的状态,例如可以是按照分配的ID号排列相应的问题语句和答案语句,或者可以是将客户的所有问题语句排列在一起,而将客服的所有答案语句排列在一起,等等。为了方便地从坐席文本数据中整理出每个客户的问题语句和客服对应的答案语句,执行下述步骤S3。
步骤S3,按照记录的时间顺序排列每组问答记录中的问题语句和答案语句,去除无相应答案语句的问题语句和无相应问题语句的答案语句,将每组问答记录中的问题语句和答案语句排列为一问一答的形式,从而得到若干个候选问答对,每个候选问答对包括一个问题语句和一个相应的答案语句。
由于客户与客服的问答过程是按照时间顺序一问一答进行的,因此步骤S3按照记录的时间顺序排列每组问答记录中的问题语句和答案语句,可以方便地按顺序提取客户的每个问题语句和相应的答案语句。考虑到客户与客服的问答过程中可能会存在客户提问而客服没有回答,或者客户发了无意义的符号例如表情或问号等而引起客服主动发问的情况,从而存在一些无相应答案语句的问题语句和无相应问题语句的答案语句,步骤S3可以在按照记录的时间顺序排列每组问答记录中的问题语句和答案语句后,先去除所述无相应答案语句的问题语句和无相应问题语句的答案语句。由此,步骤S3可以将每组问答记录中的问题语句和答案语句排列为一问一答的形式,从而得到若干个候选问答对,每个候选问答对包括一个问题语句和一个相应的答案语句。
步骤S4,对每个候选问答对中的问题语句和答案语句进行分词处理得到各个词条,统计各词条在所述坐席文本数据中出现的词频,根据所统计的各词条的词频为相应词条计算词条权重,将词条权重大于第一预设阈值的词条作为相应问题语句或答案语句的关键词。
具体地,步骤S4根据所统计的各词条的词频为相应词条计算词条权重,可以采用以下公式:
w=log(n/df);
其中n为相应词条在所述坐席文本数据中的词频,df为在预设的大规模语料库中包含相应词条的文档数。所述预设的大规模语料库可以是公共的文档语料库,其包括大规模数量的各类文档,通过所述大规模语料库可以实现对文档中的语句、词条进行句法、语义等内容的样本训练和深度学习。
步骤S5,统计每个候选问答对的多个指定特征,对每个所述指定特征分别赋予相应的预设特征权重,针对每个候选问答对,使用所述特征权重对所述多个指定特征进行加权计算,得到每个候选问答对的匹配度。
所述多个指定特征例如可以包括:
问题语句和答案语句的共同关键词数目a1;
问题语句和答案语句的共同关键词长度a2;
问题语句和答案语句的共同词条的数目a3;
问题语句和答案语句的共同词条的长度a4;
问题语句的长度a5;
答案语句的长度a6;
问题语句和答案语句的主题相似度a7;
问题语句和答案语句的句法相似度a8。
采用以上指定特征的考虑主要包括:若候选问答对中答案语句是对问题语句的回答,则答案语句中通常会包含问题语句中的关键词;问题语句与答案语句之间共同关键词的数目越多越长,共同出现词的数目越多越长,则候选问答对中答案语句是对问题语句的回答的可能性就越大;由于希望获取的目标问答对具有的是完整意义的问答,因此越长的问题语句能更好地描述一个完整的问题,而越长的答案语句能更好地描述一个完整的回答;若候选问答对中答案语句是对问题语句的回答,则答案语句与问题语句之间主题通常是一致的;若候选问答对中答案语句是对问题语句的回答,则答案语句与问题语句之间在句法上通常也有一定的联系。
所述使用所述特征权重对所述多个指定特征进行加权计算的方法例如可以为对所述多个指定特征采用多元逻辑回归模型进行加权回归拟合计算,从而得到每个候选问答对的匹配度g(z),公式如下:
g(z)=1/(1+ez),e为自然常数;
其中,z=a1*x1+a2*x2+a3*x3+a4*x4+a5*x5+a6*x6+a7*x7+a8*x8,x1、x2...x8分别为所述a1、a2...a8的特征权重。
步骤S6,从所有候选问答对中筛选出匹配度高于第二预设阈值的候选问答对作为目标问答对,将所述目标问答对补充到问答知识库3中,所述问答知识库3用于为客户基于问答知识库3中的问答对进行智能应答。匹配度高于第二预设阈值的所述候选问答对可以包括一个或多个。
此外,为了使所述目标问答对更加精炼,步骤S6在将所述目标问答对补充到问答知识库3之前,还可以先将所述各个目标问答对中,对应相同问题语句的答案语句进行合并处理,使每个目标问答对之间包含的问题语句互不相同,每个目标问答对中包括一个或多个答案语句。
由于针对特定的领域,通常问题语句的句子构成上应当是询问句,而答案语句则应当是陈述句。为了进一步提高补充到问答知识库3中的目标问答对的准确性,步骤S6还可以在将所述目标问答对补充到问答知识库3之前,先对每个目标问答对中的问题语句和答案语句分别采用朴素贝叶斯分类器判断相应的问题语句是否为询问句,以及相应的答案语句是否为陈述句,然后步骤S6将包含问题语句不为询问句的目标问答对过滤掉,以及将包含答案语句不为陈述句的目标问答对过滤掉,得到待补充到问答知识库3的目标问答对。
根据本实施例提供的问答数据处理方法,通过首先从数据库获取坐席文本数据,将所述坐席文本数据分为若干组问答记录,同一组问答记录属于同一客户和相应的客服,其次按照记录的时间顺序排列每组问答记录中的问题语句和答案语句,得到若干个候选问答对,然后对每个候选问答对中的问题语句和答案语句进行分词处理得到各个词条,统计各词条在所述坐席文本数据中出现的词频,根据所统计的各词条的词频为相应词条计算词条权重,将词条权重大于第一预设阈值的词条作为相应问题语句或答案语句的关键词,统计每个候选问答对的多个指定特征,对每个所述指定特征分别赋予相应的预设特征权重,针对每个候选问答对,使用所述特征权重对所述多个指定特征进行加权计算,得到每个候选问答对的匹配度,再根据所述匹配度从所有候选问答对中筛选出匹配度高于第二预设阈值的候选问答对作为目标问答对补充到问答知识库3中,可以自动从坐席文本数据中选择出合适的目标问答对,对问答知识库3进行维护和更新,从而节约人力和提高效率。
参阅图5所示,为图1中问答数据处理程序10的程序模块图。在本实施例中,问答数据处理程序10被分割为多个模块,该多个模块被存储于存储器11中,并由处理器12执行,以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。
所述问答数据处理程序10可以被分割为:获取模块110、分组模块120、排序步骤130、提取模块140、计算模块150和筛选模块160。
获取模块110,用于从数据库获取坐席文本数据,所述坐席文本数据包括所有客户与客服在问答过程中记录的问答数据。
所述获取模块110从数据库获取坐席文本数据之后,还可以先对所述坐席文本数据进行数据清洗操作,所述数据清洗操作包括:
统计坐席文本数据中各语句的出现频率,获取出现频率高于第三预设阈值的语句作为高频语句;
对每个所述高频语句进行分词处理,统计分词处理后得到的各词条在所有高频语句中的出现频率,将出现频率高于第四预设阈值的词条作为寒暄词;
计算坐席文本数据各语句中所有寒暄词在所属语句所有词条中的占比,将所计算出的占比高于第五预设阈值的语句作为寒暄类语句;
确定坐席文本数据中的短文本语句,所述短文本语句包括字符数小于第六预设阈值的语句,以及只包含数字和/或符号的语句;
从所述坐席文本数据中过滤掉所述寒暄类语句和所述短文本语句,从而完成所述数据清洗操作。
分组模块120,用于将所述坐席文本数据分为若干组问答记录,同一组问答记录属于同一客户和相应的客服,每组问答记录包括客户的若干个问题语句和客服的若干个答案语句。
排序步骤130,用于按照记录的时间顺序排列每组问答记录中的问题语句和答案语句,去除无相应答案语句的问题语句和无相应问题语句的答案语句,将每组问答记录中的问题语句和答案语句排列为一问一答的形式,从而得到若干个候选问答对,每个候选问答对包括一个问题语句和一个相应的答案语句。
提取模块140,用于对每个候选问答对中的问题语句和答案语句进行分词处理得到各个词条,统计各词条在所述坐席文本数据中出现的词频,根据所统计的各词条的词频为相应词条计算词条权重,将词条权重大于第一预设阈值的词条作为相应问题语句或答案语句的关键词。
具体地,提取模块140可以采用以下公式根据所统计的各词条的词频为相应词条计算词条权重:
w=log(n/df);
其中n为相应词条在所述坐席文本数据中的词频,df为在预设的大规模语料库中包含相应词条的文档数。
计算模块150,用于统计每个候选问答对的多个指定特征,对每个所述指定特征分别赋予相应的预设特征权重,针对每个候选问答对,使用所述特征权重对所述多个指定特征进行加权计算,得到每个候选问答对的匹配度。
所述多个指定特征例如可以包括:
问题语句和答案语句的共同关键词数目a1;
问题语句和答案语句的共同关键词长度a2;
问题语句和答案语句的共同词条的数目a3;
问题语句和答案语句的共同词条的长度a4;
问题语句的长度a5;
答案语句的长度a6;
问题语句和答案语句的主题相似度a7;
问题语句和答案语句的句法相似度a8。
所述使用所述特征权重对所述多个指定特征进行加权计算的方法例如可以为计算模块150对所述多个指定特征采用多元逻辑回归模型进行加权回归拟合计算,从而得到每个候选问答对的匹配度g(z),公式如下:
g(z)=1/(1+ez),e为自然常数;
其中,z=a1*x1+a2*x2+a3*x3+a4*x4+a5*x5+a6*x6+a7*x7+a8*x8,x1、x2...x8分别为所述a1、a2...a8的特征权重。
筛选模块160,用于从所有候选问答对中筛选出匹配度高于第二预设阈值的候选问答对作为目标问答对,将所述目标问答对补充到问答知识库中,所述问答知识库用于为客户基于问答知识库中的问答对进行智能应答。
为了使所述目标问答对更加精炼,筛选模块160在将所述目标问答对补充到问答知识库3之前,还可以先将所述各个目标问答对中,对应相同问题语句的答案语句进行合并处理,使每个目标问答对之间包含的问题语句互不相同,每个目标问答对中包括一个或多个答案语句。
此外,为了进一步提高补充到问答知识库3中的目标问答对的准确性,筛选模块160还可以在将所述目标问答对补充到问答知识库3之前,先对每个目标问答对中的问题语句和答案语句分别采用朴素贝叶斯分类器判断相应的问题语句是否为询问句,以及相应的答案语句是否为陈述句,然后筛选模块160将包含问题语句不为询问句的目标问答对过滤掉,以及将包含答案语句不为陈述句的目标问答对过滤掉,得到待补充到问答知识库3的目标问答对。
在图1所示的电子装置1较佳实施例的运行环境示意图中,包含可读存储介质的存储器11中可以包括问答数据处理程序10、数据库2及问答知识库3。处理器12执行存储器11中存储的问答数据处理程序10时实现如下步骤:
获取步骤:从数据库获取坐席文本数据,所述坐席文本数据包括所有客户与客服在问答过程中记录的问答数据;
分组步骤:将所述坐席文本数据分为若干组问答记录,同一组问答记录属于同一客户和相应的客服,每组问答记录包括客户的若干个问题语句和客服的若干个答案语句;
排序步骤:按照记录的时间顺序排列每组问答记录中的问题语句和答案语句,去除无相应答案语句的问题语句和无相应问题语句的答案语句,将每组问答记录中的问题语句和答案语句排列为一问一答的形式,从而得到若干个候选问答对,每个候选问答对包括一个问题语句和一个相应的答案语句;
提取步骤:对每个候选问答对中的问题语句和答案语句进行分词处理得到各个词条,统计各词条在所述坐席文本数据中出现的词频,根据所统计的各词条的词频为相应词条计算词条权重,将词条权重大于第一预设阈值的词条作为相应问题语句或答案语句的关键词;
计算步骤:统计每个候选问答对的多个指定特征,对每个所述指定特征分别赋予相应的预设特征权重,针对每个候选问答对,使用所述特征权重对所述多个指定特征进行加权计算,得到每个候选问答对的匹配度;
筛选步骤:从所有候选问答对中筛选出匹配度高于第二预设阈值的候选问答对作为目标问答对,将所述目标问答对补充到问答知识库中,所述问答知识库用于为客户基于问答知识库中的问答对进行智能应答。
所述从数据库获取坐席文本数据之后,还包括对所述坐席文本数据进行数据清洗操作,所述数据清洗操作包括:
统计坐席文本数据中各语句的出现频率,获取出现频率高于第三预设阈值的语句作为高频语句;
对每个所述高频语句进行分词处理,统计分词处理后得到的各词条在所有高频语句中的出现频率,将出现频率高于第四预设阈值的词条作为寒暄词;
计算坐席文本数据各语句中所有寒暄词在所属语句所有词条中的占比,将所计算出的占比高于第五预设阈值的语句作为寒暄类语句;
确定坐席文本数据中的短文本语句,所述短文本语句包括字符数小于第六预设阈值的语句,以及只包含数字和/或符号的语句;
从所述坐席文本数据中过滤掉所述寒暄类语句和所述短文本语句,从而完成所述数据清洗操作。
所述根据所统计的各词条的词频为相应词条计算词条权重包括:
采用以下公式计算所述词条权重w:
w=log(n/df);
其中n为相应词条在所述坐席文本数据中的词频,df为在预设的大规模语料库中包含相应词条的文档数。
所述多个指定特征包括:
问题语句和答案语句的共同关键词数目a1;
问题语句和答案语句的共同关键词长度a2;
问题语句和答案语句的共同词条的数目a3;
问题语句和答案语句的共同词条的长度a4;
问题语句的长度a5;
答案语句的长度a6;
问题语句和答案语句的主题相似度a7;
问题语句和答案语句的句法相似度a8;
所述使用所述特征权重对所述多个指定特征进行加权计算,得到每个候选问答对的匹配度包括:
对所述多个指定特征采用多元逻辑回归模型进行加权回归拟合计算,得到每个候选问答对的匹配度g(z),公式如下:
g(z)=1/(1+ez),e为自然常数;
其中,z=a1*x1+a2*x2+a3*x3+a4*x4+a5*x5+a6*x6+a7*x7+a8*x8,x1、x2...x8分别为所述a1、a2...a8的特征权重。
所述将所述目标问答对补充到问答知识库之前,还包括:
将所述各个目标问答对中,对应相同问题语句的答案语句进行合并处理,使每个目标问答对之间包含的问题语句互不相同,每个目标问答对中包括一个或多个答案语句。
所述将所述目标问答对补充到问答知识库之前,还包括:
对每个目标问答对中的问题语句和答案语句分别采用朴素贝叶斯分类器判断相应的问题语句是否为询问句,以及相应的答案语句是否为陈述句;
将包含问题语句不为询问句的目标问答对过滤掉,以及将包含答案语句不为陈述句的目标问答对过滤掉,得到待补充到问答知识库的目标问答对。
具体原理请参照上述图5关于问答数据处理程序10的程序模块图及图3关于问答数据处理方法较佳实施例的流程图的介绍。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括存储有数据库2、问答知识库3及问答数据处理程序10等,所述问答数据处理程序10被所述处理器12执行时实现如下操作:
获取步骤:从数据库获取坐席文本数据,所述坐席文本数据包括所有客户与客服在问答过程中记录的问答数据;
分组步骤:将所述坐席文本数据分为若干组问答记录,同一组问答记录属于同一客户和相应的客服,每组问答记录包括客户的若干个问题语句和客服的若干个答案语句;
排序步骤:按照记录的时间顺序排列每组问答记录中的问题语句和答案语句,去除无相应答案语句的问题语句和无相应问题语句的答案语句,将每组问答记录中的问题语句和答案语句排列为一问一答的形式,从而得到若干个候选问答对,每个候选问答对包括一个问题语句和一个相应的答案语句;
提取步骤:对每个候选问答对中的问题语句和答案语句进行分词处理得到各个词条,统计各词条在所述坐席文本数据中出现的词频,根据所统计的各词条的词频为相应词条计算词条权重,将词条权重大于第一预设阈值的词条作为相应问题语句或答案语句的关键词;
计算步骤:统计每个候选问答对的多个指定特征,对每个所述指定特征分别赋予相应的预设特征权重,针对每个候选问答对,使用所述特征权重对所述多个指定特征进行加权计算,得到每个候选问答对的匹配度;
筛选步骤:从所有候选问答对中筛选出匹配度高于第二预设阈值的候选问答对作为目标问答对,将所述目标问答对补充到问答知识库中,所述问答知识库用于为客户基于问答知识库中的问答对进行智能应答。
所述从数据库获取坐席文本数据之后,还包括对所述坐席文本数据进行数据清洗操作,所述数据清洗操作包括:
统计坐席文本数据中各语句的出现频率,获取出现频率高于第三预设阈值的语句作为高频语句;
对每个所述高频语句进行分词处理,统计分词处理后得到的各词条在所有高频语句中的出现频率,将出现频率高于第四预设阈值的词条作为寒暄词;
计算坐席文本数据各语句中所有寒暄词在所属语句所有词条中的占比,将所计算出的占比高于第五预设阈值的语句作为寒暄类语句;
确定坐席文本数据中的短文本语句,所述短文本语句包括字符数小于第六预设阈值的语句,以及只包含数字和/或符号的语句;
从所述坐席文本数据中过滤掉所述寒暄类语句和所述短文本语句,从而完成所述数据清洗操作。
所述根据所统计的各词条的词频为相应词条计算词条权重包括:
采用以下公式计算所述词条权重w:
w=log(n/df);
其中n为相应词条在所述坐席文本数据中的词频,df为在预设的大规模语料库中包含相应词条的文档数。
所述多个指定特征包括:
问题语句和答案语句的共同关键词数目a1;
问题语句和答案语句的共同关键词长度a2;
问题语句和答案语句的共同词条的数目a3;
问题语句和答案语句的共同词条的长度a4;
问题语句的长度a5;
答案语句的长度a6;
问题语句和答案语句的主题相似度a7;
问题语句和答案语句的句法相似度a8;
所述使用所述特征权重对所述多个指定特征进行加权计算,得到每个候选问答对的匹配度包括:
对所述多个指定特征采用多元逻辑回归模型进行加权回归拟合计算,得到每个候选问答对的匹配度g(z),公式如下:
g(z)=1/(1+ez),e为自然常数;
其中,z=a1*x1+a2*x2+a3*x3+a4*x4+a5*x5+a6*x6+a7*x7+a8*x8,x1、x2...x8分别为所述a1、a2...a8的特征权重。
所述将所述目标问答对补充到问答知识库之前,还包括:
将所述各个目标问答对中,对应相同问题语句的答案语句进行合并处理,使每个目标问答对之间包含的问题语句互不相同,每个目标问答对中包括一个或多个答案语句。
所述将所述目标问答对补充到问答知识库之前,还包括:
对每个目标问答对中的问题语句和答案语句分别采用朴素贝叶斯分类器判断相应的问题语句是否为询问句,以及相应的答案语句是否为陈述句;
将包含问题语句不为询问句的目标问答对过滤掉,以及将包含答案语句不为陈述句的目标问答对过滤掉,得到待补充到问答知识库的目标问答对。
本发明之计算机可读存储介质的具体实施方式与上述问答数据处理方法以及电子装置1的具体实施方式大致相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种问答数据处理方法,其特征在于,该方法包括:
获取步骤:从数据库获取坐席文本数据,所述坐席文本数据包括所有客户与客服在问答过程中记录的问答数据;
分组步骤:将所述坐席文本数据分为若干组问答记录,同一组问答记录属于同一客户和相应的客服,每组问答记录包括客户的若干个问题语句和客服的若干个答案语句;
排序步骤:按照记录的时间顺序排列每组问答记录中的问题语句和答案语句,去除无相应答案语句的问题语句和无相应问题语句的答案语句,将每组问答记录中的问题语句和答案语句排列为一问一答的形式,从而得到若干个候选问答对,每个候选问答对包括一个问题语句和一个相应的答案语句;
提取步骤:对每个候选问答对中的问题语句和答案语句进行分词处理得到各个词条,统计各词条在所述坐席文本数据中出现的词频,根据所统计的各词条的词频为相应词条计算词条权重,将词条权重大于第一预设阈值的词条作为相应问题语句或答案语句的关键词;
计算步骤:统计每个候选问答对的多个指定特征,对每个所述指定特征分别赋予相应的预设特征权重,针对每个候选问答对,使用所述特征权重对所述多个指定特征进行加权计算,得到每个候选问答对的匹配度;
筛选步骤:从所有候选问答对中筛选出匹配度高于第二预设阈值的候选问答对作为目标问答对,将所述目标问答对补充到问答知识库中,所述问答知识库用于为客户基于问答知识库中的问答对进行智能应答。
2.如权利要求1所述的问答数据处理方法,其特征在于,所述从数据库获取坐席文本数据之后,还包括对所述坐席文本数据进行数据清洗操作,所述数据清洗操作包括:
统计坐席文本数据中各语句的出现频率,获取出现频率高于第三预设阈值的语句作为高频语句;
对每个所述高频语句进行分词处理,统计分词处理后得到的各词条在所有高频语句中的出现频率,将出现频率高于第四预设阈值的词条作为寒暄词;
计算坐席文本数据各语句中所有寒暄词在所属语句所有词条中的占比,将所计算出的占比高于第五预设阈值的语句作为寒暄类语句;
确定坐席文本数据中的短文本语句,所述短文本语句包括字符数小于第六预设阈值的语句,以及只包含数字和/或符号的语句;
从所述坐席文本数据中过滤掉所述寒暄类语句和所述短文本语句,从而完成所述数据清洗操作。
3.如权利要求1所述的问答数据处理方法,其特征在于,所述根据所统计的各词条的词频为相应词条计算词条权重包括:
采用以下公式计算所述词条权重w:
w=log(n/df);
其中n为相应词条在所述坐席文本数据中的词频,df为在预设的大规模语料库中包含相应词条的文档数。
4.如权利要求1所述的问答数据处理方法,其特征在于,所述多个指定特征包括:
问题语句和答案语句的共同关键词数目a1;
问题语句和答案语句的共同关键词长度a2;
问题语句和答案语句的共同词条的数目a3;
问题语句和答案语句的共同词条的长度a4;
问题语句的长度a5;
答案语句的长度a6;
问题语句和答案语句的主题相似度a7;
问题语句和答案语句的句法相似度a8;
所述使用所述特征权重对所述多个指定特征进行加权计算,得到每个候选问答对的匹配度包括:
对所述多个指定特征采用多元逻辑回归模型进行加权回归拟合计算,得到每个候选问答对的匹配度g(z),公式如下:
g(z)=1/(1+ez),e为自然常数;
其中,z=a1*x1+a2*x2+a3*x3+a4*x4+a5*x5+a6*x6+a7*x7+a8*x8,x1、x2...x8分别为所述a1、a2...a8的特征权重。
5.如权利要求1所述的问答数据处理方法,其特征在于,所述将所述目标问答对补充到问答知识库之前,还包括:
将所述各个目标问答对中,对应相同问题语句的答案语句进行合并处理,使每个目标问答对之间包含的问题语句互不相同,每个目标问答对中包括一个或多个答案语句。
6.如权利要求1所述的问答数据处理方法,其特征在于,所述将所述目标问答对补充到问答知识库之前,还包括:
对每个目标问答对中的问题语句和答案语句分别采用朴素贝叶斯分类器判断相应的问题语句是否为询问句,以及相应的答案语句是否为陈述句;
将包含问题语句不为询问句的目标问答对过滤掉,以及将包含答案语句不为陈述句的目标问答对过滤掉,得到待补充到问答知识库的目标问答对。
7.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中包括问答数据处理程序,该问答数据处理程序被所述处理器执行时实现如下步骤:
获取步骤:从数据库获取坐席文本数据,所述坐席文本数据包括所有客户与客服在问答过程中记录的问答数据;
分组步骤:将所述坐席文本数据分为若干组问答记录,同一组问答记录属于同一客户和相应的客服,每组问答记录包括客户的若干个问题语句和客服的若干个答案语句;
排序步骤:按照记录的时间顺序排列每组问答记录中的问题语句和答案语句,去除无相应答案语句的问题语句和无相应问题语句的答案语句,将每组问答记录中的问题语句和答案语句排列为一问一答的形式,从而得到若干个候选问答对,每个候选问答对包括一个问题语句和一个相应的答案语句;
提取步骤:对每个候选问答对中的问题语句和答案语句进行分词处理得到各个词条,统计各词条在所述坐席文本数据中出现的词频,根据所统计的各词条的词频为相应词条计算词条权重,将词条权重大于第一预设阈值的词条作为相应问题语句或答案语句的关键词;
计算步骤:统计每个候选问答对的多个指定特征,对每个所述指定特征分别赋予相应的预设特征权重,针对每个候选问答对,使用所述特征权重对所述多个指定特征进行加权计算,得到每个候选问答对的匹配度;
筛选步骤:从所有候选问答对中筛选出匹配度高于第二预设阈值的候选问答对作为目标问答对,将所述目标问答对补充到问答知识库中,所述问答知识库用于为客户基于问答知识库中的问答对进行智能应答。
8.如权利要求7所述的电子装置,其特征在于,所述从数据库获取坐席文本数据之后,还包括对所述坐席文本数据进行数据清洗操作,所述数据清洗操作包括:
统计坐席文本数据中各语句的出现频率,获取出现频率高于第三预设阈值的语句作为高频语句;
对每个所述高频语句进行分词处理,统计分词处理后得到的各词条在所有高频语句中的出现频率,将出现频率高于第四预设阈值的词条作为寒暄词;
计算坐席文本数据各语句中所有寒暄词在所属语句所有词条中的占比,将所计算出的占比高于第五预设阈值的语句作为寒暄类语句;
确定坐席文本数据中的短文本语句,所述短文本语句包括字符数小于第六预设阈值的语句,以及只包含数字和/或符号的语句;
从所述坐席文本数据中过滤掉所述寒暄类语句和所述短文本语句,从而完成所述数据清洗操作。
9.如权利要求8所述的电子装置,其特征在于,所述将所述目标问答对补充到问答知识库之前,还包括:
对每个目标问答对中的问题语句和答案语句分别采用朴素贝叶斯分类器判断相应的问题语句是否为询问句,以及相应的答案语句是否为陈述句;
将包含问题语句不为询问句的目标问答对过滤掉,以及将包含答案语句不为陈述句的目标问答对过滤掉,得到待补充到问答知识库的目标问答对。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括问答数据处理程序,所述问答数据处理程序被处理器执行时,实现如权利要求1至6中任一项所述的问答数据处理方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810135748.0A CN108415980A (zh) | 2018-02-09 | 2018-02-09 | 问答数据处理方法、电子装置及存储介质 |
PCT/CN2018/090642 WO2019153612A1 (zh) | 2018-02-09 | 2018-06-11 | 问答数据处理方法、电子装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810135748.0A CN108415980A (zh) | 2018-02-09 | 2018-02-09 | 问答数据处理方法、电子装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108415980A true CN108415980A (zh) | 2018-08-17 |
Family
ID=63128208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810135748.0A Pending CN108415980A (zh) | 2018-02-09 | 2018-02-09 | 问答数据处理方法、电子装置及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108415980A (zh) |
WO (1) | WO2019153612A1 (zh) |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109189803A (zh) * | 2018-09-03 | 2019-01-11 | 深圳前海微众银行股份有限公司 | 问答对构建方法、装置及计算机可读存储介质 |
CN109272129A (zh) * | 2018-09-20 | 2019-01-25 | 重庆先特服务外包产业有限公司 | 呼叫中心业务管理系统 |
CN109331470A (zh) * | 2018-08-21 | 2019-02-15 | 平安科技(深圳)有限公司 | 基于语音识别的抢答游戏处理方法、装置、设备及介质 |
CN109388697A (zh) * | 2018-10-10 | 2019-02-26 | 成都小多科技有限公司 | 处理问答语料的方法、装置及电子终端 |
CN109543020A (zh) * | 2018-11-27 | 2019-03-29 | 科大讯飞股份有限公司 | 问询处理方法及系统 |
CN109657038A (zh) * | 2018-10-10 | 2019-04-19 | 阿里巴巴集团控股有限公司 | 一种问答对数据的挖掘方法、装置及电子设备 |
CN109710818A (zh) * | 2018-12-28 | 2019-05-03 | 咪咕文化科技有限公司 | 答案权重的确定方法、答案确定方法、装置和存储介质 |
CN109785099A (zh) * | 2018-12-27 | 2019-05-21 | 大象慧云信息技术有限公司 | 一种自动对业务数据信息进行处理的方法及系统 |
CN109800292A (zh) * | 2018-12-17 | 2019-05-24 | 北京百度网讯科技有限公司 | 问答匹配度的确定方法、装置及设备 |
CN110008320A (zh) * | 2019-03-05 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 用于回答用户问题的方法和装置 |
CN110162603A (zh) * | 2018-11-30 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种智能对话方法、动态存储方法和装置 |
CN110162614A (zh) * | 2019-05-29 | 2019-08-23 | 三角兽(北京)科技有限公司 | 问题信息提取方法、装置、电子设备和存储介质 |
CN110188205A (zh) * | 2019-05-08 | 2019-08-30 | 三角兽(北京)科技有限公司 | 一种智能客服系统知识库的更新方法及装置 |
CN110502623A (zh) * | 2019-07-08 | 2019-11-26 | 平安科技(深圳)有限公司 | 智能问答方法、电子装置、计算机设备及可读存储介质 |
CN110825863A (zh) * | 2019-11-11 | 2020-02-21 | 腾讯科技(深圳)有限公司 | 一种文本对融合方法及装置 |
CN110825860A (zh) * | 2019-10-24 | 2020-02-21 | 厦门快商通科技股份有限公司 | 知识库问答抽取方法、系统、移动终端及存储介质 |
WO2020042164A1 (en) * | 2018-08-31 | 2020-03-05 | Beijing Didi Infinity Technology And Development Co., Ltd. | Artificial intelligence systems and methods based on hierarchical clustering |
CN111459917A (zh) * | 2020-04-17 | 2020-07-28 | 支付宝(杭州)信息技术有限公司 | 知识库管理方法、装置及处理设备 |
CN111597321A (zh) * | 2020-07-08 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 问题答案的预测方法、装置、存储介质及电子设备 |
CN111651567A (zh) * | 2020-04-16 | 2020-09-11 | 北京奇艺世纪科技有限公司 | 一种业务问答数据处理方法及装置 |
WO2020181800A1 (zh) * | 2019-03-12 | 2020-09-17 | 平安科技(深圳)有限公司 | 预测问答内容的评分的装置、方法及存储介质 |
CN111737543A (zh) * | 2019-05-27 | 2020-10-02 | 北京京东尚科信息技术有限公司 | 一种问答对的提取方法、装置、设备和存储介质 |
CN111797214A (zh) * | 2020-06-24 | 2020-10-20 | 深圳壹账通智能科技有限公司 | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 |
CN111984768A (zh) * | 2019-05-24 | 2020-11-24 | 北京京东尚科信息技术有限公司 | 语料处理及问答交互方法、装置、计算机设备及存储介质 |
CN112052310A (zh) * | 2020-09-28 | 2020-12-08 | 平安普惠企业管理有限公司 | 基于大数据的信息获取方法、装置、设备及存储介质 |
CN112148743A (zh) * | 2020-09-18 | 2020-12-29 | 北京达佳互联信息技术有限公司 | 智能客服知识库的更新方法、装置、设备及存储介质 |
CN113051390A (zh) * | 2019-12-26 | 2021-06-29 | 百度在线网络技术(北京)有限公司 | 知识库构建方法、装置、电子设备和介质 |
CN113535980A (zh) * | 2021-07-20 | 2021-10-22 | 南京市栖霞区民政事务服务中心 | 一种基于人工智能的智慧社区知识库体系的快速建立方法 |
WO2022007723A1 (zh) * | 2020-07-06 | 2022-01-13 | 北京世纪好未来教育科技有限公司 | 语句类型识别方法、装置、电子设备和存储介质 |
CN113990288A (zh) * | 2021-12-23 | 2022-01-28 | 江苏微皓智能科技有限公司 | 一种语音客服自动生成部署语音合成模型的方法及系统 |
CN117056497A (zh) * | 2023-10-13 | 2023-11-14 | 北京睿企信息科技有限公司 | 一种基于llm的问答方法、电子设备及存储介质 |
CN111597321B (zh) * | 2020-07-08 | 2024-06-11 | 腾讯科技(深圳)有限公司 | 问题答案的预测方法、装置、存储介质及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102411583A (zh) * | 2010-09-20 | 2012-04-11 | 阿里巴巴集团控股有限公司 | 一种文本匹配方法及装置 |
CN104679815A (zh) * | 2014-12-08 | 2015-06-03 | 北京云知声信息技术有限公司 | 一种筛选问答对并实时更新问答库的方法及系统 |
CN106649868A (zh) * | 2016-12-30 | 2017-05-10 | 首都师范大学 | 问答匹配方法及装置 |
CN107066541A (zh) * | 2017-03-13 | 2017-08-18 | 平安科技(深圳)有限公司 | 客服问答数据的处理方法及系统 |
CN107153639A (zh) * | 2016-03-04 | 2017-09-12 | 北大方正集团有限公司 | 智能问答方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105786851A (zh) * | 2014-12-23 | 2016-07-20 | 北京奇虎科技有限公司 | 问答知识库的构建方法、提供搜索的方法及装置 |
CN106909572A (zh) * | 2015-12-23 | 2017-06-30 | 北京奇虎科技有限公司 | 一种问答知识库的构建方法和装置 |
US10127274B2 (en) * | 2016-02-08 | 2018-11-13 | Taiger Spain Sl | System and method for querying questions and answers |
CN107220296B (zh) * | 2017-04-28 | 2020-01-17 | 北京拓尔思信息技术股份有限公司 | 问答知识库的生成方法、神经网络的训练方法以及设备 |
-
2018
- 2018-02-09 CN CN201810135748.0A patent/CN108415980A/zh active Pending
- 2018-06-11 WO PCT/CN2018/090642 patent/WO2019153612A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102411583A (zh) * | 2010-09-20 | 2012-04-11 | 阿里巴巴集团控股有限公司 | 一种文本匹配方法及装置 |
CN104679815A (zh) * | 2014-12-08 | 2015-06-03 | 北京云知声信息技术有限公司 | 一种筛选问答对并实时更新问答库的方法及系统 |
CN107153639A (zh) * | 2016-03-04 | 2017-09-12 | 北大方正集团有限公司 | 智能问答方法及系统 |
CN106649868A (zh) * | 2016-12-30 | 2017-05-10 | 首都师范大学 | 问答匹配方法及装置 |
CN107066541A (zh) * | 2017-03-13 | 2017-08-18 | 平安科技(深圳)有限公司 | 客服问答数据的处理方法及系统 |
Non-Patent Citations (2)
Title |
---|
李海生: "《知识管理技术与应用》", 30 April 2012, 北京:北京邮电大学出版社 * |
阚明刚,杨江: "《话语标记概貌分析与情感倾向探索》", 31 March 2017, 长春:吉林文史出版社 * |
Cited By (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109331470A (zh) * | 2018-08-21 | 2019-02-15 | 平安科技(深圳)有限公司 | 基于语音识别的抢答游戏处理方法、装置、设备及介质 |
CN109331470B (zh) * | 2018-08-21 | 2023-09-26 | 平安科技(深圳)有限公司 | 基于语音识别的抢答游戏处理方法、装置、设备及介质 |
WO2020042164A1 (en) * | 2018-08-31 | 2020-03-05 | Beijing Didi Infinity Technology And Development Co., Ltd. | Artificial intelligence systems and methods based on hierarchical clustering |
CN109189803A (zh) * | 2018-09-03 | 2019-01-11 | 深圳前海微众银行股份有限公司 | 问答对构建方法、装置及计算机可读存储介质 |
CN109272129A (zh) * | 2018-09-20 | 2019-01-25 | 重庆先特服务外包产业有限公司 | 呼叫中心业务管理系统 |
CN109388697A (zh) * | 2018-10-10 | 2019-02-26 | 成都小多科技有限公司 | 处理问答语料的方法、装置及电子终端 |
CN109657038A (zh) * | 2018-10-10 | 2019-04-19 | 阿里巴巴集团控股有限公司 | 一种问答对数据的挖掘方法、装置及电子设备 |
CN109657038B (zh) * | 2018-10-10 | 2023-04-18 | 创新先进技术有限公司 | 一种问答对数据的挖掘方法、装置及电子设备 |
CN109543020A (zh) * | 2018-11-27 | 2019-03-29 | 科大讯飞股份有限公司 | 问询处理方法及系统 |
CN109543020B (zh) * | 2018-11-27 | 2022-11-04 | 科大讯飞股份有限公司 | 问询处理方法及系统 |
CN110162603A (zh) * | 2018-11-30 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种智能对话方法、动态存储方法和装置 |
CN110162603B (zh) * | 2018-11-30 | 2023-11-14 | 腾讯科技(深圳)有限公司 | 一种智能对话方法、动态存储方法和装置 |
CN109800292A (zh) * | 2018-12-17 | 2019-05-24 | 北京百度网讯科技有限公司 | 问答匹配度的确定方法、装置及设备 |
CN109785099A (zh) * | 2018-12-27 | 2019-05-21 | 大象慧云信息技术有限公司 | 一种自动对业务数据信息进行处理的方法及系统 |
CN109785099B (zh) * | 2018-12-27 | 2021-07-06 | 大象慧云信息技术有限公司 | 一种自动对业务数据信息进行处理的方法及系统 |
CN109710818A (zh) * | 2018-12-28 | 2019-05-03 | 咪咕文化科技有限公司 | 答案权重的确定方法、答案确定方法、装置和存储介质 |
CN110008320B (zh) * | 2019-03-05 | 2023-10-27 | 创新先进技术有限公司 | 用于回答用户问题的方法和装置 |
CN110008320A (zh) * | 2019-03-05 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 用于回答用户问题的方法和装置 |
WO2020181800A1 (zh) * | 2019-03-12 | 2020-09-17 | 平安科技(深圳)有限公司 | 预测问答内容的评分的装置、方法及存储介质 |
CN110188205A (zh) * | 2019-05-08 | 2019-08-30 | 三角兽(北京)科技有限公司 | 一种智能客服系统知识库的更新方法及装置 |
CN111984768A (zh) * | 2019-05-24 | 2020-11-24 | 北京京东尚科信息技术有限公司 | 语料处理及问答交互方法、装置、计算机设备及存储介质 |
CN111737543A (zh) * | 2019-05-27 | 2020-10-02 | 北京京东尚科信息技术有限公司 | 一种问答对的提取方法、装置、设备和存储介质 |
CN110162614B (zh) * | 2019-05-29 | 2021-08-27 | 腾讯科技(深圳)有限公司 | 问题信息提取方法、装置、电子设备和存储介质 |
CN110162614A (zh) * | 2019-05-29 | 2019-08-23 | 三角兽(北京)科技有限公司 | 问题信息提取方法、装置、电子设备和存储介质 |
CN110502623A (zh) * | 2019-07-08 | 2019-11-26 | 平安科技(深圳)有限公司 | 智能问答方法、电子装置、计算机设备及可读存储介质 |
CN110825860A (zh) * | 2019-10-24 | 2020-02-21 | 厦门快商通科技股份有限公司 | 知识库问答抽取方法、系统、移动终端及存储介质 |
CN110825860B (zh) * | 2019-10-24 | 2022-08-23 | 厦门快商通科技股份有限公司 | 知识库问答抽取方法、系统、移动终端及存储介质 |
CN110825863B (zh) * | 2019-11-11 | 2021-05-07 | 腾讯科技(深圳)有限公司 | 一种文本对融合方法及装置 |
CN110825863A (zh) * | 2019-11-11 | 2020-02-21 | 腾讯科技(深圳)有限公司 | 一种文本对融合方法及装置 |
CN113051390A (zh) * | 2019-12-26 | 2021-06-29 | 百度在线网络技术(北京)有限公司 | 知识库构建方法、装置、电子设备和介质 |
CN113051390B (zh) * | 2019-12-26 | 2023-09-26 | 百度在线网络技术(北京)有限公司 | 知识库构建方法、装置、电子设备和介质 |
CN111651567A (zh) * | 2020-04-16 | 2020-09-11 | 北京奇艺世纪科技有限公司 | 一种业务问答数据处理方法及装置 |
CN111651567B (zh) * | 2020-04-16 | 2023-09-22 | 北京奇艺世纪科技有限公司 | 一种业务问答数据处理方法及装置 |
CN111459917A (zh) * | 2020-04-17 | 2020-07-28 | 支付宝(杭州)信息技术有限公司 | 知识库管理方法、装置及处理设备 |
CN111459917B (zh) * | 2020-04-17 | 2023-02-28 | 支付宝(杭州)信息技术有限公司 | 知识库管理方法、装置及处理设备 |
CN111797214A (zh) * | 2020-06-24 | 2020-10-20 | 深圳壹账通智能科技有限公司 | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 |
WO2022007723A1 (zh) * | 2020-07-06 | 2022-01-13 | 北京世纪好未来教育科技有限公司 | 语句类型识别方法、装置、电子设备和存储介质 |
US11775769B2 (en) | 2020-07-06 | 2023-10-03 | Beijing Century Tal Education Technology Co., Ltd. | Sentence type recognition method and apparatus, electronic device, and storage medium |
CN111597321A (zh) * | 2020-07-08 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 问题答案的预测方法、装置、存储介质及电子设备 |
CN111597321B (zh) * | 2020-07-08 | 2024-06-11 | 腾讯科技(深圳)有限公司 | 问题答案的预测方法、装置、存储介质及电子设备 |
CN112148743A (zh) * | 2020-09-18 | 2020-12-29 | 北京达佳互联信息技术有限公司 | 智能客服知识库的更新方法、装置、设备及存储介质 |
CN112052310A (zh) * | 2020-09-28 | 2020-12-08 | 平安普惠企业管理有限公司 | 基于大数据的信息获取方法、装置、设备及存储介质 |
CN113535980A (zh) * | 2021-07-20 | 2021-10-22 | 南京市栖霞区民政事务服务中心 | 一种基于人工智能的智慧社区知识库体系的快速建立方法 |
CN113990288B (zh) * | 2021-12-23 | 2022-05-10 | 江苏微皓智能科技有限公司 | 一种语音客服自动生成部署语音合成模型的方法 |
CN113990288A (zh) * | 2021-12-23 | 2022-01-28 | 江苏微皓智能科技有限公司 | 一种语音客服自动生成部署语音合成模型的方法及系统 |
CN117056497A (zh) * | 2023-10-13 | 2023-11-14 | 北京睿企信息科技有限公司 | 一种基于llm的问答方法、电子设备及存储介质 |
CN117056497B (zh) * | 2023-10-13 | 2024-01-23 | 北京睿企信息科技有限公司 | 一种基于llm的问答方法、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2019153612A1 (zh) | 2019-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108415980A (zh) | 问答数据处理方法、电子装置及存储介质 | |
US8082264B2 (en) | Automated scheme for identifying user intent in real-time | |
CN108416375B (zh) | 工单分类方法及装置 | |
CN112632385A (zh) | 课程推荐方法、装置、计算机设备及介质 | |
CN107145571B (zh) | 一种搜索方法及装置 | |
CN108491433A (zh) | 聊天应答方法、电子装置及存储介质 | |
CN108345672A (zh) | 智能应答方法、电子装置及存储介质 | |
CN109388675A (zh) | 数据分析方法、装置、计算机设备及存储介质 | |
US11429810B2 (en) | Question answering method, terminal, and non-transitory computer readable storage medium | |
CN112541338A (zh) | 相似文本匹配方法、装置、电子设备及计算机存储介质 | |
US10546088B2 (en) | Document implementation tool for PCB refinement | |
CN108011928A (zh) | 一种信息推送方法、终端设备及计算机可读介质 | |
KR102285142B1 (ko) | 챗봇을 위한 학습 데이터 추천 장치 및 방법 | |
WO2019200705A1 (zh) | 自动生成完形填空试题的方法以及装置 | |
CN107678800A (zh) | 后台应用清理方法、装置、存储介质及电子设备 | |
JP6648283B2 (ja) | 人工知能ベースの関連度計算を用いたノート提供方法及び装置 | |
CN110276382A (zh) | 基于谱聚类的人群分类方法、装置及介质 | |
CN112988963A (zh) | 基于多流程节点的用户意图预测方法、装置、设备及介质 | |
CN110347789A (zh) | 文本意图智能分类方法、装置及计算机可读存储介质 | |
CN113360654A (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
CN112883730A (zh) | 相似文本匹配方法、装置、电子设备及存储介质 | |
CN115018588A (zh) | 产品推荐方法、装置、电子设备及可读存储介质 | |
CN113886708A (zh) | 基于用户信息的产品推荐方法、装置、设备及存储介质 | |
CN111930897B (zh) | 专利检索方法、装置、电子设备及计算机可读存储介质 | |
CN113505273A (zh) | 基于重复数据筛选的数据排序方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180817 |