CN104376074B - 一种复述资源获取方法及系统 - Google Patents

一种复述资源获取方法及系统 Download PDF

Info

Publication number
CN104376074B
CN104376074B CN201410648040.7A CN201410648040A CN104376074B CN 104376074 B CN104376074 B CN 104376074B CN 201410648040 A CN201410648040 A CN 201410648040A CN 104376074 B CN104376074 B CN 104376074B
Authority
CN
China
Prior art keywords
answer
question
faq
legal
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410648040.7A
Other languages
English (en)
Other versions
CN104376074A (zh
Inventor
赵凯
崇伟峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Original Assignee
Beijing Yunzhisheng Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yunzhisheng Information Technology Co Ltd filed Critical Beijing Yunzhisheng Information Technology Co Ltd
Priority to CN201410648040.7A priority Critical patent/CN104376074B/zh
Publication of CN104376074A publication Critical patent/CN104376074A/zh
Application granted granted Critical
Publication of CN104376074B publication Critical patent/CN104376074B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • G06Q30/015Providing customer assistance, e.g. assisting a customer within a business location or via helpdesk
    • G06Q30/016After-sales

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Human Computer Interaction (AREA)
  • General Business, Economics & Management (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种复述资源获取方法及系统,包括对话语料存储模块、FAQ预处理模块、复述提取模块、问题复述存储模块和答案复述存储模块,对话语料存储模块存储人工客服与顾客的对话语料;FAQ预处理模块从对话语料存储模块中提取出FAQ合法问答对,并对所述FAQ合法问答对进行降噪处理;复述提取模块接收降噪处理结果,根据预设程序生成问题复述集和答案复述集;问题复述存储模块存储问题复述集;答案复述存储模块存储答案复述集。本发明的方案排除了语言随意性和主观性对于复述对提取准确率的影响,提取复述资源不受问答对领域的限制,适用范围广,可移植性强。

Description

一种复述资源获取方法及系统
技术领域
本发明涉及计算机应用技术领域,特别是涉及一种复述资源获取方法及系统。
背景技术
在电子商务领域,客服承载着客户投诉、订单业务受理(新增、补单、调换货、撤单等)的重大责任,拥有一个及时的客服系统有助于电商公司树立良好形象。然而,现有的电商客服系统多为人工应答,在业务繁忙时,人工客服应答效率低,不能满足顾客的服务需求。一些现有的自动应答系统也仅仅是针对客户上门时,客服系统端自动抛出与顾客问题无关的店铺介绍情况,不能做到根据顾客的具体问题进行自动应答,因此电商领域需要一个良好的自动应答系统,可以实现根据顾客的具体问题进行自动应答。而一个良好的自动应答系统需要高准确率的复述资源库。如何获取高准确率的复述资源成为本领域亟待解决的技术问题。
目前自动获取复述资源主要是基于编辑距离的句子相似度方法和基于机器翻译的方法。基于编辑距离的方法过程如下:从对话语料分别提取买家的问题集和客服的答案集,将问题集和答案集中的句子分词后,利用编辑距离法计算句子之间的距离,若某些句子之间的编辑距离小于一定的阈值则认为这些句子相似度很高,从而认为这些句子互为复述资源。基于机器翻译的方法的基本思想如下:预先获得第一语言A和第二语言B之间的平行语料。利用机器翻译系统得到两种语言之间的互译结果,经过几次迭代,将翻译结果与原句子最为相近的句子作为原句子的复述。
电商领域,由于人工客服问答语料具有语言随意性和个体主观性的特点,上述两种方法针对此特点的问答语料处理效果较差。例如,在买家表述电商如何送货时既可以说“发哪家物流?”,也可以说“什么快递送货?”,这两个句子表达的意思相同,是互为复述的,但由于两种表述的相似度极低,已有的两种方案是无法识别出来这种复述的。同时,电商领域的问答语料还存在句子较短,标点符号使用不规范以及存在大量噪声信息的特点,已有的复述资源获取方法不能有效过滤噪声。另外,基于机器翻译的方法更适合应用于复述的自动生成而非提取,此方法在获得平行语料时也存在很大困难,使得这种方法很难在电商自动客服系统中得到应用。
综上所述,现有自动获取复述资源的方法均存在很大的缺陷,并不能解决在电商自动应答系统中自动获取复述资源的问题。
发明内容
本发明所要解决的技术问题是提供一种复述资源获取方法和系统,根据客服对话语料提取高准确率的复述资源。
本发明解决上述技术问题的技术方案如下:一种复述资源获取系统,包括对话语料存储模块、FAQ预处理模块、复述提取模块、问题复述存储模块和答案复述存储模块,
所述对话语料存储模块,其用于存储人工客服与顾客的对话语料;
所述FAQ预处理模块,其用于从对话语料存储模块中提取出FAQ合法问答对,并对所述FAQ合法问答对进行降噪处理,将降噪处理结果发送给复述提取模块;
所述复述提取模块,其用于接收降噪处理结果,根据预设程序生成问题复述集和答案复述集;
所述问题复述存储模块,其用于存储所述问题复述集;
所述答案复述存储模块,其用于存储所述答案复述集。
本发明的有益效果是:本发明技术方案获取了高质量、高准确率的问答对,去除了不必要的噪音,有利于复述资源提取。本发明的方案排除了语言随意性和主观性对于复述对提取准确率的影响,提取复述资源不受问答对领域的限制,适用范围广,可移植性强。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述FAQ预处理模块包括计算匹配程度单元、阀值比较单元、FAQ合法问答对存储单元、候选问答对存储单元、问答复述重现检测单元、有效性检测单元和降噪单元;
所述计算匹配程度单元,其用于从对话语料存储模块中提取出合法问答对,并计算所述合法问答对问题和答案的匹配程度值;
所述阀值比较单元,其用于将所述匹配程度值与预设阈值Sim_Temp1相比较,根据比较结果生成FAQ合法问答对和候选问答对;
所述FAQ合法问答对存储单元,其用于存储FAQ合法问答对;
所述候选问答对存储单元,其用于存储候选问答对;
所述问答复述重现检测单元,其用于获取所述候选问答对中问题的复述和答案的复述,判断其是否组成过FAQ合法问答对,如果是,则认为此候选问答对为FAQ合法问答对,将其输入到FAQ合法问答对存储单元;否则,将其输入到有效性检测单元;
所述有效性检测单元,其用于获取问题的复述和答案的复述曾经没有组成过FAQ合法问答对的候选问答对,并根据问题的复述和答案的复述出现的频率和相对概率对其进行有效性检测,如果有效,则判断此候选问答对为FAQ合法问答对,并将其输入到FAQ合法问答对存储单元,否则,将此候选问答对从候选问答对存储单元中删除;
所述降噪单元,其用于对FAQ合法问答对进行降噪处理。
进一步,所述FAQ预处理模块包括合法回答存储单元、候选问题存储单元、匹配单元、FAQ合法问答对存储单元;
所述合法回答存储单元,其用于从对话语料存储模块中提取出合法回答,然后将出现在此合法回答之前,上一合法回答之后的全部问题作为候选问题存储于候选问题存储单元;
所述候选问题存储单元,其用于存储候选问题;
所述匹配单元,其用于从所述候选问题存储单元的候选问题中找出与所述合法回答最匹配的一个问题,二者构成FAQ合法问答对,并将所述FAQ合法问答对发送至FAQ合法问答对存储单元;
所述FAQ合法问答对存储单元,其用于存储FAQ合法问答对。
进一步,所述复述提取模块包括矩阵转换单元、相似度计算单元和复述生成单元;
所述矩阵转换单元,其用于获取降噪处理结果,并将其映射成为问题答案矩阵,并对所述问题答案矩阵进行降维处理,将降维处理结果发送给相似度计算单元;
所述相似度计算单元,根据降维处理结果计算出所述问题答案矩阵内每一个问题或答案与其他问题或答案的余弦相似度值Sim(Ai,Aj),将所述余弦相似度值Sim(Ai,Aj)发送给复述生成单元;
所述复述生成单元,将余弦相似度值Sim(Ai,Aj)与预设阀值Sim_Temp2进行比较,根据比较结果生成问题复述集和答案复述集,并将所述问题复述集和答案复述集分别发送给问题复述存储模块和答案复述存储模块。
进一步,所述降噪单元的降噪过程为:如果某FAQ合法问答对的问题或答案的出现次数在FAQ合法问答对存储单元中只有一次,则认为此FAQ合法问答对无效,并将其从FAQ合法问答对存储单元中删除。
进一步,所述矩阵转换单元中,生成的问题答案矩阵的维度为m*n,其中m是去重之后问题的总数,n是去重之后答案的总数,矩阵中的每个元素的值记录着对应的问题和答案在问答对库中出现的次数,未出现的记为0次。
为了解决上述技术问题,本发明还提供一种复述资源获取方法,包括以下步骤,
S101:获取人工客服与顾客的对话语料,建立对话语料存储模块;
S102:从对话语料存储模块中提取出FAQ合法问答对,并对所述FAQ合法问答对进行降噪处理;
S103:获取降噪处理结果,根据预设程序生成问题复述集和答案复述集。
本发明的有益效果是:本发明技术方案获取了高质量、高准确率的问答对,去除了不必要的噪音,有利于复述资源提取。本发明的方案排除了语言随意性和主观性对于复述对提取准确率的影响,提取复述资源不受问答对领域的限制,适用范围广,可移植性强。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,步骤S102具体为,
S102a:从对话语料存储模块中提取出合法问答对,并计算所述合法问答对问题和答案的匹配程度值;
S102b:将所述匹配程度值与预设阈值Sim_Temp1相比较,根据比较结果生成FAQ合法问答对和候选问答对;
S102c:获取所述候选问答对中问题的复述和答案的复述,判断其是否组成过FAQ合法问答对,如果是,则认为此候选问答对为FAQ合法问答对,将其输入到FAQ合法问答对存储单元;否则,将其输入到有效性检测单元;
S102d:获取问题的复述和答案的复述曾经没有组成过FAQ合法问答对的候选问答对,并根据问题的复述和答案的复述出现的频率和相对概率对其进行有效性检测,如果有效,则判断此候选问答对为FAQ合法问答对,并将其输入到FAQ合法问答对存储单元,否则,将此候选问答对从候选问答对存储单元中删除;
S102e:对FAQ合法问答对进行降噪处理。
进一步,步骤S102具体还可以为,
S1021:从对话语料存储模块中提取出合法回答,然后将出现在此合法回答之前,上一合法回答之后的全部问题作为候选问题存储于候选问题存储单元;
S1022:匹配单元从所述候选问题存储单元的候选问题中找出与所述合法回答最匹配的一个问题,二者构成FAQ合法问答对;
S1023:重复以上过程,将重复得到的至少一个FAQ合法问答对储存至FAQ合法问答对存储单元。
进一步,步骤S103具体为,
S103a:获取降噪处理结果,并将其映射成为问题答案矩阵,并对所述问题答案矩阵进行降维处理;
S103b:根据降维处理结果计算出所述问题答案矩阵内每一个问题或答案与其他问题或答案的余弦相似度值Sim(Ai,Aj);
S103c:将余弦相似度值Sim(Ai,Aj)与预设阀值Sim_Temp2进行比较,根据比较结果生成问题复述集和答案复述集。
附图说明
图1为一种复述资源获取系统内各模块关系示意图;
图2为FAQ预处理模块实施例1各单元关系示意图;
图3为FAQ预处理模块实施例2各单元关系示意图;
图4为复述提取模块内各单元关系示意图;
图5为一种复述资源获取方法步骤流程图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,一种复述资源获取系统,包括对话语料存储模块、FAQ(FrequentlyAsked Questions)预处理模块、复述提取模块、问题复述存储模块和答案复述存储模块,所述对话语料存储模块,其用于存储人工客服与顾客的对话语料;所述FAQ预处理模块,其用于从对话语料存储模块中提取出FAQ合法问答对,并对所述FAQ合法问答对进行降噪处理,将降噪处理结果发送给复述提取模块;所述复述提取模块,其用于接收降噪处理结果,根据预设程序生成问题复述集和答案复述集,并将所述问题复述集和答案复述集分别存储于问题复述存储模块和答案复述存储模块;所述问题复述存储模块,其用于存储所述问题复述集;所述答案复述存储模块,其用于存储所述答案复述集。
如图2所示,FAQ预处理模块实施例1各单元关系示意图,FAQ预处理模块包括计算匹配程度单元、阀值比较单元、FAQ合法问答对存储单元、候选问答对存储单元、问答复述重现检测单元、有效性检测单元和降噪单元;所述计算匹配程度单元,其用于从对话语料存储模块中提取出合法问答对,并计算所述合法问答对问题和答案的匹配程度值;所述阀值比较单元,其用于将所述匹配程度值与预设阈值Sim_Temp1相比较,根据比较结果生成FAQ合法问答对和候选问答对;其比较过程为:如果匹配程度值大于预设阈值Sim_Temp1则认为所述问题和答案是FAQ合法问答对,将所述FAQ合法问答对输入到FAQ合法问答对存储单元,否则,则认为所述问题和答案是候选问答对,将所述候选问答对输入到候选问答对存储单元;所述FAQ合法问答对存储单元,其用于存储阀值比较单元所输入的FAQ合法问答对;所述候选问答对存储单元,其用于存储阀值比较单元所输入的候选问答对;所述问答复述重现检测单元,其用于从候选问答对存储单元中分别找出所述候选问答对中问题的复述和答案的复述,判断其是否曾经组成过FAQ合法问答对,如果判断结果为是,则认为此候选问答对为FAQ合法问答对,将其输入到FAQ合法问答对存储单元;否则,则将其输入到有效性检测单元;所述有效性检测单元,其用于获取问题的复述和答案的复述曾经没有组成过FAQ合法问答对的候选问答对,并根据问题的复述和答案的复述出现的频率和相对概率对其进行有效性检测,如果有效,则判断此候选问答对为FAQ合法问答对,并将其输入到FAQ合法问答对存储单元,否则,将此候选问答对从候选问答对存储单元中删除;所述降噪单元,其用于对FAQ合法问答对存储单元内的FAQ合法问答对进行降噪处理,并将降噪处理结果发送给复述提取模块。降噪单元的降噪过程为:如果某FAQ合法问答对的问题或答案的出现次数在FAQ合法问答对存储单元中只有一次,则认为此FAQ合法问答对无效,并将其从FAQ合法问答对存储单元中删除。
如图3所示,FAQ预处理模块实施例2各单元关系示意图;FAQ预处理模块包括合法回答存储单元、候选问题存储单元、匹配单元、FAQ合法问答对存储单元;所述合法回答存储单元,其用于从对话语料存储模块中提取出合法回答,将出现在此合法回答之前,上一合法回答之后的全部问题作为候选问题存储于候选问题存储单元;所述候选问题存储单元,其用于存储候选问题;所述匹配单元,其用于从所述候选问题存储单元的候选问题中找出与所述合法回答最匹配的一个问题,二者构成FAQ合法问答对,并将所述FAQ合法问答对发送至FAQ合法问答对存储单元;所述FAQ合法问答对存储单元,其用于存储FAQ合法问答对。
如图4所示,复述提取模块内各单元关系示意图,复述提取模块包括矩阵转换单元、相似度计算单元和复述生成单元;所述矩阵转换单元,其用于接收所述降噪处理结果,并将降噪处理后的合法问答对的集合映射成为问题答案矩阵,并对所述问题答案矩阵采用SVD奇异值分解方法进行降维处理,,将降维处理结果发送给相似度计算单元;矩阵转换单元中,生成的问题答案矩阵的维度为m*n,其中m是去重之后问题的总数,n是去重之后答案的总数,矩阵中的每个元素的值记录着对应的问题和答案在问答对库中出现的次数,未出现的记为0次。所述相似度计算单元,其用于接收所述降维处理结果,利用降维处理后的问题答案矩阵及其转置矩阵,计算问题答案矩阵内每一个问题或答案与其他所有问题或答案的余弦距离,得出所有问题的余弦相似度值Sim(Ai,Aj),将所述余弦相似度值Sim(Ai,Aj)发送给复述生成单元;余弦相似度值Sim(Ai,Aj)的计算方法为:假设降维后的问题答案矩阵每一个行向量包含k维特征,第i个问题向量Ai=(a1,a2,......ak-1,ak),其中ai的值代表着该位置的问题和答案在FAQ合法问答对存储单元中出现的次数;第j个问题向量Aj表示为Aj=(b1,b2,......bk-1,bk);在空间向量模型中,问题Ai和Aj的相似度Sim(Ai,Aj)=cosα,其中α即为向量Ai,Aj的夹角;所述复述生成单元,在此模块中,根据不同电商对于自动问答系统性能的要求,设定不同的复述资源生成阈值,记为Sim_Temp2。对于某一问题(或答案),在相似度计算模块中已经得到的此问题(或答案)与其他问题(或答案)之间的相似度Sim(Ai,Aj),将相似度值在阈值之上的所有问题(或答案)记为此问题(或答案)的复述。例如:对于问题Ai,如果它与另一个问题Aj的相似度Sim(Ai,Aj)>=Sim_Temp2,那么就将问题Aj记为Ai的复述。以此类推,从而得到问题复述集和答案复述集,将所述问题复述集和答案复述集分别发送给问题复述存储模块和答案复述存储模块。
如图5所示,一种复述资源获取方法步骤流程图。一种复述资源获取方法,包括以下步骤,S101:根据人工客服与顾客的对话语料,建立对话语料存储模块;S102:FAQ预处理模块从对话语料存储模块中提取出FAQ合法问答对,并对所述FAQ合法问答对进行降噪处理,将降噪处理结果发送给复述提取模块;S103:复述提取模块接受所述降噪处理结果,生成问题复述集和答案复述集,并将所述问题复述集和答案复述集分别存储于问题复述存储模块和答案复述存储模块。
其中,步骤S102具体为,S102a:从对话语料存储模块中提取出合法问答对,并计算所述合法问答对问题和答案的匹配程度值;S102b:将所述匹配程度值与预设阈值Sim_Temp1相比较,如果匹配程度值大于预设阈值Sim_Temp1则认为所述问题和答案是FAQ合法问答对,将所述FAQ合法问答对输入到FAQ合法问答对存储单元,否则,则认为所述问题和答案是候选问答对,将所述候选问答对输入到候选问答对存储单元;S102c:问答复述重现检测单元从候选问答对存储单元中分别找出所述候选问答对中问题和答案的复述,如果所述候选问答对中,问题的复述和答案的复述曾经组成过FAQ合法问答对,则判断此候选问答对为FAQ合法问答对,并将其输入到FAQ合法问答对存储单元;否则,将其输入到有效性检测单元;S102d:有效性检测单元接收从问答复述重现检测单元发送的问题的复述和答案的复述没有组成过FAQ合法问答对的候选问答对,根据问题和答案的复述出现的频率以及问题复述和答案复述的相对概率来计算其有效性,如果有效,则判断此候选问答对为FAQ合法问答对,并将其输入到FAQ合法问答对存储单元,否则,将此候选问答对从候选问答对存储单元中删除;S102e:对FAQ合法问答对存储单元中的FAQ合法问答对进行降噪处理,降噪过程为:如果某FAQ合法问答对的问题或答案的出现次数在FAQ合法问答对存储单元中只有一次,那么可以认为此FAQ合法问答对无效,并将其从FAQ合法问答对存储单元中删除。
其中,步骤S102具体还可以为,S1021:从对话语料存储模块中提取出合法回答,然后将出现在此合法回答之前,上一合法回答之后的全部问题作为候选问题存储于候选问题存储单元;S1022:匹配单元从所述候选问题存储单元的候选问题中找出与所述合法回答最匹配的一个问题,二者构成FAQ合法问答对;S1023:重复以上过程,将重复得到的至少一个FAQ合法问答对储存至FAQ合法问答对存储单元。
其中,步骤S103具体为,
S103a:复述提取模块的矩阵转换单元接受所述降噪处理结果,并将降噪处理后的FAQ合法问答对的集合映射成为问题答案矩阵,其中,问题答案矩阵的维度为m*n,其中m是去重之后问题的总数,n是去重之后答案的总数,矩阵中的每个元素的值记录着对应的问题和答案在问答对库中出现的次数,未出现的记为0次;之后对问题答案矩阵采用SVD奇异值分解方法进行降维处理,将降维处理结果发送给相似度计算单元;
S103b:相似度计算单元接受所述降维处理结果,利用降维处理后的问题答案矩阵,计算出所述问题答案矩阵内每一个问题或答案与其他问题或答案的余弦相似度值Sim(Ai,Aj),将所述余弦相似度值Sim(Ai,Aj)发送给复述生成单元;余弦相似度值Sim(Ai,Aj)的计算方法为:假设降维后的问题答案矩阵每一个行向量包含k维特征,第i个问题向量Ai=(a1,a2,......ak-1,ak),其中ai的值代表着该位置的问题和答案在FAQ合法问答对存储单元中出现的次数;第j个问题向量Aj表示为Aj=(b1,b2,......bk-1,bk);在空间向量模型中,问题Ai和Aj的相似度Sim(Ai,Aj)=cosα,其中α即为向量Ai,Aj的夹角;
S103c:复述生成单元接收所述余弦相似度值Sim(Ai,Aj),根据不同电商对于自动问答系统性能的要求设定复述获取阈值Sim_Temp2,将余弦相似度值Sim(Ai,Aj)与所述阀值Sim_Temp2进行比较,根据比较结果生成问题复述集和答案复述集,并将所述问题复述集和答案复述集分别存储于问题复述存储模块和答案复述存储模块。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种复述资源获取系统,其特征在于,包括对话语料存储模块、FAQ预处理模块、复述提取模块、问题复述存储模块和答案复述存储模块,
所述对话语料存储模块,其用于存储人工客服与顾客的对话语料;
所述FAQ预处理模块,其用于从对话语料存储模块中提取出FAQ合法问答对,并对所述FAQ合法问答对进行降噪处理,将降噪处理结果发送给复述提取模块;
所述复述提取模块,其用于接收降噪处理结果,根据预设程序生成问题复述集和答案复述集;
所述问题复述存储模块,其用于存储所述问题复述集;
所述答案复述存储模块,其用于存储所述答案复述集;
其中,所述FAQ预处理模块包括计算匹配程度单元、阀值比较单元、FAQ合法问答对存储单元、候选问答对存储单元、问答复述重现检测单元、有效性检测单元和降噪单元;
所述计算匹配程度单元,其用于从对话语料存储模块中提取出合法问答对,并计算所述合法问答对问题和答案的匹配程度值;
所述阀值比较单元,其用于将所述匹配程度值与预设阈值Sim_Temp1相比较,根据比较结果生成FAQ合法问答对和候选问答对;
所述FAQ合法问答对存储单元,其用于存储FAQ合法问答对;
所述候选问答对存储单元,其用于存储候选问答对;
所述问答复述重现检测单元,其用于获取所述候选问答对中问题的复述和答案的复述,判断其是否组成过FAQ合法问答对,如果是,则认为此候选问答对为FAQ合法问答对,将其输入到FAQ合法问答对存储单元;否则,将其输入到有效性检测单元;
所述有效性检测单元,其用于获取问题的复述和答案的复述曾经没有组成过FAQ合法问答对的候选问答对,并根据问题的复述和答案的复述出现的频率和相对概率对其进行有效性检测,如果有效,则判断此候选问答对为FAQ合法问答对,并将其输入到FAQ合法问答对存储单元,否则,将此候选问答对从候选问答对存储单元中删除;
所述降噪单元,其用于对FAQ合法问答对进行降噪处理;
或者所述FAQ预处理模块包括合法回答存储单元、候选问题存储单元、匹配单元、FAQ合法问答对存储单元;
所述合法回答存储单元,其用于从对话语料存储模块中提取出合法回答,然后将出现在此合法回答之前,上一合法回答之后的全部问题作为候选问题存储于候选问题存储单元;
所述候选问题存储单元,其用于存储候选问题;
所述匹配单元,其用于从所述候选问题存储单元的候选问题中找出与所述合法回答最匹配的一个问题,二者构成FAQ合法问答对,并将所述FAQ合法问答对发送至FAQ合法问答对存储单元;
所述FAQ合法问答对存储单元,其用于存储FAQ合法问答对。
2.根据权利要求1所述一种复述资源获取系统,其特征在于,所述复述提取模块包括矩阵转换单元、相似度计算单元和复述生成单元;
所述矩阵转换单元,其用于获取降噪处理结果,并将其映射成为问题答案矩阵,并对所述问题答案矩阵进行降维处理,将降维处理结果发送给相似度计算单元;
所述相似度计算单元,根据降维处理结果计算出所述问题答案矩阵内每一个问题或答案与其他问题或答案的余弦相似度值Sim(Ai,Aj),将所述余弦相似度值Sim(Ai,Aj)发送给复述生成单元;
所述复述生成单元,将余弦相似度值Sim(Ai,Aj)与预设阀值Sim_Temp2进行比较,根据比较结果生成问题复述集和答案复述集,并将所述问题复述集和答案复述集分别发送给问题复述存储模块和答案复述存储模块。
3.根据权利要求1所述一种复述资源获取系统,其特征在于,所述降噪单元的降噪过程为:如果某FAQ合法问答对的问题或答案的出现次数在FAQ合法问答对存储单元中只有一次,则认为此FAQ合法问答对无效,并将其从FAQ合法问答对存储单元中删除。
4.根据权利要求2所述一种复述资源获取系统,其特征在于,所述矩阵转换单元中,生成的问题答案矩阵的维度为m*n,其中m是去重之后问题的总数,n是去重之后答案的总数,矩阵中的每个元素的值记录着对应的问题和答案在问答对库中出现的次数,未出现的记为0次。
5.一种复述资源获取方法,其特征在于,包括以下步骤,
S101:获取人工客服与顾客的对话语料,建立对话语料存储模块;
S102:从对话语料存储模块中提取出FAQ合法问答对,并对所述FAQ合法问答对进行降噪处理;
S103:获取降噪处理结果,根据预设程序生成问题复述集和答案复述集;
其中,步骤S102具体为,
S102a:从对话语料存储模块中提取出合法问答对,并计算所述合法问答对问题和答案的匹配程度值;
S102b:将所述匹配程度值与预设阈值Sim_Temp1相比较,根据比较结果生成FAQ合法问答对和候选问答对;
S102c:获取所述候选问答对中问题的复述和答案的复述,判断其是否组成过FAQ合法问答对,如果是,则认为此候选问答对为FAQ合法问答对,将其输入到FAQ合法问答对存储单元;否则,将其输入到有效性检测单元;
S102d:获取问题的复述和答案的复述曾经没有组成过FAQ合法问答对的候选问答对,并根据问题的复述和答案的复述出现的频率和相对概率对其进行有效性检测,如果有效,则判断此候选问答对为FAQ合法问答对,并将其输入到FAQ合法问答对存储单元,否则,将此候选问答对从候选问答对存储单元中删除;
S102e:对FAQ合法问答对进行降噪处理;
或者步骤S102具体为,
S1021:从对话语料存储模块中提取出合法回答,然后将出现在此合法回答之前,上一合法回答之后的全部问题作为候选问题存储于候选问题存储单元;
S1022:匹配单元从所述候选问题存储单元的候选问题中找出与所述合法回答最匹配的一个问题,二者构成FAQ合法问答对;
S1023:重复以上过程,将重复得到的至少一个FAQ合法问答对储存至FAQ合法问答对存储单元。
6.根据权利要求5所述一种复述资源获取方法,其特征在于,步骤S103具体为,
S103a:获取降噪处理结果,并将其映射成为问题答案矩阵,并对所述问题答案矩阵进行降维处理;
S103b:根据降维处理结果计算出所述问题答案矩阵内每一个问题或答案与其他问题或答案的余弦相似度值Sim(Ai,Aj);
S103c:将余弦相似度值Sim(Ai,Aj)与预设阀值Sim_Temp2进行比较,根据比较结果生成问题复述集和答案复述集。
CN201410648040.7A 2014-11-14 2014-11-14 一种复述资源获取方法及系统 Active CN104376074B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410648040.7A CN104376074B (zh) 2014-11-14 2014-11-14 一种复述资源获取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410648040.7A CN104376074B (zh) 2014-11-14 2014-11-14 一种复述资源获取方法及系统

Publications (2)

Publication Number Publication Date
CN104376074A CN104376074A (zh) 2015-02-25
CN104376074B true CN104376074B (zh) 2018-05-01

Family

ID=52554981

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410648040.7A Active CN104376074B (zh) 2014-11-14 2014-11-14 一种复述资源获取方法及系统

Country Status (1)

Country Link
CN (1) CN104376074B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909930A (zh) * 2015-12-23 2017-06-30 神州数码信息系统有限公司 一种基于政务机器问答系统的人机自动切换的模型与方法
CN107329961A (zh) * 2017-07-03 2017-11-07 西安市邦尼翻译有限公司 一种云翻译记忆库快速增量式模糊匹配的方法
CN109508367A (zh) * 2018-09-30 2019-03-22 厦门快商通信息技术有限公司 自动提取问答语料的方法、在线智能客服系统及电子设备
CN109657038B (zh) * 2018-10-10 2023-04-18 创新先进技术有限公司 一种问答对数据的挖掘方法、装置及电子设备
CN117216231B (zh) * 2023-11-09 2024-02-23 江西师范大学 基于鹦鹉复述生成器的抽取式问答数据增强方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101520802A (zh) * 2009-04-13 2009-09-02 腾讯科技(深圳)有限公司 一种问答对的质量评价方法和系统
CN103810218A (zh) * 2012-11-14 2014-05-21 北京百度网讯科技有限公司 一种基于问题簇的自动问答方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102903008B (zh) * 2011-07-29 2016-05-18 国际商业机器公司 用于计算机问答的方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101520802A (zh) * 2009-04-13 2009-09-02 腾讯科技(深圳)有限公司 一种问答对的质量评价方法和系统
CN103810218A (zh) * 2012-11-14 2014-05-21 北京百度网讯科技有限公司 一种基于问题簇的自动问答方法和装置

Also Published As

Publication number Publication date
CN104376074A (zh) 2015-02-25

Similar Documents

Publication Publication Date Title
CN104376074B (zh) 一种复述资源获取方法及系统
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN111967761B (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
US20180240200A1 (en) Method and device for modeling a long-time-scale photovoltaic output time sequence
CN103885937B (zh) 基于核心词相似度判断企业中文名称重复的方法
US10296837B2 (en) Comment-comment and comment-document analysis of documents
CN104765768A (zh) 海量人脸库的快速准确检索方法
Zhang et al. Enhancing traffic incident detection by using spatial point pattern analysis on social media
CN102012936B (zh) 基于云计算平台的海量数据聚合方法和系统
CN108021582B (zh) 互联网舆情监控方法及装置
CN103049496A (zh) 一种对多个用户进行用户群划分的方法、装置与设备
US20190130030A1 (en) Generation method, generation device, and recording medium
CN106446124A (zh) 一种基于网络关系图的网站分类方法
CN111881105B (zh) 业务数据的标注模型及其模型训练方法
CN103886077A (zh) 短文本的聚类方法和系统
CN113780345A (zh) 面向中小企业的基于张量注意力的小样本分类方法和系统
CN112949914A (zh) 一种产业集群的识别方法、装置、存储介质及电子设备
CN109977131A (zh) 一种房型匹配系统
CN110069558A (zh) 基于深度学习的数据分析方法及终端设备
CN112363996B (zh) 用于建立电网知识图谱的物理模型的方法及系统和介质
CN117313683A (zh) 元数据处理方法、装置、服务器及存储介质
CN117216736A (zh) 异常账号的识别方法、数据调度平台及图计算平台
CN109858745A (zh) 翻译平台匹配方法及装置
CN115640376A (zh) 文本标注方法、装置、电子设备和计算机可读存储介质
CN108600254A (zh) 一种音视频识别系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 100191, Beijing, Huayuan Road, Haidian District No. 2 peony technology building, block A, 5, A503

Patentee after: Yunzhisheng Intelligent Technology Co., Ltd.

Address before: 100191, Beijing, Huayuan Road, Haidian District No. 2 peony technology building, block A, 5, A503

Patentee before: Beijing Yunzhisheng Information Technology Co., Ltd.

CP01 Change in the name or title of a patent holder