CN109658114A - 大型语料库的高效智能客服方法 - Google Patents

大型语料库的高效智能客服方法 Download PDF

Info

Publication number
CN109658114A
CN109658114A CN201811568854.4A CN201811568854A CN109658114A CN 109658114 A CN109658114 A CN 109658114A CN 201811568854 A CN201811568854 A CN 201811568854A CN 109658114 A CN109658114 A CN 109658114A
Authority
CN
China
Prior art keywords
corpus
document
cluster
sequence
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811568854.4A
Other languages
English (en)
Inventor
任君翔
李光亚
陈诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WANDA INFORMATION CO Ltd
Original Assignee
WANDA INFORMATION CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WANDA INFORMATION CO Ltd filed Critical WANDA INFORMATION CO Ltd
Priority to CN201811568854.4A priority Critical patent/CN109658114A/zh
Publication of CN109658114A publication Critical patent/CN109658114A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Development Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Accounting & Taxation (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种大型语料库的高效智能客服方法。本发明引入基于关键词加权的递归聚类算法对语料库做预分类,基于关键词的加权保留了词库匹配的优势,采用了相似度计算的方式,降低相似度计算的时间复杂度。同时,避免了人工标注和构建词库的成本支出,不存在迁移学习的复杂性和不适配性。在店铺自动售后、市民自动问询、公众号自动回复自动售后问答、市民云自动问询、社交APP自动聊天等人机交互领域均有较好的表现。

Description

大型语料库的高效智能客服方法
技术领域
本发明涉及一种店铺自动售后、市民自动问询、公众号自动回复等人机交互方法,属于智能交互技术领域。
背景技术
现有技术主要分监督学习和非监督学习两类模型,监督学习以文本分类和文本生成为主,非监督学习以关键词匹配和相似度计算为主,介绍如下:
1.文本分类
主要围绕机器学习(SVM、Logistic等分类模型)、深度学习(CNN、RNN等神经网络),通过对文本做分类,查询知识库相应类别的答案作为反馈。
不足:需要大量的语料,新增的问题分类需要重新训练,需要人工标注问题分类,硬件成本高昂,训练耗时,难以迁移。
2.文本生成
主要围绕深度学习(seq2seq),通过Encoder-Decoder结构的网络,输入是一个序列,输出也是一个序列,自动生成回答。
不足:需要大量的语料,硬件成本高昂,训练耗时,难以迁移。
3.关键词匹配
主要围绕规则算法(正则表达式等),通过对真实问题和预设问答的关键词、近义词匹配,引出一个素材库的查询回复。
不足:人工抽取重要词汇,词库管理开销较大,容易出现词汇冲突等问题。
4.相似度计算
主要围绕构建文本特征工程和相似度计算,对输入到问答知识库相似性判断直接查询答案。
不足:大型数据集下的计算开销比较大,准确率略低于其他三种。
机器学习、深度学习均需要人工标注、构建词库,需要耗费大量的人力物力。相似度计算在大数据场景下耗时多,同一个模型难以在不同场景下迁移。
发明内容
本发明解决的技术问题是:智能交互技术领域高成本、高耗时和不同场景的迁移问题。
为了解决上述技术问题,本发明的技术方案是提供了一种大型语料库的高效智能客服方法,其特征在于,包括以下步骤:
步骤1、对语料库corpus当前层级的每一个语料做分词,得到词语序列wordlistcorpus,其中,语料库corpus=[document1,document2,...,documentlen(corpus)]是一个包含所有语料的列表;语料库corpus中的第i个语料表示为documenti,i=1,2,...,len(corpus),len(corpus)表示语料库corpus的长度;第i个语料documenti的词语序列定义为 表示第i个语料documenti的第i个分词,len(document)表示第i个语料documenti的长度;
步骤2、对词语序列wordlistcorpus中的每个语料的词语序列匹配词向量,得到所有语料的词向量序列veclistcorpus第i个语料documenti的词向量序列表示为 为与第i个语料documenti的第j个分词的词向量,j=1,2,...,len(documenti);
步骤3、计算词向量序列veclistcorpus中每个语料的词向量序列所对应的句向量,从而得到所有语料的句向量序列veccorpus第i个语料documenti的句向量表示为则有mean表示计算均值;
步骤4、若语料库corpus当前层级的语料数量大于预先设定的阈值thresholdcluster,则进入步骤5,否则进入步骤6;
步骤5、对语料库corpus的句向量序列veccorpus做聚类,将相似的语料归为一类,得到多个聚类中心、每个聚类的语料子集和每个聚类的关键词表,其中第i个聚类中心表示为clusteri,聚类中心clusteri的语料子集表示为corpusi,聚类中心clusteri的关键词表表示为keywordsi
步骤6、判断语料库corpus是否存在下一层级,若存在,则返回步骤1,若不存在,则输出处理后的语料库corpuspreprocessing
步骤7、用户提出问题strask后,对问题strask进行分词处理,得到问题strask的词语序列,匹配词语序列的词向量后,得到与问题strask相匹配的句向量vecask
步骤8、计算句向量vecask与语料库corpuspreprocessing中各个层级的聚类中心的加权相似度,在当前层级中选择相似度最高的聚类中心所对应的语料集,随后计算句向量vecask与语料集中每一条句向量的相似度;
步骤9、若上一步获得的所有相似度的最大值大于预先设定的阈值thresholdsimilarity,则直接进入与最大的相似度所对应的句向量所在的语料库corpuspreprocessing的层级,否则,选取相似度最大的几个句向量所在的语料库corpuspreprocessing的层级供用户选择进入。
优选地,第i个语料documenti表示为:
documenti
{key:keytexti,1,value:valuetexti,1
node:[{key:keytexti,1.1,value:valuetexti,1.1},{key:keytexti,1.2,value:valuetexti.1.2}]}
式中,key表示标准问题,keytexti,1表示第i个语料的第一个标准问题,value表示标准问题对应的标准答案,valuetexti,1表示第i个语料的第一个标准答案,keytexti,1.1表示第i个语料的第一个标准问题下一级的第一个标准问题,keytexti,1.2表示第i个语料的第一个标准问题下一级的第二个标准问题,valuetexti,1.1表示第i个语料的第一个标准问题下一级的第一个标准答案,valuetexti.1.2表示第i个语料的第一个标准问题下一级的第二个标准答案。本发明引入基于关键词加权的递归聚类算法对语料库做预分类,基于关键词的加权保留了词库匹配的优势,采用了相似度计算的方式,降低相似度计算的时间复杂度。同时,避免了人工标注和构建词库的成本支出,不存在迁移学习的复杂性和不适配性。在店铺自动售后、市民自动问询、公众号自动回复等人机交互领域均有较好的表现。
现阶段,当语料库较大时,通过和每一条语料计算相似度来返回相关语料,计算时间过长、内存占用率过大,不适合使用相似度算法。其他方案如文本分类、文本生成,需要大量的人工标注、构建词库,需要耗费大量的人力物力。尤其的深度学习,需要大量的语料和强大的硬件。对于小型企业和个人,都是难以承担的支出。
本发明不需要任何额外的标注,完全基于高效的非监督学习。通过聚类算法对语料库做多层次的预分类,在训练阶段可以将扁平数据结构转为层次化数据结构,大幅降低不相关文本之间的计算量。模型部署后,原先需要和多条语料做相似度计算的开销降低至只需要和聚类中心做相似度计算,大幅降低了相似度计算的时间和内存占用率,提高了整体的性能。相似度计算需要和知识库的每一条知识做匹配,时间复杂度O(n),O(·)表示算法的运行时间,n表示知识库需要计算相似度的标准问题数量;本发明的时间复杂度最低只有O(k×logk(n)),k表示递归聚类算法的聚类数量,单次聚类时间复杂度可降低为
附图说明
图1为本发明的流程图;
图2为本发明中分词过程的示意图;
图3为本发明的聚类算法示意图;
图4为本发明的预处理过程示意图;
图5为本发明的用户提问过程示意图;
图6为本发明用户交互详细流程图;
图7为问答过程至最后层级示意图;
图8为本发明实施例的流程图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明提出一种高效问答匹配方案,基本思想是:基于递归聚类的思想对语料库做多层次的预分类。
没有特别是说明,函数和数据格式依照Python的风格,出现的函数含义如下:
具体而言,本发明提供的一种大型语料库的高效智能客服方法包括以下步骤:
3.1预处理
3-1
将语料库corpus定义为corpus=[document1,document2,...,documentlen(corpus)],是一个包含所有语料的列表。将语料库corpus中第i个语料定义为documenti,形如“本级问句-本级回答-下一级问答对列表”的配对形式,i=1,2,...,len(corpus)。
documenti
{key:keytexti,1,value:valuetexti,1
node:[{key:keytexti,1.1,value:valuetexti,1.1},{key:keytexti,1.2,value:valuetexti.1.2}]}
式中,key表示标准问题,keytexti,1表示第i个语料的第一个标准问题,value表示标准问题对应的标准答案,valuetexti,1表示第i个语料的第一个标准答案,keytexti,1.1表示第i个语料的第一个标准问题下一级的第一个标准问题,keytexti,1.2表示第i个语料的第一个标准问题下一级的第二个标准问题,valuetexti,1.1表示第i个语料的第一个标准问题下一级的第一个标准答案,valuetexti.1.2表示第i个语料的第一个标准问题下一级的第二个标准答案。
3-2
数据处理:对语料库corpus分词
对语料库corpus的每一个语料做分词,得到各个语料所对应的词语序列。语料documenti的词语序列定义为则有:
表示语料documenti第1个分词,以此类推。
所有语料的词语序列组成了语料库corpus的词语序列wordlistcorpus
3-3
定义词向量数据集embedding:
词向量数据集embedding是“词-词向量”的配对形式,以字典形式存储,表示为:
embedding={word1:vector1,word2:vector2,...,wordn:vectorn}
例如:
定义词向量匹配方法:
通过匹配将文本向量化,超出词向量范围的使用字向量的均值:
记vecstr=embedding[str],str表示待匹配向量的字/词
chr1表示word中第1个字,以此类推。
3.2语料特征
3-4
对每个语料所对应的词语序列匹配词向量,得到所有语料的词向量序列veclistcorpus
语料documenti的词语序列的词向量定义为则有:
3-5
计算每个词向量的句向量
将句向量定义为句子中词向量的均值,则词向量的句向量定义为有:
mean表示计算均值。
汇总语料库corpus全部句向量,得到veccorpus
3-6
定义递归聚类逻辑
根据预先设定的参数聚类内数量阈值thresholdcluster,如果语料库corpus当前层级的语料数大于thresholdcluster,则对语料库当前层级的所有句向量做聚类,将相似的语料归为一类,得到k个聚类中心和每个聚类的语料子集;反之,结束。
3-7
定义聚类算法,采用余弦度量的K-Means
cluster1,cluster2,...,clusterk=fcluster(veccorpus)
式中,clusteri表示第i个聚类中心的空间向量,i=1,2,...,k;corpus[i,j]表示第j个语料所属的第i个聚类,j=1,2,...,len(corpus);corpusi表示第i个聚类所包含的所有语料。
3-8
提取聚类关键词
针对每个clusteri,计算clusteri对应的词频,保存corpusi的关键词表keywordsi式中,keywordsi表示第i个聚类中心的关键词表,keywordi,1表示keywordsi第1个关键词,i=1,2,...,k;numkeyword表示保留的关键词数。
重复执行3-6、3-7、3-8,至不需要聚类。3-6、3-7、3-8是一个递归聚类的过程,clusteri、corpusi和keywordsi是以层级嵌套的形式存在的,保存方式为Python的字典。记clusteri、corpusi和keywordsi最终表达为clustercorpus
3-9
判断语料库corpus是否还有下一层级
语料库corpus是一个层次化结构,如果存在下一层级,重复3-2~3-8步骤,直至最后层级;反之,结束,保存预处理结果,将预处理后的语料库corpus定义为corpuspreprocessing
3.3问答过程
3-10输入:用户的提问strask
3-11对用户提问strask执行分词;
3-12匹配词向量(类似3-2);
3-13计算句向量(类似3-4),得到提问的句向量vecask
3.4相似度计算模块
3-14定义相似度计算公式,采用余弦相似度:
3-15
获得语料库corpuspreprocessing每个层级的聚类中心及各个聚类所包含的所有语料;
3-16
利用3-14计算用户提问的句向量vecask和每个聚类中心的相似度
句向量vecask和聚类中心clusteri的相似度权重定义为weighti,则有weighti=1+len(wordlistask∩keywordsi)/numkeyword,聚类中心clusteri与句向量vecask的相似度定义为则有选择相似度最高的聚类中心所对应的聚类所包含的所有语料定义为corpusj,则有:
3-17,循环执行3-15、3-16至不存在聚类中心,获得由所有相似度值组成的集合corpusfinally
计算句向量vecask和corpusj内每一条语料的相似度,得到则有:
3.5进入下一层级
事先准备的语料库corpus是层级关系(多轮问答)
3-18,根据相似度阈值,判断是否需要用户选择
时,直接进入对应层级;反之,返回最高的几个类别由用户选择。
3-19,重复执行“3.3问答过程”至最后层级结束问答。
范例:
假设语料库corpus包含两个主题,分别是身份证办理和户口本办理。
document1
{本级问句:身份证哪里补办,本级回答:派出所,
下一级问答对列表:[
{本级问句:本市身份证哪里补办,本级回答:本市派出所},
{本级问句:非本市身份证哪里补办,本级回答:户口派出所}]}
document2
{本级问句:户口本哪里补办,本级回答:公安局,
下一级问答对列表:[
{本级问句:本市户口本哪里补办,本级回答:本市公安局},
{本级问句:非本市户口本哪里补办,本级回答:户口公安局}]}
预处理后第一级得到两个聚类
clustercorpus=[
center1:[0.1,0.9],corpus1:document1
center2:[0.5,0.5],corpus2:document2]
用户提问strask=非本市户籍户口本哪里补办
计算得到vecask=[0.2,0.3]
计算得到similarityask,clusters1=0.89,similarityask,clusters2=0.98。
进入到center2,匹配到结果是document2,咨询户口补办。
document2存在下一层级“本市/非本市”,
重复上述过程计算
结果依旧是similarityask,clusters1=0.89,similarityask,clusters2=0.98。
假设相似度阈值thresholdsimilarity=0.9,similarityask,clusters2>thresholdsimilarily
匹配到“本市公安局”,不存在下一层级,问答结束。
本发明引入基于关键词加权的递归聚类算法对语料库做预分类,降低相似度计算的时间复杂度,大幅提高相似度计算的速度。同时,基于关键词的加权保留了词库匹配的优势,采用了相似度计算的方式,避免了人工标注和构建词库的成本支出,不需要昂贵的硬件。自动问答和多层次的智能引导,在不同应用场景上均可获得较高的计算速度和准确性。、
以“上海市人民政府一网通办”数据为例,1286个办事指南,合计2744条办事情形(http://zwdt.sh.gov.cn/govPortals/filterWorkIndex.do)。页面智能客服的单条问答响应时间通常需要1-2秒,部分问题相应时间为3-5秒;2.传统相似度匹配相应时间约100毫秒;本发明通过聚类做预分类,响应时间20毫秒,匹配结果与传统相似度计算一致,返回结果高度相关。测试显示:
本发明不需要任何额外的标注,完全基于高效的非监督学习,大幅降低了相似度计算的时间和内存占用率,提高了整体的性能。相似度计算需要将用户提问和知识库的每一条知识做匹配,时间复杂度为O(n),对于个人和中小型企业而言,日常开发和使用时基于工作站和若干台服务器,当知识库过于庞大的时候(主流移动工作站,超过5万就会需要数秒去计算),计算相似度将会耗去大量的时间,是无法接受的。
相似度本身就是通过余弦距离的距离来判断文本之间的相似性,合理的预分类将会有效避免明显不相关的文本之间做计算。通过基于余弦的递归聚类算法对语料库做预分类,在训练阶段可以将扁平数据结构转为层次化数据结构。模型部署后,原先需要和多条语料做相似度计算的开销降低至只需要和聚类中心做相似度计算,大幅降低了相似度计算的时间,提高了整体的性能。相似度计算需要和知识库的每一条知识做匹配,时间复杂度O(n);本发明的时间复杂度最低只有O(k×logk(n)),单次聚类时间复杂度为关键词的加权保留了词库匹配的优势,提高了准确率。

Claims (2)

1.一种大型语料库的高效智能客服方法,其特征在于,包括以下步骤:
步骤1、对语料库corpus当前层级的每一个语料做分词,得到词语序列wordlistcorpus,其中,语料库corpus=[document1,document2,...,documentlen(corpus)]是一个包含所有语料的列表;语料库corpus中的第i个语料表示为documenti,i=1,2,...,len(corpus),len(corpus)表示语料库corpus的长度;第i个语料documenti的词语序列定义为 表示第i个语料documenti的第i个分词,len(document)表示第i个语料documenti的长度;
步骤2、对词语序列wordlistcorpus中的每个语料的词语序列匹配词向量,得到所有语料的词向量序列veclistcorpus第i个语料documenti的词向量序列表示为 为与第i个语料documenti的第j个分词的词向量,j=1,2,...,len(documenti);
步骤3、计算词向量序列veclistcorpus中每个语料的词向量序列所对应的句向量,从而得到所有语料的句向量序列veccorpus第i个语料documenti的句向量表示为则有mean表示计算均值;
步骤4、若语料库corpus当前层级的语料数量大于预先设定的阈值thresholdcluster,则进入步骤5,否则进入步骤6;
步骤5、对语料库corpus的句向量序列veccorpus做聚类,将相似的语料归为一类,得到多个聚类中心和每个聚类的语料子集和每个聚类的关键词表,其中第i个聚类中心表示为clusteri,聚类中心clusteri的语料子集表示为corpusi,聚类中心clusteri的关键词表表示为keywordsi;步骤6、判断语料库corpus是否存在下一层级,若存在,则返回步骤1,若不存在,则输出处理后的语料库corpuspreprocessing
步骤7、用户提出问题strask后,对问题strask进行分词处理,得到问题strask的词语序列,匹配词语序列的词向量后,得到与问题strask相匹配的句向量vecask
步骤8、计算句向量vecask与语料库corpuspreprocessing中各个层级的聚类中心的加权相似度,在当前层级中选择相似度最高的聚类中心所对应的语料集,随后计算句向量vecask与语料集中每一条句向量的相似度;
步骤9、若上一步获得的所有相似度的最大值大于预先设定的阈值thresholdsimilarily,则直接进入与最大的相似度所对应的句向量所在的语料库corpuspreprocessing的层级,否则,选取相似度最大的几个句向量所在的语料库corpuspreprocessing的层级供用户选择进入。
2.如权利要求1所述的一种大型语料库的高效智能客服方法,其特征在于,第i个语料documenti表示为:
documenti
{key:keytexti,1,value:valuetexti,1
node:[{key:keytexti,1.1,value:valuetexti,1.1},{key:keytexti,1.2,value:valuetexti.1.2}]}
式中,key表示标准问题,keytexti,1表示第i个语料的第一个标准问题,value表示标准问题对应的标准答案,valuetexti,1表示第i个语料的第一个标准答案,keytexti,1.1表示第i个语料的第一个标准问题下一级的第一个标准问题,keytexti,1.2表示第i个语料的第一个标准问题下一级的第二个标准问题,valuetexti,1.1表示第i个语料的第一个标准问题下一级的第一个标准答案,valuetexti.1.2表示第i个语料的第一个标准问题下一级的第二个标准答案。
CN201811568854.4A 2018-12-21 2018-12-21 大型语料库的高效智能客服方法 Pending CN109658114A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811568854.4A CN109658114A (zh) 2018-12-21 2018-12-21 大型语料库的高效智能客服方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811568854.4A CN109658114A (zh) 2018-12-21 2018-12-21 大型语料库的高效智能客服方法

Publications (1)

Publication Number Publication Date
CN109658114A true CN109658114A (zh) 2019-04-19

Family

ID=66115600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811568854.4A Pending CN109658114A (zh) 2018-12-21 2018-12-21 大型语料库的高效智能客服方法

Country Status (1)

Country Link
CN (1) CN109658114A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110297894A (zh) * 2019-05-22 2019-10-01 同济大学 一种基于辅助网络的智能对话生成方法
CN110321419A (zh) * 2019-06-28 2019-10-11 神思电子技术股份有限公司 一种融合深度表示与交互模型的问答匹配方法
CN110324237A (zh) * 2019-06-24 2019-10-11 中建八局第一建设有限公司 一种基于微信的集成项目应用管理方法
CN110502747A (zh) * 2019-07-19 2019-11-26 北京云和时空科技有限公司 一种主题分类方法和装置
CN112418875A (zh) * 2020-10-21 2021-02-26 航天信息股份有限公司 跨平台税务智能客服语料迁移方法及装置
CN113505586A (zh) * 2021-06-07 2021-10-15 中电鸿信信息科技有限公司 一种融合语义分类与知识图谱的坐席辅助问答方法与系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105955965A (zh) * 2016-06-21 2016-09-21 上海智臻智能网络科技股份有限公司 问句信息处理方法及装置
CN106547734A (zh) * 2016-10-21 2017-03-29 上海智臻智能网络科技股份有限公司 一种问句信息处理方法及装置
CN106844587A (zh) * 2017-01-11 2017-06-13 北京光年无限科技有限公司 一种用于对话交互系统的数据处理方法及装置
WO2018149326A1 (zh) * 2017-02-16 2018-08-23 阿里巴巴集团控股有限公司 一种自然语言问句答案的生成方法、装置及服务器

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105955965A (zh) * 2016-06-21 2016-09-21 上海智臻智能网络科技股份有限公司 问句信息处理方法及装置
CN106547734A (zh) * 2016-10-21 2017-03-29 上海智臻智能网络科技股份有限公司 一种问句信息处理方法及装置
CN106844587A (zh) * 2017-01-11 2017-06-13 北京光年无限科技有限公司 一种用于对话交互系统的数据处理方法及装置
WO2018149326A1 (zh) * 2017-02-16 2018-08-23 阿里巴巴集团控股有限公司 一种自然语言问句答案的生成方法、装置及服务器

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110297894A (zh) * 2019-05-22 2019-10-01 同济大学 一种基于辅助网络的智能对话生成方法
CN110297894B (zh) * 2019-05-22 2021-03-26 同济大学 一种基于辅助网络的智能对话生成方法
CN110324237A (zh) * 2019-06-24 2019-10-11 中建八局第一建设有限公司 一种基于微信的集成项目应用管理方法
CN110321419A (zh) * 2019-06-28 2019-10-11 神思电子技术股份有限公司 一种融合深度表示与交互模型的问答匹配方法
CN110321419B (zh) * 2019-06-28 2021-06-15 神思电子技术股份有限公司 一种融合深度表示与交互模型的问答匹配方法
CN110502747A (zh) * 2019-07-19 2019-11-26 北京云和时空科技有限公司 一种主题分类方法和装置
CN112418875A (zh) * 2020-10-21 2021-02-26 航天信息股份有限公司 跨平台税务智能客服语料迁移方法及装置
CN112418875B (zh) * 2020-10-21 2024-03-26 航天信息股份有限公司 跨平台税务智能客服语料迁移方法及装置
CN113505586A (zh) * 2021-06-07 2021-10-15 中电鸿信信息科技有限公司 一种融合语义分类与知识图谱的坐席辅助问答方法与系统

Similar Documents

Publication Publication Date Title
CN110866117B (zh) 一种基于语义增强与多层次标签嵌入的短文本分类方法
CN109658114A (zh) 大型语料库的高效智能客服方法
CN110032632A (zh) 基于文本相似度的智能客服问答方法、装置及存储介质
CN106709754A (zh) 一种用基于文本挖掘的电力用户分群方法
CN110083700A (zh) 一种基于卷积神经网络的企业舆情情感分类方法及系统
CN108595696A (zh) 一种基于云平台的人机交互智能问答方法和系统
CN107861951A (zh) 智能客服中的会话主题识别方法
CN107608999A (zh) 一种适用于自动问答系统的问句分类方法
Tang et al. Multi-label patent categorization with non-local attention-based graph convolutional network
CN107908715A (zh) 基于Adaboost和分类器加权融合的微博情感极性判别方法
Bijalwan et al. Machine learning approach for text and document mining
CN110415071B (zh) 一种基于观点挖掘分析的汽车竞品对比方法
CN111222318B (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN111325029A (zh) 一种基于深度学习集成模型的文本相似度计算方法
CN106815310A (zh) 一种对海量文档集的层次聚类方法及系统
CN108920586A (zh) 一种基于深度神经映射支持向量机的短文本分类方法
CN114936277A (zh) 相似问题匹配方法和户相似问题匹配系统
CN111368529B (zh) 基于边缘计算的移动终端敏感词识别方法、装置及系统
CN116010581A (zh) 一种基于电网隐患排查场景的知识图谱问答方法及系统
CN110196907A (zh) 一种多层次文本聚类方法和装置
CN114997288A (zh) 一种设计资源关联方法
CN115577080A (zh) 一种问题回复匹配方法、系统、服务器及存储介质
CN113869054A (zh) 一种基于深度学习的电力领域项目特征识别方法
CN113869040A (zh) 一种电网调度的语音识别方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190419