CN110347833B - 一种多轮对话的分类方法 - Google Patents

一种多轮对话的分类方法 Download PDF

Info

Publication number
CN110347833B
CN110347833B CN201910614398.0A CN201910614398A CN110347833B CN 110347833 B CN110347833 B CN 110347833B CN 201910614398 A CN201910614398 A CN 201910614398A CN 110347833 B CN110347833 B CN 110347833B
Authority
CN
China
Prior art keywords
word
sentence
dialog
words
token
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910614398.0A
Other languages
English (en)
Other versions
CN110347833A (zh
Inventor
曹斌
马奎
范菁
刘宇琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201910614398.0A priority Critical patent/CN110347833B/zh
Publication of CN110347833A publication Critical patent/CN110347833A/zh
Application granted granted Critical
Publication of CN110347833B publication Critical patent/CN110347833B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0281Customer communication at a business location, e.g. providing product or service information, consulting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多轮对话的分类方法,通过利用这种方法,能够对对话的内容给于不同关注度,并以此来帮助确定对话类别。本发明根据多轮对话的语义宽泛,内容繁杂,对话有重点等特点,我们采用了基于统计的特征选择方法,将标出的对话重点视为关键句进行建模处理,对对话进行分类,并提高了分类正确率。包括下列步骤:步骤1、用卡方检验选择特征词;步骤2、使用TF‑IDF计算特征词权重;步骤3、基于关键句计算句权重;步骤4、对话向量的表示和模型训练。

Description

一种多轮对话的分类方法
技术领域
本发明属于自然语言处理(Natural Language processing)领域,尤其涉及一种多轮对话的分类方法。
背景技术
如今,越来越多的产品和平台在提供在线客服支持,比如淘宝,电信等。客服以语音或者文字的方式对客户提出的问题和需求进行解答和服务。在客服服务结束后,通常需要对对话的内容进行分类,以便后续服务。针对对话内容繁杂,客服难以快速确定对话类别,本申请提出了一个结合关键句进行多轮对话分类的方法,用来解决多轮对话文本难以确定对话类别的问题。
例如,在电信领域,客服和客户进行语音沟通时,通过实时的语音转文本,产生大量的对话文本数据。客服在对对话进行整理分类时,存在许多干扰和难点。例如,口语沟通时,通常人们喜欢描述自己的问题,客户会说一些和主题无关的内容,这无疑会对客服确定对话主题带来不利影响。此外,客服人员会手工对每通对话内容进行标重点,即关键句,以帮助确定对话主题并进行后续服务,但这样费时费力,效率低,成本高。
目前,尚未有利用关键句做多轮对话文本分类的方法出现和研究结果发表。对于多轮对话文本,通常的做法都是将对话文本当作普通的文本文档进行处理,即将一通对话视为一篇文章。主流的处理方法有LDA主题模型,TF-IDF词袋模型,textCNN/RNN等深度学习方法。另外,针对人工标出的对话重点,如何设计算法来加以利用并提高对话类别的分类准确率,这也尚未有研究成果发表。
发明内容
本发明针对多轮对话文本语义宽泛,内容繁杂,对话有重点等特点,利用人工标出的对话重点,提出了一种利用关键句进行多轮对话分类的方法。通过利用这种方法,能够对对话的内容给予不同关注度,并以此来帮助确定对话类别,提高多轮对话的分类正确率。
本发明所采用的技术方案如下:一种多轮对话的分类方法,该方法包括如下步骤:
步骤1、用卡方检验选择特征词;
步骤2、使用TF-IDF计算特征词权重;
步骤3、基于关键句计算句权重;
步骤4、对话向量的表示和模型训练,训练后的模型进行多轮对话的分类。
进一步的,所述步骤1具体如下:对一通对话中的所有语句使用分词工具进行分词,将所有对话语句的分词结果保存到词语数组,称为token;在得到所有对话的词语数组后,对数组进行去重操作,使得数组中所有词语都是唯一的,将去重后得到的数组记为BOW,对BOW中的词语使用卡方检验进行选择并作为对话文本的特征词语;在计算每个词语的卡方值后,根据卡方分布临界值表来确定每个词语的p值,p值在这里表示词语与对话文本分类的不相关的概率;设置一个临界参数t,当词语的p值小于等于t时,认为该词语与对话文本分类相关,作为特征词,所有特征词存为一个数组,记作特征词集FW。
进一步的,所述分词工具可以采用jieba分词工具,清华大学THULAC分词等。
进一步的,所述临界参数t的取值一般为0.05。
进一步的,所述步骤2具体如下:将步骤1得到的特征词集FW用来表示对话的每句话,每句话用一个n维行向量sentence vector来表示,行向量的每一维用一个特征词的TF-IDF来表示,n为特征词数量,将每个特征词的TF-IDF值作为词权重,值越大,表示该词对确定对话文本所属的类越重要。
进一步的,所述TF-IDF计算如下:
TF-IDF=TF*IDF
Figure BDA0002123450980000021
Figure BDA0002123450980000022
其中,wi表示第i个词的词频,k表示词的数量,∑kwi表示所有词的词频的和,D表示语料的文件总数,dw表示包含词w的文件总数。
进一步的,所述步骤3具体如下:
对步骤1得到的所有对话的分词结果token计算其每个词的TF-IDF值,记为tokentfidf;
对每个对话进行如下操作:提取人工打标的关键句及其索引,根据索引从token中获得该对话的每个关键句的分词结果并做去重操作,结果称为key token;利用之前得到的token tfidf,计算key token中每个词的TF-IDF值,记为key token tfidf;根据key tokentfidf中的值,对key token中的每个词进行快速排序,结果按从大到小排列,并取排在前1/2的词作为该对话的关键句的关键词,并将结果添加保存到关键词数组;在完成对所有对话的关键句提取关键词后,需对关键词数组进行去重操作,并将去重后得到的关键词数组称为key word dictionary;
接下来根据key word dictionary来计算每个句子的权重;对一个对话文本,先对对话中的每个句子进行分词操作,将分词结果按句保存到数组中,称作sentence token;对数组sentence token和关键词数组key word dictionary求交集,交集中的所有词作为该对话的关键词,称为dialog key word;
对该对话中的每个句子进行如下操作:从sentence token中获得一句话的分词结果,称作sub sentence token,对sub sentence token和dialog key word求交集,得到该句子的所有关键词,记作sub key word;定义句子权重公式
Figure BDA0002123450980000031
weight表示句子权重,sub表示句子的关键词数sub key word,dlg表示对话的关键词数dialog keyword,st表示组成句子的所有不重复的词的数量。
进一步的,为了保持不同对话之间,权重度量的统一,以对话为一个整体,对话内每个句子的权重进行归一化,归一化公式
Figure BDA0002123450980000032
这里x为一个句子的weight值,X是由该对话所有句子的weight值组成的集合。
进一步的,所述步骤4具体如下:利用步骤2和步骤3分别得到的句向量sentencevector和相应的句权重weight来计算表示整个对话的向量;一个对话的向量,用公式
Figure BDA0002123450980000033
Figure BDA0002123450980000034
来计算,dialog为所求的对话向量,k表示一个对话中句子的数量,sci表示第i个句子的句向量,wi表示第i个句子的权重;在对所有对话进行向量表示后,即得到所有对话的向量矩阵,把向量矩阵作为分类器的输入,每个对话的类别构成的类别矩阵作为输出,对模型进行训练,训练后的模型进行多轮对话的分类。
相对于现有技术,本发明的有益效果如下:
1、本发明所提出的方法考虑了多轮对话存在话题重点的特征,并将现有文档分类的方法进行改进。本发明通过结合人工标注的关键句来学习和计算对话中每个对话语句在整个对话中的权重,通过权重的大小来区分对话语句的重要性,并以语句的权重和句向量以基础构建对话向量,以此达到了减少对话主题,减少噪声和突出对话主题,提高了对话分类的效果。
2、本发明所提出的方法帮助客服领域把客服与客户的对话工单进行自动归类,减轻了客服的工作负担,提高了客服的工作效率,同时也降低了企业的运营成本。
附图说明
图1表示特征词提取和句向量生成过程;
图2表示构建关键词字典的过程;
图3表示计算句权重的过程以及生成对话向量的示意图。
具体实施方法
下面结合附图,进一步说明本发明。
一种多轮对话的分类方法,该方法包括如下步骤:
步骤1、用卡方检验选择特征词;
步骤2、使用TF-IDF计算特征词权重;
步骤3、基于关键句计算句权重;
步骤4、对话向量的表示和模型训练,训练后的模型进行多轮对话的分类。
下面对每个步骤做详细描述。
1、用卡方检验选择特征词
对一通对话中的所有语句使用分词工具进行分词,例如jieba分词工具,清华大学THULAC分词等,将对话语句的分词结果暂时保存为词语数组,然后对所有对话进行同样的分词操作,并将结果添加到之前保存的词语数组中,记为token。在得到所有对话的词语数组后,对数组进行去重操作,使得数组中所有词语都是唯一的,将去重后得到的数组记为BOW。对BOW中的词语使用卡方检验进行选择并作为对话文本的特征词语。
卡方检验是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小。如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。卡方值计算公式为:
Figure BDA0002123450980000041
k表示观测的次数,xi表示第i次观测的观测值,mi表示第i次观测的期望值。
在计算每个词语的卡方值后,我们根据卡方分布临界值表来确定每个词语的p值,p值在这里表示词语与对话文本分类的不相关的概率。这里我们设置一个临界参数t,当词语的p值小于等于t时,我们认为该词语与对话文本分类相关,可以作为特征词语。一般的,临界参数t的取值为0.05。这里得到的所有特征词存为一个数组,记作FW。
2、使用TF-IDF计算特征词权重
TF-IDF是一种统计学上的方法,它用来评估一个字或者词对于一个语料库中的其中一份语料的重要程度。字或者词的重要性随着它在一份文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。词频(TF)指的是一个给定的词语在该文件中出现的次数,为了防止偏向长文件,对词数做归一化,
Figure BDA0002123450980000042
分子表示第i个词的词频,分母表示所有词的词频的和。词的逆文件频率(IDF)指总文件数目除以包含该词的文件的数目,再将结果取对数,
Figure BDA0002123450980000043
D表示语料的文件总数,dw表示包含词w的文件总数,由此可得TF-IDF=TF*IDF。将第一步得到的特征词集FW,用来表示对话的每句话,并根据每个特征词的TF-IDF值作为词权重,值越大,表示该词对确定对话文本所属的类越重要。所谓特征词表示对话的每句话,就是对于对话中的一句话,凡是特征词出现了,则该词的权重为TF-IDF值,否则就为0。这里每句话用一个n维行向量来表示,行向量的每一维用一个特征词的TF-IDF来表示,n为特征词数量,句子的行向量记为sentence vector。
3、基于关键句计算句权重
对步骤1得到的所有对话的分词结果token计算其每个词的TF-IDF值,记为tokentfidf。对每个对话进行如下操作:提取人工打标的关键句及其索引,根据索引从token中获得该对话的每个关键句的分词结果并做去重操作,结果记为key token。利用之前得到的token tfidf,计算key token中每个词的TF-IDF值,记为key token tfidf。根据key tokentfidf中的值,对key token中的每个词进行快速排序,结果按从大到小排列,并取排在前1/2的词作为该对话的关键句的关键词,并将结果添加保存到关键词数组。在完成对所有对话的关键句提取关键词后,得到的关键词数组中存在重复出现的关键词,需对关键词数组进行去重操作,并将去重后得到的关键词数组记为key word dictionary,保存到文件,以便之后使用。
接下来根据key word dictionary来计算每个句子的权重。对一个对话文本,先对对话中的每个句子进行分词操作,将分词结果按句保存到数组中,记作sentence token。对数组sentence token和关键词数组key word dictionary求交集,即sentence token中的词在key word dictionary中出现,交集中的所有词作为该对话的关键词,记为dialog keyword。对该对话中的每个句子进行如下操作:从sentence token中获得一句话的分词结果,记作sub sentence token,对sub sentence token和dialog key word求交集,得到该句子的所有关键词,记作sub key word。定义句子权重公式
Figure BDA0002123450980000051
weight表示句子权重,sub表示句子的关键词数sub key word,dlg表示对话的关键词数dialog key word,st表示组成句子的所有不重复的词的数量。为了保持不同对话之间,权重度量的统一,以对话为一个整体,对话内每个句子的权重进行归一化。归一化公式
Figure BDA0002123450980000052
这里x为一个句子的weight值,X是由该对话所有句子的weight值组成的集合。
4、对话的向量表示和模型训练
利用步骤2和步骤3分别得到的句向量sentence vector和相应的句权重weight来计算表示整个对话的向量。一个对话的向量,用公式
Figure BDA0002123450980000053
来计算,dialog为所求的对话向量,k表示一个对话中句子的数量,sci表示第i个句子的句向量,wi表示第i个句子的权重。在对所有对话进行向量表示后,即得到所有对话的向量矩阵,把向量矩阵作为分类器的输入,每个对话的类别构成的类别矩阵作为输出,对模型进行训练。
实施例:
假设有389个对话,共5个类别。我们取其中一个对话进行说明,文字内容为下表中的转写结果一列。
Figure BDA0002123450980000061
转写结果即为语音转文字的结果。转写结果中,每一行视为一句话,因此,该对话由15句话组成。上表中关键句一列,即为客服对对话内容进行打标的结果,这里数字1表示客服标识的关键句,空白表示不关键。权重一列的每一行都对应一句话的权值。最大为1,最小为0。
针对所有对话,我们根据图1的过程,提取特征词并生成句向量。分词工具,我们采用了jieba分词。在对分词结果做去重操作后,我们得到的词共有6739个,显然这个词库太庞大。因此,我们使用卡方检验对这些词进行选择。我们假设词库的每个词与类别不相关,设置临界参数t=0.03,对所有词计算p值,如果p值小于等于t,我们就认为假设不成立,该词与类别相关,并把词保留下来,作为特征词。对所有词进行选择后,共保留了1088个词。用特征词形成的n维向量来表示句子,向量的每一维代表一个特征词,如果特征词在句子中出现,则把向量中该维度的值用对应词的TF-IDF值表示,这里得到的n维向量就是句向量。
图2表示构建关键词字典的过程。比如上表中的对话示例,共有四句话被标注为关键句。我们对这四句话的所有词都计算TF-IDF值,并根据TF-IDF值进行降序排列。取排在前1/2的词作为此对话的关键词。对所有对话做关键词提取,便得到整个语料的关键词字典。
图3表示计算句权重的过程以及生成对话向量的示意图。关键词字典和对话文本求交集,得到对话关键词,将对话关键词和该对话的句子求交集,得到语句关键词,并根据图中所示的运算,计算句权重。将句向量与对应的句权重相乘,最后加权相加,即得对话向量。之后,对话向量作为分类器的输入,对话对应的类别作为输出,进行模型的训练或者类别预测。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (5)

1.一种多轮对话的分类方法,其特征在于,该方法包括如下步骤:
步骤1、用卡方检验选择特征词;
步骤2、使用TF-IDF计算特征词权重;
步骤3、基于关键句计算句权重;
步骤4、对话向量的表示和模型训练,训练后的模型进行多轮对话的分类;
其中所述TF-IDF计算如下:
TF-IDF=TF*IDF
Figure FDA0003084855620000011
Figure FDA0003084855620000012
其中,wi表示第i个词的词频,k表示词的数量,∑kwi表示所有词的词频的和,D表示语料的文件总数,dw表示包含词w的文件总数;
所述步骤3具体如下:
对步骤1得到的所有对话的分词结果token计算其每个词的TF-IDF值,记为tokentfidf;
对每个对话进行如下操作:提取人工打标的关键句及其索引,根据索引从token中获得该对话的每个关键句的分词结果并做去重操作,结果称为key token;利用之前得到的token tfidf,计算key token中每个词的TF-IDF值,记为key token tfidf;根据key tokentfidf中的值,对key token中的每个词进行快速排序,结果按从大到小排列,并取排在前1/2的词作为该对话的关键句的关键词,并将结果添加保存到关键词数组;在完成对所有对话的关键句提取关键词后,需对关键词数组进行去重操作,并将去重后得到的关键词数组称为key word dictionary;
接下来根据key word dictionary来计算每个句子的权重;对一个对话文本,先对对话中的每个句子进行分词操作,将分词结果按句保存到数组中,称作sentence token;对数组sentence token和关键词数组key word dictionary求交集,交集中的所有词作为该对话的关键词,称为dialog key word;
对该对话中的每个句子进行如下操作:从sentence token中获得一句话的分词结果,称作sub sentence token,对sub sentence token和dialog key word求交集,得到该句子的所有关键词,记作sub key word;定义句子权重公式
Figure FDA0003084855620000013
weight表示句子权重,sub表示句子的关键词数sub key word,dlg表示对话的关键词数dialog key word,st表示组成句子的所有不重复的词的数量;
为了保持不同对话之间,权重度量的统一,以对话为一个整体,对话内每个句子的权重进行归一化,归一化公式
Figure FDA0003084855620000021
这里x为一个句子的weight值,X是由该对话所有句子的weight值组成的集合;
所述步骤4具体如下:
利用步骤2和步骤3分别得到的句向量sentence vector和相应的句权重weight来计算表示整个对话的向量;一个对话的向量,用公式
Figure FDA0003084855620000022
来计算,dialog为所求的对话向量,k表示一个对话中句子的数量,sci表示第i个句子的句向量,wi表示第i个句子的权重;在对所有对话进行向量表示后,即得到所有对话的向量矩阵,把向量矩阵作为分类器的输入,每个对话的类别构成的类别矩阵作为输出,对模型进行训练,训练后的模型进行多轮对话的分类。
2.根据权利要求1所述的一种多轮对话的分类方法,其特征在于,所述步骤1具体如下:
对一通对话中的所有语句使用分词工具进行分词,将所有对话语句的分词结果保存到词语数组,称为token;在得到所有对话的词语数组后,对数组进行去重操作,使得数组中所有词语都是唯一的,将去重后得到的数组记为BOW,对BOW中的词语使用卡方检验进行选择并作为对话文本的特征词语;在计算每个词语的卡方值后,根据卡方分布临界值表来确定每个词语的p值,p值在这里表示词语与对话文本分类的不相关的概率;设置一个临界参数t,当词语的p值小于等于t时,认为该词语与对话文本分类相关,作为特征词,所有特征词存为一个数组,记作特征词集FW。
3.根据权利要求2所述的一种多轮对话的分类方法,其特征在于,所述分词工具采用jieba分词工具或清华大学THULAC分词。
4.根据权利要求2所述的一种多轮对话的分类方法,其特征在于,所述临界参数t的取值为0.05。
5.根据权利要求2-4任一项所述的一种多轮对话的分类方法,其特征在于,所述步骤2具体如下:
将步骤1得到的特征词集FW用来表示对话的每句话,每句话用一个n维行向量sentencevector来表示,行向量的每一维用一个特征词的TF-IDF来表示,n为特征词数量,将每个特征词的TF-IDF值作为词权重,值越大,表示该词对确定对话文本所属的类越重要。
CN201910614398.0A 2019-07-09 2019-07-09 一种多轮对话的分类方法 Active CN110347833B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910614398.0A CN110347833B (zh) 2019-07-09 2019-07-09 一种多轮对话的分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910614398.0A CN110347833B (zh) 2019-07-09 2019-07-09 一种多轮对话的分类方法

Publications (2)

Publication Number Publication Date
CN110347833A CN110347833A (zh) 2019-10-18
CN110347833B true CN110347833B (zh) 2021-08-24

Family

ID=68177895

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910614398.0A Active CN110347833B (zh) 2019-07-09 2019-07-09 一种多轮对话的分类方法

Country Status (1)

Country Link
CN (1) CN110347833B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825851A (zh) * 2019-11-07 2020-02-21 中电福富信息科技有限公司 基于中值转化模型的句子对关系判别方法
CN111274401A (zh) * 2020-01-20 2020-06-12 华中师范大学 基于多特征融合的课堂话语分类方法和装置
CN113268579B (zh) * 2021-06-24 2023-12-08 中国平安人寿保险股份有限公司 对话内容类别识别方法、装置、计算机设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7117437B2 (en) * 2002-12-16 2006-10-03 Palo Alto Research Center Incorporated Systems and methods for displaying interactive topic-based text summaries
CN101599071B (zh) * 2009-07-10 2012-04-18 华中科技大学 对话文本主题的自动提取方法
US8594998B2 (en) * 2010-07-30 2013-11-26 Ben-Gurion University Of The Negev Research And Development Authority Multilingual sentence extractor
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答系统
CN103886108B (zh) * 2014-04-13 2017-09-01 北京工业大学 一种不均衡文本集的特征选择和权重计算方法
CN107766506A (zh) * 2017-10-20 2018-03-06 哈尔滨工业大学 一种基于层次化注意力机制的多轮对话模型构建方法
CN109101537B (zh) * 2018-06-27 2021-08-06 北京慧闻科技发展有限公司 基于深度学习的多轮对话数据分类方法、装置和电子设备
CN109597876B (zh) * 2018-11-07 2023-04-11 中山大学 一种基于强化学习的多轮对话答复选择模型及其方法
CN109547331A (zh) * 2018-11-22 2019-03-29 大连智讯科技有限公司 一种基于多轮语音聊天模型构建方法

Also Published As

Publication number Publication date
CN110347833A (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
CN109241255B (zh) 一种基于深度学习的意图识别方法
CN110110062B (zh) 机器智能问答方法、装置与电子设备
CN111125334B (zh) 一种基于预训练的搜索问答系统
CN106997376B (zh) 一种基于多级特征的问题和答案句子相似度计算方法
WO2017133165A1 (zh) 一种满意度自动测评的方法、装置、设备和计算机存储介质
CN101042868B (zh) 群集系统、方法和使用群集系统的属性估计系统
CN107818164A (zh) 一种智能问答方法及其系统
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及系统
CN108073568A (zh) 关键词提取方法和装置
CN110347833B (zh) 一种多轮对话的分类方法
CN111428490B (zh) 一种利用语言模型的指代消解弱监督学习方法
CN111414746B (zh) 一种匹配语句确定方法、装置、设备及存储介质
CN112036705A (zh) 一种质检结果数据获取方法、装置及设备
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
CN106681986A (zh) 一种多维度情感分析系统
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
KR102240910B1 (ko) 머신 러닝 기반 한국 고객 서비스 어시스턴트 보조 시스템
CN112632272A (zh) 基于句法分析的微博情感分类方法和系统
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
CN110287396A (zh) 文本匹配方法及装置
CN114841143A (zh) 语音房质量评估方法及其装置、设备、介质、产品
CN114896398A (zh) 一种基于特征选择的文本分类系统及方法
CN111488448B (zh) 一种机器阅读标注数据的生成方法和装置
Koromyslova et al. Feature selection for natural language call routing based on self-adaptive genetic algorithm
CN114238595A (zh) 一种基于知识图谱的冶金知识问答方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant