CN108170853A - 一种聊天语料自清洗方法、装置和用户终端 - Google Patents

一种聊天语料自清洗方法、装置和用户终端 Download PDF

Info

Publication number
CN108170853A
CN108170853A CN201810053728.9A CN201810053728A CN108170853A CN 108170853 A CN108170853 A CN 108170853A CN 201810053728 A CN201810053728 A CN 201810053728A CN 108170853 A CN108170853 A CN 108170853A
Authority
CN
China
Prior art keywords
language material
cleaning
answer
question
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810053728.9A
Other languages
English (en)
Other versions
CN108170853B (zh
Inventor
姚佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Hui He Science And Technology Development Co Ltd
Original Assignee
Guangdong Hui He Science And Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Hui He Science And Technology Development Co Ltd filed Critical Guangdong Hui He Science And Technology Development Co Ltd
Priority to CN201810053728.9A priority Critical patent/CN108170853B/zh
Publication of CN108170853A publication Critical patent/CN108170853A/zh
Application granted granted Critical
Publication of CN108170853B publication Critical patent/CN108170853B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本发明提供了一种聊天语料自清洗方法、装置和用户终端,其中所述方法包括:根据问答对语料的词单元及其词向量构建神经网络模型;根据所述神经网络模型对所述问答对语料进行评估预测,得到预测评估结果;根据所述预测评估结果对所述问答对语料进行语料清洗,得到目标对话语料。本发明所提供方法实现人机交互过程中,对聊天语料的非人工的智能自清洗,可通过语料智能自清洗对海量语料进行筛选,语料清洗效率高、速度快,省去了大量人工参与进行语料筛选清洗的步骤,大大降低了开发成本,为人工智能开发人员的工作带来了极大的方便。

Description

一种聊天语料自清洗方法、装置和用户终端
技术领域
本发明涉及人工智能技术领域,更具体地说,涉及一种聊天语料自清洗方法、装置和用户终端。
背景技术
在现有机器人人工智能交互中,聊天(闲聊)依然占据着重要的位置。而工业界中聊天的主流技术依然是通过构建高质量的聊天语料(即问答对),通过类检索的方式来匹配用户的闲聊语句。
但是高质量的聊天语料的获取依然是很困难的。而业界的做法大抵是通过网络爬取(如微博、BBS等),获取一定质量的问答对。但是这种爬取下来的数据难以直接应用上线,只能通过语料清洗后才可进行使用。
目前,聊天问答对的清洗主要为通过人工标注大量的问答对,进而通过有监督的机器学习方法进行分类使用;或者完全人工逐条筛选实现人工语料清洗。总之,现有的语料清洗方法均需要有大量的人工参与,无法实现智能自清洗,并且由于待清洗的语料规模庞大,所涉及到的人工标注工作量随之增大,语料清洗效率低,耗时长,成本高,为人工智能开发人员的工作带来极大的不便。
发明内容
有鉴于此,本发明提供一种聊天语料自清洗方法、装置和用户终端以解决现有技术的不足。
为解决上述问题,本发明提供一种聊天语料自清洗方法,包括:
根据问答对语料的词单元及其词向量构建神经网络模型;
根据所述神经网络模型对所述问答对语料进行评估预测,得到预测评估结果;
根据所述预测评估结果对所述问答对语料进行语料清洗,得到目标对话语料。
优选地,所述“根据问答对语料的词单元及其词向量构建神经网络模型”包括:
对所述问答对语料中的每个问语料和答语料设置第一语料标签;
抽取所述问答对语料中的所述问语料和所述答语料进行随机对应,并设置第二语料标签;
对随机对应的所述问答对语料中的所述问语料和所述答语料进行分词处理,并构建词单元向量化矩阵;
根据所述词单元向量化矩阵得到随机对应的所述问语料和所述答语料的匹配值;
基于所述词单元向量化矩阵,根据所述第一语料标签和所述第二语料标签对所述匹配值进行参数学习,构建神经网络模型。
优选地,所述“根据所述词单元向量化矩阵得到随机对应的所述问语料和所述答语料的匹配值”包括:
基于所述词单元向量化矩阵,获取所述问语料和所述答语料中的每个词单元的词向量;
构建随机问答对矩阵,并基于所述随机问答对矩阵对所述词向量计算得出所述问语料和所述答语料的匹配值。
优选地,所述“构建随机问答对矩阵,并基于所述随机问答对矩阵对所述词向量计算得出所述问语料和所述答语料的匹配值”包括:
对所述问语料中每个所述词单元的所述词向量进行求和平均,得到问语料向量均值;对所述答语料中每个所述词单元的所述词向量进行求和平均,得到答语料向量均值;
构建随机问答对矩阵;
根据所述随机问答对矩阵对所述问语料向量均值和所述答语料向量均值进行求sigmoid函数计算,得到所述问语料和所述答语料的匹配值。
优选地,所述“根据所述预测评估结果对所述问答对语料进行语料清洗,得到目标对话语料”包括:
删除所述预测评估结果中低评分的所述问答对语料,得到清洗后语料,并将所述清洗后语料对应的预测评估结果与预设语料质量值进行匹配;
若所述清洗后语料对应的所述预测评估结果与所述预设语料质量值匹配,则输出目标对话语料;
若所述清洗后语料对应的所述预测评估结果与所述预设语料质量值不匹配,则返回所述“根据问答对语料的词单元及其词向量构建神经网络模型”。
优选地,所述“根据问答对语料的词单元及其词向量构建神经网络模型”之前,还包括:
获取文本语料,并建立与所述文本语料对应的文本语料库;
构建所述文本语料库中所有词的所述词向量;
提取所述文本语料库中的所述问答对语料,并进行分词处理,得到所述词单元。
优选地,所述“构建所述文本语料库中所有词的所述词向量”包括:
利用word2vec技术对所述文本语料库进行训练,构建所述文本语料库中所有词的所述词向量。
此外,为解决上述问题,本发明还提供一种聊天语料自清洗装置,包括:构建模块、预测模块和清洗模块;
所述构建模块,用于根据问答对语料的词单元及其词向量构建神经网络模型;
所述预测模块,用于根据所述神经网络模型对所述问答对语料进行评估预测,得到预测评估结果;
所述清洗模块,用于根据所述预测评估结果对所述问答对语料进行语料清洗,得到目标对话语料。
此外,为解决上述问题,本发明还提供一种用户终端,包括存储器以及处理器,所述存储器用于存储聊天语料自清洗程序,所述处理器运行所述聊天语料自清洗程序以使所述用户终端执行如上述所述聊天语料自清洗方法。
此外,为解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有聊天语料自清洗程序,所述聊天语料自清洗程序被处理器执行时实现如上述所述聊天语料自清洗方法。
本发明提供的一种聊天语料自清洗方法、装置和用户终端。其中,本发明所提供的方法通过构建神经网络模型对问答对语料进行预测,并根据预测结果对问答对语料进行清洗,从而得到目标对话语料。本发明所提供方法实现人机交互过程中,对聊天语料的非人工的智能自清洗,可通过语料智能自清洗对海量语料进行筛选,语料清洗效率高、速度快,省去了大量人工参与进行语料筛选清洗的步骤,大大降低了开发成本,为人工智能开发人员的工作带来了极大的方便。
附图说明
图1为本发明聊天语料自清洗方法实施例方案涉及的硬件运行环境的结构示意图;
图2为本发明聊天语料自清洗方法第一实施例的流程示意图;
图3为本发明聊天语料自清洗方法第二实施例的流程示意图;
图4为本发明聊天语料自清洗方法第三实施例的流程示意图;
图5为本发明聊天语料自清洗方法第四实施例的流程示意图;
图6为本发明聊天语料自清洗方法第四实施例的计算匹配值的运算流程示意图;
图7为本发明聊天语料自清洗方法第五实施例的流程示意图;
图8为本发明聊天语料自清洗方法第六实施例的流程示意图;
图9为本发明聊天语料自清洗方法第六实施例的步骤S5000的细化流程示意图;
图10为本发明聊天语料自清洗装置的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面详细描述本发明的实施例,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的终端的硬件运行环境的结构示意图。
本发明实施例终端可以是PC,也可以是智能手机、平板电脑、电子书阅读器、MP3播放器、MP4播放器、便携计算机等具有显示功能的可移动式终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏、输入单元比如键盘、遥控器,可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器,例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。此外,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、数据接口控制程序、网络连接程序以及聊天语料自清洗程序。
本发明提供的一种聊天语料自清洗方法、装置和用户终端。其中,所述方法实现通过目标节点的网络拓扑变化分析的得到犯罪嫌疑人的分析结果,分析结果准确,为案件调查人员进一步对犯罪嫌疑人的周边信息的分析和调查带来极大的方便。
实施例1:
参照图2,本发明第一实施例提供一种聊天语料自清洗方法,包括:
步骤S1000,根据问答对语料的词单元及其词向量构建神经网络模型;
上述,需要理解的是,语料,通常在统计自然语言处理中实际上不可能观测到大规模的语言实例。所以,人们简单地用文本作为替代,并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。一个文本集合称为语料库(Corpus),多个文本集合即为语料库集合(Corpora)。所以,用文本作为替代,并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。
上述,需要理解的是,神经网络(Neural Networks,NN)是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络系统,它反映了人脑功能的许多基本特征,是一个高度复杂的非线性动力学习系统。神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学能力,特别适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。神经网络的发展与神经科学、数理科学、认知科学、计算机科学、人工智能、信息科学、控制论、机器人学、微电子学、心理学、光计算、分子生物学等有关,是一门新兴的边缘交叉学科。
上述,基于词向量和问答语料构建包含问答语料的每个词单元向量的神经网络模型。
步骤S2000,根据所述神经网络模型对所述问答对语料进行评估预测,得到预测评估结果;
对问答语料进行预测,建立评估机制,对每个问答语料进行评估,从而得到预测评估结果。上述预测评估结果可以为打分制,通过预设质量评价标准对不同的问答语料进行评分,所以预测评估结果中可以包含问答语料以及与所述问答语料对应的评分。
步骤S3000,根据所述预测评估结果对所述问答对语料进行语料清洗,得到目标对话语料。
上述,在得出每个问答语料对应的评分后,根据预测评估结果筛选最优问答语料或删除相应的质量较低的问答语料,从而找出目标对话语料,进而进行输出。
本实施例所提供的方法通过构建神经网络模型对问答对语料进行预测,并根据预测结果对问答对语料进行清洗,从而得到目标对话语料。本发明所提供方法实现人机交互过程中,对聊天语料的非人工的智能自清洗,可通过语料智能自清洗对海量语料进行筛选,语料清洗效率高、速度快,省去了大量人工参与进行语料筛选清洗的步骤,大大降低了开发成本,为人工智能开发人员的工作带来了极大的方便。
实施例2:
参照图3,本发明第二实施例提供一种聊天语料自清洗方法,基于上述图2所示的第一实施例,所述步骤S1000“根据问答对语料的词单元及其词向量构建神经网络模型”包括:
步骤S1100,对所述问答对语料中的每个问语料和答语料设置第一语料标签;
上述,为已经爬取的每个语料设置一个对应的语料标签。其中,在本实施例中,所述第一语料标签区别于其他标签可以为1。
步骤S1200,抽取所述问答对语料中的所述问语料和所述答语料进行随机对应,并设置第二语料标签;
上述,随机抽取问语料(Question)与答语料(Answer)配对,即Question与Answer原本可能并不匹配,随机配对,并打上标签0。
步骤S1300,对随机对应的所述问答对语料中的所述问语料和所述答语料进行分词处理,并构建词单元向量化矩阵;
上述,对已经进行随即对应的问语料和答语料进行分词处理。例如,Question为“你是谁”,进行分词处理后,分别得到“你”、“是”、“谁”三个分词处理后的词单元;Answer为“不告诉你”,进行分词处理后,分别得到“不”、“告”、“诉”、“你”四个词单元,进而构建一个词单元向量化矩阵。
步骤S1400,根据所述词单元向量化矩阵得到随机对应的所述问语料和所述答语料的匹配值;
根据词单元向量化矩阵,即为每个词单元都有一个对应的向量,在通过词单元向量化矩阵的学习后,进行计算得出随机对应的所述问语料和所述答语料的匹配值,进而可根据匹配值进行评估。
步骤S1500,基于所述词单元向量化矩阵,根据所述第一语料标签和所述第二语料标签对所述匹配值进行参数学习,构建神经网络模型。
利用所述第一语料标签和所述第二语料标签进行参数学习,使用的学习方法即为后向传播方法,可利用tensorflow,pytorch,keras等深度学习工具,进行快速实现构建神经网络模型,从而进行参数学习。
实施例3:
参照图4,本发明第三实施例提供一种聊天语料自清洗方法,基于上述图3所示的第二实施例,所述步骤S1400“根据所述词单元向量化矩阵得到随机对应的所述问语料和所述答语料的匹配值”包括:
步骤S1410,基于所述词单元向量化矩阵,获取所述问语料和所述答语料中的每个词单元的词向量;
上述,词单元向量化矩阵中包含有不同词单元以及与其对应的词向量,根据该词单元向量化矩阵,获取问答语料的每个词单元的词向量。
步骤S1420,构建随机问答对矩阵,并基于所述随机问答对矩阵对所述词向量计算得出所述问语料和所述答语料的匹配值。
上述对所获取到的每个词单元的词向量与所述随机问答对矩阵的计算,通过计算得出问答语料的匹配值。该匹配值可以为通过多种不同的算法实现,此外,也可单独设置评判算法,并对算法产生结果进行评估,从而产生匹配值。
实施例4:
参照图5和图6,本发明第四实施例提供一种聊天语料自清洗方法,基于上述图2所示的第三实施例,所述步骤S1420“构建随机问答对矩阵,并基于所述随机问答对矩阵对所述词向量计算得出所述问语料和所述答语料的匹配值”包括:
步骤S1421,对所述问语料中每个所述词单元的所述词向量进行求和平均,得到问语料向量均值;对所述答语料中每个所述词单元的所述词向量进行求和平均,得到答语料向量均值;
上述,在Question中所有词单元在随机问答对矩阵W中的取得对应的向量,然后进行求和平均,得到Q。例如“你”获取到了128*1的向量,“是”、“谁”、“?”同样获取到了对应的向量,然后进行向量的求和平均,就得到了128*1的Q。
上述,在Answer中所有词在随机问答对矩阵W中的取得对应的向量,然后进行求和平均,得到A;与Q同理。
步骤S1422,构建随机问答对矩阵;
上述,为初始化一个随机问答对矩阵,即为M,该随机问答对矩阵需要进一步的参数学习。
步骤S1423,根据所述随机问答对矩阵对所述问语料向量均值和所述答语料向量均值进行求sigmoid函数计算,得到所述问语料和所述答语料的匹配值。
上述,在本实施例中,通过计算Q^T*M*A,进而求sigmoid函数,得到一个具体的匹配值。例如,Q是128*1,Q^T就是Q的转置,为1*128,M是一个128*128的矩阵,A是128*1,最后得到的就是一个1*1的匹配值。
上述,需要理解的是,Sigmoid函数是一个在生物学中常见的S型的函数,也称为S型生长曲线。在信息科学中,由于其单增以及反函数单增等性质,Sigmoid函数常被用作神经网络的阈值函数,将变量映射到0,1之间。
实施例5:
参照图7,本发明第五实施例提供一种聊天语料自清洗方法,基于上述图2所示的第一实施例,所述步骤S3000“根据所述预测评估结果对所述问答对语料进行语料清洗,得到目标对话语料”包括:
步骤S3100,删除所述预测评估结果中低评分的所述问答对语料,得到清洗后语料,并将所述清洗后语料对应的预测评估结果与预设语料质量值进行匹配;
通过神经网络模型所对爬取到的问答语料进行预测,直接丢弃得分过低的语料。并调取预设语料质量值,将剩余的清洗后的语料对应的预测评估结果与该值进行匹配,从而进一步的对语料进行清洗。
步骤S3200,若所述清洗后语料对应的所述预测评估结果与所述预设语料质量值匹配,则输出目标对话语料;
若所述清洗后语料对应的所述预测评估结果与所述预设语料质量值不匹配,则返回所述“根据问答对语料的词单元及其词向量构建神经网络模型”。
上述,如果清洗后语料对应的预测评估结果与预设语料质量值匹配,则判定为语料质量满足要求,进而输出目标对话语料;如果不匹配,则判定为当前语料质量达不到标准,不能满足要求,则返回“根据问答对语料的词单元及其词向量构建神经网络模型”,重复进行语料清洗过程,直到语料质量达到标注,满足预设语料质量值匹配为止。通过循环执行语料清洗的步骤,从而实现语料的筛选,不合格质量不高的对话语料的删除,达到输出结果的精确度。
实施例6:
参照图8和图9,本发明第五实施例提供一种聊天语料自清洗方法,基于上述图2所示的第一实施例,所述“根据问答对语料的词单元及其词向量构建神经网络模型”之前,还包括:
步骤S4000,获取文本语料,并建立与所述文本语料对应的文本语料库;
上述,获取网络中、预存的或者其他途径的文本语料,该语料为海量的不同形式的语料。其中语料的文字可以为中文,也可以为其他语言文字。在本实施例中,所获取的文本语料为中文语料。
上述,文本语料的形式或来源可以包括但不限于新闻、小说、网络信息、诗歌、公开的聊天内容、对话采访、剧本等等。
步骤S5000,构建所述文本语料库中所有词的所述词向量;
上述,需要理解的是,在数学中,向量(也称为欧几里得向量、几何向量、矢量),指具有大小(magnitude)和方向的量。它可以形象化地表示为带箭头的线段。箭头所指:代表向量的方向;线段长度:代表向量的大小。与向量对应的只有大小,没有方向的量叫做数量(物理学中称标量)。
上述,构建文本语料库中所有词的对应的词向量。
所述“构建所述文本语料库中所有词的所述词向量”包括:
步骤S5100,利用word2vec技术对所述文本语料库进行训练,构建所述文本语料库中所有词的所述词向量。
上述,利用word2vec技术对文本语料库进行训练,得到词向量。例如,得到词向量大小为128*1。
上述,需要理解的是,word2vec也叫word embeddings,中文名“词向量”,作用就是将自然语言中的字词转为计算机可以理解的稠密向量(Dense Vector)。在word2vec出现之前,自然语言处理经常把字词转为离散的单独的符号,也就是One-Hot Encoder。
步骤S6000,提取所述文本语料库中的所述问答对语料,并进行分词处理,得到所述词单元。
上述,爬取文本语料库中的问答对语料,对该语料进行分词处理。上述,分词处理即为将整句的语料进行以单词为单位的拆分,例如Question:你是谁?和Answer:不告诉你。则拆分后为Question:“你”、“是”、“谁”、“?”和Answer:“不”、“告”、“诉”、“你”,从而得到多个拆分后的词单元。
此外,参照图10,本发明还提供一种聊天语料自清洗装置,包括:包括:构建模块10、预测模块20和清洗模块30;
所述构建模块10,用于根据问答对语料的词单元及其词向量构建神经网络模型;
所述预测模块20,用于根据所述神经网络模型对所述问答对语料进行评估预测,得到预测评估结果;
所述清洗模块30,用于根据所述预测评估结果对所述问答对语料进行语料清洗,得到目标对话语料。
此外,本发明还提供一种用户终端,包括存储器以及处理器,包括存储器以及处理器,所述存储器用于存储聊天语料自清洗程序,所述处理器运行所述聊天语料自清洗程序以使所述用户终端执行如上述所述聊天语料自清洗方法。
此外,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有聊天语料自清洗程序,所述聊天语料自清洗程序被处理器执行时实现如上述所述聊天语料自清洗方法。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种聊天语料自清洗方法,其特征在于,包括:
根据问答对语料的词单元及其词向量构建神经网络模型;
根据所述神经网络模型对所述问答对语料进行评估预测,得到预测评估结果;
根据所述预测评估结果对所述问答对语料进行语料清洗,得到目标对话语料。
2.如权利要求1所述聊天语料自清洗方法,其特征在于,所述“根据问答对语料的词单元及其词向量构建神经网络模型”包括:
对所述问答对语料中的每个问语料和答语料设置第一语料标签;
抽取所述问答对语料中的所述问语料和所述答语料进行随机对应,并设置第二语料标签;
对随机对应的所述问答对语料中的所述问语料和所述答语料进行分词处理,并构建词单元向量化矩阵;
根据所述词单元向量化矩阵得到随机对应的所述问语料和所述答语料的匹配值;
基于所述词单元向量化矩阵,根据所述第一语料标签和所述第二语料标签所述匹配值进行参数学习,构建神经网络模型。
3.如权利要求2所述聊天语料自清洗方法,其特征在于,所述“根据所述词单元向量化矩阵得到随机对应的所述问语料和所述答语料的匹配值”包括:
基于所述词单元向量化矩阵,获取所述问语料和所述答语料中的每个词单元的词向量;
构建随机问答对矩阵,并基于所述随机问答对矩阵对所述词向量计算得出所述问语料和所述答语料的匹配值。
4.如权利要求3所述聊天语料自清洗方法,其特征在于,所述“构建随机问答对矩阵,并基于所述随机问答对矩阵对所述词向量计算得出所述问语料和所述答语料的匹配值”包括:
对所述问语料中每个所述词单元的所述词向量进行求和平均,得到问语料向量均值;对所述答语料中每个所述词单元的所述词向量进行求和平均,得到答语料向量均值;
构建随机问答对矩阵;
根据所述随机问答对矩阵对所述问语料向量均值和所述答语料向量均值进行求sigmoid函数计算,得到所述问语料和所述答语料的匹配值。
5.如权利要求1所述聊天语料自清洗方法,其特征在于,所述“根据所述预测评估结果对所述问答对语料进行语料清洗,得到目标对话语料”包括:
删除所述预测评估结果中低评分的所述问答对语料,得到清洗后语料,并将所述清洗后语料对应的预测评估结果与预设语料质量值进行匹配;
若所述清洗后语料对应的所述预测评估结果与所述预设语料质量值匹配,则输出目标对话语料;
若所述清洗后语料对应的所述预测评估结果与所述预设语料质量值不匹配,则返回所述“根据问答对语料的词单元及其词向量构建神经网络模型”。
6.如权利要求1所述聊天语料自清洗方法,其特征在于,所述“根据问答对语料的词单元及其词向量构建神经网络模型”之前,还包括:
获取文本语料,并建立与所述文本语料对应的文本语料库;
构建所述文本语料库中所有词的所述词向量;
提取所述文本语料库中的所述问答对语料,并进行分词处理,得到所述词单元。
7.如权利要求6所述聊天语料自清洗方法,其特征在于,所述“构建所述文本语料库中所有词的所述词向量”包括:
利用word2vec技术对所述文本语料库进行训练,构建所述文本语料库中所有词的所述词向量。
8.一种聊天语料自清洗装置,其特征在于,包括:构建模块、预测模块和清洗模块;
所述构建模块,用于根据问答对语料的词单元及其词向量构建神经网络模型;
所述预测模块,用于根据所述神经网络模型对所述问答对语料进行评估预测,得到预测评估结果;
所述清洗模块,用于根据所述预测评估结果对所述问答对语料进行语料清洗,得到目标对话语料。
9.一种用户终端,其特征在于,包括存储器以及处理器,所述存储器用于存储聊天语料自清洗程序,所述处理器运行所述聊天语料自清洗程序以使所述用户终端执行如权利要求1-7中任一项所述聊天语料自清洗方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有聊天语料自清洗程序,所述聊天语料自清洗程序被处理器执行时实现如权利要求1-7中任一项所述聊天语料自清洗方法。
CN201810053728.9A 2018-01-19 2018-01-19 一种聊天语料自清洗方法、装置和用户终端 Active CN108170853B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810053728.9A CN108170853B (zh) 2018-01-19 2018-01-19 一种聊天语料自清洗方法、装置和用户终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810053728.9A CN108170853B (zh) 2018-01-19 2018-01-19 一种聊天语料自清洗方法、装置和用户终端

Publications (2)

Publication Number Publication Date
CN108170853A true CN108170853A (zh) 2018-06-15
CN108170853B CN108170853B (zh) 2020-06-19

Family

ID=62515368

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810053728.9A Active CN108170853B (zh) 2018-01-19 2018-01-19 一种聊天语料自清洗方法、装置和用户终端

Country Status (1)

Country Link
CN (1) CN108170853B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109739956A (zh) * 2018-11-08 2019-05-10 第四范式(北京)技术有限公司 语料清洗方法、装置、设备及介质
CN110110054A (zh) * 2019-03-22 2019-08-09 北京中科汇联科技股份有限公司 一种基于深度学习的从非结构化文本中获取问答对的方法
CN110135551A (zh) * 2019-05-15 2019-08-16 西南交通大学 一种基于词向量和循环神经网络的机器人聊天方法
CN110209898A (zh) * 2019-05-31 2019-09-06 苏州狗尾草智能科技有限公司 基于人机交互的数据清洗方法、回复方法、装置及介质
CN110491394A (zh) * 2019-09-12 2019-11-22 北京百度网讯科技有限公司 唤醒语料的获取方法和装置
CN111258968A (zh) * 2019-12-30 2020-06-09 广州博士信息技术研究院有限公司 企业冗余数据清理方法、装置及大数据平台
WO2020133470A1 (zh) * 2018-12-29 2020-07-02 深圳市优必选科技有限公司 聊天语料的清洗方法、装置、计算机设备和存储介质
WO2020133358A1 (zh) * 2018-12-29 2020-07-02 深圳市优必选科技有限公司 聊天语料的清洗方法、装置、计算机设备和存储介质
CN111382249A (zh) * 2018-12-29 2020-07-07 深圳市优必选科技有限公司 聊天语料的清洗方法、装置、计算机设备和存储介质
CN112733928A (zh) * 2021-01-06 2021-04-30 安徽易测评信息技术有限公司 一种基于文明城市测评项目对测评标准进行标准化拆分匹配的智能算法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095834A (zh) * 2016-06-01 2016-11-09 竹间智能科技(上海)有限公司 基于话题的智能对话方法及系统
US20170061625A1 (en) * 2015-08-26 2017-03-02 Digitalglobe, Inc. Synthesizing training data for broad area geospatial object detection
CN106649786A (zh) * 2016-12-28 2017-05-10 北京百度网讯科技有限公司 基于深度问答的答案检索方法及装置
CN107305578A (zh) * 2016-04-25 2017-10-31 北京京东尚科信息技术有限公司 人机智能问答方法和装置
CN107368547A (zh) * 2017-06-28 2017-11-21 西安交通大学 一种基于深度学习的智能医疗自动问答方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170061625A1 (en) * 2015-08-26 2017-03-02 Digitalglobe, Inc. Synthesizing training data for broad area geospatial object detection
CN107305578A (zh) * 2016-04-25 2017-10-31 北京京东尚科信息技术有限公司 人机智能问答方法和装置
CN106095834A (zh) * 2016-06-01 2016-11-09 竹间智能科技(上海)有限公司 基于话题的智能对话方法及系统
CN106649786A (zh) * 2016-12-28 2017-05-10 北京百度网讯科技有限公司 基于深度问答的答案检索方法及装置
CN107368547A (zh) * 2017-06-28 2017-11-21 西安交通大学 一种基于深度学习的智能医疗自动问答方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
贾熹滨 等: "智能对话系统研究综述", 《北京工业大学学报》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109739956A (zh) * 2018-11-08 2019-05-10 第四范式(北京)技术有限公司 语料清洗方法、装置、设备及介质
WO2020133470A1 (zh) * 2018-12-29 2020-07-02 深圳市优必选科技有限公司 聊天语料的清洗方法、装置、计算机设备和存储介质
CN111382249B (zh) * 2018-12-29 2023-10-10 深圳市优必选科技有限公司 聊天语料的清洗方法、装置、计算机设备和存储介质
CN111382249A (zh) * 2018-12-29 2020-07-07 深圳市优必选科技有限公司 聊天语料的清洗方法、装置、计算机设备和存储介质
WO2020133358A1 (zh) * 2018-12-29 2020-07-02 深圳市优必选科技有限公司 聊天语料的清洗方法、装置、计算机设备和存储介质
CN110110054B (zh) * 2019-03-22 2021-06-08 北京中科汇联科技股份有限公司 一种基于深度学习的从非结构化文本中获取问答对的方法
CN110110054A (zh) * 2019-03-22 2019-08-09 北京中科汇联科技股份有限公司 一种基于深度学习的从非结构化文本中获取问答对的方法
CN110135551B (zh) * 2019-05-15 2020-07-21 西南交通大学 一种基于词向量和循环神经网络的机器人聊天方法
CN110135551A (zh) * 2019-05-15 2019-08-16 西南交通大学 一种基于词向量和循环神经网络的机器人聊天方法
CN110209898A (zh) * 2019-05-31 2019-09-06 苏州狗尾草智能科技有限公司 基于人机交互的数据清洗方法、回复方法、装置及介质
CN110491394A (zh) * 2019-09-12 2019-11-22 北京百度网讯科技有限公司 唤醒语料的获取方法和装置
CN110491394B (zh) * 2019-09-12 2022-06-17 北京百度网讯科技有限公司 唤醒语料的获取方法和装置
CN111258968A (zh) * 2019-12-30 2020-06-09 广州博士信息技术研究院有限公司 企业冗余数据清理方法、装置及大数据平台
CN111258968B (zh) * 2019-12-30 2020-09-11 广州博士信息技术研究院有限公司 企业冗余数据清理方法、装置及大数据平台
CN112733928A (zh) * 2021-01-06 2021-04-30 安徽易测评信息技术有限公司 一种基于文明城市测评项目对测评标准进行标准化拆分匹配的智能算法
CN112733928B (zh) * 2021-01-06 2024-04-02 安徽易测评信息技术有限公司 一种基于文明城市测评项目对测评标准进行标准化拆分匹配的智能方法

Also Published As

Publication number Publication date
CN108170853B (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
CN108170853A (zh) 一种聊天语料自清洗方法、装置和用户终端
CN112632385B (zh) 课程推荐方法、装置、计算机设备及介质
CN106779087B (zh) 一种通用机器学习数据分析平台
Rosero-Montalvo et al. Sign language recognition based on intelligent glove using machine learning techniques
KR102288249B1 (ko) 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체
CN109214002A (zh) 一种文本对比方法、装置及其计算机存储介质
CN106445919A (zh) 一种情感分类方法及装置
CN113590776B (zh) 基于知识图谱的文本处理方法、装置、电子设备及介质
CN109299258A (zh) 一种舆情事件检测方法、装置及设备
CN106874292A (zh) 话题处理方法及装置
CN111898374B (zh) 文本识别方法、装置、存储介质和电子设备
CN107153640A (zh) 一种面向初等数学领域的分词方法
CN107679110A (zh) 结合文本分类与图片属性提取完善知识图谱的方法及装置
CN110032647A (zh) 基于工业领域构建知识图谱的方法、装置及存储介质
Liang et al. Image feature selection using genetic programming for figure-ground segmentation
Zubiaga et al. Content-based clustering for tag cloud visualization
CN105787662A (zh) 基于属性的移动应用软件性能预测方法
CN109918641A (zh) 文章主题成分分解方法、装置、设备和存储介质
CN109583208A (zh) 基于移动应用评论数据的恶意软件识别方法和系统
CN109284376A (zh) 基于领域自适应的跨领域新闻数据情感分析方法
CN112347150B (zh) 一种学者学术标签标注方法、装置和电子设备
CN105893363A (zh) 一种获取知识点的相关知识点的方法及系统
CN113643283A (zh) 一种人体衰老状况的检测方法、装置、设备及存储介质
CN108268560A (zh) 一种文本分类方法及装置
CN106446198A (zh) 基于人工智能的新闻推荐方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant