CN111553171B - 语料处理方法、装置及存储介质 - Google Patents

语料处理方法、装置及存储介质 Download PDF

Info

Publication number
CN111553171B
CN111553171B CN202010274262.2A CN202010274262A CN111553171B CN 111553171 B CN111553171 B CN 111553171B CN 202010274262 A CN202010274262 A CN 202010274262A CN 111553171 B CN111553171 B CN 111553171B
Authority
CN
China
Prior art keywords
emotion
corpus
recognition model
training
negative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010274262.2A
Other languages
English (en)
Other versions
CN111553171A (zh
Inventor
崔志
肖克聪
赵群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Pinecone Electronic Co Ltd
Original Assignee
Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Pinecone Electronic Co Ltd filed Critical Beijing Xiaomi Pinecone Electronic Co Ltd
Priority to CN202010274262.2A priority Critical patent/CN111553171B/zh
Publication of CN111553171A publication Critical patent/CN111553171A/zh
Priority to US17/028,431 priority patent/US11475069B2/en
Priority to EP20217436.3A priority patent/EP3893143A1/en
Application granted granted Critical
Publication of CN111553171B publication Critical patent/CN111553171B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/02User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开是关于一种语料处理方法、装置及存储介质。语料处理方法包括:获取用户输入的信息;根据所述信息,从多个候选语料中检索与所述信息匹配的回复信息,所述多个候选语料为清除负面情感语料后得到的候选语料;发送与所述信息匹配的回复信息。通过本公开,使得开放域聊天机器人可根据用户输入的信息,输出正面、积极的回复信息,提升开放域聊天机器人与用户交流的紧密度,提升用户体验。

Description

语料处理方法、装置及存储介质
技术领域
本公开涉及人工智能领域,尤其涉及语料处理方法、装置及存储介质。
背景技术
人工智能(Artificial Intelligence,AI)是目前研究和开发用于模拟、延伸以及扩展人类智能的一门新兴科学技术。其中,AI的主要研究目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作,比如时下出现的聊天机器人便是对AI技术的一个实际应用。
目前,针对开放域对话系统,开放域聊天机器人已成为重要的人机交互产品,但是在开放域对话中,开放域聊天机器人需要利用大量的候选语料用于回复。同时,如果开放域聊天机器人回复一些负面情感的回复,如抑郁、愤怒等情绪,会对用户造成严重的困扰,更有甚者会导致用户也染上同样的负面情绪。
故,如何提高开放域聊天机器人候选语料的质量,以树立正面、积极的开放域聊天机器人成为了时下本领域技术人员亟待解决的一个技术问题。
发明内容
为克服相关技术中存在的问题,本公开提供一种语料处理方法、装置及存储介质。根据本公开实施例的第一方面,提供一种语料处理方法,语料处理方法包括:获取用户输入的信息;根据信息,从多个候选语料中检索与信息匹配的回复信息,多个候选语料为清除负面情感语料后得到的候选语料;发送与信息匹配的回复信息。
在一示例中,语料处理方法还包括:获取候选语料集;调用情感识别模型,情感识别模型根据输入的语料,输出语料的情感分数;将候选语料集中的候选语料输入情感识别模型,并依据情感识别模型的输出,以及预设的负面情感分数阈值,确定候选语料集中包含的负面情感候选语料;清除负面情感候选语料,得到多个候选语料。
在一示例中,语料处理方法还包括:获取训练集,训练集中包括多个负面情感训练语料,和多个正面情感训练语料;将多个负面情感训练语料和多个正面情感训练语料输入情感识别模型,通过情感识别模型输出训练语料的情感分数;基于训练语料的情感分数以及损失函数调整情感识别模型的参数,得到满足损失值的情感识别模型。
在一示例中,语料处理方法还包括:获取验证集,验证集中包括多个负面情感验证语料,和多个正面情感验证语料;将多个负面情感验证语料和多个正面情感验证语料输入训练好的情感识别模型,通过训练好的情感识别模型输出验证语料的情感分数;根据输出的验证语料的情感分数,确定负面情感分数阈值。
在一示例中,语料处理方法还包括:以预设的时间间隔为单位,获取更新后的候选语料集,依据情感识别模型的输出,确定更新后的候选语料集中包含的负面情感候选语料,并清除更新后的候选语料集中包含的负面情感候选语料。
根据本公开实施例的第二方面,提供一种语料处理装置,语料处理装置包括:获取单元,被配置为获取用户输入的信息;匹配单元,被配置为根据信息,从多个候选语料中检索与信息匹配的回复信息,多个候选语料为清除负面情感语料后得到的候选语料;发送单元,被配置为发送与信息匹配的回复信息。
在一示例中,语料处理装置还包括:处理单元,被配置为通过如下方式清除负面情感语料,得到多个候选语料:获取候选语料集;调用情感识别模型,情感识别模型根据输入的语料,输出语料的情感分数;将候选语料集中的候选语料输入情感识别模型,并依据情感识别模型的输出,以及预设的负面情感分数阈值,确定候选语料集中包含的负面情感候选语料;清除负面情感候选语料,得到多个候选语料。
在一示例中,语料处理装置还包括:训练单元,被配置为通过如下方式训练情感识别模型:获取训练集,训练集中包括多个负面情感训练语料,和多个正面情感训练语料;将多个负面情感训练语料和多个正面情感训练语料输入情感识别模型,通过情感识别模型输出训练语料的情感分数;基于训练语料的情感分数以及损失函数调整情感识别模型的参数,得到满足损失值的情感识别模型。
在一示例中,语料处理装置还包括:验证单元,被配置为获取验证集,验证集中包括多个负面情感验证语料,和多个正面情感验证语料;将多个负面情感验证语料和多个正面情感验证语料输入训练好的情感识别模型,通过训练好的情感识别模型输出验证语料的情感分数;根据输出的验证语料的情感分数,确定负面情感分数阈值。
在一示例中,语料处理装置还包括:处理单元,被配置为以预设的时间间隔为单位,获取更新后的候选语料集,依据情感识别模型的输出,确定更新后的候选语料集中包含的负面情感候选语料,并清除更新后的候选语料集中包含的负面情感候选语料。
根据本公开的第三方面,提供了一种语料处理装置,语料处理装置包括:存储器,配置用于存储指令。以及处理器,配置用于调用指令执行前述第一方面或者第一方面中任意一示例中的语料处理方法。
根据本公开的第四方面,提供了一种非临时性计算机可读存储介质,非临时性计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在由处理器执行时,执行前述第一方面或者第一方面中任意一示例中的语料处理方法。
本公开的实施例提供的技术方案可以包括以下有益效果:针对开放域聊天机器人,通过对开放域聊天机器人中的负面候选语料执行清除操作,使得开放域聊天机器人可根据用户输入的信息,输出正面、积极的回复信息,提升开放域聊天机器人与用户交流的紧密度,提升用户体验。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种语料处理方法的流程图。
图2是根据一示例性实施例示出的一种训练情感识别模型的流程图。
图3是根据一示例性实施例示出的一种语料处理装置的框图。
图4是根据一示例性实施例示出的一种装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开的示例性实施例可应用于针对开放域对话系统中,需要对用户输入的信息回复的场景。在该场景下,开放域对话系统例如可以包括用户终端和人机对话系统。其中,用户终端包括但不限于:智能手机、平板电脑、笔记本电脑、台式电脑、电子书阅读器等固定式或移动式电子设备,人机对话系统为服务器,比如具体形式可为开放域聊天机器人。用户通过在持有的终端上进行对话输入,发起向开放域聊天机器人的对话。而开放域聊天机器人在接收到用户发起的对话后,在候选语料中检索出与发起的对话相匹配的最佳回复内容,并反馈给用户。
图1是根据一示例性实施例示出的一种语料处理方法的流程图,如图1所示,语料处理方法,应用于开放域聊天机器人,包括以下步骤。
在步骤S11中,获取用户输入的信息。
本公开中,用户可基于终端中安装的用于进行人机对话的应用,与开放域聊天机器人进行对话。本公开中,获取的用户输入的信息可以是文字信息,也可以是语音信息。
在步骤S12中,根据用户输入的信息,从多个候选语料中检索与信息匹配的回复信息,多个候选语料为清除负面情感语料后得到的候选语料。
由于开放域对话中,用户可以发起的对话可以涉及多个领域或多个场景,而不是局限于某个特定的领域或场景的对话。例如,用户发起的对话可以涉及家庭陪护、儿童、医疗、教育、政务机关、银行、酒店、餐饮、旅游景区等众多领域。故,在开放域聊天机器人中,会包括巨量的候选语料,且巨量的候选语料中会存在大量的表征负面情绪的语料。例如语料中包括自杀、抑郁、愤怒等负面情绪语料。若使用负面情绪语料回复用户,会对用户造成严重的困扰,甚至会影响用户的情绪。故本公开中,利用开放域聊天机器人中的候选语料回复用户之前,对多个候选语料进行负面情感语料的筛查,并对筛出的负面情感语料进行清除。
本公开中,例如可通过如下方式清除负面情感语料,得到多个候选语料:
获取候选语料集,调用情感识别模型,情感识别模型根据输入的语料,输出语料的情感分数。将候选语料集中的候选语料输入情感识别模型,并依据情感识别模型的输出,以及预设的负面情感分数阈值,确定候选语料集中包含的负面情感候选语料。清除负面情感候选语料,得到多个候选语料。
其中,负面情感分数阈值可以是表征负面情感分数范围的值。例如候选语料输入情感识别模型后,由情感识别模型输出候选语料的情感分数为0.2分,预设的负面情感分数阈值为0.3分,表明候选语料为负面情感候选语料,对负面情感候选语料执行清除操作。
另外,随着开放域聊天机器人的运行,以及逐渐新增的候选语料,可对开放域聊天机器人中的更新后的候选语料进行负面情感识别,以及对识别到的负面情感语料执行清除操作。
例如,可以以预设的时间间隔为单位,获取更新后的候选语料集,依据情感识别模型的输出,确定更新后的候选语料集中包含的负面情感候选语料,并清除更新后的候选语料集中包含的负面情感候选语料。
在步骤S13中,发送与信息匹配的回复信息。
在本公开的示例性实施例中,针对开放域聊天机器人,通过对开放域聊天机器人中的负面候选语料执行清除操作,使得开放域聊天机器人可根据用户输入的信息,输出正面、积极的回复信息,提升开放域聊天机器人与用户交流的紧密度,提升用户体验。
本公开中,利用情感识别模型和预设的负面情感分数阈值得到负面情感语料之前,还可以包括预先训练情感识别模型。
图2是根据一示例性实施例示出的训练情感识别模型的流程图,如图2所示,训练情感识别模型,包括以下步骤。
在步骤S21中,获取训练集,训练集中包括多个负面情感训练语料,和多个正面情感训练语料。
其中,负面情感训练语料例如可包括“我想自杀”“我想跳楼”“我气得要死”等偏负面情感的训练语料。正面情感训练语料例如可包括“我很快乐”“我很开心”“我很幸福”等偏正面情感的训练语料。
本公开可对偏负面情感的训练语料和偏正面情感的训练语料分别进行标记,例如对偏负面情感训练语料标记为D-,分数记为0,对偏正面情感训练语料标记为D+,分数记为1。
在步骤S22中,将多个负面情感训练语料和多个正面情感训练语料输入情感识别模型,通过情感识别模型输出训练语料的情感分数。
本公开中,情感识别模型例如可以是利用卷积神经网络(Convolutional NeuralNetworks,CNN),递归神经网络(Recurrent Neural Network,RNN),或Bert模型训练得到。
本公开中,将包括多个负面情感训练语料,和多个正面情感训练语料输入情感识别模型,通过情感识别模型输出训练语料的情感分数。
在步骤S23中,基于训练语料的情感分数以及损失函数调整情感识别模型的参数,得到满足损失值的情感识别模型。
目前,针对语料中负面情感语料主要是通过人工标注的方式进行识别,识别效率低下。尤其针对开放域聊天机器人,面对海量级别的语料,通过人工标注的方式识别语料中的负面情感语料将不可实现。
故,本公开为了提升识别负面情感语料的效率,以及节省人力成本,可通过情感识别模型识别负面情感语料,进而提升识别负面情感语料的效率,以及节省人力成本。
本公开中,将包括多个负面情感训练语料,和多个正面情感训练语料输入情感识别模型,通过感识别模型得到训练语料的情感预测分数。如果情感识别模型给出的分数越趋近于1则代表语料为正面情感训练语料,如果情感识别模型给出的分数趋近趋近于0则代表语料为负面情感训练语料。根据损失函数计算预测分数与训练语料对应的标识之间的误差,调整入情感识别模型的参数,直到通过损失函数计算出的误差低于预设的阈值,得到满足损失值的情感识别模型。
其中,损失函数可以是分类损失函数,例如交叉熵损失函数。
另外,为了保证负面情感语料识别的覆盖率与准确率,本公开在得到训练好的情感识别模型之后,可基于训练好的情感识别模型验证语料中的负面情感语料。
验证语料中的负面情感语料,例如可采用如下方式进行:
获取验证集,验证集中包括多个负面情感验证语料,和多个正面情感验证语料。
将多个负面情感验证语料和多个正面情感验证语料输入训练好的情感识别模型,通过训练好的情感识别模型输出验证语料的情感分数,根据输出的覆盖所有负面情感验证语料的情感分数,确定为负面情感分数阈值。
在本公开的示例性实施例中,通过训练得到情感识别模型,基于训练得到的情感识别模型对候选语料中包括的负面情感语料进行识别,进而根据识别得到的结果,对候选语料中包括的负面情感语料进行清除,保证开放域聊天机器人输出积极、正面的回复信息,提升开放域聊天机器人与用户交流的紧密度,并且利用情感识别模型识别语料中的负面情感语料,提升识别效率。
基于相同的发明构思,本公开还提供一种语料处理装置。
可以理解的是,本公开实施例提供的应用控制装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。结合本公开实施例中所公开的各示例的单元及算法步骤,本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能,但是这种实现不应认为超出本公开实施例的技术方案的范围。
图3是根据一示例性实施例示出的一种语料处理装置框图。参照图3,语料处理装置包括获取单元101、匹配单元102和发送单元103。
其中,获取单元101,被配置为获取用户输入的信息;匹配单元102,被配置为根据信息,从多个候选语料中检索与信息匹配的回复信息,多个候选语料为清除负面情感语料后得到的候选语料;发送单元103,被配置为发送与信息匹配的回复信息。
在一示例中,语料处理装置还包括:处理单元104,被配置为通过如下方式清除负面情感语料,得到多个候选语料:获取候选语料集;调用情感识别模型,情感识别模型根据输入的语料,输出语料的情感分数;将候选语料集中的候选语料输入情感识别模型,并依据情感识别模型的输出,以及预设的负面情感分数阈值,确定候选语料集中包含的负面情感候选语料;清除负面情感候选语料,得到多个候选语料。
在一示例中,语料处理装置还包括:训练单元105,被配置为通过如下方式训练情感识别模型:获取训练集,训练集中包括多个负面情感训练语料,和多个正面情感训练语料;将多个负面情感训练语料和多个正面情感训练语料输入情感识别模型,通过情感识别模型输出训练语料的情感分数;基于训练语料的情感分数以及损失函数调整情感识别模型的参数,得到满足损失值的情感识别模型。
在一示例中,语料处理装置还包括:验证单元106,被配置为获取验证集,验证集中包括多个负面情感验证语料,和多个正面情感验证语料;将多个负面情感验证语料和多个正面情感验证语料输入训练好的情感识别模型,通过训练好的情感识别模型输出验证语料的情感分数;根据输出的验证语料的情感分数,确定负面情感分数阈值。
在一示例中,语料处理装置还包括:处理单元104,被配置为以预设的时间间隔为单位,获取更新后的候选语料集,依据情感识别模型的输出,确定更新后的候选语料集中包含的负面情感候选语料,并清除更新后的候选语料集中包含的负面情感候选语料。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图4是根据一示例性实施例示出的一种用于语料处理的装置400的框图。例如,装置400可以被提供为一服务器。参照图4,装置400包括处理组件422,其进一步包括一个或多个处理器,以及由存储器432所代表的存储器资源,用于存储可由处理组件422的执行的指令,例如应用程序。存储器432中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件422被配置为执行指令,以执行上述语料处理方法。
装置400还可以包括一个电源组件426被配置为执行装置400的电源管理,一个有线或无线网络接口440被配置为将装置400连接到网络,和一个输入输出(I/O)接口448。装置400可以操作基于存储在存储器432的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
进一步可以理解的是,本公开中“多个”是指两个或两个以上,其它量词与之类似。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
进一步可以理解的是,术语“第一”、“第二”等用于描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开,并不表示特定的顺序或者重要程度。实际上,“第一”、“第二”等表述完全可以互换使用。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。
进一步可以理解的是,本公开实施例中尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种语料处理方法,其特征在于,应用于开放域聊天机器人,包括:
获取用户输入的信息;
根据所述信息,从多个候选语料中检索与所述信息匹配的回复信息,所述多个候选语料为清除负面情感语料后得到的候选语料;
发送与所述信息匹配的回复信息;
其中,所述候选语料采用如下方式得到:
获取候选语料集;
调用情感识别模型,所述情感识别模型根据输入的语料,输出语料的情感分数;
将所述候选语料集中的候选语料输入情感识别模型,并依据所述情感识别模型的输出,以及预设的负面情感分数阈值,确定所述候选语料集中包含的负面情感候选语料;
清除所述负面情感候选语料,得到多个候选语料。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取训练集,所述训练集中包括多个负面情感训练语料,和多个正面情感训练语料;
将多个负面情感训练语料和多个正面情感训练语料输入情感识别模型,通过所述情感识别模型输出训练语料的情感分数;
基于训练语料的情感分数以及损失函数调整所述情感识别模型的参数,得到满足损失值的所述情感识别模型。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取验证集,所述验证集中包括多个负面情感验证语料,和多个正面情感验证语料;
将多个负面情感验证语料和多个正面情感验证语料输入训练好的所述情感识别模型,通过训练好的所述情感识别模型输出所述验证语料的情感分数;
根据输出的所述验证语料的情感分数,确定负面情感分数阈值。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
以预设的时间间隔为单位,获取更新后的候选语料集,依据所述情感识别模型的输出,确定所述更新后的候选语料集中包含的负面情感候选语料,并清除所述更新后的候选语料集中包含的负面情感候选语料。
5.一种语料处理装置,其特征在于,包括:
获取单元,被配置为获取用户输入的信息;
匹配单元,被配置为根据所述信息,从多个候选语料中检索与所述信息匹配的回复信息,所述多个候选语料为清除负面情感语料后得到的候选语料;
发送单元,被配置为发送与所述信息匹配的回复信息;
其中,所述候选语料采用如下方式得到:
获取候选语料集;
调用情感识别模型,所述情感识别模型根据输入的语料,输出语料的情感分数;
将所述候选语料集中的候选语料输入情感识别模型,并依据所述情感识别模型的输出,以及预设的负面情感分数阈值,确定所述候选语料集中包含的负面情感候选语料;
清除所述负面情感候选语料,得到多个候选语料。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
训练单元,被配置为通过如下方式训练所述情感识别模型:
获取训练集,所述训练集中包括多个负面情感训练语料,和多个正面情感训练语料;
将多个负面情感训练语料和多个正面情感训练语料输入情感识别模型,通过所述情感识别模型输出训练语料的情感分数;
基于训练语料的情感分数以及损失函数调整所述情感识别模型的参数,得到满足损失值的所述情感识别模型。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
验证单元,被配置为获取验证集,所述验证集中包括多个负面情感验证语料,和多个正面情感验证语料;
将多个负面情感验证语料和多个正面情感验证语料输入训练好的所述情感识别模型,通过训练好的所述情感识别模型输出所述验证语料的情感分数;
根据输出的所述验证语料的情感分数,确定负面情感分数阈值。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
所述处理单元,被配置为以预设的时间间隔为单位,获取更新后的候选语料集,依据所述情感识别模型的输出,确定所述更新后的候选语料集中包含的负面情感候选语料,并清除所述更新后的候选语料集中包含的负面情感候选语料。
9.一种语料处理装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:执行权利要求1-4中任一项所述的语料处理方法。
10.一种非临时性计算机可读存储介质,其特征在于,所述非临时性计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在由处理器执行时,执行权利要求1-4中任意一项所述的语料处理方法。
CN202010274262.2A 2020-04-09 2020-04-09 语料处理方法、装置及存储介质 Active CN111553171B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010274262.2A CN111553171B (zh) 2020-04-09 2020-04-09 语料处理方法、装置及存储介质
US17/028,431 US11475069B2 (en) 2020-04-09 2020-09-22 Corpus processing method, apparatus and storage medium
EP20217436.3A EP3893143A1 (en) 2020-04-09 2020-12-28 Corpus processing method, apparatus and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010274262.2A CN111553171B (zh) 2020-04-09 2020-04-09 语料处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN111553171A CN111553171A (zh) 2020-08-18
CN111553171B true CN111553171B (zh) 2024-02-06

Family

ID=71998403

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010274262.2A Active CN111553171B (zh) 2020-04-09 2020-04-09 语料处理方法、装置及存储介质

Country Status (3)

Country Link
US (1) US11475069B2 (zh)
EP (1) EP3893143A1 (zh)
CN (1) CN111553171B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230335256A1 (en) * 2022-02-04 2023-10-19 Chanda L. Spates Support on-demand services (s.o.s) collaboration hub mobile application and collaborative (community-wide) behavior interventions delivery model

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562863A (zh) * 2017-08-30 2018-01-09 深圳狗尾草智能科技有限公司 聊天机器人回复自动生成方法及系统
CN107943894A (zh) * 2017-11-16 2018-04-20 百度在线网络技术(北京)有限公司 用于推送多媒体内容的方法和装置
CN108109622A (zh) * 2017-12-28 2018-06-01 武汉蛋玩科技有限公司 一种早教机器人语音互动教育系统及方法
CN108121799A (zh) * 2017-12-21 2018-06-05 广东欧珀移动通信有限公司 回复语句的推荐方法、装置、存储介质及移动终端
CN109714248A (zh) * 2018-12-26 2019-05-03 联想(北京)有限公司 一种数据处理方法及装置
CN109977201A (zh) * 2019-01-28 2019-07-05 平安科技(深圳)有限公司 带情感的机器聊天方法、装置、计算机设备及存储介质
CN110019708A (zh) * 2017-11-15 2019-07-16 上海挖数互联网科技有限公司 聊天机器人的语料生成方法及装置、存储介质、服务器
CN110427519A (zh) * 2019-07-31 2019-11-08 腾讯科技(深圳)有限公司 视频的处理方法及装置
WO2019227505A1 (en) * 2018-06-02 2019-12-05 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for training and using chatbot
CN110795944A (zh) * 2019-10-11 2020-02-14 腾讯科技(深圳)有限公司 推荐内容处理方法及装置、情感属性确定方法及装置
CN110827797A (zh) * 2019-11-06 2020-02-21 北京沃东天骏信息技术有限公司 语音应答事件分类处理方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9432325B2 (en) * 2013-04-08 2016-08-30 Avaya Inc. Automatic negative question handling
US10152534B2 (en) * 2015-07-02 2018-12-11 International Business Machines Corporation Monitoring a corpus for changes to previously provided answers to questions
US10530714B2 (en) * 2016-02-29 2020-01-07 Oracle International Corporation Conditional automatic social posts
US10546586B2 (en) * 2016-09-07 2020-01-28 International Business Machines Corporation Conversation path rerouting in a dialog system based on user sentiment
US20190318283A1 (en) * 2018-04-12 2019-10-17 Crosswind Communications System and method for adaptively executing user routines based on user interactions

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562863A (zh) * 2017-08-30 2018-01-09 深圳狗尾草智能科技有限公司 聊天机器人回复自动生成方法及系统
CN110019708A (zh) * 2017-11-15 2019-07-16 上海挖数互联网科技有限公司 聊天机器人的语料生成方法及装置、存储介质、服务器
CN107943894A (zh) * 2017-11-16 2018-04-20 百度在线网络技术(北京)有限公司 用于推送多媒体内容的方法和装置
CN108121799A (zh) * 2017-12-21 2018-06-05 广东欧珀移动通信有限公司 回复语句的推荐方法、装置、存储介质及移动终端
CN108109622A (zh) * 2017-12-28 2018-06-01 武汉蛋玩科技有限公司 一种早教机器人语音互动教育系统及方法
WO2019227505A1 (en) * 2018-06-02 2019-12-05 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for training and using chatbot
CN109714248A (zh) * 2018-12-26 2019-05-03 联想(北京)有限公司 一种数据处理方法及装置
CN109977201A (zh) * 2019-01-28 2019-07-05 平安科技(深圳)有限公司 带情感的机器聊天方法、装置、计算机设备及存储介质
CN110427519A (zh) * 2019-07-31 2019-11-08 腾讯科技(深圳)有限公司 视频的处理方法及装置
CN110795944A (zh) * 2019-10-11 2020-02-14 腾讯科技(深圳)有限公司 推荐内容处理方法及装置、情感属性确定方法及装置
CN110827797A (zh) * 2019-11-06 2020-02-21 北京沃东天骏信息技术有限公司 语音应答事件分类处理方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于双层注意力和Bi-LSTM的公共安全事件微博情感分析;曾子明;万品玉;;情报科学(06);全文 *
面向舆情的社交媒体文本倾向性分析;朱岩;刘扬;李丹丹;时鹏;;信息安全研究(09);全文 *

Also Published As

Publication number Publication date
EP3893143A1 (en) 2021-10-13
CN111553171A (zh) 2020-08-18
US20210319069A1 (en) 2021-10-14
US11475069B2 (en) 2022-10-18

Similar Documents

Publication Publication Date Title
KR101925440B1 (ko) 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 방법
CN111930940B (zh) 一种文本情感分类方法、装置、电子设备及存储介质
CN107908803B (zh) 问答交互的响应方法及装置、存储介质、终端
CN110347863B (zh) 话术推荐方法和装置及存储介质
CN111967224A (zh) 对话文本的处理方法、装置、电子设备及存储介质
WO2020155619A1 (zh) 带情感的机器聊天方法、装置、计算机设备及存储介质
CN110019838B (zh) 智能问答系统及智能终端
CN110321409B (zh) 基于人工智能的辅助面试方法、装置、设备及存储介质
CN110019729B (zh) 智能问答方法及存储介质、终端
CN115309877A (zh) 对话生成方法、对话模型训练方法及装置
CN113840040B (zh) 一种人机协作的外呼方法、装置、设备及存储介质
CN111611365A (zh) 一种对话系统的流程控制方法、装置、设备及存储介质
CN116797695A (zh) 一种数字人与虚拟白板的交互方法、系统及存储介质
CN116821290A (zh) 面向多任务对话的大语言模型训练方法和交互方法
CN106708950B (zh) 用于智能机器人自学习系统的数据处理方法及装置
CN111553171B (zh) 语料处理方法、装置及存储介质
CN113763925B (zh) 语音识别方法、装置、计算机设备及存储介质
CN113630309B (zh) 机器人会话系统、方法、装置、计算机设备和存储介质
CN112035648B (zh) 一种用户数据的处理方法、装置及电子设备
WO2023040545A1 (zh) 一种数据处理方法、装置、设备、存储介质和程序产品
CN113643706B (zh) 语音识别方法、装置、电子设备及存储介质
CN114490967A (zh) 对话模型的训练方法、对话机器人的对话方法、装置和电子设备
CN113763929A (zh) 一种语音评测方法、装置、电子设备和存储介质
CN112818084A (zh) 信息交互方法、相关装置、设备及计算机可读介质
CN113096649B (zh) 语音预测方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant