CN111522914A - 标注数据采集方法、装置、电子设备及存储介质 - Google Patents

标注数据采集方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111522914A
CN111522914A CN202010309747.0A CN202010309747A CN111522914A CN 111522914 A CN111522914 A CN 111522914A CN 202010309747 A CN202010309747 A CN 202010309747A CN 111522914 A CN111522914 A CN 111522914A
Authority
CN
China
Prior art keywords
data
question
input
output
output data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010309747.0A
Other languages
English (en)
Other versions
CN111522914B (zh
Inventor
景少玲
赵东岩
谢海华
邓昆鹏
陈志优
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Pku Founder Information Industry Group Co ltd
Peking University
Peking University Founder Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pku Founder Information Industry Group Co ltd, Peking University, Peking University Founder Group Co Ltd filed Critical Pku Founder Information Industry Group Co ltd
Priority to CN202010309747.0A priority Critical patent/CN111522914B/zh
Publication of CN111522914A publication Critical patent/CN111522914A/zh
Application granted granted Critical
Publication of CN111522914B publication Critical patent/CN111522914B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Abstract

本发明提供了一种标注数据采集方法、装置、电子设备及存储介质,通过获取第一输入数据,其中,第一输入数据用于表征待标注数据中的至少一个属性,再利用预设问答算法,并根据第一输入数据以及待标注数据生成第一输出数据,建立待标注数据与问答逻辑的主导因素之间的关联,以利用第一输出数据来体现问答逻辑的起始点,预设问答算法根据问答逻辑的起始点推导问答逻辑的结果即第一输出数据,再利用相似度等指标评判此推导结果,通过交互问答给予问答逻辑的中间关键信息和问答逻辑的可靠结果,实现了把问答逻辑全过程进行了标注采集,以此对智能算法模型进行优化训练,进一步达到了使智能算法模型实现性能优化的目标。

Description

标注数据采集方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机数据处理领域,尤其涉及一种标注数据采集方法、装置、电子设备及存储介质。
背景技术
随着计算机技术的发展,自然语言处理技术在智能机器人领域应用越来越广泛。
其中,自然语言处理技术的核心是智能算法模型,其对用户输入的自然语言处理后形成对应的输出,但是随着用户体验需求的多样化和时变性,智能算法模型也面临着更新和优化以及个性化定制等等的优化任务,而对智能算法模型的优化训练离不开研发人员对自然语言数据进行标注采集处理。目前,对于自然语言数据的标注处理主要分为三类:人工标注、半自动标注以及根据自然语言处理模型自动标注。而在上述的三类标注处理方式中,用户均是通过将标注的最后答案逐个输入并提交至自然语言数据采集平台,以完成标注数据的采集。
但是,通过上述采集的方式所采集的标注数据无法为智能算法模型提供人类思考过程中产生的相关数据,进而满足智能算法模型的多样化和时变性的需求。
发明内容
本发明提供一种标注数据采集方法、装置、电子设备及存储介质,用以解决现有技术不能为自然语言处理算法优化训练提供人类思考过程中产生的相关数据的技术问题。
第一方面,本发明提供一种标注数据采集方法,包括:
获取第一输入数据,所述第一输入数据用于表征待标注数据中的至少一个属性;
利用预设问答算法,并根据所述第一输入数据以及所述待标注数据生成第一输出数据;
将标注数据存储至预设数据库,所述标注数据包括所述第一输入数据、所述待标注数据以及所述第一输出数据,所述预设数据库用于作为自然语言处理算法模型的训练数据库。
在一些可能的设计中,在所述利用预设问答算法,并根据所述第一输入数据以及所述待标注数据生成第一输出数据之后,还包括:
反馈所述第一输出数据;
获取第一变更数据,所述第一变更数据为所述第一输出数据的更新数据,所述标注数据还包括所述第一变更数据。
在一些可能的设计中,在所述获取第一变更数据之前,还包括:
获取选择指令,所述选择指令用于确定所述输出数据的有效性;
若所述第一输出数据为无效数据,则获取输入关键词,所述第一变更数据为基于所述输入关键词生成的;
若所述第一输出数据为有效数据,则获取基于所述第一输出数据的修改数据,所述第一变更数据包括所述修改数据。
在一些可能的设计中,在所述获取第一变更数据之后,还包括:
计算所述第一变更数据与所述第一输出数据的第一相似度;
输出所述第一相似度,并获取基于所述第一相似度所反馈的第一有效性标识,所述标注数据还包括所述第一相似度以及所述第一有效性标识。
在一些可能的设计中,在所述获取输入关键词之后,还包括:
确定所述待标注数据中与所述输入关键词满足预设相似度的拟参考片段集合;
反馈所述拟参考片段集合;
获取片段选择指令,所述片段选择指令用于从所述拟参考片段集合中确定参考片段集合,所述第一变更数据为基于所述参考片段集合生成的。
在一些可能的设计中,在所述获取输入关键词之后,还包括:
利用所述预设问答算法,并根据所述输入关键词、所述第一输入数据以及所述待标注数据生成第二输出数据;
反馈所述第二输出数据;
获取第二变更数据,所述第二变更数据为所述第二输出数据的更新数据,所述标注数据还包括所述第二变更数据。
在一些可能的设计中,在所述获取输入关键词之后,还包括:
计算所述输入关键词与输出关键词的第二相似度,所述输出关键词为所述第一输出数据的关键词;
输出所述第二相似度,并获取基于所述第二相似度所反馈的第二有效性标识,所述标注数据还包括所述第二相似度以及所述第二有效性标识。
第二方面,本发明提供一种标注数据采集装置,包括:
获取模块,用于获取第一输入数据,所述第一输入数据用于表征待标注数据中的至少一个属性;
处理模块,用于利用预设问答算法,并根据所述第一输入数据以及所述待标注数据生成第一输出数据;
存储模块,用于将标注数据存储至预设数据库,所述标注数据包括所述第一输入数据、所述待标注数据以及所述第一输出数据,所述预设数据库用于作为自然语言处理算法模型的训练数据库。
在一些可能的设计中,所述标注数据采集装置,还包括:
输出模块,用于反馈所述第一输出数据;
所述获取模块,还用于获取第一变更数据,所述第一变更数据为所述第一输出数据的更新数据,所述标注数据还包括所述第一变更数据。
在一些可能的设计中,所述获取模块,还用于获取选择指令,所述选择指令用于确定所述输出数据的有效性;
所述获取模块,还用于获取输入关键词,所述第一变更数据为基于所述输入关键词生成的;
所述获取模块,还用于获取基于所述第一输出数据的修改数据,所述第一变更数据包括所述修改数据。
在一些可能的设计中,所述处理模块,还用于计算所述第一变更数据与所述第一输出数据的第一相似度;
所述输出模块,还用于输出所述第一相似度;
所述获取模块,还用于获取基于所述第一相似度所反馈的第一有效性标识,所述标注数据还包括所述第一相似度以及所述第一有效性标识。
在一些可能的设计中,所述处理模块,还用于确定所述待标注数据中与所述输入关键词满足预设相似度的拟参考片段集合;
所述输出模块,还用于反馈所述拟参考片段集合;
所述获取模块,还用于获取片段选择指令,所述片段选择指令用于从所述拟参考片段集合中确定参考片段集合,所述第一变更数据为基于所述参考片段集合生成的。
在一些可能的设计中,所述处理模块,还用于利用所述预设问答算法,并根据所述输入关键词、所述第一输入数据以及所述待标注数据生成第二输出数据;
所述输出模块,还用于反馈所述第二输出数据;
所述获取模块,获取第二变更数据,所述第二变更数据为所述第二输出数据的更新数据,所述标注数据还包括所述第二变更数据。
在一些可能的设计中,所述处理模块,还用于计算所述输入关键词与输出关键词的第二相似度,所述输出关键词为所述第一输出数据的关键词;输出所述第二相似度;
所述获取模块,还用于获取基于所述第二相似度所反馈的第二有效性标识,所述标注数据还包括所述第二相似度以及所述第二有效性标识。
第三方面,本发明还提供一种电子设备,包括:
处理器;以及,
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行第一方面中所提供的任意一种可能的标注数据采集方法。
第四方面,本发明提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中所提供的任意一种可能的标注数据采集方法。
本发明提供了一种标注数据采集方法、装置、电子设备及存储介质,通过获取第一输入数据,其中,第一输入数据用于表征待标注数据中的至少一个属性,再利用预设问答算法,并根据第一输入数据以及待标注数据生成第一输出数据,建立待标注数据与问答逻辑的主导因素之间的关联,以利用第一输出数据来体现问答逻辑的起始点,预设问答算法根据问答逻辑的起始点推导问答逻辑的结果即第一输出数据,再利用相似度等指标评判此推导结果,通过交互问答给予问答逻辑的中间关键信息和问答逻辑的可靠结果,实现了把问答逻辑全过程进行了标注采集,以此对智能算法模型进行优化训练,进一步达到了使智能算法模型实现性能优化的目标。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的用户与数据采集设备交互场景示意图;
图2为本发明实施例提供的标注数据采集方法的流程图;
图3a-3b为本发明实施例提供的待标注数据和获取输入数据的显示界面示意图;
图4为本发明另一实施例提供的标注数据采集方法的流程图;
图5为本发明实施例提供的标注数据采集装置的结构示意图;
图6为本发明实施例提供的电子设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
随着计算机技术的发展,特别是在著名的AI机器人AlphaGo的崛起后,人工智能机器人开始逐渐成为市场的主流和趋势,很多电器终端开始引入了智能AI机器人,例如苹果的Siri,百度的小度,小米的小爱同学,华为荣耀的YOYO等等,这些人工智能机器人主要分为语音助手类和聊天类。前者主要功能是为用户提供有用信息,而后者旨在与用户闲聊。无论哪类机器人都涉及自然语言处理技术。自然语言处理技术是指,对用户输入的自然语言进行处理,使得机器人能够理解所述自然语言。自然语言处理的核心是AI智能算法模型,其对用户输入的自然语言处理后形成对应的输出,但是随着用户体验需求的多样化和时变性,AI智能算法模型也面临着更新和优化以及个性化定制等等的优化任务,而对AI智能算法模型的优化训练离不开研发人员对自然语言数据进行标注采集处理。
目前现有技术对于自然语言数据的标注处理主要分为三类,一是人工标注,二是半自动标注,三是根据自然语言处理模型自动标注。人工标注的工作量大,半自动标注与自动标注虽然在一定程度上减轻了人的工作量,但是其标注的准确度往往不能满足算法模型多样化和时变性的需求,仍然需要研发人员或用户投入大量工作用于纠错和修改。目前已有的自然语言数据采集平台中,用户大多都是完全依赖自己的思考,然后仅将最后答案一一输入并提交,由此产生的数据虽然可以用来进行自然语言处理相关算法模型的研究,但却不能为AI智能算法模型提供人类思考过程即问答逻辑中产生的相关数据,并且现有技术仍然难以真正模拟出人的思维过程,特别是当对不同用户群体甚至不同用户个体时,难以用一个统一的模型来模拟每个用户的思维过程或称为个性化问答逻辑。
基于对模拟问答逻辑这一切入点,本发明通过获取第一输入数据,其中,第一输入数据用于表征待标注数据中的至少一个属性,再利用预设问答算法,并根据第一输入数据以及待标注数据生成第一输出数据,建立待标注数据与问答逻辑的主导因素之间的关联,以利用第一输出数据来体现问答逻辑的起始点,预设问答算法根据问答逻辑的起始点推导问答逻辑的结果即第一输出数据,再利用相似度等指标评判此推导结果,通过交互问答给予问答逻辑的中间关键信息和问答逻辑的可靠结果,实现了把问答逻辑全过程进行了标注采集,以此对智能算法模型进行优化训练,进一步达到了使智能算法模型实现多样性,时变性,灵活性,个性化定制等方面的提高。
而且本发明运用多轮对话问答、多种问答方式交错结合记录每一轮问答过程中所有的相关数据,通过采集不同个性化问答逻辑的关键数据线索,形成算法模型优化引导数据,为自然语言处理算法模型提供针对不同个性化问答逻辑的中间参数,为对算法模型进行多样化和时变性优化提供了重要参考数据。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图1为本发明实施例提供的用户与数据采集设备交互场景示意图。如图1所示,本实施例提供的标注数据采集方法所应用的场景可以是用户与数据采集设备之间的交互。具体的,数据采集设备可以为手机,平板电脑,台式电脑,智能电器,智能音箱等,交互内容的载体可以是文字,语音,音乐,图像,视频,实时录像,姿势动作等或者它们之间任意的组合,例如:在手机屏幕上显示一篇文章,用户在浏览后输入一个问题,然后由手机对此问题在文章的范围内给出一个预测的答案,用户再根据这个预测答案进行修改得到最终答案并进行提交。
图1为本发明实施例提供的标注数据采集方法的流程图。如图1所示,本实施例提供的标注数据采集方法,包括:
S101、获取第一输入数据。
本步骤中,第一输入数据用于表征待标注数据中的至少一个属性。
本实施例可以适用在一个对自然语言问答算法的答案生成模型的优化训练数据采集的场景中,对于待标注数据,其来源可以是某个网页的文字内容,或者是数据库中已存储的一篇文章,或者是人工输入的一段文字,或者是与某个主题相关的多段文字内容,或者是某段音乐,或者是某个图片,或者某段视频,针对所述待标注数据,不同的个性化问答逻辑个体可以得到不同的第一输入数据,在本实施例中第一输入数据是一个问题,例如在阅读了一篇关于数码相机发展历史的文章,某个性化问答逻辑个体得到的问题是“目前最新的索尼数码相机型号是什么?”,也可能得到的问题是“数码相机品牌的排名是什么?”个性化问答逻辑个体在接收到了待标注数据之后,待标注数据的某个属性或者某段内容会与其在当前阶段的问答逻辑主导因素发生关联而引起共鸣,进而诱导问答逻辑开始运作,即是问答逻辑的起始点或者动机,而此动机最终通过第一输入数据即在本实施例中可以为对于待标注数据的提问内容,来体现出来问答逻辑的起始点,进而可以用来分析问答逻辑的主导因素,进一步的,不同的个性化问答逻辑个体对于相同的阅读内容会有不同的问答逻辑结果,而此问答逻辑结果是与其生活习惯,消费习惯,生活环境,职业,学历,最近所关注的热门事件等等各种各样的影响因素联系到一起的,从不同的个性化问答逻辑个体所提出的问题,就可以尝试着对其问答逻辑的来源及其需求进行分析,因此,所述第一输入数据就起到了探测不同个性化问答逻辑来源的作用,是智能问答算法优化训练的一个重要依据。
图3a-3b为本发明实施例提供的待标注数据和获取输入数据的显示界面示意图。图3a为本发明实施例待标注数据的一种可能的显示界面示意图,标注数据采集设备在后台数据库中预先存储有若干可以用来启发问答逻辑生成的文章即待标注数据。图3b为本发明实施例一种可能的获取第一输入数据即问题的显示界面示意图,根据界面的提示,引导并得到问答逻辑的起始点数据。
作为一种可能的情况,待标注数据的内容也有可能是空的,第一输入数据可以是不具备任何含义的拟声词,或者是打招呼用语,这种情况可以理解为用户对于处在休眠状态的智能设备的唤醒,或者是某种具有某个功能的用户自定义的预设信号。这就体现出了个性化问答逻辑的多样性和灵活性甚至是时变性的特点,对此一般认为无意义的数据的采集对于某个性化问答逻辑个体来说却是能够提高智能算法的多样性和可定制功能的实现。
S102、利用预设问答算法,并根据第一输入数据以及待标注数据生成第一输出数据。
在本步骤中,预设的问答算法对于个性化问答逻辑所提出的问题即第一输入数据生成一个预测答案即第一输出数据,还是以上述数码相机的例子,对于输入的问题“数码相机品牌的排名”,预设问答算法生成了“索尼,三星,佳能,松下”。此预测答案即第一输出数据是算法模型在未经训练前根据预设的模式来生成的,此预设模式可以是以某个用户群体为样本建立起来的统计学模型,提取了用户群体的共同特性,但是也可能会失去个性化特征,预设模型能够达到满足大部分个性化问答逻辑个体的基础需求的功能,在优化训练中起到的作用是提供改进的基础,与具体个性化问答逻辑个体的真正需求答案形成对比原始资料。
作为一种可能的情况,对于第一输入数据,也可以生成另一个预测的问题,还是以数码相机为例子,若第一输入数据为“佳能多少钱?”,算法模型为进一步确定人的需求,可以生成问题“请问您要知道的是佳能K系列的相机价格吗?”
作为一种可能的情况,预测答案即第一输出数据也可以是图片,或者是音乐,或者是视频,或者是开启某个应用软件APP。
可选的,在预设算法生成预测答案即第一输出数据之后,将预测答案反馈给个性化问答逻辑个体,由其对此预测答案进行变更操作如增删内容,或者做批注,或者涂鸦,或者修正等得到第一变更数据,例如第一输出数据为一段文字时,个性化问答逻辑个体可以对这段文字进行编辑,所述编辑可以是新增内容或者删除内容,如果所述第一输出为一副图画时,可以对此图画进行批注,涂鸦,裁剪,放大,缩小,变形等操作得到对应的第一变更数据。对第一输出数据与个性化问答逻辑个体的设想不一致,通过对第一输出数据进行变更操作,就能够体现出问答逻辑的最终去向,为算法模型提供重要的训练参考数据。显然地,不同的个性化问答逻辑个体或者同一个个性化问答逻辑个体在不同时间或者不同环境时得到的变更数据也不一样,能反映这个其在某段时间内的特殊的需求,所以这个变更数据也是推断个性化问答逻辑一个重要的参考数据。
可选的,在第一输出数据反馈给个性化问答逻辑个体之后,其可以对第一输出数据做出认可第一输出数据有效的评价,如果有效则生成一个数据有效评价标识即第一有效性标识,用数字1来表示,如果无效则用数字0来表示,然后在此有效的第一输出数据的基础上,对此第一输出数据进行修改操作得到一个对个性化问答逻辑个体来说更佳满意的修改数据。对第一输出数据做出有效评价也是个性化问答逻辑的中间过程,并且其联系了问答逻辑的修改的起因,是对预设算法模型生成的第一输出数据的最直接的评价,也是引导训练算法模型的一个重要数据,显然的,不同的个性化问答逻辑个体或者同一个个性化问答逻辑个体在不同时间或者不同环境时得到的有效性评价也是不一样的,并且有效评价结合修改数据能够反映出个性化问答逻辑的来龙去脉,是对智能算法模型进行拟人思维训练,且使得模型具有多样性,个性化定制,时变性等的一个重要参考中间数据。
可选的,在第一输出数据反馈之后,个性化问答逻辑个体可以对第一输出数据做出第一输出数据无效的评价即第一有效性标识为0,然后个性化问答逻辑个体可以输入用于引导算法模型的关键词或者关键词集合,此关键词或者关键词集合是个性化问答逻辑中间过程的一个分步节点,能够联系个性化问答逻辑起点的第一输入数据以及待标注数据,还能够指引个性化问答逻辑的去向脉络,为智能算法模型的优化训练提供重要参考。在输入此关键词或者关键词之后,可选的,可以直接输入个性化问答逻辑个体自认为满意的答案即第一变更数据,为智能算法模型的优化训练提供个性化问答逻辑的逻辑结果。
可选的,在获取第一变更数据之后,还包括:计算所述第一变更数据与所述第一输出数据的第一相似度Psentences,例如可以为如下步骤,对含有n个令牌的第一变更数据和含有m个令牌的第一输出数据进行分词及嵌入处理后,得到其对应的向量Vector。其中,第一变更数据的向量为x=[x1,…,xn];第一输出数据的向量为y=[y1,…,ym]。
然后,将所有向量Vector相加并求平均,即:
Figure BDA0002457204600000101
可以得到句子向量:
Figure BDA0002457204600000102
最后,运用余弦夹角值、欧式距离等方法对句子向量SentenceVector进行相似度计算,得到第一变更数据与所述第一输出数据的第一相似度:
Figure BDA0002457204600000103
输出第一相似度Psentences,并获取基于第一相似度所反馈的第一有效性标识。
可选的,在输入关键词或者关键词集合后,算法模型可以在待标注数据中找到包含所述关键词或者关键词集合的语句或词组生成拟参考片段集合,算法模型也可以对待标注数据进行分词处理,计算关键词或者关键词集合与分词后的语句或词组的相似度,当相似度大于设定的相似度阈值时,将此语句或词组生成拟参考片段集合,然后将拟参考片段集合反馈给个性化问答逻辑个体,由其选择拟参考片段集合中的部分或者全部数据作为参考片段集合,然后个性化问答逻辑个体再根据此参考片段集合进行修改,编辑,从而得到第一变更数据。有益效果:在个性化问答逻辑个体做出无效评价后,显然算法模型已经不能满足其需求,从而引发了个性化问答逻辑个体需要对算法进行引导训练,因此需要输入关键词或者关键词集合来为算法提供人的思维的推断依据,算法模型依据此引导依据去推断个性化问答逻辑个体的意图,计算出个性化问答逻辑的可能脉络网,即拟参考片段集合,之后个性化问答逻辑个体从此集合中把符合其逻辑的片段选出来,帮助算法集合进一步确认推断的方向,最终由个性化问答逻辑个体把参考片段组织成其所满意的第一变更数据,这整个过程的整体通过多轮的互动,记录了个性化问答逻辑的过程,并且对于各个中间数据之间是以个性化问答逻辑为线索联系起来的,为算法模拟个性化问答逻辑提供了重要训练数据。
可选的,在获得关键词或者关键词集合之后,也可以是预设问答算法根据此关键词以待标注数据为基础,结合第一输入数据而生成的第二输出数据,即预设问答算法在待标注数据中,结合自身语义词库,针对第一输入数据所提出的内容或问题,运用关键词或者关键词集合进行语义组合,得到第二输出数据,这个过程实际就是预设算法在关键词的指引下根据设定好的模式再次生成一个输出数据,例如上述数码相机的文章,输入问题是数码相机品牌的排名是什么,输入的关键词是日本品牌,那么第二输出数据是“索尼,佳能”;将此第二输出数据反馈给个性化问答逻辑个体,其再对所述第二输出数据进行修改,编辑等更新操作,得到第二变更数据。
可选的,在获得关键词或者关键词集合之后,也可以计算所述输入关键词与输出关键词的第二相似度Pkeywords。其中,第二相似度的一种可能的计算方法可以按照以下公式进行计算:
Figure BDA0002457204600000111
其中,xi为输入关键词或关键词集合进行分词及嵌入处理后得到的向量,表示为xi=[x1,…,xn],yj为输出关键词进行分词及嵌入处理后得到的向量,表示为yj=[y1,…,ym],vector_similarity(xi,yj)表示相似度向量,具体为对所有的关键词向量进行相加并求平均,然后用余弦夹角值、欧式距离等方法计算得到第二相似度Pkeywords
输出关键词为所述第一输出数据经某种算法进行分词处理后得到的关键词。输出所述第二相似度Pkeywords,将其反馈给人,然后由人对此相似度进行评价,判断其是否有效,得到第二相似度Pkeywords的有效性标识,此有效性标识可用0表示无效,用1标识有效。
S103、将标注数据存储至预设数据库。
在本步骤中,标注数据可以包括第一输入数据、待标注数据,第一输出数据,修改数据,第一变更数据,关键词或关键词集合,拟参考片段集合,参考片段集合,第一有效性标识,第二有效性标识,第一相似度,第二相似度,第二输出数据以及第二变更数据;预设数据库用于作为自然语言处理算法模型的训练数据库。
将问答过程中所有的过程数据都存入了数据库,此训练数据可以对不同的算法模型的优化训练提供最为有针对性的或者个性化的训练数据。
本实施例提供的一种标注数据采集方法,通过待标注数据与思维的主导因素发生关联,并根据第一输出数据来体现思维的起始点,预设问答算法根据思维的起始点推导思维结果即第一输出数据,利用相似度等指标评判此推导结果,并进一步通过交互问答给予思维的中间关键信息和思维的真正结果,实现了把人的思维全过程进行了标注采集,以此对智能算法模型的优化训练提供重要的分析及训练数据,进一步达到了使得智能算法模型实现多样性,时变性,灵活性,个性化定制等方面的提高。
需要说明的是,本发明各实施例的多轮互动标注采集虽然是分步执行的,但采集的是个性化问答逻辑的整体而非分割的步骤或特征,只有从整体上进行采集标注才能反映出个性化问答逻辑的起因,初始点,中间推导方向以及最终结果这个全过程,本发明的各个步骤间的联系就是由个性化问答逻辑的过程整体所统领的,本领域技术人员不应把某个步骤单独看待实施,要注意其内在的逻辑关系。
图3为本发明另一实施例提供的标注数据采集方法的流程图。如图3所示,本实施例提供的标注数据采集方法,所应用的场景可以是在待标注数据内容为空白时,即个性化问答逻辑在没有待标注数据来激发,而是以自身当时的需求来激发,预设问答算法生成的第一输出数据是一个由第一输入数据所提炼出来的问题或者属性值。本实施例可以用于对生成问题或指令的算法模型进行优化训练的数据标注采集。其具体步骤,包括:
S201、获取第一输入数据。
在本步骤中,待标注数据为空白,由个性化问答逻辑直接输入第一输入数据即一个问题。
第一输入数据可以包括但不限于:若干语句集,和/或,词语集,和/或,图画或符号集,和/或,一段语音,和/或,一段音乐等。
需要注意的是,第一输入数据可以反映个性化问答逻辑的当前主导因素,包括但不限于生活环境,职业,近期工作内容,兴趣范围,购物需求,出行需求等,所以对此第一输入数据的采集标注具有十分重要的分析参考意义。
S202、利用预设问答算法,并根据第一输入数据生成第一输出数据。
在本步骤中,第一输出数据在本实施例中为与第一输入数据相关的问题,预设问答算法在对第一输入数据进行处理。例如,一种可能的情况是,对文字语句或词组进行分词处理,得到第一输入数据的关键信息,然后运用此关键信息检索自身语义数据库中的预存问题,再将关键信息与预存问题进行组合,从而形成一个问题即第一输出数据,如第一输入数据为“佳能多少钱?”,算法模型为进一步确定个性化问答逻辑个体的需求,可以生成问题“请问您要知道的是佳能K系列的相机价格吗?”。
另一种可能的情况是,对输入的一段音乐进行频谱识别,问答算法搜索自身数据库中的乐曲频谱,找到与输入的音乐频谱相似度高于预设的相似度阈值的乐曲频谱,并返回对应的乐曲名,将所有返回的乐曲名组合成第一输出数据。
S203、反馈第一输出数据。
将预设问答算法生成的第一输出数据反馈给个性化问答逻辑个体,包括但不限于显示文字,播放语音,显示视频,显示图像或者这些内容的组合。
S204、根据第一输出数据,获取选择指令。
在本步骤中,选择指令用于确定第一输出数据的有效性。反馈第一输出数据的目的就是要获得个性化问答逻辑个体对于第一输出数据的有效性评价,即个性化问答逻辑个体在接收到了第一输出数据之后,经过其逻辑判断,第一输出数据包含的问题与其预想的问题是否相似合理,如果合理,则给出第一有效性标识其取值为1,如果不合理,则给出第一有效性标识其取值为0。有效性标识能够为智能算法模型的优化训练提供对基础模型的准确性判断指标,可以帮助分析未训练模型的初始准确度,及其所需要训练的程度。
S2051、若第一输出数据无效,则获取输入关键词及第一变更数据。
在本步骤中,当个性化问答逻辑个体判断第一输出数据与自身的预想差别较大时,作出第一输出数据无效的选择指令,则同时给出第一有效性标识的取值为0,此时,为帮助算法模型优化训练需要获取个性化问答逻辑的推理关键量,则输入关键词,此关键词就是个性化问答逻辑推理过程中的关键信息,包括但不限于关键词语或者词组或者是语句集合,另一段语音,另一幅图像等,并且个性化问答逻辑个体需要给出自身所预设的问题内容即第一变更数据,这样个性化问答逻辑个体就把个性化问答逻辑的起始量,中间过程量和最终量都标注了出来,也反应出了个性化问答逻辑推理的过程,供采集形成对算法模型优化的训练数据。
S2052、若第一输出数据有效,则获取修改数据。
在本步骤中,第一输出数据为有效数据,则可以根据第一输出数据进行修改形成修改数据,具体地,当个性化问答逻辑个体判断第一输出数据与自身的预想较为接近时,作出第一输出数据有效的选择指令,则同时给出第一有效性标识的取值为1,此时,个性化问答逻辑个体可以对第一输出数据进行修改形成预想的问题即修改数据,当然如果个性化问答逻辑个体选择不需要修改,此时也可以直接提交,则修改数据与第一输出数据的内容相同。
S206、将标注数据存储至预设数据库。
在本步骤中,标注数据可以包括第一输入数据、第一输出数据,修改数据以及第一变更数据,第一有效性标识等中间过程数据和操作标识数据。
将上述整个互动过程中所形成的中间数据及个性化问答逻辑个体操作的指令数据即第一有效性标识形成一个数据包,存入数据库中,供算法模型优化训练时分析训练用。
本实施例是将本发明数据采集标注方法应用于问题生成的一种可能的情况,但并不是唯一的一种应用形式。
图4为本发明实施例提供的标注数据采集装置的结构示意图。如图4所示,本实施例提供的标注数据采集装置300,包括:
获取模块301,用于获取第一输入数据,所述第一输入数据用于表征待标注数据中的至少一个属性;
处理模块302,用于利用预设问答算法,并根据所述第一输入数据以及所述待标注数据生成第一输出数据;
存储模块303,用于将标注数据存储至预设数据库,所述标注数据包括所述第一输入数据、所述待标注数据以及所述第一输出数据,所述预设数据库用于作为自然语言处理算法模型的训练数据库。
在一些可能的设计中,所述标注数据采集装置300,还包括:
输出模块304,用于反馈所述第一输出数据;
所述获取模块301,还用于获取第一变更数据,所述第一变更数据为所述第一输出数据的更新数据,所述标注数据还包括所述第一变更数据。
在一些可能的设计中,所述获取模块301,还用于获取选择指令,所述选择指令用于确定所述输出数据的有效性;
所述获取模块301,还用于获取输入关键词,所述第一变更数据为基于所述输入关键词生成的;
所述获取模块301,还用于获取基于所述第一输出数据的修改数据,所述第一变更数据包括所述修改数据。
在一些可能的设计中,所述处理模块302,还用于计算所述第一变更数据与所述第一输出数据的第一相似度;
所述输出模块304,还用于输出所述第一相似度;
所述获取模块301,还用于获取基于所述第一相似度所反馈的第一有效性标识,所述标注数据还包括所述第一相似度以及所述第一有效性标识。
在一些可能的设计中,所述处理模块302,还用于确定所述待标注数据中与所述输入关键词满足预设相似度的拟参考片段集合;
所述输出模块304,还用于反馈所述拟参考片段集合;
所述获取模块301,还用于获取片段选择指令,所述片段选择指令用于从所述拟参考片段集合中确定参考片段集合,所述第一变更数据为基于所述参考片段集合生成的。
在一些可能的设计中,所述处理模块302,还用于利用所述预设问答算法,并根据所述输入关键词、所述第一输入数据以及所述待标注数据生成第二输出数据;
所述输出模块304,还用于反馈所述第二输出数据;
所述获取模块301,获取第二变更数据,所述第二变更数据为所述第二输出数据的更新数据,所述标注数据还包括所述第二变更数据。
在一些可能的设计中,所述处理模块302,还用于计算所述输入关键词与输出关键词的第二相似度,所述输出关键词为所述第一输出数据的关键词;输出所述第二相似度;
所述获取模块301,还用于获取基于所述第二相似度所反馈的第二有效性标识,所述标注数据还包括所述第二相似度以及所述第二有效性标识。
值得说明地,图4所示实施例提供的标注数据采集装置,可用于执行上述任一实施例所提供的标注数据采集方法,具体实现方式和技术效果类似,这里不再赘述。
图5为本发明实施例提供的电子设备结构示意图。如图5所示,本实施例提供的电子设备400,包括:
处理器401;以及,
存储器402,用于存储所述处理器的可执行指令,该存储器还可以是flash(闪存);
其中,所述处理器401配置为经由执行所述可执行指令来执行上述方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。
可选地,存储器402既可以是独立的,也可以跟处理器401集成在一起。
当所述存储器402是独立于处理器401之外的器件时,所述电子设备400,还可以包括:
总线403,用于连接所述处理器401以及所述存储器402。
需要说明的是,本发明实施例的标注数据采集方法的发明构思是通过过采集设备与个性化问答逻辑个体之间多轮对话实现算法与个性化问答逻辑之间的相互引导,从而实现了采集个性化问答逻辑产生过程中的中间相关数据的技术问题。
本实施例还提供一种可读存储介质,可读存储介质中存储有计算机程序,当电子设备的至少一个处理器执行该计算机程序时,电子设备执行上述的各种实施方式提供的方法。
本实施例还提供一种程序产品,该程序产品包括计算机程序,该计算机程序存储在可读存储介质中。电子设备的至少一个处理器可以从可读存储介质读取该计算机程序,至少一个处理器执行该计算机程序使得电子设备实施上述的各种实施方式提供的方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或对其中部分或全部技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种标注数据采集方法,其特征在于,包括:
获取第一输入数据,所述第一输入数据用于表征待标注数据中的至少一个属性;
利用预设问答算法,并根据所述第一输入数据以及所述待标注数据生成第一输出数据;
将标注数据存储至预设数据库,所述标注数据包括所述第一输入数据、所述待标注数据以及所述第一输出数据,所述预设数据库用于作为自然语言处理算法模型的训练数据库。
2.根据权利要求1所述的标注数据采集方法,其特征在于,在所述利用预设问答算法,并根据所述第一输入数据以及所述待标注数据生成第一输出数据之后,还包括:
反馈所述第一输出数据;
获取第一变更数据,所述第一变更数据为所述第一输出数据的更新数据,所述标注数据还包括所述第一变更数据。
3.根据权利要求2所述的标注数据采集方法,其特征在于,在所述获取第一变更数据之前,还包括:
获取选择指令,所述选择指令用于确定所述第一输出数据的有效性;
若所述第一输出数据为无效数据,则获取输入关键词,所述第一变更数据为基于所述输入关键词生成的;
若所述第一输出数据为有效数据,则获取基于所述第一输出数据的修改数据,所述第一变更数据包括所述修改数据。
4.根据权利要求2或3所述的标注数据采集方法,其特征在于,在所述获取第一变更数据之后,还包括:
计算所述第一变更数据与所述第一输出数据的第一相似度;
输出所述第一相似度,并获取基于所述第一相似度所反馈的第一有效性标识,所述标注数据还包括所述第一相似度以及所述第一有效性标识。
5.根据权利要求3所述的标注数据采集方法,其特征在于,在所述获取输入关键词之后,还包括:
确定所述待标注数据中与所述输入关键词满足预设相似度的拟参考片段集合;
反馈所述拟参考片段集合;
获取片段选择指令,所述片段选择指令用于从所述拟参考片段集合中确定参考片段集合,所述第一变更数据为基于所述参考片段集合生成的。
6.根据权利要求3所述的标注数据采集方法,其特征在于,在所述获取输入关键词之后,还包括:
利用所述预设问答算法,并根据所述输入关键词、所述第一输入数据以及所述待标注数据生成第二输出数据;
反馈所述第二输出数据;
获取第二变更数据,所述第二变更数据为所述第二输出数据的更新数据,所述标注数据还包括所述第二变更数据。
7.根据权利要求3所述的标注数据采集方法,其特征在于,在所述获取输入关键词之后,还包括:
计算所述输入关键词与输出关键词的第二相似度,所述输出关键词为所述第一输出数据的关键词;
输出所述第二相似度,并获取基于所述第二相似度所反馈的第二有效性标识,所述标注数据还包括所述第二相似度以及所述第二有效性标识。
8.一种标注数据采集装置,其特征在于,包括:
获取模块,用于获取第一输入数据,所述第一输入数据用于表征待标注数据中的至少一个属性;
处理模块,用于利用预设问答算法,并根据所述第一输入数据以及所述待标注数据生成第一输出数据;
存储模块,用于将标注数据存储至预设数据库,所述标注数据包括所述第一输入数据、所述待标注数据以及所述第一输出数据,所述预设数据库用于作为自然语言处理算法模型的训练数据库。
9.一种电子设备,其特征在于,包括:
处理器;以及,
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至7任一项所述的标注数据采集方法。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至7任一项所述的标注数据采集方法。
CN202010309747.0A 2020-04-20 2020-04-20 标注数据采集方法、装置、电子设备及存储介质 Active CN111522914B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010309747.0A CN111522914B (zh) 2020-04-20 2020-04-20 标注数据采集方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010309747.0A CN111522914B (zh) 2020-04-20 2020-04-20 标注数据采集方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111522914A true CN111522914A (zh) 2020-08-11
CN111522914B CN111522914B (zh) 2023-05-12

Family

ID=71903340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010309747.0A Active CN111522914B (zh) 2020-04-20 2020-04-20 标注数据采集方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111522914B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590776A (zh) * 2021-06-23 2021-11-02 北京百度网讯科技有限公司 基于知识图谱的文本处理方法、装置、电子设备及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846126A (zh) * 2018-06-29 2018-11-20 北京百度网讯科技有限公司 关联问题聚合模型的生成、问答式聚合方法、装置及设备
CN108875768A (zh) * 2018-01-23 2018-11-23 北京迈格威科技有限公司 数据标注方法、装置和系统及存储介质
US20180348746A1 (en) * 2017-05-31 2018-12-06 Siemens Aktiengesellschaft Method, apparatus and system for determining signal rules of data for data annotation
CN109920414A (zh) * 2019-01-17 2019-06-21 平安城市建设科技(深圳)有限公司 人机问答方法、装置、设备和存储介质
CN110019703A (zh) * 2017-09-21 2019-07-16 阿里巴巴集团控股有限公司 数据标记方法及装置、智能问答方法及系统
CN110334272A (zh) * 2019-05-29 2019-10-15 平安科技(深圳)有限公司 基于知识图谱的智能问答方法、装置及计算机存储介质
CN110826331A (zh) * 2019-10-28 2020-02-21 南京师范大学 基于交互式与迭代式学习的地名标注语料库智能构建方法
CN110889274A (zh) * 2018-08-17 2020-03-17 北大方正集团有限公司 信息质量评估方法、装置、设备及计算机可读存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180348746A1 (en) * 2017-05-31 2018-12-06 Siemens Aktiengesellschaft Method, apparatus and system for determining signal rules of data for data annotation
CN108984550A (zh) * 2017-05-31 2018-12-11 西门子公司 确定数据的信号规则以对数据标注的方法、装置和系统
CN110019703A (zh) * 2017-09-21 2019-07-16 阿里巴巴集团控股有限公司 数据标记方法及装置、智能问答方法及系统
CN108875768A (zh) * 2018-01-23 2018-11-23 北京迈格威科技有限公司 数据标注方法、装置和系统及存储介质
CN108846126A (zh) * 2018-06-29 2018-11-20 北京百度网讯科技有限公司 关联问题聚合模型的生成、问答式聚合方法、装置及设备
CN110889274A (zh) * 2018-08-17 2020-03-17 北大方正集团有限公司 信息质量评估方法、装置、设备及计算机可读存储介质
CN109920414A (zh) * 2019-01-17 2019-06-21 平安城市建设科技(深圳)有限公司 人机问答方法、装置、设备和存储介质
CN110334272A (zh) * 2019-05-29 2019-10-15 平安科技(深圳)有限公司 基于知识图谱的智能问答方法、装置及计算机存储介质
CN110826331A (zh) * 2019-10-28 2020-02-21 南京师范大学 基于交互式与迭代式学习的地名标注语料库智能构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘绍毓等: "基于主题模型的中文Distant Supervision噪声标注识别方法", 《信息工程大学学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590776A (zh) * 2021-06-23 2021-11-02 北京百度网讯科技有限公司 基于知识图谱的文本处理方法、装置、电子设备及介质
CN113590776B (zh) * 2021-06-23 2023-12-12 北京百度网讯科技有限公司 基于知识图谱的文本处理方法、装置、电子设备及介质

Also Published As

Publication number Publication date
CN111522914B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
JP6799574B2 (ja) 音声対話の満足度の確定方法及び装置
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
KR102288249B1 (ko) 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체
CN110795913B (zh) 一种文本编码方法、装置、存储介质及终端
CN110909145B (zh) 针对多任务模型的训练方法及装置
CN110209774A (zh) 处理会话信息的方法、装置及终端设备
CN109034203A (zh) 表情推荐模型的训练、表情推荐方法、装置、设备及介质
CN112115252B (zh) 智能辅助写作处理方法、装置、电子设备及存储介质
CN112434142B (zh) 一种标记训练样本的方法、服务器、计算设备及存储介质
CN111651571A (zh) 基于人机协同的会话实现方法、装置、设备及存储介质
CN114691831A (zh) 一种基于知识图谱的任务型汽车故障智能问答系统
CN110399488A (zh) 文本分类方法及装置
CN107665188A (zh) 一种语义理解方法及装置
CN113342948A (zh) 一种智能问答方法及装置
CN110795544B (zh) 内容搜索方法、装置、设备和存储介质
CN110473543B (zh) 一种语音识别方法、装置
CN114783421A (zh) 智能推荐方法和装置、设备、介质
CN113259763B (zh) 教学视频处理方法、装置和电子设备
CN111522914B (zh) 标注数据采集方法、装置、电子设备及存储介质
EP3471049A1 (en) Information processing device, information processing method, and program
CN113542797A (zh) 视频播放中的互动方法、装置及计算机可读存储介质
EP3731108A1 (en) Search system, search method, and program
CN109146606A (zh) 一种品牌推荐方法、电子设备、存储介质及系统
CN114677165A (zh) 上下文在线广告投放方法、装置、服务器和存储介质
CN113468306A (zh) 语音对话方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230627

Address after: 3007, Hengqin International Financial Center Building, No. 58 Huajin Street, Hengqin New District, Zhuhai City, Guangdong Province, 519030

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: Peking University

Address before: 100871, Beijing, Haidian District, Cheng Fu Road, No. 298, Zhongguancun Fangzheng building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: Peking University

Patentee before: PKU FOUNDER INFORMATION INDUSTRY GROUP CO.,LTD.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240409

Address after: 100871 No. 5, the Summer Palace Road, Beijing, Haidian District

Patentee after: Peking University

Country or region after: China

Address before: 3007, Hengqin International Financial Center Building, No. 58 Huajin Street, Hengqin New District, Zhuhai City, Guangdong Province, 519030

Patentee before: New founder holdings development Co.,Ltd.

Country or region before: China

Patentee before: Peking University