CN111611781A - 数据标注方法、问答方法、装置及电子设备 - Google Patents

数据标注方法、问答方法、装置及电子设备 Download PDF

Info

Publication number
CN111611781A
CN111611781A CN202010464530.7A CN202010464530A CN111611781A CN 111611781 A CN111611781 A CN 111611781A CN 202010464530 A CN202010464530 A CN 202010464530A CN 111611781 A CN111611781 A CN 111611781A
Authority
CN
China
Prior art keywords
question
questions
initial
similar
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010464530.7A
Other languages
English (en)
Other versions
CN111611781B (zh
Inventor
常德杰
孔飞
刘邦长
谷书锋
赵红文
王燕华
张一坤
武云召
刘朝振
王海
刘红霞
张航飞
季科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Miaoyijia Health Technology Group Co ltd
Original Assignee
Beijing Miaoyijia Health Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Miaoyijia Health Technology Group Co ltd filed Critical Beijing Miaoyijia Health Technology Group Co ltd
Priority to CN202010464530.7A priority Critical patent/CN111611781B/zh
Publication of CN111611781A publication Critical patent/CN111611781A/zh
Application granted granted Critical
Publication of CN111611781B publication Critical patent/CN111611781B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据标注方法、问答方法、装置及电子设备,数据标注方法包括:获取初始问题;在预先建立的问答库中查找预设数量的与初始问题的相似度超过第一预设阈值的问题,将查找到的问题作为初始问题对应的相似问题;将初始问题与初始问题对应的相似问题组成问题对;根据问题对的相似度对问题对进行标注。本发明能够在适用于更多场景的同时提高标注结果的准确性。

Description

数据标注方法、问答方法、装置及电子设备
技术领域
本发明涉及人工智能技术领域,尤其是涉及一种数据标注方法、问答方法、装置及电子设备。
背景技术
随着深度学习的发展,数据集作为深度学习模型训练的基石和原料也变的越来越重要。现有的基于深度学习的问答系统的流程为当用户询问一个问题时,该系统的核模块-意图判定模块判断该问题的意图,并进行相应的处理,因此需要一个数据集来训练该模块,在建立数据集时则需要对数据进行标注。现有的数据标注方法大多采用关键词映射的方式,即一个关键词对应一个意图,这种方法只适用于意图简单或者意图不多的场景,当意图较多时,很难通过人工标注得到映射列表,同时通过人工主观判断进行标注会导致标注结果准确性差。
发明内容
有鉴于此,本发明的目的在于提供一种数据标注方法、问答方法、装置及电子设备,能够在适用于更多场景的同时提高标注结果的准确性。
第一方面,本发明实施例提供了一种数据标注方法,包括:获取初始问题;在预先建立的问答库中查找预设数量的与初始问题的相似度超过第一预设阈值的问题,将查找到的问题作为初始问题对应的相似问题;将初始问题与初始问题对应的相似问题组成问题对;根据问题对的相似度对问题对进行标注。
在一种实施方式中,根据问题对的相似度对问题对进行标注的步骤,包括:如果问题对中的初始问题和相似问题之间的题干相似度小于第二预设阈值,且问题对中的初始问题和相似问题之间的意图相似度大于第三预设阈值,将问题对标注为第一值;如果问题对中的初始问题和相似问题之间的题干相似度大于第二预设阈值,且问题对中的初始问题和相似问题之间的意图相似度小于第三预设阈值,将问题对标注为第二值。
在一种实施方式中,初始问题的数量为多个,方法还包括:将初始问题按照预设类别划分为多类,得到不同分类类别的初始问题;根据问题对的相似度对问题对进行标注的步骤,包括:基于问题对中初始问题的分类类别和问题对的相似度,对问题对进行标注。
在一种实施方式中,方法还包括:如果相似问题的数量小于预设数量,获取指定数量的问题作为补充问题;其中,指定数量为预设数量与相似问题的数量的差值。
在一种实施方式中,问题对的数量为多个,方法还包括:将已标注的多个问题对按照预设比例进行划分,得到训练集、测试集和验证集;训练集、测试集和验证集均包括多个已标注的问题对。
第二方面,本发明实施例提供了一种问答方法,包括:获取待回答问题;基于意图判断模型和预先建立的问答库确定待回答问题的答案;其中,意图判断模型是采用预先建立的相似问题数据库训练得到的;相似问题数据库中包含多个问题对,问题对是采用上述第一方面提供的任一项的方法进行标注的;问答库中包含有问题和答案的对应关系。
第三方面,本发明实施例提供了一种数据标注装置,包括:问题获取模块,用于获取初始问题;问题查找模块,用于在预先建立的问答库中查找预设数量的与初始问题的相似度超过第一预设阈值的问题,将查找到的问题作为初始问题对应的相似问题;问题对获取模块,用于将初始问题与初始问题对应的相似问题组成问题对;标注模块,用于根据问题对的相似度对问题对进行标注。
第四方面,本发明实施例提供了一种问答装置,包括:获取模块,用于获取待回答问题;答案确定模块,用于基于意图判断模型和预先建立的问答库确定待回答问题的答案;其中,意图判断模型是采用预先建立的相似问题数据库训练得到的;相似问题数据库中包含多个问题对,问题对是采用上述第一方面提供的任一项的方法进行标注的;问答库中包含有问题和答案的对应关系。
第五方面,本发明实施例提供了一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述第一方面或第二方面提供的任一项的方法的步骤。
第六方面,本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述第一方面或第二方面提供的任一项的方法的步骤。
本发明实施例提供了一种数据标注方法及装置,首先获取初始问题;然后在预先建立的问答库中查找预设数量的与初始问题的相似度超过第一预设阈值的问题,将查找到的问题作为初始问题对应的相似问题;接着将初始问题与初始问题对应的相似问题组成问题对;最后根据问题对的相似度对问题对进行标注。上述方法能够将查找到的相似问题与初始问题组成问题对,在进行数据标注时充分考虑了问题对的相似度,从而能够保证标注数据的质量,进而提高标注结果的准确性;同时,上述方法不需要通过人工标注获取关键词映射列表进行意图识别,从而能够适用于更多场景。
本发明实施例提供了一种问答方法及装置,首先获取待回答问题;然后基于意图判断模型和预先建立的问答库确定待回答问题的答案;其中,意图判断模型是采用预先建立的相似问题数据库训练得到的;相似问题数据库中包含多个问题对,问题对是采用前述数据标注进行标注的;问答库中包含有问题和答案的对应关系。上述方法是采用前述数据标注方法标注的相似问题数据库训练意图判断模型的,通过前述数据标注方法标注得到的相似问题数据库中的数据更加准确,因此训练得到的模型也更加准确,从而能够有效保障待回答问题的答案的准确性。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据标注方法的流程示意图;
图2为本发明实施例提供的另一种数据标注方法的流程示意图;
图3为本发明实施例提供的一种问答方法的流程示意图;
图4为本发明实施例提供的一种问答系统的结构示意图;
图5为本发明实施例提供的一种数据标注装置的结构示意图;
图6为本发明实施例提供的一种问答装置的结构示意图;
图7为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前数据集的格式通常没有统一、规范的标准,大多数都是通过标注人员的主观判断得到的,质量较差;此外,对于意图简单或者意图不多的情况可以通过人工进行整理,但是当意图较多时就很难通过人工进行处理;另外目前的标注系统还没有成熟规范的标注流程和原则,容易导致标注的结果不达标。基于此,本发明实施例提供的一种数据标注方法、问答方法、装置及电子设备,能够在适用于更多场景的同时提高标注结果的准确性。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种数据标注方法进行详细介绍,参见图1所示的一种数据标注方法的流程示意图,该方法可以由电子设备执行,诸如智能手机、电脑、iPad等,主要包括以下步骤S102至步骤S108:
步骤S102:获取初始问题。
在一种实施方式中,初始问题可以是用户提出的实际问诊的问题,可以从论坛、网站等网络平台进行搜集,也可以通过填写问卷的方式搜集。
步骤S104:在预先建立的问答库中查找预设数量的与初始问题的相似度超过第一预设阈值的问题,将查找到的问题作为初始问题对应的相似问题。
可以理解的是,对于两个不同的问题,它们之间的相似度越高,问题的答案相似度也可能越高。基于此,本实施例中对于每个初始问题可以在问答库中查找预设数量的相似度超过第一预设阈值的问题作为相似问题,诸如5-10个,具体可以根据实际情况进行确定,在此不做限定,其中,问答库可以是预先建立的,包括多个问题。在实际应用中,可以利用问题生成模块采用题干相似策略确定相似问题。问题生成模块可以根据题干相似策略在问答库中查找5-10个与初始问题最相近的问题作为初始问题对应的相似问题(也即题干的相似度超过第一预设阈值的问题)。
步骤S106:将初始问题与初始问题对应的相似问题组成问题对。
可以理解的是,对于每个初始问题可以在问题库中查找到多个相似问题,为了便于判断初始问题与相似问题之间的意图相似度,本实施例将初始问题与初始问题对应的相似问题组成问题对,每个初始问题可以对应有预设数量的问题对,每个问题对中包括一个初始问题和一个相似问题。
步骤S108:根据问题对的相似度对问题对进行标注。
在一种实施方式中,相似度可以包括题干相似度和意图相似度,本实施例中标注人员可以根据问题对中的初始问题和相似问题之间的相似度对问题对进行标注。
本发明实施例提供的上述数据标注方法能够将查找到的相似问题与初始问题组成问题对,在进行数据标注时充分考虑了问题对的相似度,从而能够保证标注数据的质量,进而提高标注结果的准确性;同时,上述方法不需要通过人工标注获取关键词映射列表进行意图识别,从而能够适用于更多场景。
为了便于理解,本发明实施例提供了一种根据问题对的相似度对问题对进行标注的具体实施方式,也即上述步骤S108可以参照如下步骤1至步骤2执行:
步骤1:如果问题对中的初始问题和相似问题之间的题干相似度小于第二预设阈值,且问题对中的初始问题和相似问题之间的意图相似度大于第三预设阈值,将问题对标注为第一值。
步骤2:如果问题对中的初始问题和相似问题之间的题干相似度大于第二预设阈值,且问题对中的初始问题和相似问题之间的意图相似度小于第三预设阈值,将问题对标注为第二值。
两个问题之间的相似度可以包括题干相似度和意图相似度,考虑到对于两个问题而言,可能字面上不同,但是表达的意思相同(也即题干相似度低,但意图相似度高),也有可能字面上相同,但是表达的意思不同(也即题干相似度高,但意图相似度低)。基于此,本发明实施例可以根据实际情况设定相似度的阈值,然后按照以下规则对问题对进行标注:将初始问题和相似问题之间的题干相似度小于第二预设阈值,且问题对中的初始问题和相似问题之间的意图相似度大于第三预设阈值的问题对标注为第一值(第一值可以为1);将初始问题和相似问题之间的题干相似度大于第二预设阈值,且问题对中的初始问题和相似问题之间的意图相似度小于第三预设阈值的问题对标注为第二值(第二值可以为0)。诸如:问句1:肺部发炎是什么原因引起的?问句2:肺部发炎是什么引起的?由于问句1和问句2之间字面上不同但是表达的意思相同,则可以将问句1和问句2组成的问题对标记为1。而对于问句3:肺部炎症有什么症状?由于问句1和问句3之间表达的意思相同,则可以将问句1和问句3组成的问题对标记为0。
为了保证每个标注人员可以标注所有的问题分类,从而实现每个标注人员标注的样本尽量均衡的目的,在一种实施方式中,初始问题的数量可以为多个,在获取到初始为后可以将初始问题按照预设类别划分为多类,得到不同分类类别的初始问题。诸如,可以根据初始问题涉及的内容的将初始问题划分为儿科、骨科等类别。
进一步,对于上述步骤S108可以参照如下步骤执行:基于问题对中初始问题的分类类别和问题对的相似度,对问题对进行标注。在实际应用中,可以按照初始问题的分类类别将每个类别的初始问题依次分配给每个标注人员,使每个标注人员可以标注所有类别的问题,然后每个标注人员根据问题对的相似度进行标注,从而保证数据的多样性,具体标注方法可以参照前述实施例,在此不再赘述。
考虑到预先建立的问答库中可能包含的某一种类型的问题较少,在进行相似问题查找时不能得到预设数量的相似问题,因此为了保证数据的完成新和准确性,需要将问题进行补全。基于此,本发明实施例提供的上述数据标注方法还包括:如果相似问题的数量小于预设数量,获取指定数量的问题作为补充问题;其中,指定数量为预设数量与相似问题的数量的差值。在实际应用中,假设需要从问答库中获取5个(即预设数量)相似问题,但是实际上问答库中只有3个满足要求的相似问题,那么可以通过人工编写2个(即指定数量)问题作为补充问题,使得最终得到的相似问题的数量为5个。
进一步,问题对的数量可以为多个,本发明实施例提供的上述数据标注方法还包括:将已标注的多个问题对按照预设比例进行划分,得到训练集、测试集和验证集;训练集、测试集和验证集均包括多个已标注的问题对。在实际应用中,可以将每个标注人员标注的每种类型的多个问题对进行混合、洗牌,打乱原始顺序,然后使用按照8:1:1的分割比例划分为训练集、测试集和验证集,用于意图判断模型的训练和测试。
本发明实施例提供的上述数据标注方法,基于相似度生成初始问题的相似问题,并通过多个人工、分配不同类别的问题进行标注,可以最大限度的保证标注数据的多样性;此外,基于本实施例中的标注原则即对问题对只标注0和1,能够最大限度的保证标准数据的准确性和质量。
在前述实施例的基础上,本实施例提供了一种数据标注方法的具体事例,参见图2所示的另一种数据标注方法的流程示意图,该方法主要包括如下步骤S202至步骤S206:
步骤S202:获取多个初始问题,并将初始问题进行分配。
在一种实施方式中,可以从论坛、网站等网络平台搜集用户实际问诊的问题,然后将收集到的初始问题进行分类和打标签,诸如:根据涉及的内容分为儿科、骨科、内科等10个分类类别,并对每个打上其他标签,诸如:男、女。对于初始问题的分类类别和标签可以是在获取问题时,获取的问题本身自带的分类类别和标签,此时则不需要再进行分类和打标签;当获取的问题没有明显的分类类别和标签时,可以通过人工进行判断分析,将收集到的初始问题进行分类和打标签。
此外,为了保证数据的多样性以及样本均衡,本实施例根据初始问题的分类类别将每一类别的初始问题依次分配给每个标注人员,使每个标注人员可以标注所有类别的问题。
步骤S204:基于预设策略生成与初始问题对应的相似问题,并进行标注。
在一种实施方式中,可以人工将初始问题输入到问题生成模块进行问题生成,问题生成模块可以配置问题生成的策略(也即预设策略),诸如题干最相似策略和答案最相似策略等。以题干最相似策略为例,问题生成的流程包括:标注人员将初始问题输入到问题生成模块;问题生成模块基于题干最相似策略在预先建立的问答库中查找5个相似问题发送给标注人员。
标注人员接收到生成的相似问题后,可以将初始问题和相似问题组成问题对,然后按照标注原则进行标注,即如果两个问题字面上不相同,但是表达了同一个意义,则将问题对标1;如果两个问题字面上相同,但是含义不同,则将问题对标0,最终标注结果的示例可以参见表1所示。
表1标注结果示例表
Figure BDA0002511118300000091
Figure BDA0002511118300000101
考虑到在进行相似问题查找时不能得到预设数量的相似问题,因此为了保证数据的完成新和准确性,需要将问题进行补全。在实际应用中,当获取的相似问题的数量小于预设数量时,可以通过人工编写指定数量的问题作为补充问题,使得最终得到的相似问题的数量达到预设数量。
步骤S206:将标注后的问题进行汇总。
在一种实施方式中,可以将每个标注人员标注的每种类型的多个问题对进行混合、洗牌,打乱原始顺序,然后使用程序按照8:1:1的分割比例划分为训练集、测试集和验证集,用于意图判断模型的训练和测试。
本发明实施例提供的上述方法能够将查找到的相似问题与初始问题组成问题对,在进行数据标注时充分考虑了问题对的相似度,从而能够保证标注数据的质量,进而提高标注结果的准确性;同时,上述方法不需要通过人工标注获取关键词映射列表进行意图识别,从而能够适用于更多场景。
在前述实施例的基础上,本发明实施例还提供了一种问答方法,参见图3所示的一种问答方法的流程示意图,该方法主要包括如下步骤S302至步骤S304:
步骤S302:获取待回答问题。在实际应用中,待回答问题可以是用户输入的问题,也可以是从网站获取的问题。
步骤S304:基于意图判断模型和预先建立的问答库确定待回答问题的答案。
其中,意图判断模型是采用预先建立的相似问题数据库训练得到的;相似问题数据库中包含多个问题对,问题对是采用前述实施例提供的数据标注方法进行标注的;问答库中包含有问题和答案的对应关系。在实际应用中,可以基于训好的意图判断模型分析判断待回答问题的意图,在预先建立的问答库中查找与待回答问题意图最接近的问题作为目标问题,然后在问答库中查找目标问题的答案,并将目标问题的答案作为待回答问题的答案。
本发明实施例提供上述问答方法是采用前述数据标注方法标注的相似问题数据库训练意图判断模型的,通过前述数据标注方法标注得到的相似问题数据库中的数据更加准确,因此训练得到的模型也更加准确,从而能够有效保障待回答问题的答案的准确性。
进一步,本发明实施例还提供了一种问答系统,参见图4所示的一种问答系统的结构示意图,示意出该系统包括:相似问答数据库模块41、意图判断模块42、相似问句检索模块43和问题答案库模块44。
相似问答数据库模块41中包含多个问题对,问题对是采用前述实施例提供的数据标注方法进行标注的,用于训练意图判断模型。
意图判断模块42包括意图判断模型,用于问题的意图分析和判断,从而判断待回答问题与问题答案库模块44中的问题是不是同一个意图。
相似问句检索模块43,也即问题检索模块,用于根据用户的待回答问题在问题答案库模块44中筛选5-10个问题。
问题答案库模块44是预先建立的,包含有多个问题和答案的对应关系。
当用户输入一个待回答问题时,相似问句检索模块43在问题答案库模块44中筛选5-10个与待回答问题相似度超过阈值的问题,作为相似问题,并将筛选出的问题返回至意图判断模块42;意图判断模块42在上选出的问题中选择一个与待回答问题意图相似度最高的问题作为目标问题;最后在问题答案库模块44中查找目标问题对应的答案作为待回答问题的答案进行输出。
本发明实施例提供的上述系统,通过意图判断模块查找与待回答问题意图相似度的问题作为目标问题,并将目标问题的答案作为待回答问题的答案,由于意图判断模块是采用前述数据标注方法标注的相似问题数据库进行训练的,因此能够有效保障待回答问题的答案的准确性。
对于前述实施例提供的数据标注方法,本发明实施例还提供了一种数据标注装置,参见图5所示的一种数据标注装置的结构示意图,该装置可以包括以下部分:
问题获取模块501,用于获取初始问题。
问题查找模块502,用于在预先建立的问答库中查找预设数量的与初始问题的相似度超过第一预设阈值的问题,将查找到的问题作为初始问题对应的相似问题。
问题对获取模块503,用于将初始问题与初始问题对应的相似问题组成问题对。
标注模块504,用于根据问题对的相似度对问题对进行标注。
本发明实施例提供的上述数据标注装置能够将查找到的相似问题与初始问题组成问题对,在进行数据标注时充分考虑了问题对的相似度,从而能够保证标注数据的质量,进而提高标注结果的准确性;同时,上述装置不需要通过人工标注获取关键词映射列表进行意图识别,从而能够适用于更多场景。
在一种实施方式中,上述标注模块504还用于如果问题对中的初始问题和相似问题之间的题干相似度小于第二预设阈值,且问题对中的初始问题和相似问题之间的意图相似度大于第三预设阈值,将问题对标注为第一值;如果问题对中的初始问题和相似问题之间的题干相似度大于第二预设阈值,且问题对中的初始问题和相似问题之间的意图相似度小于第三预设阈值,将问题对标注为第二值。
在一种实施方式中,初始问题的数量为多个,上述装置还包括分类模块,用于将初始问题按照预设类别划分为多类,得到不同分类类别的初始问题;上述标注模块504进一步还用于基于问题对中初始问题的分类类别和问题对的相似度,对问题对进行标注。
在一种实施方式中,上述装置还包括问题补全模块,用于如果相似问题的数量小于预设数量,获取指定数量的问题作为补充问题;其中,指定数量为预设数量与相似问题的数量的差值。
在一种实施方式中,问题对的数量为多个,上述装置还包括划分模块,用于将已标注的多个问题对按照预设比例进行划分,得到训练集、测试集和验证集;训练集、测试集和验证集均包括多个已标注的问题对。
对于前述实施例提供的问答方法,本发明实施例还提供了一种问答装置,参见图6所示的一种问答装置的结构示意图,该装置可以包括以下部分:
获取模块601,用于获取待回答问题。
答案确定模块602,用于基于意图判断模型和预先建立的问答库确定待回答问题的答案;其中,意图判断模型是采用预先建立的相似问题数据库训练得到的;相似问题数据库中包含多个问题对,问题对是采用上述第一方面提供的任一项的方法进行标注的;问答库中包含有问题和答案的对应关系。
本发明实施例提供上述问答装置是采用前述数据标注方法标注的相似问题数据库训练意图判断模型的,通过前述数据标注方法标注得到的相似问题数据库中的数据更加准确,因此训练得到的模型也更加准确,从而能够有效保障待回答问题的答案的准确性。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
本发明实施例还提供了一种电子设备,具体的,该电子设备包括处理器和存储装置;存储装置上存储有计算机程序,计算机程序在被处理器运行时执行如上实施方式的任一项所述的方法。
图7为本发明实施例提供的一种电子设备的结构示意图,该电子设备100包括:处理器70,存储器71,总线72和通信接口73,所述处理器70、通信接口73和存储器71通过总线72连接;处理器70用于执行存储器71中存储的可执行模块,例如计算机程序。
其中,存储器71可能包含高速随机存取存储器(Random Access Memory,RAM),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口73(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线72可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器71用于存储程序,所述处理器70在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流程定义的装置所执行的方法可以应用于处理器70中,或者由处理器70实现。
处理器70可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器70中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器70可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器71,处理器70读取存储器71中的信息,结合其硬件完成上述方法的步骤。
本发明实施例所提供的可读存储介质的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见前述方法实施例,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种数据标注方法,其特征在于,包括:
获取初始问题;
在预先建立的问答库中查找预设数量的与所述初始问题的相似度超过第一预设阈值的问题,将查找到的问题作为所述初始问题对应的相似问题;
将所述初始问题与所述初始问题对应的相似问题组成问题对;
根据所述问题对的相似度对所述问题对进行标注。
2.根据权利要求1所述的方法,其特征在于,根据所述问题对的相似度对所述问题对进行标注的步骤,包括:
如果所述问题对中的所述初始问题和所述相似问题之间的题干相似度小于第二预设阈值,且所述问题对中的所述初始问题和所述相似问题之间的意图相似度大于第三预设阈值,将所述问题对标注为第一值;
如果所述问题对中的所述初始问题和所述相似问题之间的题干相似度大于第二预设阈值,且所述问题对中的所述初始问题和所述相似问题之间的意图相似度小于第三预设阈值,将所述问题对标注为第二值。
3.根据权利要求1所述的方法,其特征在于,所述初始问题的数量为多个,所述方法还包括:
将所述初始问题按照预设类别划分为多类,得到不同分类类别的初始问题;
所述根据所述问题对的相似度对所述问题对进行标注的步骤,包括:
基于所述问题对中初始问题的分类类别和所述问题对的相似度,对所述问题对进行标注。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
如果所述相似问题的数量小于所述预设数量,获取指定数量的问题作为补充问题;其中,所述指定数量为所述预设数量与所述相似问题的数量的差值。
5.根据权利要求1所述的方法,其特征在于,所述问题对的数量为多个,所述方法还包括:
将已标注的多个所述问题对按照预设比例进行划分,得到训练集、测试集和验证集;所述训练集、所述测试集和所述验证集均包括多个已标注的所述问题对。
6.一种问答方法,其特征在于,包括:
获取待回答问题;
基于意图判断模型和预先建立的问答库确定所述待回答问题的答案;其中,所述意图判断模型是采用预先建立的相似问题数据库训练得到的;所述相似问题数据库中包含多个问题对,所述问题对是采用权利要求1至5任一项所述的方法进行标注的;所述问答库中包含有问题和答案的对应关系。
7.一种数据标注装置,其特征在于,包括:
问题获取模块,用于获取初始问题;
问题查找模块,用于在预先建立的问答库中查找预设数量的与所述初始问题的相似度超过第一预设阈值的问题,将查找到的问题作为所述初始问题对应的相似问题;
问题对获取模块,用于将所述初始问题与所述初始问题对应的相似问题组成问题对;
标注模块,用于根据所述问题对的相似度对所述问题对进行标注。
8.一种问答装置,其特征在于,包括:
获取模块,用于获取待回答问题;
答案确定模块,用于基于意图判断模型和预先建立的问答库确定所述待回答问题的答案;其中,所述意图判断模型是采用预先建立的相似问题数据库训练得到的;所述相似问题数据库中包含多个问题对,所述问题对是采用权利要求1至5任一项所述的方法进行标注的;所述问答库中包含有问题和答案的对应关系。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至5或权利要求6任一项所述的方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1至5或权利要求6任一项所述的方法的步骤。
CN202010464530.7A 2020-05-27 2020-05-27 数据标注方法、问答方法、装置及电子设备 Active CN111611781B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010464530.7A CN111611781B (zh) 2020-05-27 2020-05-27 数据标注方法、问答方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010464530.7A CN111611781B (zh) 2020-05-27 2020-05-27 数据标注方法、问答方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN111611781A true CN111611781A (zh) 2020-09-01
CN111611781B CN111611781B (zh) 2023-08-18

Family

ID=72197860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010464530.7A Active CN111611781B (zh) 2020-05-27 2020-05-27 数据标注方法、问答方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111611781B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112017777B (zh) * 2020-11-02 2021-02-26 北京妙医佳健康科技集团有限公司 相似对问题预测的方法、装置及电子设备
CN112507093A (zh) * 2020-12-10 2021-03-16 税友软件集团股份有限公司 一种语料混淆处理方法、装置及介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050060643A1 (en) * 2003-08-25 2005-03-17 Miavia, Inc. Document similarity detection and classification system
WO2006085661A1 (ja) * 2005-02-08 2006-08-17 Nec Corporation 質問応答データ編集装置、質問応答データ編集方法、質問応答データ編集プログラム
CN101136028A (zh) * 2006-07-10 2008-03-05 日电(中国)有限公司 基于自然语言的位置查询系统以及基于关键词的位置查询系统
CN103020295A (zh) * 2012-12-28 2013-04-03 新浪网技术(中国)有限公司 一种问题标签标注方法及装置
US20150044659A1 (en) * 2013-08-07 2015-02-12 Microsoft Corporation Clustering short answers to questions
CN107918640A (zh) * 2017-10-20 2018-04-17 阿里巴巴集团控股有限公司 样本确定方法及装置
US20180247553A1 (en) * 2017-02-27 2018-08-30 Ricoh Company, Ltd. Information processing device, non-transitory computer program product, and information processing system
CN108804567A (zh) * 2018-05-22 2018-11-13 平安科技(深圳)有限公司 提高智能客服应答率的方法、设备、存储介质及装置
CN109376847A (zh) * 2018-08-31 2019-02-22 深圳壹账通智能科技有限公司 用户意图识别方法、装置、终端及计算机可读存储介质
CN110765257A (zh) * 2019-12-30 2020-02-07 杭州识度科技有限公司 一种知识图谱驱动型的法律智能咨询系统
CN111177349A (zh) * 2019-12-20 2020-05-19 厦门快商通科技股份有限公司 问答匹配方法、装置、设备及存储介质
CN111191442A (zh) * 2019-12-30 2020-05-22 杭州远传新业科技有限公司 相似问题生成方法、装置、设备及介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050060643A1 (en) * 2003-08-25 2005-03-17 Miavia, Inc. Document similarity detection and classification system
WO2006085661A1 (ja) * 2005-02-08 2006-08-17 Nec Corporation 質問応答データ編集装置、質問応答データ編集方法、質問応答データ編集プログラム
CN101136028A (zh) * 2006-07-10 2008-03-05 日电(中国)有限公司 基于自然语言的位置查询系统以及基于关键词的位置查询系统
CN103020295A (zh) * 2012-12-28 2013-04-03 新浪网技术(中国)有限公司 一种问题标签标注方法及装置
US20150044659A1 (en) * 2013-08-07 2015-02-12 Microsoft Corporation Clustering short answers to questions
US20180247553A1 (en) * 2017-02-27 2018-08-30 Ricoh Company, Ltd. Information processing device, non-transitory computer program product, and information processing system
CN107918640A (zh) * 2017-10-20 2018-04-17 阿里巴巴集团控股有限公司 样本确定方法及装置
CN108804567A (zh) * 2018-05-22 2018-11-13 平安科技(深圳)有限公司 提高智能客服应答率的方法、设备、存储介质及装置
CN109376847A (zh) * 2018-08-31 2019-02-22 深圳壹账通智能科技有限公司 用户意图识别方法、装置、终端及计算机可读存储介质
CN111177349A (zh) * 2019-12-20 2020-05-19 厦门快商通科技股份有限公司 问答匹配方法、装置、设备及存储介质
CN110765257A (zh) * 2019-12-30 2020-02-07 杭州识度科技有限公司 一种知识图谱驱动型的法律智能咨询系统
CN111191442A (zh) * 2019-12-30 2020-05-22 杭州远传新业科技有限公司 相似问题生成方法、装置、设备及介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
RAHEEL SIDDIQI: "A systematic approach to the automated marking of short-answer questions", 《2008 IEEE INERNATIONAL MULTITOPIC CONFERENCE》 *
曹雨: "中文复述问句生成技术研究", 《智能计算机与应用》 *
熊大平: "一种基于LDA的社区问答问旬相似度计算方法", 《中文信息学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112017777B (zh) * 2020-11-02 2021-02-26 北京妙医佳健康科技集团有限公司 相似对问题预测的方法、装置及电子设备
WO2022088602A1 (zh) * 2020-11-02 2022-05-05 北京妙医佳健康科技集团有限公司 相似对问题预测的方法、装置及电子设备
CN112507093A (zh) * 2020-12-10 2021-03-16 税友软件集团股份有限公司 一种语料混淆处理方法、装置及介质
CN112507093B (zh) * 2020-12-10 2023-08-11 亿企赢网络科技有限公司 一种语料混淆处理方法、装置及介质

Also Published As

Publication number Publication date
CN111611781B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
US9305083B2 (en) Author disambiguation
US20140358928A1 (en) Clustering Based Question Set Generation for Training and Testing of a Question and Answer System
CN109033244B (zh) 搜索结果排序方法和装置
CN110737689B (zh) 数据标准符合性检测方法、装置、系统及存储介质
CN105653547B (zh) 一种提取文本关键词的方法和装置
JP2020126587A (ja) コミュニティ質問応答データの検証方法、装置、コンピュータ機器、及び記憶媒体
CN113312899B (zh) 文本分类方法、装置和电子设备
CN110858353B (zh) 获取案件裁判结果的方法和系统
CN111611781A (zh) 数据标注方法、问答方法、装置及电子设备
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN112017777B (zh) 相似对问题预测的方法、装置及电子设备
CN116469505A (zh) 数据处理方法、装置、计算机设备及可读存储介质
CN116366312A (zh) 一种Web攻击检测方法、装置及存储介质
CN110674632A (zh) 一种确定安全级别的方法及装置、存储介质和设备
CN113704623B (zh) 一种数据推荐方法、装置、设备及存储介质
CN112598202B (zh) 试题难度评估方法、装置及存储介质、计算设备
CN113656575B (zh) 训练数据的生成方法、装置、电子设备及可读介质
Xu et al. Estimating similarity of rich internet pages using visual information
US20170293863A1 (en) Data analysis system, and control method, program, and recording medium therefor
CN110941709B (zh) 信息筛选方法、装置、电子设备及可读存储介质
CN110688530B (zh) 一种json数据的处理方法及装置
CN113722484A (zh) 基于深度学习的谣言检测方法、装置、设备及存储介质
CN113722421A (zh) 一种合同审计方法和系统,及计算机可读存储介质
Navrat et al. Context search
CN114238668B (zh) 行业信息展示方法、系统、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant