CN105224603A - 训练语料获取方法及装置 - Google Patents

训练语料获取方法及装置 Download PDF

Info

Publication number
CN105224603A
CN105224603A CN201510552055.8A CN201510552055A CN105224603A CN 105224603 A CN105224603 A CN 105224603A CN 201510552055 A CN201510552055 A CN 201510552055A CN 105224603 A CN105224603 A CN 105224603A
Authority
CN
China
Prior art keywords
outcome
predict
language material
corpus
initial training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510552055.8A
Other languages
English (en)
Other versions
CN105224603B (zh
Inventor
俞晓光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201510552055.8A priority Critical patent/CN105224603B/zh
Publication of CN105224603A publication Critical patent/CN105224603A/zh
Application granted granted Critical
Publication of CN105224603B publication Critical patent/CN105224603B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种训练语料获取方法及装置,具有自动化程度高、获取速度快等优点。该方法包括:获取第一初始训练语料和第二初始训练语料;利用根据第一初始训练语料构建的概率分类模型对可选训练语句进行预测,得到第一预测结果;利用根据第一初始训练语料和第二初始训练语料构建的概率分类模型对可选训练语句进行预测,得到第二预测结果;比较第一预测结果和第二预测结果,若第一预测结果与第二预测结果中的分类信息不一致,或者第一预测结果与第二预测结果中的分类信息一致且第一预测结果中的预测概率小于第二预测结果中的预测概率,将可选训练语句和第二预测结果中的分类信息作为训练语料输出。

Description

训练语料获取方法及装置
技术领域
本发明涉及自然语言处理技术领域,特别地涉及一种训练语料获取方法及装置。
背景技术
意图识别,即识别一种行为的意图。例如在问答对话中,提问者每句话都带有一定的意图,应答方根据对方的意图进行回答。意图识别在搜索引擎、聊天机器人等场景下有广泛的应用。
现有的意图识别方法主要是获取一批语料,人工标注每条语料的意图从而得到训练数据。通过训练数据结合特定的算法训练出概率分类模型,并使用所得概率分类模型对新的语料进行意图识别。由于初始人工标注的语料较少,在线上使用过程中会出现一些错误用例,也就是说模型预测效果一般。为了扩展和优化模型,需要获得更多的训练语料。
目前主要是人工发现错误用例,进行人工标注后并加入训练语料库。该方法所有数据都需要人工提取,只能发现一个问题解决一个,很多错误问题因为人力原因被遗漏,解决一个错误用例的代价也较大。因此新的训练语料获取速度慢,导致模型优化速度也很慢。
发明内容
有鉴于此,本发明提供一种训练语料获取方法及装置,具有自动化程度高、获取速度快等优点。
为实现上述目的,根据本发明的一个方面,提供了一种训练语料获取方法,包括:获取第一初始训练语料和第二初始训练语料;利用根据所述第一初始训练语料构建的概率分类模型对可选训练语句进行预测,得到第一预测结果;利用根据所述第一初始训练语料和第二初始训练语料构建的概率分类模型对所述可选训练语句进行预测,得到第二预测结果;比较所述第一预测结果和第二预测结果,若所述第一预测结果与第二预测结果中的分类信息不一致,或者所述第一预测结果与第二预测结果中的分类信息一致且所述第一预测结果中的预测概率小于所述第二预测结果中的预测概率,将所述可选训练语句和第二预测结果中的分类信息作为训练语料输出。
可选地,所述可选训练语句来自线上对话日志。
可选地,所述第一初始训练语料和第二初始训练语料是经过人工标注的训练语料。
可选地,所述训练语料用于新建训练语料库,或者用于扩展和优化所述第一初始训练语料和第二初始训练语料所属的原有的训练语料库。
为实现上述目的,根据本发明的另一方面,提供了一种训练语料获取装置,包括:获取模块,用于获取第一初始训练语料和第二初始训练语料;第一预测模块,用于利用根据所述第一初始训练语料构建的概率分类模型对可选训练语句进行预测,得到第一预测结果;第二预测模块,用于利用根据所述第一初始训练语料和第二初始训练语料构建的概率分类模型对所述可选训练语句进行预测,得到第二预测结果;输出模块,用于比较所述第一预测结果和第二预测结果,若所述第一预测结果与第二预测结果的分类信息不一致,或者所述第一预测结果与第二预测结果的分类信息一致且所述第一预测结果的预测概率小于所述第二预测结果的预测概率,将所述可选训练语句和第二预测结果中的分类信息作为训练语料输出。
可选地,所述可选训练语句来自线上对话日志。
可选地,所述第一初始训练语料和第二初始训练语料是经过人工标注的训练语料。
可选地,所述训练语料用于新建训练语料库,或者用于扩展和优化所述第一初始训练语料和第二初始训练语料所属的原有的训练语料库。
根据本发明的技术方案,对可选训练语句进行两次预测并比较预测结果。若两次预测结果中分类信息不一致,意味着第二次预测是对第一次预测的结果进行了修正,应以第二次预测结果的分类信息为准。若两次预测结果中的分类信息一致且概率变大,意味着第二次预测是对第一次预测的结果进行了确认,此时两次预测结果中的分类信息是可信度较高的。通过这样的方式,可以快速地获得训练语料,具有自动化程度高等优点。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的训练语料获取方法的基本步骤的示意图;
图2是根据本发明实施例的训练语料获取装置的主要模块的示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的训练语料获取方法的基本步骤的示意图。如图1所示,该训练语料获取方法可以包括如下的步骤S11至步骤S14。
步骤S11:获取第一初始训练语料和第二初始训练语料。
可选地,第一初始训练语料和第二初始训练语料是经过人工标注的训练语料。第一初始训练语料和第二初始训练语料可以包括多个句子以及对应的分类标识。
步骤S12:利用根据第一初始训练语料构建的概率分类模型对可选训练语句进行预测,得到第一预测结果。
步骤S13:利用根据第一初始训练语料和第二初始训练语料构建的概率分类模型对可选训练语句进行预测,得到第二预测结果。
需要说明的是,步骤S12和步骤S13中构建概率分类模型的具体方式不受限制,本领域技术人员可以采用任意的现有技术来获得模型。可选训练语句仅仅是一个句子,并不附带分类标识等信息。利用模型对可选训练语句进行预测,即找出该可选训练语句的可能所属的分类以及对应的概率。可选地,可选训练语句来自线上对话日志。
步骤S14:比较第一预测结果和第二预测结果。若第一预测结果与第二预测结果中的分类信息不一致,或者第一预测结果与第二预测结果中的分类信息一致且第一预测结果中的预测概率小于第二预测结果中的预测概率,将可选训练语句和第二预测结果中的分类信息作为训练语料输出。
需要说明的是,在第一预测结果与第二预测结果的分类一致且第一预测结果的预测概率大于第二预测结果的预测概率的情况下,仍不能够准确判断该可选训练语句所属的分类,该可选训练语句不能作为训练语料输出,而应当被舍弃。
可选地,步骤S14所得到的训练语料用于新建训练语料库,或者用于扩展和优化第一初始训练语料和第二初始训练语料所属的原有的训练语料库。
由上可知,根据本发明的实施例的训练语料获取方法,对可选训练语句进行两次预测并比较预测结果。若两次预测结果中分类信息不一致,意味着第二次预测是对第一次预测的结果进行了修正,应以第二次预测结果的分类信息为准。若两次预测结果中的分类信息一致且概率变大,意味着第二次预测是对第一次预测的结果进行了确认,此时两次预测结果中的分类信息是可信度较高的。因此,该方法可以快速地获得训练语料,具有自动化程度高等优点。
图2是根据本发明实施例的训练语料获取装置的主要模块的示意图。如图2所示,该训练语料获取装置20包括:获取模块21、第一预测模块22、第二预测模块23和输出模块24。
获取模块21用于获取第一初始训练语料和第二初始训练语料。可选地,第一初始训练语料和第二初始训练语料是经过人工标注的训练语料。第一初始训练语料和第二初始训练语料可以包括多个句子以及对应的分类标识。
第一预测模块22用于利用根据第一初始训练语料构建的概率分类模型对可选训练语句进行预测,得到第一预测结果。
第二预测模块23用于利用根据第一初始训练语料和第二初始训练语料构建的概率分类模型对可选训练语句进行预测,得到第二预测结果。
需要说明的是,步骤S12和步骤S13中构建概率分类模型的具体方式不受限制,本领域技术人员可以采用任意的现有技术来获得模型。可选训练语句仅仅是一个句子,并不附带分类标识等信息。利用模型对可选训练语句进行预测,即找出该可选训练语句的可能所属的分类以及对应的概率。可选地,可选训练语句来自线上对话日志。
输出模块24用于比较第一预测结果和第二预测结果,若第一预测结果与第二预测结果的分类信息不一致,或者第一预测结果与第二预测结果的分类信息一致且第一预测结果的预测概率小于第二预测结果的预测概率,将可选训练语句和第二预测结果中的分类信息作为训练语料输出。
需要说明的是,在第一预测结果与第二预测结果的分类一致且第一预测结果的预测概率大于第二预测结果的预测概率的情况下,仍不能够准确判断该可选训练语句所属的分类,该可选训练语句不能作为训练语料输出,而应当被舍弃。
可选地,输出模块24输出的训练语料用于新建训练语料库,或者用于扩展和优化第一初始训练语料和第二初始训练语料所属的原有的训练语料库。
由上可知,根据本发明的实施例的训练语料获取装置,对可选训练语句进行两次预测并比较预测结果。若两次预测结果中分类信息不一致,意味着第二次预测是对第一次预测的结果进行了修正,应以第二次预测结果的分类信息为准。若两次预测结果中的分类信息一致且概率变大,意味着第二次预测是对第一次预测的结果进行了确认,此时两次预测结果中的分类信息是可信度较高的。因此,该装置可以快速地获得训练语料,具有自动化程度高等优点。
为使本领域技术人员更好地理解本发明的训练语料获取方法及装置,下面列举具体实施例进行说明。
首先,对一批句子进行人工标记分类,即获取第一初始训练语料。这批语料中有一个分类是“快递相关”,在此简单列举几条(实际上每个分类可能都有几百条语料)。需要说明的是,由于是人工进行分类标记,所以存在标记错误的情况。
语料1:包邮吗(快递相关)
语料2:可以寄顺丰吗(快递相关)
语料3:几天能寄到呢(快递相关)
语料4:我不高兴(快递相关)
可以看到语料1至语料3确实是“快递相关”的语料,但语料4应该属于“闲聊”不应该标注到“快递相关”,属于标注错误的语料。
其次,通过分析用户对话进一步获取了以下几条句子以及句子对应的分类,即获取第二初始训练语料。
语料5:多少钱包邮(快递相关)
语料6:退货的话运费谁出(快递相关)
语料7:你高兴吗(闲聊)
接着,根据语料1至语料4训练得到模型1。并且根据语料1至语料7训练得到模型2。将模型1和模型2上线,用于预估用户真实问题的意图。这些源自用户真实问题的句子即为可选的训练语料,举例如下:
句子a:100块的东西能包邮吗
句子b:我要退货,你们出运费
句子c:今天不高兴
然后,分别使用上面得到的模型1、模型2对这三个句子进行预测。
对于句子a,模型1中有类似的语料(指语料1),因此句子a可以分类到“快递相关”分类中,但由于第一初始训练语料中只有一条类似语料导致概率较低。当使用模型2对其分类时,由于加入了新的相似语料(指语料5)。导致这次分类概率大于模型1分类概率。因此,第二次预测是对第一次预测的结果进行了进一步地确认,可以将句子a连同“快递相关”的分类标识作为训练语料输出。
对于句子b,模型1中没有类似的语料,因此句子b可能无法正确分类到“快递相关”。当使用模型2时,由于有了类似语料(指语料6),使得句子能够正确分类。可以看到两次分类结果不一致,因此第二次预测是对第一次预测的结果进行了修正,可以将句子b和“快递相关”的分类标识作为训练语料输出。
对于句子c,模型1中有类似语料(指语料4),因此句子可能会被分类到“快递相关”。当使用模型2时,类似的新增的语料(指语料7)却出现在“闲聊”中。因此第二次预测时句子c被分类到“快递相关”的概率就大大减小。该语料c就不适合加入模型训练。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (8)

1.一种训练语料获取方法,其特征在于,包括:
获取第一初始训练语料和第二初始训练语料;
利用根据所述第一初始训练语料构建的概率分类模型对可选训练语句进行预测,得到第一预测结果;
利用根据所述第一初始训练语料和第二初始训练语料构建的概率分类模型对所述可选训练语句进行预测,得到第二预测结果;
比较所述第一预测结果和第二预测结果,若所述第一预测结果与第二预测结果中的分类信息不一致,或者所述第一预测结果与第二预测结果中的分类信息一致且所述第一预测结果中的预测概率小于所述第二预测结果中的预测概率,将所述可选训练语句和第二预测结果中的分类信息作为训练语料输出。
2.根据权利要求1所述的训练语料获取方法,其特征在于,所述可选训练语句来自线上对话日志。
3.根据权利要求1所述的训练语料获取方法,其特征在于,所述第一初始训练语料和第二初始训练语料是经过人工标注的训练语料。
4.根据权利要求1所述的训练语料获取方法,其特征在于,所述训练语料用于新建训练语料库,或者用于扩展和优化所述第一初始训练语料和第二初始训练语料所属的原有的训练语料库。
5.一种训练语料获取装置,其特征在于,包括:
获取模块,用于获取第一初始训练语料和第二初始训练语料;
第一预测模块,用于利用根据所述第一初始训练语料构建的概率分类模型对可选训练语句进行预测,得到第一预测结果;
第二预测模块,用于利用根据所述第一初始训练语料和第二初始训练语料构建的概率分类模型对所述可选训练语句进行预测,得到第二预测结果;
输出模块,用于比较所述第一预测结果和第二预测结果,若所述第一预测结果与第二预测结果的分类信息不一致,或者所述第一预测结果与第二预测结果的分类信息一致且所述第一预测结果的预测概率小于所述第二预测结果的预测概率,将所述可选训练语句和第二预测结果中的分类信息作为训练语料输出。
6.根据权利要求5所述的训练语料获取装置,其特征在于,所述可选训练语句来自线上对话日志。
7.根据权利要求5所述的训练语料获取装置,其特征在于,所述第一初始训练语料和第二初始训练语料是经过人工标注的训练语料。
8.根据权利要求5所述的训练语料获取装置,其特征在于,所述训练语料用于新建训练语料库,或者用于扩展和优化所述第一初始训练语料和第二初始训练语料所属的原有的训练语料库。
CN201510552055.8A 2015-09-01 2015-09-01 训练语料获取方法及装置 Active CN105224603B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510552055.8A CN105224603B (zh) 2015-09-01 2015-09-01 训练语料获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510552055.8A CN105224603B (zh) 2015-09-01 2015-09-01 训练语料获取方法及装置

Publications (2)

Publication Number Publication Date
CN105224603A true CN105224603A (zh) 2016-01-06
CN105224603B CN105224603B (zh) 2018-04-10

Family

ID=54993571

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510552055.8A Active CN105224603B (zh) 2015-09-01 2015-09-01 训练语料获取方法及装置

Country Status (1)

Country Link
CN (1) CN105224603B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107894971A (zh) * 2017-10-27 2018-04-10 北京大学 一种可扩展的基于神经网络的序列标注方法
CN110413723A (zh) * 2019-06-06 2019-11-05 福建奇点时空数字科技有限公司 一种数据驱动的语料库自动化构建方法
CN111046979A (zh) * 2020-03-13 2020-04-21 成都晓多科技有限公司 一种基于小样本学习的badcase发现方法及系统
CN111611797A (zh) * 2020-05-22 2020-09-01 云知声智能科技股份有限公司 基于Albert模型的预测数据标注的方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336764A (zh) * 2013-06-18 2013-10-02 百度在线网络技术(北京)有限公司 基于倾向性分析的分类模型建立、内容识别方法及装置
US20150154184A1 (en) * 2013-12-04 2015-06-04 International Business Machines Corporation Morphology analysis for machine translation
CN104809103A (zh) * 2015-04-29 2015-07-29 北京京东尚科信息技术有限公司 一种人机对话的语义分析方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336764A (zh) * 2013-06-18 2013-10-02 百度在线网络技术(北京)有限公司 基于倾向性分析的分类模型建立、内容识别方法及装置
US20150154184A1 (en) * 2013-12-04 2015-06-04 International Business Machines Corporation Morphology analysis for machine translation
CN104809103A (zh) * 2015-04-29 2015-07-29 北京京东尚科信息技术有限公司 一种人机对话的语义分析方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107894971A (zh) * 2017-10-27 2018-04-10 北京大学 一种可扩展的基于神经网络的序列标注方法
CN107894971B (zh) * 2017-10-27 2019-11-26 北京大学 一种可扩展的基于神经网络的序列标注方法
CN110413723A (zh) * 2019-06-06 2019-11-05 福建奇点时空数字科技有限公司 一种数据驱动的语料库自动化构建方法
CN111046979A (zh) * 2020-03-13 2020-04-21 成都晓多科技有限公司 一种基于小样本学习的badcase发现方法及系统
CN111611797A (zh) * 2020-05-22 2020-09-01 云知声智能科技股份有限公司 基于Albert模型的预测数据标注的方法、装置及设备
CN111611797B (zh) * 2020-05-22 2023-09-12 云知声智能科技股份有限公司 基于Albert模型的预测数据标注的方法、装置及设备

Also Published As

Publication number Publication date
CN105224603B (zh) 2018-04-10

Similar Documents

Publication Publication Date Title
CN104572958B (zh) 一种基于事件抽取的敏感信息监控方法
CN103970733B (zh) 一种基于图结构的中文新词识别方法
CN105912625B (zh) 一种面向链接数据的实体分类方法和系统
CN102722709B (zh) 一种垃圾图片识别方法和装置
CN104268160A (zh) 一种基于领域词典和语义角色的评价对象抽取方法
CN103473262B (zh) 一种基于关联规则的Web评论观点自动分类系统及分类方法
CN108363701B (zh) 命名实体识别方法及系统
CN111182162B (zh) 基于人工智能的电话质检方法、装置、设备和存储介质
CN106156083A (zh) 一种领域知识处理方法及装置
CN106897290B (zh) 一种建立关键词模型的方法及装置
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN105224603A (zh) 训练语料获取方法及装置
CN106503254A (zh) 语料分类方法、装置及终端
CN109492106B (zh) 一种文本代码相结合的缺陷原因自动分类方法
CN111709244B (zh) 一种用于矛盾纠纷事件因果关系识别的深度学习方法
CN104536953A (zh) 一种文本情绪极性的识别方法及装置
CN103324745A (zh) 基于贝叶斯模型的文本垃圾识别方法和系统
CN104866558A (zh) 一种社交网络账号映射模型训练方法及映射方法和系统
CN104346326A (zh) 一种情绪文本的情绪特征确定方法及装置
CN104731768A (zh) 一种面向中文新闻文本的事件地点抽取方法
CN106376002A (zh) 一种管理方法及装置、垃圾短信监控系统
CN104317891A (zh) 一种对页面标注标签的方法及装置
CN107357895A (zh) 一种基于词袋模型的文本表示的处理方法
CN109858025A (zh) 一种地址标准化语料的分词方法及系统
CN107704869B (zh) 一种语料数据抽样方法及模型训练方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant