CN109753976A - 语料标注装置和方法 - Google Patents

语料标注装置和方法 Download PDF

Info

Publication number
CN109753976A
CN109753976A CN201711054264.5A CN201711054264A CN109753976A CN 109753976 A CN109753976 A CN 109753976A CN 201711054264 A CN201711054264 A CN 201711054264A CN 109753976 A CN109753976 A CN 109753976A
Authority
CN
China
Prior art keywords
label
corpus
alternative
correct
machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711054264.5A
Other languages
English (en)
Other versions
CN109753976B (zh
Inventor
赵嵩
高芷乔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN201711054264.5A priority Critical patent/CN109753976B/zh
Publication of CN109753976A publication Critical patent/CN109753976A/zh
Application granted granted Critical
Publication of CN109753976B publication Critical patent/CN109753976B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本公开公开了一种语料标注装置和方法,涉及自然语言处理技术领域。其中的语料标注方法包括:用机器标注算法对语料进行自动标注,输出N个备选标签;通过人工标注接口从N个备选标签中挑选出正确的标签。本公开将语料自动标注输出的备选标签集合作为人工标注的优选标签集合,可以兼顾语料的标注效率及准确率。

Description

语料标注装置和方法
技术领域
本公开涉及自然语言处理技术领域,特别涉及一种语料标注装置和方法。
背景技术
随着互联网和移动终端的普及应用,各种形式的语料如洪水般涌来,在自然语言处理、机器翻译、计算机辅助学习等多个领域需要对语料进行标注。
传统的语料标注方法,一般由专职标注人员对语料进行标注,但是大型语料库中需要标注的语料众多,人工进行语料标注效率较低。为了提高语料标注效率,目前常采用标注服务器对语料进行自动标注,这种自动标注的方法标注效率较高,但是标注准确率较低。
如何兼顾语料的标注效率及准确率是当前需要解决的问题。
发明内容
本公开实施例所要解决的一个技术问题是:如何能够兼顾语料的标注效率及准确率。
根据本公开的一个方面,提出一种语料标注装置,包括:
自动标注单元,被配置为用机器标注算法对语料进行自动标注,输出N个备选标签;
人工标注单元,被配置为提供人工标注接口,所述人工标注接口提供从N个备选标签中挑选标签的选择功能,以允许用户从N个备选标签中挑选出正确的标签。
可选地,所述人工标注接口还提供从M个标签全集中挑选标签的选择功能,以允许用户从M个标签全集中挑选出正确的标签,N<M。
可选地,所述人工标注接口提供的从M个标签全集中挑选标签的选择功能在从N个备选标签中未挑选出正确的标签时启用。
可选地,语料标注装置还包括:调节单元,被配置为调节N的值,使得机器标注算法输出的N个备选标签包含正确标签的概率与人工标注的正确率之间的差距小于预设门限。
可选地,所述调节单元,被配置为当机器标注算法输出的N个备选标签包含正确标签的概率与人工标注的正确率之间的差距不小于预设门限时,通过增大N的值,使得机器标注算法输出的N个备选标签包含正确标签的概率与人工标注的正确率之间的差距小于预设门限。
根据本公开的再一个方面,提出一种语料标注方法,包括:
用机器标注算法对语料进行自动标注,输出N个备选标签;
通过人工标注接口从N个备选标签中挑选出正确的标签。
可选地,该方法还包括:若从N个备选标签中未挑选出正确的标签,通过人工标注接口从M个标签全集中挑选出正确的标签,N<M。
可选地,该方法还包括:调节N的值,使得机器标注算法输出的N个备选标签包含正确标签的概率与人工标注的正确率之间的差距小于预设门限。
根据本公开的另一方面,提出一种语料标注装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行前述的语料标注方法。
根据本公开的又一方面,提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述的语料标注方法的步骤。
本公开将语料自动标注输出的备选标签集合作为人工标注的优选标签集合,可以兼顾语料的标注效率及准确率。
附图说明
下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍。根据下面参照附图的详细描述,可以更加清楚地理解本公开,
显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开语料标注方法一个实施例的流程图。
图2A和2B分别为本公开语料标注方法再一个实施例的流程图。
图3是本公开语料标注装置一个实施例的结构示意图。
图4是本公开语料标注装置再一个实施例的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。
所谓标注语料,就是对语料库中的原始语料进行加工,把各种表示语言特征的附码标注在相应的语言成分,以便于计算机的识读。
图1为本公开语料标注方法一个实施例的流程图。如图1所示,该实施例的方法10包括:
步骤110,用机器标注算法对语料进行自动标注,输出N个备选标签。
其中,本公开对具体的机器标注算法并不做限定,所有能够实现语料自动标注的机器标注算法均适用于本公开。作为一种示例,机器标注算法例如可以是隐马可夫模型算法。
步骤120,通过人工标注接口从N个备选标签中挑选出正确的标签。其中,用户可以通过人工标注接口从机器辅助标注的备选标签中挑选出正确的标签。备选标签集合往往小于标签全集,从而有利于提高人工标注效率。
步骤130,可选地,若步骤120未执行成功,即,若从N个备选标签中未挑选出正确的标签,通过人工标注接口从M个标签全集中挑选出正确的标签,N<M。
本实施例将语料自动标注输出的备选标签集合作为人工标注的优选标签集合,可以兼顾语料的标注效率及准确率。此外,在机器标注未成功的情况下,还提供了人工标注纠错功能,仍能改善标注的效果,使最终标注结果的正确率接近人工标注的正确率。
图2A和2B为本公开语料标注方法再一个实施例的流程图。如图2A和2B所示,该实施例的方法20包括:
步骤210,调节N的值,使得机器标注算法输出的N个备选标签包含正确标签的概率与人工标注的正确率之间的差距小于预设门限。
在一个实施例中,当机器标注算法输出的N个备选标签包含正确标签的概率与人工标注的正确率之间的差距不小于预设门限时,通过增大N的值,提高机器辅助选出标签的正确率,使得机器标注算法输出的N个备选标签包含正确标签的概率与人工标注的正确率之间的差距小于预设门限。在实施时,可以逐渐增大N的值,逐渐提高机器辅助选出标签的正确率。
其中,通过机器标注算法对于一个未标记的语料进行标注,一般可以得到数个可能的标签结果,并且一般都可以得到这些标签结果的分值,将这些可能的结果的分值按从大到小的顺序进行排序,得到最有可能的前N个(例如分值最大的前N个)标签结果。如果正确的标签在这N个标签中,则认为机器找到了正确的结果,否则,认为机器没有找到正确的结果。利用机器对一个固定的语料集合进行上述测试和判断,记录在这个语料集合中机器找到正确结果的次数,该次数与语料集合中语料个数的比值,就是N个备选标签包含正确标签的概率。
其中,该预设门限可以根据业务需要设置,该预设门限设置的越小,机器辅助标签选择的正确率与人工标注的正确率越接近。
在实施时,步骤210可以在步骤110~130之前执行,如图2A所示,也可以在步骤110~130之后执行,如图2B所示。
本实施例通过调节N的值,可以在人工标记效率和机器辅助标签选择的正确率之间进行折中选择。
此外,对于机器学习算法,通过将新标记过的语料作为训练集,可以进一步提高机器辅助标记的准确率,从而降低N,进而进一步提高人工标记的效率。
图3是本公开语料标注装置一个实施例的结构示意图。如图3所示,语料标注装置30包括:
自动标注单元310,被配置为用机器标注算法对语料进行自动标注,输出N个备选标签;
人工标注单元320,被配置为提供人工标注接口,人工标注接口提供从N个备选标签中挑选标签的选择功能,以允许用户从N个备选标签中挑选出正确的标签。
其中,人工标注接口还提供从M个标签全集中挑选标签的选择功能,以允许用户从M个标签全集中挑选出正确的标签,N<M。
其中,人工标注接口提供的从M个标签全集中挑选标签的选择功能在从N个备选标签中未挑选出正确的标签时启用。
如图3所示,可选地,装置30还包括:调节单元330,被配置为调节N的值,使得机器标注算法输出的N个备选标签包含正确标签的概率与人工标注的正确率之间的差距小于预设门限。
其中,调节单元330,被配置为当机器标注算法输出的N个备选标签包含正确标签的概率与人工标注的正确率之间的差距不小于预设门限时,通过增大N的值,使得机器标注算法输出的N个备选标签包含正确标签的概率与人工标注的正确率之间的差距小于预设门限。
其中,调节单元330可以与自动标注单元310连接,在机器标注之前调节N的值,也可以与人工标注单元320连接,在人工标注之后调节N的值。
本实施例的装置,将语料自动标注输出的备选标签集合作为人工标注的优选标签集合,可以兼顾语料的标注效率及准确率。此外,在机器标注未成功的情况下,还提供了人工标注纠错功能,仍能改善标注的效果,使最终标注结果的正确率接近人工标注的正确率。此外,通过调节N的值,可以在人工标记效率和机器辅助标签选择的正确率之间进行折中选择。
图4是本公开语料标注装置再一个实施例的结构示意图。如图4所示,语料标注装置40包括:存储器410以及耦接至该存储器410的处理器420,处理器420被配置为基于存储在存储器410中的指令,执行前述任意一个实施例中的语料标注方法。
其中,存储器410例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。
装置40还可以包括输入输出接口430、网络接口440、存储接口450等。这些接口430,440,450以及存储器410和处理器420之间例如可以通过总线460连接。其中,输入输出接口430为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口440为各种联网设备提供连接接口。存储接口450为SD卡、U盘等外置存储设备提供连接接口。
本公开还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任意一个实施例中的语料标注方法的步骤。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种语料标注装置,包括:
自动标注单元,被配置为用机器标注算法对语料进行自动标注,输出N个备选标签;
人工标注单元,被配置为提供人工标注接口,所述人工标注接口提供从N个备选标签中挑选标签的选择功能,以允许用户从N个备选标签中挑选出正确的标签。
2.如权利要求1所述的装置,其中,所述人工标注接口还提供从M个标签全集中挑选标签的选择功能,以允许用户从M个标签全集中挑选出正确的标签,N<M。
3.如权利要求2所述的装置,其中,所述人工标注接口提供的从M个标签全集中挑选标签的选择功能在从N个备选标签中未挑选出正确的标签时启用。
4.如权利要求1所述的装置,还包括:
调节单元,被配置为调节N的值,使得机器标注算法输出的N个备选标签包含正确标签的概率与人工标注的正确率之间的差距小于预设门限。
5.如权利要求4所述的装置,其中,
所述调节单元,被配置为当机器标注算法输出的N个备选标签包含正确标签的概率与人工标注的正确率之间的差距不小于预设门限时,通过增大N的值,使得机器标注算法输出的N个备选标签包含正确标签的概率与人工标注的正确率之间的差距小于预设门限。
6.一种语料标注方法,包括:
用机器标注算法对语料进行自动标注,输出N个备选标签;
通过人工标注接口从N个备选标签中挑选出正确的标签。
7.如权利要求6所述的方法,还包括:
若从N个备选标签中未挑选出正确的标签,通过人工标注接口从M个标签全集中挑选出正确的标签,N<M。
8.如权利要求6所述的方法,还包括:
调节N的值,使得机器标注算法输出的N个备选标签包含正确标签的概率与人工标注的正确率之间的差距小于预设门限。
9.一种语料标注装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行权利要求6-8中任一项所述的语料标注方法。
10.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求6-8中任一项所述的语料标注方法的步骤。
CN201711054264.5A 2017-11-01 2017-11-01 语料标注装置和方法 Active CN109753976B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711054264.5A CN109753976B (zh) 2017-11-01 2017-11-01 语料标注装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711054264.5A CN109753976B (zh) 2017-11-01 2017-11-01 语料标注装置和方法

Publications (2)

Publication Number Publication Date
CN109753976A true CN109753976A (zh) 2019-05-14
CN109753976B CN109753976B (zh) 2021-03-19

Family

ID=66397560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711054264.5A Active CN109753976B (zh) 2017-11-01 2017-11-01 语料标注装置和方法

Country Status (1)

Country Link
CN (1) CN109753976B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110807486A (zh) * 2019-10-31 2020-02-18 北京达佳互联信息技术有限公司 类别标签的生成方法、装置、电子设备及存储介质
CN110825914A (zh) * 2019-10-31 2020-02-21 广州市百果园信息技术有限公司 一种资源的标注管理系统
CN112925910A (zh) * 2021-02-25 2021-06-08 中国平安人寿保险股份有限公司 一种辅助语料标注方法、装置、设备及计算机存储介质
CN113609825A (zh) * 2021-10-11 2021-11-05 北京百炼智能科技有限公司 一种客户属性标签智能标识方法和装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662930A (zh) * 2012-04-16 2012-09-12 乐山师范学院 一种语料标注方法及装置
CN102662953A (zh) * 2012-03-01 2012-09-12 倪旻 与输入法集成的语义标注系统和方法
CN103268339A (zh) * 2013-05-17 2013-08-28 中国科学院计算技术研究所 微博消息中命名实体识别方法及系统
CN103530282A (zh) * 2013-10-23 2014-01-22 北京紫冬锐意语音科技有限公司 语料标注方法及设备
CN106649278A (zh) * 2016-12-30 2017-05-10 三星电子(中国)研发中心 扩展口语对话系统语料库的方法和系统
CN106815215A (zh) * 2015-11-30 2017-06-09 华为技术有限公司 生成标注库的方法和装置
CN107291708A (zh) * 2016-03-30 2017-10-24 《中国学术期刊(光盘版)》电子杂志社有限公司 一种基于文本的自动识别文献研究的方法
CN107291775A (zh) * 2016-04-11 2017-10-24 北京京东尚科信息技术有限公司 错误样本的修复语料生成方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662953A (zh) * 2012-03-01 2012-09-12 倪旻 与输入法集成的语义标注系统和方法
CN102662930A (zh) * 2012-04-16 2012-09-12 乐山师范学院 一种语料标注方法及装置
CN103268339A (zh) * 2013-05-17 2013-08-28 中国科学院计算技术研究所 微博消息中命名实体识别方法及系统
CN103530282A (zh) * 2013-10-23 2014-01-22 北京紫冬锐意语音科技有限公司 语料标注方法及设备
CN106815215A (zh) * 2015-11-30 2017-06-09 华为技术有限公司 生成标注库的方法和装置
CN107291708A (zh) * 2016-03-30 2017-10-24 《中国学术期刊(光盘版)》电子杂志社有限公司 一种基于文本的自动识别文献研究的方法
CN107291775A (zh) * 2016-04-11 2017-10-24 北京京东尚科信息技术有限公司 错误样本的修复语料生成方法和装置
CN106649278A (zh) * 2016-12-30 2017-05-10 三星电子(中国)研发中心 扩展口语对话系统语料库的方法和系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110807486A (zh) * 2019-10-31 2020-02-18 北京达佳互联信息技术有限公司 类别标签的生成方法、装置、电子设备及存储介质
CN110825914A (zh) * 2019-10-31 2020-02-21 广州市百果园信息技术有限公司 一种资源的标注管理系统
CN110807486B (zh) * 2019-10-31 2022-09-02 北京达佳互联信息技术有限公司 类别标签的生成方法、装置、电子设备及存储介质
CN112925910A (zh) * 2021-02-25 2021-06-08 中国平安人寿保险股份有限公司 一种辅助语料标注方法、装置、设备及计算机存储介质
CN113609825A (zh) * 2021-10-11 2021-11-05 北京百炼智能科技有限公司 一种客户属性标签智能标识方法和装置
CN113609825B (zh) * 2021-10-11 2022-03-25 北京百炼智能科技有限公司 一种客户属性标签智能标识方法和装置

Also Published As

Publication number Publication date
CN109753976B (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
CN109753976A (zh) 语料标注装置和方法
CN110674314B (zh) 语句识别方法及装置
CN110287480A (zh) 一种命名实体识别方法、装置、存储介质及终端设备
EP3869358A1 (en) Method and apparatus for recognizing entity word, electronic device and storage medium
CN107392125A (zh) 智能模型的训练方法/系统、计算机可读存储介质及终端
US20210133553A1 (en) Training a model
CN105335360B (zh) 生成文档结构的方法和装置
CN108351828A (zh) 用于设备无关的自动应用测试的技术
CN112506759B (zh) 伺服系统控制软件的自动化测试方法、装置及存储介质
JP7222040B2 (ja) モデル訓練、画像処理方法及びデバイス、記憶媒体、プログラム製品
CN105068990B (zh) 一种面向机器翻译的多策略英文长句分割方法
CN107368820A (zh) 一种精细化手势识别方法、装置及设备
CN110110035A (zh) 数据处理方法和装置以及计算机可读存储介质
CN111666771B (zh) 文书的语义标签抽取、装置、电子设备及可读存储介质
CN107291692A (zh) 基于人工智能的分词模型的定制方法、装置、设备和介质
CN112149741A (zh) 图像识别模型的训练方法、装置、电子设备及存储介质
CN109284763A (zh) 一种生成分词训练数据的方法和服务器
CN112466277B (zh) 韵律模型训练方法、装置、电子设备及存储介质
CN106776275B (zh) 一种基于分组复用的测试流程自动生成方法
CN112927328A (zh) 表情迁移方法、装置、电子设备及存储介质
CN115469849B (zh) 一种业务处理系统、方法、电子设备和存储介质
CN105573972A (zh) 报表校验公式的生成方法及装置
CN107885527A (zh) 一种测试系统的代码修改方法及装置
CN110362734A (zh) 文本识别方法、装置、设备及计算机可读存储介质
CN113325950B (zh) 功能控制方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant