CN111125124A - 一种基于大数据平台的语料标注的方法及装置 - Google Patents

一种基于大数据平台的语料标注的方法及装置 Download PDF

Info

Publication number
CN111125124A
CN111125124A CN201911130091.XA CN201911130091A CN111125124A CN 111125124 A CN111125124 A CN 111125124A CN 201911130091 A CN201911130091 A CN 201911130091A CN 111125124 A CN111125124 A CN 111125124A
Authority
CN
China
Prior art keywords
corpus
labeled
corpora
labeling
unknown
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911130091.XA
Other languages
English (en)
Other versions
CN111125124B (zh
Inventor
滕义伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Yunzhisheng Intelligent Technology Co ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN201911130091.XA priority Critical patent/CN111125124B/zh
Publication of CN111125124A publication Critical patent/CN111125124A/zh
Application granted granted Critical
Publication of CN111125124B publication Critical patent/CN111125124B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据平台的语料标注方法及装置,包括以下步骤:采集人工智能引擎中用户的语音交互日志;分析人工智能引擎中的未知语料并对其进行语料分类,分为已标注语料和未标注语料;将未标注语料推送到业务运营平台以使业务运营平台对未标注语料进行标注;采集标注语料,根据采集结果更新标注语料库中的语料。通过将未知语料进行分类可以使得业务运营平台选择性的对分类的语料进行标注,解决了现有技术中推送语料没有类别优先级,人工依次标注所有推送的语料效率低下的问题,提高了标注的效率,同时系统会针对分类的语料自动进行语料标注。相比于现有技术需要耗费很大的人力成本做标注的情况,节省了人力。

Description

一种基于大数据平台的语料标注的方法及装置
技术领域
本发明涉及语料处理技术领域,尤其涉及一种基于大数据平台的语料标注的方法及装置。
背景技术
随着互联网和移动终端的普及应用,各种形式的语料如洪水般涌来,在自然语言处理、机器翻译、计算机辅助学习等多个领域需要对语料进行标注。
现有技术的语料标注方法通过大数据平台采集人工智能引擎输出的语音交互日志,分析和过滤出未知领域的数据,推送给业务运营平台进行未知语料类别人工标注。但是这种方法存在着以下问题:1、每次推送的未知语料比较多,需要耗费很大的人力成本做标注;2、推送语料没有类别优先级,人工依次标注所有推送的语料效率低下。
对于上述问题,目前急需一种省力且高效的语料标注方法。
发明内容
针对上述所显示出来的问题,本方法基于利用大数据平台将人工智能采集的未知语料进行分类并且根据分类结果推送给业务运营平台来进行系统标注和人工标注两种方式来对未知语料进行标注。
一种基于大数据平台的语料标注方法,包括以下步骤:
采集人工智能引擎中用户的语音交互日志;
分析人工智能引擎中的未知语料并对其进行语料分类,分为已标注语料和未标注语料;
将未标注语料推送到业务运营平台以使业务运营平台对未标注语料进行标注;
采集标注语料,根据采集结果更新标注语料库中的语料。
优选的,分析人工智能引擎中的未知语料并对其进行语料分类,分为已标注语料和未标注语料,包括:
将未知语料在标注语料库中进行检索,检索出未知语料中的已标注语料;
运行数据处理引擎,将未知语料中的未标注语料进行分类,分为自动标注类别语料和人工标注类别语料;
系统自动对自动标注类别语料进行标注。
优选的,将未知语料在标注语料库中进行检索,检索出未知语料中的已标注语料,包括:
接通与标注语料库的数据连接;
找出未知语料中的关键词;
将关键词语料放入标注语料库中进行检索,在标注语料库中已经出现的关键词作为未知语料中的已标注语料。
优选的,将未标注语料推送到业务运营平台以使业务运营平台未标注语料进行标注,包括:
将人工标注类别语料推送到业务运营平台并通过业务运营平台对其进行人工标注;
其中,通过所述业务运营平台将进行了人工标注后的人工标注类别语料展示。
优选的,采集标注的未知语料,根据采集结果更新标注语料库中的语料,包括:
在业务运营平台上埋点,采集标注语料;
将标注语料插入到标注语料库中进行补充。
一种基于大数据平台的语料标注的装置,该装置包括:
采集模块,用于采集人工智能引擎中用户的语音交互日志;
分类模块,用于分析人工智能引擎中的未知语料并对其进行语料分类,分为已标注语料和未标注语料;
推送模块,用于将未标注语料推送到业务运营平台以使业务运营平台对未标注语料进行标注;
更新模块,用于采集标注语料,根据采集结果更新标注语料库中的语料。
优选的,分类模块,包括:
检索子模块,用于将未知语料在标注语料库中进行检索,检索出未知语料中的已标注语料;
分类子模块,用于运行数据处理引擎,将未知语料中的未标注语料进行分类,分为自动标注类别语料和人工标注类别语料;
自动标注模块,用于系统自动对所述自动标注类别语料进行标注。
优选的,检索子模块,包括:
接通单元,用于接通与标注语料库的数据连接;
查找单元,用于找出未知语料中的关键词;
检索单元,用于将关键词放入标注语料库中进行检索,在标注语料库中已经出现的关键词作为未知语料中的已标注语料。
优选的,推送模块,包括:
推送子模块,用于将人工标注类别语料分类推送到业务运营平台并通过业务运营平台对其进行标注;
其中,通过业务运营平台将进行了人工标注后的人工标注类别语料展示。
优选的,更新模块,包括:
采集子模块,用于在业务运营平台上埋点,采集标注语料;
补充子模块,用于将标注语料插入到标注语料库中进行补充。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明所提供的一种基于大数据平台的语料标注方法的工作流程图;
图2为本发明所提供的一种基于大数据平台的语料标注方法的另一工作流程图;
图3为本发明所提供的一种基于大数据平台的语料标注方法的工作流程截图;
图4为本发明所提供的一种基于大数据平台的语料标注装置的结构图;
图5为本发明所提供的一种基于大数据平台的语料标注装置的另一结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
随着互联网和移动终端的普及应用,各种形式的语料如洪水般涌来,在自然语言处理、机器翻译、计算机辅助学习等多个领域需要对语料进行标注。
现有技术的语料标注方法通过大数据平台采集人工智能引擎输出的语音交互日志,分析和过滤出未知领域的数据,推送给业务运营平台进行未知语料类别人工标注。但是这种方法存在着以下问题:1、每次推送的未知语料比较多,需要耗费很大的人力成本做标注;2、推送语料没有类别优先级,人工依次标注所有推送的语料效率低下;3、推送历史未知语料数据无记忆,在人工智能引擎优化前存在重复推送和标注的问题。为了解决上述问题,本实施例公开了一种基于大数据平台的语料标注方法。
一种基于大数据平台的语料标注方法,如图1所示,包括以下步骤:
步骤S101、采集人工智能引擎中用户的语音交互日志;
步骤S102、分析人工智能引擎中的未知语料并对其进行语料分类,分为已标注语料和未标注语料;
步骤S103、将未标注语料推送到业务运营平台以使业务运营平台对未标注语料进行标注;
步骤S104、采集标注语料,根据采集结果更新标注语料库中的语料。
上述技术方案的工作原理为:通过大数据平台接收人工智能引擎采集到的未知语料,并且将未知语料进行分类,分为已标注语料和未标注语料,将未标注语料推送到业务运营平台,业务运营平台对未标注语料进行系统人工标注,大数据平台采集标注语料来更新标注语料库中的语料。
上述技术方案的有益效果为:通过将未知语料进行分类可以使得业务运营平台选择性的对分类的语料进行标注,解决了现有技术中推送语料没有类别优先级,人工依次标注所有推送的语料效率低下的问题,提高了标注的效率,同时系统会针对分类的语料自动进行语料标注。结合人工标注方式一起对未知语料进行标注,相比于现有技术需要耗费很大的人力成本做标注的情况,节省了人力。
在一个实施例中,分析人工智能引擎中的未知语料并对其进行语料分类,分为已标注语料和未标注语料,包括:
将未知语料在标注语料库中进行检索,检索出未知语料中的已标注语料;
运行数据处理引擎,将未知语料中的未标注语料进行分类,分为自动标注类别语料和人工标注类别语料;
系统自动对自动标注类别语料进行标注。
上述技术方案的有益效果为:通过对标注语料库进行检索来检索出未知语料中的已标注语料,解决了现有技术中推送历史未知语料数据无记忆,在人工智能引擎优化前存在重复推送和标注的问题,同时系统自动会将自动标注类别语料进行标注,进而减少了语料标注人员的工作量。
在一个实施例中,将未知语料在标注语料库中进行检索,检索出未知语料中的已标注语料,包括:
接通与标注语料库的数据连接;
找出未知语料中的关键词;
将关键词放入标注语料库中进行检索,在标注语料库中已经出现的关键词作为未知语料中的已标注语料;
特别的,对于已标注的未知语料,可以省略而不需要进行标注,只需要将未标注的位置语料进行标注即可。
上述技术方案的有益效果为:通过关键词检索避免了将所有未知语料放入标注语料库中进行检索的繁琐,可以提高检索的效率和准确度,同时可以检索出已标注的未知语料进而减少需要标注的语料数量。提高了标注的效率。
在一个实施例中,将未标注语料推送到业务运营平台以使业务运营平台所述未标注语料进行标注,包括:
将人工标注类别语料推送到业务运营平台并通过业务运营平台对其进行人工标注;
其中,通过所述业务运营平台将进行了人工标注后的人工标注类别语料展示。
特别的,自动标注类别语料可以为系统自动运行标记程序进行标记,而人工标注类别语料指系统无法自动运行标记程序所以得人为的进行标注。
上述技术方案的有益效果为:语料标注人员可以只对人工标注类别语料进行标注,并且已标注的语料可以直接忽略,通过系统自动标注和人工标注的方式使得标注过程更加节省了人力。
在一个实施例中,如图2所示,采集标注的未知语料,根据采集结果更新标注语料库中的语料,包括:
步骤S201、在业务运营平台上埋点,采集标注语料;
步骤S202、将标注语料插入到标注语料库中进行补充;
特别的,上述标注语料包括标注后的自动标注类别语料以及人工标注类别语料。
上述技术方案的有益效果为:将标注的语料对标注语料库进行更新方便于下次进行检索时避免重复标注,同时将未出现的标注语料插入到标注语料库中丰富了标注语料库,使得以后采集的未知语料可以更大范围的进行检索。
在一个实施例中,如图3所示,包括:
第1步:采集NLU引擎用户语音交互日志,如图3步骤1;
第2步:unknown语料和历史标注语料库关联,如图3步骤2。
大数据平台分析出NLU引擎中unknown领域的语料,将本次unknown语料和历史标注语料库中的语料进行关联。标注语料库中已经出现的语料作为“已标注”语料类别,库中未出现的语料进入下一个步骤;
第3步:unknown语料误拒挖掘,如图3步骤3。
将未关联的unknown语料送入误拒挖掘引擎,进行unknown语料的类别判定。
根据误拒挖掘引擎的分类结果,将unknown语料分为“建议类别”和“未知类别”两种语料类别;
第4步:unknown语料推送,如图3步骤4。
将上述2,3步产生的3类语料推送到业务运营平台,三种类别的语料在不同的模块展示;
第5步:unknown语料标注,如图3步骤5。
语料标注人员对于3类语料可以有侧重的处理:
“已知类别”语料:基本不用关心,这个类别的语料表示语料已经标注,但是还没有在NLU引擎上生效;
“建议类别”语料:这个类别的语料表示通过机器学习模型已经自动标注的语料,只需人工更新自动标注类别错误部分的语料;
“未知类别”语料:这个类别的语料需要人工标注。
第6步:语料标注类别采集,如图3步骤6。
在业务运营平台埋点,采集标注人员对语料类别的标注操作。
第7步:标注语料库更新,如图3步骤7。
大数据平台分析标注人员的语料标注行为,插入或更新标注语料库中的语料。
上述技术方案的工作原理和有益效果为:本方法通过与历史标注语料库关联,解决了语料的重复标注的问题;通过误拒挖掘引擎对语料预分类标注,减少标注人员部分标注工作量。同时,通过在NLU引擎端和业务端埋点采集用户的语音交互行为数据和标注人员的标注行为,构建了语料标注的数据闭环,进而实现语料标注工作的逐步收敛。
一种基于大数据平台的语料标注的装置,如图4所示,该装置包括:
采集模块401,用于采集人工智能引擎中用户的语音交互日志;
分类模块402,用于分析人工智能引擎中的未知语料并对其进行语料分类,分为已标注语料和未标注语料;
推送模块403,用于将未知语料推送到业务运营平台以使业务运营平台对未标注语料进行标注;
更新模块404,用于采集标注语料,根据采集结果更新标注语料库中的语料。
在一个实施例中,分类模块,包括:
检索子模块,用于将未知语料在标注语料库中进行检索,检索出未知语料中的已标注语料;
分类子模块,用于运行数据处理引擎,将未知语料中的未标注语料进行分类,分为自动标注类别语料和人工标注类别语料;
自动标注模块,用于系统自动对所述自动标注类别语料进行标注。
在一个实施例中,检索子模块,包括:
接通单元,用于接通与标注语料库的数据连接;
查找单元,用于找出未知语料中的关键词;
检索单元,用于将关键词放入标注语料库中进行检索,在标注语料库中已经出现的关键词作为未知语料中的已标注语料。
在一个实施例中,推送模块,包括:
推送子模块,用于将人工标注类别语料推送到业务运营平台并通过业务运营平台对其进行标注;
其中,通过所述业务运营平台将进行了人工标注后的人工标注类别语料展示。
在一个实施例中,如图5所示,更新模块,包括:
采集子模块501,用于在业务运营平台上埋点,采集标注语料;
补充子模块502,用于将标注语料插入到标注语料库中进行补充。
本领域技术用户员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种基于大数据平台的语料标注方法,其特征在于,包括以下步骤:
采集人工智能引擎中用户的语音交互日志;
分析所述人工智能引擎中的未知语料并对其进行语料分类,分为已标注语料和未标注语料;
将所述未标注语料推送到业务运营平台以使所述业务运营平台对所述未标注语料进行标注;
采集标注语料,根据采集结果更新标注语料库中的语料。
2.根据权利要求1所述基于大数据平台的语料标注方法,其特征在于,所述分析人工智能引擎中的未知语料并对其进行语料分类,分为已标注语料和未标注语料,包括:
将所述未知语料在所述标注语料库中进行检索,检索出未知语料中的已标注语料;
运行数据处理引擎,将未知语料中的未标注语料进行分类,分为自动标注类别语料和人工标注类别语料;
系统自动对所述自动标注类别语料进行标注。
3.根据权利要求2所述基于大数据平台的语料标注方法,其特征在于,所述将未知语料在所述标注语料库中进行检索,检索出所述未知语料中的已标注语料,包括:
接通与所述标注语料库的数据连接;
找出所述未知语料中的关键词;
将所述关键词放入所述标注语料库中进行检索,在所述标注语料库中已经出现的关键词语料作为所述未知语料中的已标注语料。
4.根据权利要求2所述基于大数据平台的语料标注方法,其特征在于,所述将未标注语料推送到业务运营平台以使所述业务运营平台所述未标注语料进行标注,包括:
将所述人工标注类别语料推送到所述业务运营平台并通过所述业务运营平台对其进行人工标注;
其中,通过所述业务运营平台将进行了人工标注后的人工标注类别语料展示。
5.根据权利要求4所述基于大数据平台的语料标注方法,其特征在于,所述采集标注料,根据采集结果更新标注语料库中的语料,包括:
在所述业务运营平台上埋点,采集标注语料;
将所述标注语料插入到所述标注语料库中进行补充。
6.一种基于大数据平台的语料标注的装置,其特征在于,该装置包括:
采集模块,用于采集人工智能引擎中用户的语音交互日志;
分类模块,用于分析所述人工智能引擎中的未知语料并对其进行语料分类,分为已标注语料和未标注语料;
推送模块,用于将所述未标注语料推送到业务运营平台以使所述业务运营平台对所述未标注语料进行标注;
更新模块,用于采集标注语料,根据采集结果更新标注语料库中的语料。
7.根据权利要求6所述基于大数据平台的语料标注装置,其特征在于,所述分类模块,包括:
检索子模块,用于将所述未知语料在所述标注语料库中进行检索,检索出未知语料中的已标注语料;
分类子模块,用于运行数据处理引擎,将未知语料中的未标注语料进行分类,分为自动标注类别语料和人工标注类别语料;
自动标注模块,用于系统自动对所述自动标注类别语料进行标注。
8.根据权利要求7所述基于大数据平台的语料标注装置,其特征在于,所述检索子模块,包括:
接通单元,用于接通与所述标注语料库的数据连接;
查找单元,用于找出所述未知语料中的关键词;
检索单元,用于将所述关键词语料放入所述标注语料库中进行检索,在所述标注语料库中已经出现的关键词作为所述未知语料中的已标注语料。
9.根据权利要求7所述基于大数据平台的语料标注装置,其特征在于,所述推送模块,包括:
推送子模块,用于将所述人工标注类别语料推送到所述业务运营平台并通过所述业务运营平台对其进行人工标注;
其中,通过所述业务运营平台将进行了人工标注后的人工标注类别语料展示。
10.根据权利要求9所述基于大数据平台的语料标注装置,其特征在于,所述更新模块,包括:
采集子模块,用于在所述业务运营平台上埋点,采集标注语料;
补充子模块,用于将所述标注语料插入到所述标注语料库中进行补充。
CN201911130091.XA 2019-11-18 2019-11-18 一种基于大数据平台的语料标注的方法及装置 Active CN111125124B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911130091.XA CN111125124B (zh) 2019-11-18 2019-11-18 一种基于大数据平台的语料标注的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911130091.XA CN111125124B (zh) 2019-11-18 2019-11-18 一种基于大数据平台的语料标注的方法及装置

Publications (2)

Publication Number Publication Date
CN111125124A true CN111125124A (zh) 2020-05-08
CN111125124B CN111125124B (zh) 2023-04-25

Family

ID=70496006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911130091.XA Active CN111125124B (zh) 2019-11-18 2019-11-18 一种基于大数据平台的语料标注的方法及装置

Country Status (1)

Country Link
CN (1) CN111125124B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783391A (zh) * 2020-05-28 2020-10-16 孙炜 一种在线人工文本标记系统及方法
CN111785272A (zh) * 2020-06-16 2020-10-16 杭州云嘉云计算有限公司 一种在线标注方法及系统
CN112711768A (zh) * 2021-03-27 2021-04-27 北京数安行科技有限公司 一种基于人工智能的核心数据轨迹画像生成方法及系统
WO2022007527A1 (zh) * 2020-07-06 2022-01-13 华为技术有限公司 样本数据标注系统、方法以及相关设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008128423A1 (fr) * 2007-04-19 2008-10-30 Shenzhen Institute Of Advanced Technology Système de dialogue intelligent et son procédé de réalisation
CN103530286A (zh) * 2013-10-31 2014-01-22 苏州大学 一种跨语言情感分类方法
CN105205043A (zh) * 2015-08-26 2015-12-30 苏州大学张家港工业技术研究院 一种新闻读者情绪的分类方法与系统
CN107832419A (zh) * 2017-11-10 2018-03-23 中国人民解放军陆军工程大学 军事信息语料库构建方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008128423A1 (fr) * 2007-04-19 2008-10-30 Shenzhen Institute Of Advanced Technology Système de dialogue intelligent et son procédé de réalisation
CN103530286A (zh) * 2013-10-31 2014-01-22 苏州大学 一种跨语言情感分类方法
CN105205043A (zh) * 2015-08-26 2015-12-30 苏州大学张家港工业技术研究院 一种新闻读者情绪的分类方法与系统
CN107832419A (zh) * 2017-11-10 2018-03-23 中国人民解放军陆军工程大学 军事信息语料库构建方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李庆中,苑春法,黄锦辉: "基于小规模标注语料的机器学习方法研究" *
柯永红;俞士汶;穗志方;宋继华;: "基于群体智慧的语料标注方法研究" *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783391A (zh) * 2020-05-28 2020-10-16 孙炜 一种在线人工文本标记系统及方法
CN111783391B (zh) * 2020-05-28 2024-06-07 孙炜 一种在线人工文本标记系统及方法
CN111785272A (zh) * 2020-06-16 2020-10-16 杭州云嘉云计算有限公司 一种在线标注方法及系统
WO2022007527A1 (zh) * 2020-07-06 2022-01-13 华为技术有限公司 样本数据标注系统、方法以及相关设备
CN112711768A (zh) * 2021-03-27 2021-04-27 北京数安行科技有限公司 一种基于人工智能的核心数据轨迹画像生成方法及系统
CN112711768B (zh) * 2021-03-27 2021-06-04 北京数安行科技有限公司 一种基于人工智能的核心数据轨迹画像生成方法及系统

Also Published As

Publication number Publication date
CN111125124B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
CN111125124A (zh) 一种基于大数据平台的语料标注的方法及装置
CN110069252B (zh) 一种源代码文件多业务标签自动化分类方法
CN107766483A (zh) 一种基于知识图谱的交互式问答方法及系统
CN109669933B (zh) 交易数据智能处理方法、装置及计算机可读存储介质
CN106777296A (zh) 一种基于语义匹配的人才搜索推荐方法及系统
CN109726393B (zh) 一种基于自然语言处理技术的政策分析系统及方法
CN102385621B (zh) 一种基于输入法界面实现文档索引的方法及系统
CN112417996B (zh) 工业图纸的信息处理方法、装置、电子设备和存储介质
CN110781204A (zh) 目标对象的标识信息确定方法、装置、设备及存储介质
CN112631990B (zh) 一种数据档案分析方法及系统
CN111291168A (zh) 图书检索方法、装置及可读存储介质
CN110472075A (zh) 一种基于机器学习的异构数据分类存储方法及系统
CN111428480A (zh) 简历识别方法、装置、设备及存储介质
CN115098657A (zh) 自然语言转换数据库查询语句的方法、设备及介质
CN103294820A (zh) 基于语义扩展的web页面归类方法和系统
CN113869066A (zh) 一种基于农业领域文本的语义理解方法及系统
CN111062216B (zh) 命名实体识别方法、装置、终端及可读介质
CN117454987A (zh) 基于事件自动抽取的矿山事件知识图谱构建方法及装置
CN111309773A (zh) 一种车辆信息的查询方法、装置、系统及存储介质
CN110362694A (zh) 基于人工智能的文献数据检索方法、设备及可读存储介质
CN114281945B (zh) 基于绿色产品案例库的减碳策略知识库的构建方法
CN112800219B (zh) 客服日志反馈回流数据库的方法及系统
CN113011183B (zh) 一种电力调控领域非结构化文本数据处理方法及系统
CN110837735B (zh) 一种数据智能分析识别方法及系统
CN110442716B (zh) 智能文本数据处理方法和装置、计算设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240821

Address after: No. 15, 6th Floor, Building 55, Baoxing Jiayuan, Qianshan Street, Jingyang District, Deyang City, Sichuan Province 618000

Patentee after: Sichuan Yunzhisheng Intelligent Technology Co.,Ltd.

Country or region after: China

Address before: No.101, 1st floor, building 1, Xisanqi building materials City, Haidian District, Beijing

Patentee before: Yunzhisheng Intelligent Technology Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right