CN111144099A - 一种基于词性的实体标注的质检方法和装置以及设备 - Google Patents
一种基于词性的实体标注的质检方法和装置以及设备 Download PDFInfo
- Publication number
- CN111144099A CN111144099A CN201911412717.6A CN201911412717A CN111144099A CN 111144099 A CN111144099 A CN 111144099A CN 201911412717 A CN201911412717 A CN 201911412717A CN 111144099 A CN111144099 A CN 111144099A
- Authority
- CN
- China
- Prior art keywords
- entity
- speech
- tagging
- data
- quality inspection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007689 inspection Methods 0.000 title claims abstract description 113
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000002372 labelling Methods 0.000 claims abstract description 11
- 230000011218 segmentation Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 5
- 238000003780 insertion Methods 0.000 claims description 5
- 230000037431 insertion Effects 0.000 claims description 5
- 238000012372 quality testing Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 230000008901 benefit Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000010009 beating Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 239000002537 cosmetic Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于词性的实体标注的质检方法和装置以及设备。其中,所述方法包括:对实体标注数据进行词性分析,分析出实体标注数据的词性特征,和将该词性特征插入到需实体标注的数据中,以及对该经插入词性特征后的需实体标注的数据进行质检。通过上述方式,能够实现无需人工能够自动对实体标注进行质检,自动质检时能够覆盖到实体标注的所有语料和实体类别,能够避免存在有明显的标注问题却因为没有抽检到而没有检查出来的情况出现。
Description
技术领域
本发明涉及实体标注技术领域,尤其涉及一种基于词性的实体标注的质检方法和装置以及设备。
背景技术
NER(Named Entity Recognition,命名实体识别)又称作专名识别,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。在对话系统中,命名实体识别作为重要的信息抽取工具,需要抽取特定领域的特定实体类别,因此需要大量的人工标注此类特定领域的实体。人工标注的质量很大程度上决定了模型训练的结果,因此目前需要花费大量的人工进行质检即质量检查。
然而,现有的实体标注的质检方案,一般是以人工对实体标注进行随机抽样质检的方式为主,人工成本高,而且人工质检时很难覆盖到实体标注的大量的语料和实体类别,导致存在有明显的标注问题却因为没有抽检到而没有检查出来的情况出现。
发明内容
有鉴于此,本发明的目的在于提出一种基于词性的实体标注的质检方法和装置以及设备,能够实现无需人工能够自动对实体标注进行质检,自动质检时能够覆盖到实体标注的所有语料和实体类别,能够避免存在有明显的标注问题却因为没有抽检到而没有检查出来的情况出现。
根据本发明的一个方面,提供一种基于词性的实体标注的质检方法,包括:对实体标注数据进行词性分析,分析出实体标注数据的词性特征;将所述词性特征插入到需实体标注的数据中;对所述经插入词性特征后的需实体标注的数据进行质检。
其中,所述对实体标注数据进行词性分析,分析出实体标注数据的词性特征,包括:使用中文分词工具,对实体标注数据进行词性分析,分析实体标注数据的每一个实体类别的词性和进行频率统计,根据所述进行的频率统计的词性,分析出实体标注数据的词性特征。
其中,所述对实体标注数据进行词性分析,分析出实体标注数据的词性特征,包括:使用中文分词工具,对实体标注数据进行词性分析,分析实体标注数据的每一个实体类别的词性的正确标注用例、错误标注用例和进行所述正确标注用例、所述错误标注用例的频率统计,根据所述进行的频率统计的词性,分析出实体标注数据的词性特征。
其中,在所述对所述经插入词性特征后的需实体标注的数据进行质检之后,还包括:回收所述经质检后的数据,对所述回收的数据进行校验。
根据本发明的另一个方面,提供一种基于词性的实体标注的质检装置,包括:分析模块、插入模块和质检模块;所述分析模块,用于对实体标注数据进行词性分析,分析出实体标注数据的词性特征;所述插入模块,用于将所述词性特征插入到需实体标注的数据中;所述质检模块,用于对所述经插入词性特征后的需实体标注的数据进行质检。
其中,所述分析模块,具体用于:使用中文分词工具,对实体标注数据进行词性分析,分析实体标注数据的每一个实体类别的词性和进行频率统计,根据所述进行的频率统计的词性,分析出实体标注数据的词性特征。
其中,所述分析模块,具体用于:使用中文分词工具,对实体标注数据进行词性分析,分析实体标注数据的每一个实体类别的词性的正确标注用例、错误标注用例和进行所述正确标注用例、所述错误标注用例的频率统计,根据所述进行的频率统计的词性,分析出实体标注数据的词性特征。
其中,所述基于词性的实体标注的质检装置,还包括:校验模块:所述校验模块,用于回收所述经质检后的数据,对所述回收的数据进行校验。
根据本发明的又一个方面,提供一种基于词性的实体标注的质检设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述任一项所述的基于词性的实体标注的质检方法。
根据本发明的再一个方面,提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的基于词性的实体标注的质检方法。
可以发现,以上方案,可以对实体标注数据进行词性分析,分析出实体标注数据的词性特征,和可以将该词性特征插入到需实体标注的数据中,以及可以对该经插入词性特征后的需实体标注的数据进行质检,能够实现无需人工能够自动对实体标注进行质检,自动质检时能够覆盖到实体标注的所有语料和实体类别,能够避免存在有明显的标注问题却因为没有抽检到而没有检查出来的情况出现。
进一步的,以上方案,可以使用中文分词工具,对实体标注数据进行词性分析,分析实体标注数据的每一个实体类别的词性和进行频率统计,根据该进行的频率统计的词性,分析出实体标注数据的词性特征,这样的好处是能够实现在质检时能够覆盖到实体标注的所有语料和实体类别,提高了质检的覆盖率。
进一步的,以上方案,可以使用中文分词工具,对实体标注数据进行词性分析,分析实体标注数据的每一个实体类别的词性的正确标注用例、错误标注用例和进行该正确标注用例、该错误标注用例的频率统计,根据该进行的频率统计的词性,分析出实体标注数据的词性特征,这样的好处是能够实现通过该正确标注用例、该错误标注用例的双线方式来实现在质检时能够覆盖到实体标注的所有语料和实体类别,提高了质检的覆盖率,同时又提高了质检的效率。
进一步的,以上方案,可以回收该经质检后的数据,对该回收的数据进行校验,这样的好处是能够实现通过校验该回收的数据,以验证该对实体标注的准确率,提高了质检的质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明基于词性的实体标注的质检方法一实施例的流程示意图;
图2是本发明基于词性的实体标注的质检方法另一实施例的流程示意图;
图3是本发明基于词性的实体标注的质检装置一实施例的结构示意图;
图4是本发明基于词性的实体标注的质检装置另一实施例的结构示意图;
图5是本发明基于词性的实体标注的质检设备一实施例的结构示意图。
具体实施方式
下面结合附图和实施例,对本发明作进一步的详细描述。特别指出的是,以下实施例仅用于说明本发明,但不对本发明的范围进行限定。同样的,以下实施例仅为本发明的部分实施例而非全部实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明提供一种基于词性的实体标注的质检方法,能够实现无需人工能够自动对实体标注进行质检,自动质检时能够覆盖到实体标注的所有语料和实体类别,能够避免存在有明显的标注问题却因为没有抽检到而没有检查出来的情况出现。
请参见图1,图1是本发明基于词性的实体标注的质检方法一实施例的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括如下步骤:
S101:对实体标注数据进行词性分析,分析出实体标注数据的词性特征。
其中,该对实体标注数据进行词性分析,分析出实体标注数据的词性特征,可以包括:
使用中文分词(jieba)工具,对实体标注数据进行词性分析,分析实体标注数据的每一个实体类别的词性和进行频率统计,根据该进行的频率统计的词性,分析出实体标注数据的词性特征,这样的好处是能够实现在质检时能够覆盖到实体标注的所有语料和实体类别,提高了质检的覆盖率。
其中,该对实体标注数据进行词性分析,分析出实体标注数据的词性特征,可以包括:
使用中文分词工具,对实体标注数据进行词性分析,分析实体标注数据的每一个实体类别的词性的正确标注用例、错误标注用例和进行该正确标注用例、该错误标注用例的频率统计,根据该进行的频率统计的词性,分析出实体标注数据的词性特征,这样的好处是能够实现通过该正确标注用例、该错误标注用例的双线方式来实现在质检时能够覆盖到实体标注的所有语料和实体类别,提高了质检的覆盖率,同时又提高了质检的效率。
在本实施例中,例如常见的医美领域实体类别可以包括:项目、材料、症状、技术、操作等。而这些实体类别本身的关键词都有一定的特征,比如:操作主要是“填充”、“打”这类动词,项目主要是“丰胸”、“吸脂”这类动词加名词,因此可以利用词性特征来进行各实体类别的标注进行自动质检。
S102:将该词性特征插入到需实体标注的数据中。
在本实施例中,可以随机将该词性特征插入到需实体标注的数据中,也可以按预设的规律将该词性特征插入到需实体标注的数据中等,本发明不加以限定。
S103:对该经插入词性特征后的需实体标注的数据进行质检。
其中,在该对该经插入词性特征后的需实体标注的数据进行质检之后,还可以包括:
回收该经质检后的数据,对该回收的数据进行校验,这样的好处是能够实现通过校验该回收的数据,以验证该对实体标注的准确率,提高了质检的质量。
可以发现,在本实施例中,可以对实体标注数据进行词性分析,分析出实体标注数据的词性特征,和可以将该词性特征插入到需实体标注的数据中,以及可以对该经插入词性特征后的需实体标注的数据进行质检,能够实现无需人工能够自动对实体标注进行质检,自动质检时能够覆盖到实体标注的所有语料和实体类别,能够避免存在有明显的标注问题却因为没有抽检到而没有检查出来的情况出现。
进一步的,在本实施例中,可以使用中文分词工具,对实体标注数据进行词性分析,分析实体标注数据的每一个实体类别的词性和进行频率统计,根据该进行的频率统计的词性,分析出实体标注数据的词性特征,这样的好处是能够实现在质检时能够覆盖到实体标注的所有语料和实体类别,提高了质检的覆盖率。
进一步的,在本实施例中,可以使用中文分词工具,对实体标注数据进行词性分析,分析实体标注数据的每一个实体类别的词性的正确标注用例、错误标注用例和进行该正确标注用例、该错误标注用例的频率统计,根据该进行的频率统计的词性,分析出实体标注数据的词性特征,这样的好处是能够实现通过该正确标注用例、该错误标注用例的双线方式来实现在质检时能够覆盖到实体标注的所有语料和实体类别,提高了质检的覆盖率,同时又提高了质检的效率。
请参见图2,图2是本发明基于词性的实体标注的质检方法另一实施例的流程示意图。本实施例中,该方法包括以下步骤:
S201:对实体标注数据进行词性分析,分析出实体标注数据的词性特征。
可如上S101所述,在此不作赘述。
S202:将该词性特征插入到需实体标注的数据中。
可如上S102所述,在此不作赘述。
S203:对该经插入词性特征后的需实体标注的数据进行质检。
可如上S103所述,在此不作赘述。
S204:回收该经质检后的数据,对该回收的数据进行校验。
可以发现,在本实施例中,可以回收该经质检后的数据,对该回收的数据进行校验,这样的好处是能够实现通过校验该回收的数据,以验证该对实体标注的准确率,提高了质检的质量。
本发明还提供一种基于词性的实体标注的质检装置,能够实现无需人工能够自动对实体标注进行质检,自动质检时能够覆盖到实体标注的所有语料和实体类别,能够避免存在有明显的标注问题却因为没有抽检到而没有检查出来的情况出现。
请参见图3,图3是本发明基于词性的实体标注的质检装置一实施例的结构示意图。本实施例中,该基于词性的实体标注的质检装置30包括分析模块31、插入模块32和质检模块33。
该分析模块31,用于对实体标注数据进行词性分析,分析出实体标注数据的词性特征。
该插入模块32,用于将该词性特征插入到需实体标注的数据中。
该质检模块33,用于对该经插入词性特征后的需实体标注的数据进行质检。
可选地,该分析模块31,可以具体用于:
使用中文分词工具,对实体标注数据进行词性分析,分析实体标注数据的每一个实体类别的词性和进行频率统计,根据该进行的频率统计的词性,分析出实体标注数据的词性特征。
可选地,该分析模块31,可以具体用于:
使用中文分词工具,对实体标注数据进行词性分析,分析实体标注数据的每一个实体类别的词性的正确标注用例、错误标注用例和进行该正确标注用例、该错误标注用例的频率统计,根据该进行的频率统计的词性,分析出实体标注数据的词性特征。
请参见图4,图4是本发明基于词性的实体标注的质检装置另一实施例的结构示意图。区别于上一实施例,本实施例所述基于词性的实体标注的质检装置40还包括校验模块41。
该校验模块41,用于回收该经质检后的数据,对该回收的数据进行校验。
该基于词性的实体标注的质检装置30/40的各个单元模块可分别执行上述方法实施例中对应步骤,故在此不对各单元模块进行赘述,详细请参见以上对应步骤的说明。
本发明又提供一种基于词性的实体标注的质检设备,如图5所示,包括:至少一个处理器51;以及,与至少一个处理器51通信连接的存储器52;其中,存储器52存储有可被至少一个处理器51执行的指令,指令被至少一个处理器51执行,以使至少一个处理器51能够执行上述的基于词性的实体标注的质检方法。
其中,存储器52和处理器51采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器51和存储器52的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器51处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器51。
处理器51负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器52可以被用于存储处理器51在执行操作时所使用的数据。
本发明再提供一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
可以发现,以上方案,可以对实体标注数据进行词性分析,分析出实体标注数据的词性特征,和可以将该词性特征插入到需实体标注的数据中,以及可以对该经插入词性特征后的需实体标注的数据进行质检,能够实现无需人工能够自动对实体标注进行质检,自动质检时能够覆盖到实体标注的所有语料和实体类别,能够避免存在有明显的标注问题却因为没有抽检到而没有检查出来的情况出现。
进一步的,以上方案,可以使用中文分词工具,对实体标注数据进行词性分析,分析实体标注数据的每一个实体类别的词性和进行频率统计,根据该进行的频率统计的词性,分析出实体标注数据的词性特征,这样的好处是能够实现在质检时能够覆盖到实体标注的所有语料和实体类别,提高了质检的覆盖率。
进一步的,以上方案,可以使用中文分词工具,对实体标注数据进行词性分析,分析实体标注数据的每一个实体类别的词性的正确标注用例、错误标注用例和进行该正确标注用例、该错误标注用例的频率统计,根据该进行的频率统计的词性,分析出实体标注数据的词性特征,这样的好处是能够实现通过该正确标注用例、该错误标注用例的双线方式来实现在质检时能够覆盖到实体标注的所有语料和实体类别,提高了质检的覆盖率,同时又提高了质检的效率。
进一步的,以上方案,可以回收该经质检后的数据,对该回收的数据进行校验,这样的好处是能够实现通过校验该回收的数据,以验证该对实体标注的准确率,提高了质检的质量。
在本发明所提供的几个实施方式中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本发明各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的部分实施例,并非因此限制本发明的保护范围,凡是利用本发明说明书及附图内容所作的等效装置或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于词性的实体标注的质检方法,其特征在于,包括:
对实体标注数据进行词性分析,分析出实体标注数据的词性特征;
将所述词性特征插入到需实体标注的数据中;
对所述经插入词性特征后的需实体标注的数据进行质检。
2.如权利要求1所述的基于词性的实体标注的质检方法,其特征在于,所述对实体标注数据进行词性分析,分析出实体标注数据的词性特征,包括:
使用中文分词工具,对实体标注数据进行词性分析,分析实体标注数据的每一个实体类别的词性和进行频率统计,根据所述进行的频率统计的词性,分析出实体标注数据的词性特征。
3.如权利要求1所述的基于词性的实体标注的质检方法,其特征在于,所述对实体标注数据进行词性分析,分析出实体标注数据的词性特征,包括:
使用中文分词工具,对实体标注数据进行词性分析,分析实体标注数据的每一个实体类别的词性的正确标注用例、错误标注用例和进行所述正确标注用例、所述错误标注用例的频率统计,根据所述进行的频率统计的词性,分析出实体标注数据的词性特征。
4.如权利要求1所述的基于词性的实体标注的质检方法,其特征在于,在所述对所述经插入词性特征后的需实体标注的数据进行质检之后,还包括:
回收所述经质检后的数据,对所述回收的数据进行校验。
5.一种基于词性的实体标注的质检装置,其特征在于,包括:
分析模块、插入模块和质检模块;
所述分析模块,用于对实体标注数据进行词性分析,分析出实体标注数据的词性特征;
所述插入模块,用于将所述词性特征插入到需实体标注的数据中;
所述质检模块,用于对所述经插入词性特征后的需实体标注的数据进行质检。
6.如权利要求5所述的基于词性的实体标注的质检装置,其特征在于,所述分析模块,具体用于:
使用中文分词工具,对实体标注数据进行词性分析,分析实体标注数据的每一个实体类别的词性和进行频率统计,根据所述进行的频率统计的词性,分析出实体标注数据的词性特征。
7.如权利要求5所述的基于词性的实体标注的质检装置,其特征在于,所述分析模块,具体用于:
使用中文分词工具,对实体标注数据进行词性分析,分析实体标注数据的每一个实体类别的词性的正确标注用例、错误标注用例和进行所述正确标注用例、所述错误标注用例的频率统计,根据所述进行的频率统计的词性,分析出实体标注数据的词性特征。
8.如权利要求5所述的基于词性的实体标注的质检装置,其特征在于,所述基于词性的实体标注的质检装置,还包括:
校验模块;
所述校验模块,用于回收所述经质检后的数据,对所述回收的数据进行校验。
9.一种基于词性的实体标注的质检设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至4中任一项所述的基于词性的实体标注的质检方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的基于词性的实体标注的质检方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911412717.6A CN111144099A (zh) | 2019-12-31 | 2019-12-31 | 一种基于词性的实体标注的质检方法和装置以及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911412717.6A CN111144099A (zh) | 2019-12-31 | 2019-12-31 | 一种基于词性的实体标注的质检方法和装置以及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111144099A true CN111144099A (zh) | 2020-05-12 |
Family
ID=70522666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911412717.6A Pending CN111144099A (zh) | 2019-12-31 | 2019-12-31 | 一种基于词性的实体标注的质检方法和装置以及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111144099A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102214208A (zh) * | 2011-04-27 | 2011-10-12 | 百度在线网络技术(北京)有限公司 | 一种基于非结构化文本生成结构化信息实体的方法与设备 |
US20130117219A1 (en) * | 2011-11-03 | 2013-05-09 | Microsoft Corporation | Architecture for knowledge-based data quality solution |
CN107622050A (zh) * | 2017-09-14 | 2018-01-23 | 武汉烽火普天信息技术有限公司 | 基于Bi‑LSTM和CRF的文本序列标注系统及方法 |
CN108763212A (zh) * | 2018-05-23 | 2018-11-06 | 北京神州泰岳软件股份有限公司 | 一种地址信息提取方法及装置 |
CN110010217A (zh) * | 2019-04-11 | 2019-07-12 | 中国医学科学院医学信息研究所 | 一种电子病历的标注方法及装置 |
-
2019
- 2019-12-31 CN CN201911412717.6A patent/CN111144099A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102214208A (zh) * | 2011-04-27 | 2011-10-12 | 百度在线网络技术(北京)有限公司 | 一种基于非结构化文本生成结构化信息实体的方法与设备 |
US20130117219A1 (en) * | 2011-11-03 | 2013-05-09 | Microsoft Corporation | Architecture for knowledge-based data quality solution |
CN107622050A (zh) * | 2017-09-14 | 2018-01-23 | 武汉烽火普天信息技术有限公司 | 基于Bi‑LSTM和CRF的文本序列标注系统及方法 |
CN108763212A (zh) * | 2018-05-23 | 2018-11-06 | 北京神州泰岳软件股份有限公司 | 一种地址信息提取方法及装置 |
CN110010217A (zh) * | 2019-04-11 | 2019-07-12 | 中国医学科学院医学信息研究所 | 一种电子病历的标注方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109389275B (zh) | 一种图像标注方法和装置 | |
CN108052577B (zh) | 一种通用文本内容挖掘方法、装置、服务器及存储介质 | |
US10049096B2 (en) | System and method of template creation for a data extraction tool | |
CN108090043B (zh) | 基于人工智能的纠错举报处理方法、装置及可读介质 | |
US20160196258A1 (en) | Semantic Similarity Evaluation Method, Apparatus, and System | |
CN110148084B (zh) | 由2d图像重建3d模型的方法、装置、设备及存储介质 | |
CN109492222B (zh) | 基于概念树的意图识别方法、装置及计算机设备 | |
CN110956026B (zh) | 法律文书生成方法、生成装置和电子设备 | |
CN107221328B (zh) | 修改源的定位方法及装置、计算机设备及可读介质 | |
CN105335360B (zh) | 生成文档结构的方法和装置 | |
CN107491536B (zh) | 一种试题校验方法、试题校验装置及电子设备 | |
US20080201134A1 (en) | Computer-readable record medium in which named entity extraction program is recorded, named entity extraction method and named entity extraction apparatus | |
US9613005B2 (en) | Method and apparatus for bidirectional typesetting | |
CN109815481B (zh) | 对文本进行事件抽取的方法、装置、设备和计算机存储介质 | |
CN111339773A (zh) | 信息处理方法、自然语言处理方法以及信息处理设备 | |
CN111325031B (zh) | 简历解析方法及装置 | |
CN112667802A (zh) | 业务信息录入方法、装置、服务器和存储介质 | |
CN111444718A (zh) | 一种保险产品需求文档处理方法、装置及电子设备 | |
CN109871544B (zh) | 基于中文病历的实体识别方法、装置、设备及存储介质 | |
CN111274813A (zh) | 语言序列标注方法、装置存储介质及计算机设备 | |
CN111177414A (zh) | 一种实体预标注方法和装置以及设备 | |
CN111242508A (zh) | 一种基于自然语言处理的客服质量评价方法和装置及设备 | |
CN111144099A (zh) | 一种基于词性的实体标注的质检方法和装置以及设备 | |
CN112114978A (zh) | 电子秤数据更新方法、装置、设备以及可读存储介质 | |
CN115859964A (zh) | 基于教育云平台的教育资源共享方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200512 |
|
RJ01 | Rejection of invention patent application after publication |