CN111159408A - 一种文本数据标注方法、装置、计算机装置及计算机可读存储介质 - Google Patents

一种文本数据标注方法、装置、计算机装置及计算机可读存储介质 Download PDF

Info

Publication number
CN111159408A
CN111159408A CN201911406659.6A CN201911406659A CN111159408A CN 111159408 A CN111159408 A CN 111159408A CN 201911406659 A CN201911406659 A CN 201911406659A CN 111159408 A CN111159408 A CN 111159408A
Authority
CN
China
Prior art keywords
sentence
sentences
entity type
keyword
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911406659.6A
Other languages
English (en)
Inventor
赫中翮
王志超
左凌峰
何子洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Xinghan Shuzhi Technology Co ltd
Original Assignee
Hunan Xinghan Shuzhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Xinghan Shuzhi Technology Co ltd filed Critical Hunan Xinghan Shuzhi Technology Co ltd
Priority to CN201911406659.6A priority Critical patent/CN111159408A/zh
Publication of CN111159408A publication Critical patent/CN111159408A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于互联网技术领域,提供了一种文本数据标注方法、装置、计算机装置及计算机可读存储介质,该方法包括:获取含有主宾关键字对的网页文本,将网页文本按照段落结构分段,进行分句处理,得到待处理语句;对待处理语句进行主宾关键字对、正则表达式及穷举关键字匹配,在至少有一个匹配成功时,将待处理语句作为候选语句,将候选语句存入清单集合;循环遍历清单集合,对所清单集合中的候选语句进行处理,从候选语句中选择满足预设条件的语句作为有效语句,将有效语句存入数据库中;显示有效语句。本发明提供的文本数据标注方法,可以提高文本数据的词性标注的准确度。

Description

一种文本数据标注方法、装置、计算机装置及计算机可读存储 介质
技术领域
本发明属于互联网技术领域,尤其涉及一种文本数据标注方法、装置、计算机装置及计算机可读存储介质。
背景技术
现有的自然语言处理模型通用性很强,针对性不足,就不同专业领域的文本数据处理,获得的词性标注结果往往不尽如人意,导致实体词性标注不准确,非实体专业词的词性标注与一般名词相混淆。现有技术中,通过使用外部简单的工具修改词库,只能解决部分问题,但是无法从本质上解决文本数据的词性标注不准确的问题。
发明内容
本发明实施例提供一种文本数据标注方法,旨在解决现有文本数据的词性标注不准确的问题。
本发明是这样实现的,一种文本数据标注方法,包括:
获取含有预先定义的主宾关键字对的网页文本,将所述网页文本按照段落结构分段,将分段后的段落文本进行分句处理,得到待处理语句;
对所述待处理语句进行主宾关键字对、正则表达式及穷举关键字匹配,在所述待处理语句与关键字对、正则表达式及穷举关键字中至少有一个匹配成功的情况下,将匹配成功的待处理语句作为候选语句,将所述候选语句存入清单集合;
循环遍历所述清单集合,通过自然语言处理模型对所清单集合中的所述候选语句进行处理,从所述候选语句中选择满足预设条件的语句作为有效语句,将所述有效语句存入数据库中,其中,所述预设条件包括以下任一项:语句中包括至少两个或两个以上的词的实体类型与所述关键字对的实体类型相同;语句中包括至少一个实体类型的词,及根据正则表达式或穷举关键字匹配得到的至少一个词;
显示所述有效语句,并将所述有效语句中与关键字对、正则表达式及穷举关键字匹配的词进行突出显示。
可选的,所述获取含有预先定义的主宾关键字对的网页文本之前,所述文本数据标注方法包括:
从预先获取的数据集的元素中获取主语和宾语,依据所述元素的主语和宾语构成表示不同关系类型的所述主宾关键字对。
可选的,所述从所述候选语句中选择满足预设条件的语句作为有效语句,包括以下过程:
若所述预设条件为所述语句中包括至少两个或两个以上的词的实体类型与所述关键字对的实体类型相同,则在所述关键字对均为人名PERSON实体类型的情况下,判断所述候选语句的分词结果中是否包括至少两个PERSON实体类型的分词,若是,则将所述候选语句确定为所述有效语句;
在所述关键字对包括人名PERSON实体类型及机构ORGANIZATION实体类型的情况下,判断所述候选语句的分词结果中是否包括至少一个人名PERSON实体类型的分词及至少一个机构ORGANIZATION实体类型的分词,若是,则将所述候选语句确定为所述有效语句;
在所述关键字对包括人名PERSON实体类型及地址LOCATION实体类型的情况下,判断所述候选语句的分词结果中是否包括至少一个人名PERSON实体类型的分词及至少一个地址LOCATION实体类型的分词,若是,则将所述候选语句确定为所述有效语句。
可选的,所述从所述候选语句中选择满足预设条件的语句作为有效语句,包括以下过程:
若所述预设条件为在语句中包括至少一个实体类型的词及根据正则表达式或穷举关键字得到的至少一个词,则判断所述候选语句的分词结果中是否包括至少一个实体类型的词,及根据正则表达式或穷举关键字匹配得到的至少一个词;若是,则将所述匹配得到的至少一个词的分词结果由非实体类型修改为预定义类型,得到包括至少一个实体类型的分词及至少一个预定义类型的分词的处理后语句,将所述处理后语句作为有效语句。
可选的,所述将所述有效语句存入数据库中,包括以下过程:
根据所述主宾关键字对的实体类型、正则表达式及穷举关键字匹配到的分词的预定义类型,将所述有效语句存入对应的关系类型表中;
将所述有效语句通过主宾关键字对、正则表达式及穷举关键字匹配到的分词的下标索引存入所述对应的关系类型表中。
本发明还提供文本数据标注装置,包括:
第一处理模块,用于获取含有预先定义的主宾关键字对的网页文本,将所述网页文本按照段落结构分段,将分段后的段落文本进行分句处理,得到待处理语句;
匹配模块,用于对所述待处理语句进行主宾关键字对、正则表达式及穷举关键字匹配,在所述待处理语句与关键字对、正则表达式及穷举关键字中至少有一个匹配成功的情况下,将匹配成功的待处理语句作为候选语句,将所述候选语句存入清单集合;
第二处理模块,用于循环遍历所述清单集合,通过自然语言处理模型对所清单集合中的所述候选语句进行处理,从所述候选语句中选择满足预设条件的语句作为有效语句,将所述有效语句存入数据库中,其中,所述预设条件包括以下任一项:语句中包括至少两个或两个以上的词的实体类型与所述关键字对的实体类型相同;语句中包括至少一个实体类型的词,及根据正则表达式或穷举关键字匹配得到的至少一个词;
显示模块,用于显示所述有效语句,并将所述有效语句中与关键字对、正则表达式及穷举关键字匹配的词进行突出显示。
可选的,所述文本数据标注装置还包括:
获取模块,用于从预先获取的数据集的元素中获取主语和宾语,依据所述元素的主语和宾语构成表示不同关系类型的所述主宾关键字对。
可选的,所述第二处理模块还用于若所述预设条件为所述语句中包括至少两个或两个以上的词的实体类型与所述关键字对的实体类型相同,则在所述关键字对均为人名PERSON实体类型的情况下,判断所述候选语句的分词结果中是否包括至少两个PERSON实体类型的分词,若是,则将所述候选语句确定为所述有效语句;
在所述关键字对包括人名PERSON实体类型及机构ORGANIZATION实体类型的情况下,判断所述候选语句的分词结果中是否包括至少一个人名PERSON实体类型的分词及至少一个机构ORGANIZATION实体类型的分词,若是,则将所述候选语句确定为所述有效语句;
在所述关键字对包括人名PERSON实体类型及地址LOCATION实体类型的情况下,判断所述候选语句的分词结果中是否包括至少一个人名PERSON实体类型的分词及至少一个地址LOCATION实体类型的分词,若是,则将所述候选语句确定为所述有效语句。
可选的,所述第二处理模块,还用于若所述预设条件为在语句中包括至少一个实体类型的词及根据正则表达式或穷举关键字得到的至少一个词,则判断所述候选语句的分词结果中是否包括至少一个实体类型的词,及根据正则表达式或穷举关键字匹配得到的至少一个词,若是,则将所述匹配得到的至少一个词的分词结果由非实体类型修改为预定义类型,得到包括至少一个实体类型的分词及至少一个预定义类型的分词的处理后语句,将所述处理后语句作为有效语句。
可选的,所述第二处理模块包括:
第一存入子模块,用于根据所述主宾关键字对的实体类型、正则表达式及穷举关键字匹配到的分词的预定义类型,将所述有效语句存入对应的关系类型表中;
第二存入子模块,用于将所述有效语句中通过主宾关键字对、正则表达式及穷举关键字匹配到的分词的下标索引存入所述对应的关系类型表中。
本发明还提供一种计算机装置,所述计算机装置包括处理器,所述处理器用于执行存储器中计算机程序时实现如上述所述文本数据标注方法的步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述文本数据标注方法的步骤。
本发明提供的文本数据标注方法,通过爬取含有预先定义的主宾关键字对的网页文本,对爬取的网页文本进行分段、分句处理,得到待处理语句,将待处理语句进行主宾关键字对、正则表达式及穷举关键字匹配,将匹配成功的待处理语句作为候选语句,将候选语句存入清单集合,通过自然语言处理模型对所清单集合中的所述候选语句进行处理,从所述候选语句中选择满足预设条件的语句作为有效语句,显示所述有效语句,并将所述有效语句中与关键字对、正则表达式及穷举关键字匹配的词进行突出显示。由于进行了主宾关键字对、正则表达式及穷举关键字匹配过程,从而在有效语句中与关键字对、正则表达式及穷举关键字匹配的词分类更明确、词性判断更精确,可以提高文本数据的词性标注的自动化程度和准确度,可以减轻数据标注人员的标注工作的复杂度,标注人员只需要判断标注数据中实体关系,选择对应预设关系清单中对应关系就能完成标注,方便研究人员开展机器学习的研究工作。
附图说明
图1是本发明实施例提供的文本数据标注方法的实现流程图;
图2本发明实施例提供的语句的分词结果一示意图;
图3是本发明实施提供的文本数据标注界面一示意图;
图4本发明实施例提供的所述将所述有效语句存入数据库中的实现流程图;
图5是本发明实施提供的文本数据标注装置的结构示意图;
图6是本发明实施例提供的第二处理模块的结构示意图;
图7是本发明实施例提供的文本数据标注装置的另一结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1示出了本发明实施例提供的文本数据标注方法的实现流程图,所述文本数据标注方法包括以下过程:
步骤S101,获取含有预先定义的主宾关键字对的网页文本,将所述网页文本按照段落结构分段,将分段后的段落文本进行分句处理,得到待处理语句。
在本实施例中,所述主宾关键字对由数据集的元素的主语与宾语组成。例如,数据组中元素组成为弗兰西斯.培根职业哲学家,则主宾关键字对则为弗兰西斯.培根=哲学家。需要说明的是,可以依据宾语的类型,对主宾关键自己对划分不同的类型,例如,根据宾语的类型,将主宾关键字对划分为父母关系、职业属性等类型。
在本实施例中,采用爬虫技术从HBASE库中爬取含有关键字对的网页文本,其中,HBASE库是一个分布式的、面向列的开源数据库;网页文本即文章。将爬取到的文章按照段落结构进行存储,将文章的不同段落信息作为段落元素存入段落数组中。遍历段落数组中的段落元素,将每个段落按照句子分割符,拆分成句,得到待处理语句,其中,句子的分割符可以包括句号“。”、感叹号“!”、问号“?”、分号“;”等。可以将爬取到的网页文本,即爬取到的文章存储在在mongoDB数据库中。
可选的,在该步骤S101之前,所述文本数据标注方法包括以下过程:
从预先获取的数据集的元素中获取主语和宾语,依据所述元素的主语和宾语构成表示不同关系类型的所述主宾关键字对。
在本实施例中,所述预先获取的数据集为知识型的dbpedia数据集、babelNet数据集。dbpedia数据集从维基百科(wikipedia)的词条里撷取出结构化的资料,是多领域知识本体系统。BabelNet数据集是一个多语词汇语义网络和本体,是自动构建的,它将最大的多语Web百科全书维基百科链接到最常用的英语计算词典WordNet。
在本实施例中,通过对dbpedia数据集、babelNet数据集的元素进行主语与宾语的抽取处理,将从元素中抽取的主语和宾语字段构建成为主宾关键字对。
可以理解的是,主宾关键字对为从已有的知识库dbpedia数据库和/或babelNet数据集中获取的,从一定程度上能确定当前主宾关键字对一定存在某种关系。
步骤S102,对所述待处理语句进行主宾关键字对、正则表达式及穷举关键字匹配,在所述待处理语句与关键字对、正则表达式及穷举关键字中至少有一个匹配成功的情况下,将匹配成功的待处理语句作为候选语句,将所述候选语句存入清单集合。
在本实施例中,对所述待处理语句进行主宾关键字对匹配,是指将在步骤S101中获取到的主宾关键字对与待处理语句的分词结果集合中的分词进行匹配,若待处理语句的分词结果集合包含主宾关键字对中的主语及宾语,则所述待处理语句与主宾关键字对匹配成功。
对所述待处理语句进行正则表达式匹配,是指通过正则表达式从所述待处理语句中匹配指定的字符,若通过正则表达式从所述待处理语句中匹配到指定字符,则所述待处理语句与正则表达式匹配成功。例如,通过正则表达式从所述待处理语句中匹配时间字符、日期字符,若通过正则表达式从所述待处理语句中匹配到时间或日期字符,则所述待处理语句的正则表达式匹配成功。
在本实施例中,所述穷举关键字为穷举的具有共性的同类别词语,例如,职业类别的穷举关键字包括工程师、教师、医生、......、会计等,穷举关键字可以由用户定义,在此不做限制。对所述待处理语句进行穷举关键字对匹配,是指将穷举关键字与待处理语句的分词结果集合中的分词进行匹配,若待处理语句的分词结果集合包含穷举关键字的任一个词语,则所述待处理语句与所述穷举关键字匹配成功。
在本实施例中,在所述待处理语句与关键字对、正则表达式及穷举关键字中至少有一个匹配成功的情况下,将匹配成功的待处理语句作为候选语句,将所述候选语句存入清单集合,其中,清单集合也可以称为List集合。在所述待处理语句与关键字对、正则表达式及穷举关键字中均匹配失败的情况下,将所述待处理语句作为舍弃语句,过滤所述舍弃语句。
步骤S103,循环遍历所述清单集合,通过自然语言处理模型对所清单集合中的所述候选语句进行处理,从所述候选语句中选择满足预设条件的语句作为有效语句,将所述有效语句存入数据库中。
在本实施例中,所述预设条件包括以下任一项:语句中包括至少两个或两个以上的词的实体类型与所述关键字对的实体类型相同;语句中包括至少一个实体类型的词,及根据正则表达式或穷举关键字匹配得到的至少一个词。
在本实施例中,实体类型包括人名PERSON、地址LOCATION及机构ORGNIZATION,例如,张三的实体类型为人名PERSON,XX市、XX县的实体类型为地址LOCATION,XX公司的实体类型为机构ORGNIZATION。
可选的,所述步骤S103中的所述从所述候选语句中选择满足预设条件的语句作为有效语句,包括以下过程:
若所述预设条件为所述语句中包括至少两个或两个以上的词的实体类型与所述关键字对的实体类型相同,则在所述关键字对均为人名PERSON实体类型的情况下,判断所述候选语句的分词结果中是否包括至少两个PERSON实体类型的分词,若是,则将所述候选语句确定为所述有效语句;
在所述关键字对包括人名PERSON实体类型及机构ORGANIZATION实体类型的情况下,判断所述候选语句的分词结果中是否包括至少一个人名PERSON实体类型的分词及至少一个机构ORGANIZATION实体类型的分词,若是,则将所述候选语句确定为所述有效语句;
在所述关键字对包括人名PERSON实体类型及地址LOCATION实体类型的情况下,判断所述候选语句的分词结果中是否包括至少一个人名PERSON实体类型的分词及至少一个地址LOCATION实体类型的分词,若是,则将所述候选语句确定为所述有效语句。
举例来说,若主宾关键字对为张三、李四两个人名PERSON时,若候选语句中的分词集合中出现两个或两个以上人名PERSON的实体类型,则将该候选语句确定为有效语句。
若主宾关键字对为张三、XX市,其中,张三为人名PERSON的实体类型,XX市为地址LOCATION的实体类型,若候选语句的分词集合包括一个或一个以上的人名PERSON的实体类型,及包括一个或一个以上的地址LOCATION的实体类型,则将该候选语句作为有效语句。
若主宾关键字对为张三、XX机构,其中,张三为人名PERSON的实体类型,XX机构为机构ORGANIZATION的实体类型,若候选语句的分词集合包括一个或一个以上的人名PERSON的实体类型,及至少出现一个或一个以上的机构ORGANIZATION的实体类型,则将该候选语句作为有效语句。
补充说明的是,在所述关键字对均为人名PERSON实体类型,且所述候选语句的分词结果中不包括PERSON实体类型的分词,或者只包括一个PERSON实体类型的分词的情况下,则将所述候选语句确定为无效语句,过滤该无效语句。
在所述关键字对包括人名PERSON实体类型及机构ORGANIZATION实体类型,所述候选语句的分词结果中不包括人名PERSON实体类型的分词,或者不包括机构ORGANIZATION实体类型的分词的情况下,将该候选语句作为无效语句,过滤该无效语句。
在所述关键字对包括人名PERSON实体类型及地址LOCATION实体类型,且所述候选语句的分词结果中不包括人名PERSON实体类型的分词,或不包括地址LOCATION实体类型的分词的情况下,则将所述候选语句确定为所述无效语句,过滤该无效语句。
可选的,所述步骤S103的所述从所述候选语句中选择满足预设条件的语句作为有效语句,包括以下过程:
若所述预设条件为在语句中包括至少一个实体类型的词及根据正则表达式或穷举关键字得到的至少一个词,则判断所述候选语句的分词结果中是否包括至少一个实体类型的词,及根据正则表达式或穷举关键字匹配得到的至少一个词;若是,则将所述匹配得到的至少一个词的分词结果由非实体类型修改为预定义类型,得到包括至少一个实体类型的分词及至少一个预定义类型的分词的处理后语句,将所述处理后语句作为有效语句。
在本实施例中,所述根据正则表达式或穷举关键字匹配得到的至少一个词,指候选语句中至少有一个词语能够与正则表达式匹配,或者候选语句中至少有一个词语与穷举关键字匹配。正则表达式或穷举关键字匹配到的词通过自然语言处理模型进行分词处理得到的标注为非实体类型,在本实施例中,将正则表达式或穷举关键字匹配到的词的非实体类型修改为预定义类型,以与其他的非实体类型进行区分,其中,预定义类型可以根据正则表达式匹配的指定字符的含义进行定义,还可以更具穷举关键字的语义进行定义。例如,正则表达式匹配日期字符,则预定义类型可以设置为日期DATE。若穷举关键字的词语为工程师、教师、医生等于职业语义相关的词语,则预定义类型可以设置为职业OCCUPATION。
举例来说,若候选语句为“张三在1938初一二九师政治委员李四病重回A市养病后,被相关部门任命为政治委员,从此和师长王五合作,打出了赫赫威名的张王大军”,该语句通过自然语言处理模型后的分词结果如图2所示。若穷举关键字为“政治委员”,该候选语句中的“政治委员”在自然语言处理的分词结果为非实体类型,则将“政治委员”的非实体类型修改为“职业OCCUPATION”,“张三”为人名PERSON实体类型,得到包括人名PERSON实体类型的“张三”及职业OCCUPATION的“政治委员”的处理后语句,将该处理后语句作为有效语句。
请参阅图4,所述步骤S103中的所述将所述有效语句存入数据库中,包括以下过程:
步骤S1031,根据所述主宾关键字对的实体类型、正则表达式及穷举关键字匹配到的分词的预定义类型,将所述有效语句存入对应的关系类型表中;
步骤S1032,将所述有效语句通过主宾关键字对、正则表达式及穷举关键字匹配到的分词的下标索引存入所述对应的关系类型表中。
举例来说,所述主宾关键字对的实体类型均为人名PERSON实体类型,则可以划分为子女关系、父母关系、配偶关系、工作关系等关系类型,根据所述有效语句中匹配到的主宾关键字对的关系类型,将有效语句存入对应的关系类型表。例如,有效语句的主宾关键字对的类型为子女类型,则将有效语句存入子女关系表中,并将有效语句与主宾关键字对匹配的分词的下表索引存入子女关系表中,其中,下表索引表示词语在句子中的位置,可以为字符到语句中首字符的距离。
若在有效语句中通过正则表达式匹配到的分词的预定义类型为日期DATE,则将该有效语句存入时间类型表中,将正则表达式匹配到的日期分词的下标索引及有效语句中的实体类型的分词的下表索引存入时间类型表中。
若在有效语句中穷举关键字匹配到的分词的预定义类型为职业OCCUPATION,则将该有效语句存入职业类型表中。并将穷举关键字匹配到的分词的下标索引及有效语句中的实体类型的分词的下表索引存入职业类型表中。
例如,有效语句“张三在1938初一二九师政治委员李四病重回A市养病后”的分词结果如下:
Figure BDA0002348828620000121
若举例中的有效语句中穷举关键字匹配到的分词的为“政治委员”,则举例中的有效语句存入职业类型表,并将“张三”的下标索引“0”及“政治委员”的下标索引“6”存入职业类型表中。
这样,按照不同关系类型将有效语句存入对应的关系类型表中,并将有效语句中与关键字对、正则表达式、穷举关键字匹配的分词的下表索引存入对应的关系类型表中,可以有利于后续查找并显示不同关系类型的有效语句,还有利于根据存储的下表索引对相关词语进行突出显示。
步骤S104,显示所述有效语句,并将所述有效语句中与关键字对、正则表达式及穷举关键字匹配的词进行突出显示。
在本实施例中,请参阅图3,图3的显示界面上包括有效语句301,突出显示的人名PERSON实体类型的分词302、突出显示的日期分词303,其他出生关系选择按钮304,用户栏位305,语言选择栏位306,基本信息栏位307,下一条选择按钮308。其中,其他出生关系选择按钮304的作用是在有效语句中除已经突出显示的分词外,还有日期分词和/或人名PERSON实体类型的分词时,用户可以手动进行出生关系标注。用户栏位305显示当前用户信息,例如,图3中显示“当前标注着为-111”。语言选择栏位306可以选择待标注语言的种类,例如可以从支持的中文、英文、俄语、西班牙语中选择俄语作为待标注的语言。基本信息栏位307显示待标注语句的总数、已标注语句数目、标注成功的语句数目等信息。下一条选择按钮308用于在当前有效语句完成标注后,显示下一条有效语句。显示界面还包括第一操作按钮309及第二操作按钮3010,若能确定突出显示的两个词语存在指定关系,则通过第一操作按钮309对有效语句标注为能确定两个词语存在指定关系。若不能确定突出显示的两个词语存在指定关系,则通过第二操作按钮3010对有效语句标注为不能确定突出显示的两个词语存在指定关系。
补充说明的是,在界面显示有效语句及对有效语句进行标注的过程中包括前台待标注语句的展示,及前台、后台数据交互两部分。其中前前台待标注语句的展示,对于要标注的词语进行高亮。用户可以称为标注人员,标注人员可以选择待标注文本的语种、待标注文本中包含的关系类别。前台、后台数据交互的过程包括:前端通过发送ajax请求,依据不同的请求url,选择调用不同的后端接口,运行不同的sql语句,实现数据操作功能,完成前后端交互。其中,ajax请求的作用是为前后端交互异步请求数据,例如,请参阅图3,点击下一下一条选择按钮308的例子,显示页面只有与有效语句相关的框才会进行新的数据请求进行页面刷新,其他位置的数据,例如,用户栏位305、语言选择栏位306、第一操作按钮309及第二操作按钮3010等对象不会再请求一次后台。另外,URL请求根据标注人员点击不同按钮触发不同事件,不同事件的事件名是不一样的,将事件名在已有的页面url进行拼接作为新的请求url传给后台,然后后台进行逻辑处理,分离出事件名,根据不同的事件名,调用不同的后端接口。
本发明提供的文本数据标注方法,通过爬取含有预先定义的主宾关键字对的网页文本,对爬取的网页文本进行分段、分句处理,得到待处理语句,将待处理语句进行主宾关键字对、正则表达式及穷举关键字匹配,将匹配成功的待处理语句作为候选语句,将候选语句存入清单集合,通过自然语言处理模型对所清单集合中的所述候选语句进行处理,从所述候选语句中选择满足预设条件的语句作为有效语句,显示所述有效语句,并将所述有效语句中与关键字对、正则表达式及穷举关键字匹配的词进行突出显示。由于进行了主宾关键字对、正则表达式及穷举关键字匹配过程,从而在有效语句中与关键字对、正则表达式及穷举关键字匹配的词分类更明确、词性判断更精确,可以提高文本数据的词性标注的自动化程度和准确度,可以减轻数据标注人员的标注工作的复杂度,标注人员只需要判断标注数据中实体关系,选择对应预设关系清单中对应关系就能完成标注,方便研究人员开展机器学习的研究工作。
图5示出了本发明实施例提供的文本数据标注装置500的结构示意图,为了便于说明,仅示出了于本发明实施相关的部分。该文本数据标注装置500,包括:
第一处理模块501,用于获取含有预先定义的主宾关键字对的网页文本,将所述网页文本按照段落结构分段,将分段后的段落文本进行分句处理,得到待处理语句。
在本实施例中,所述主宾关键字对由数据集的元素的主语与宾语组成。例如,数据组中元素组成为弗兰西斯.培根职业哲学家,则主宾关键字对则为弗兰西斯.培根=哲学家。需要说明的是,可以依据宾语的类型,对主宾关键自己对划分不同的类型,例如,根据宾语的类型,将主宾关键字对划分为父母关系、职业属性等类型。
在本实施例中,采用爬虫技术从HBASE库中爬取含有关键字对的网页文本,其中,HBASE库是一个分布式的、面向列的开源数据库;网页文本即文章。将爬取到的文章按照段落结构进行存储,将文章的不同段落信息作为段落元素存入段落数组中。遍历段落数组中的段落元素,将每个段落按照句子分割符,拆分成句,得到待处理语句,其中,句子的分割符可以包括句号“。”、感叹号“!”、问号“?”、分号“;”等。可以将爬取到的网页文本,即爬取到的文章存储在在mongoDB数据库中。
匹配模块502,用于对所述待处理语句进行主宾关键字对、正则表达式及穷举关键字匹配,在所述待处理语句与关键字对、正则表达式及穷举关键字中至少有一个匹配成功的情况下,将匹配成功的待处理语句作为候选语句,将所述候选语句存入清单集合。
在本实施例中,对所述待处理语句进行主宾关键字对匹配,是指将第一处理模块501获取到的主宾关键字对与待处理语句的分词结果集合中的分词进行匹配,若待处理语句的分词结果集合包含主宾关键字对中的主语及宾语,则所述待处理语句与主宾关键字对匹配成功。
对所述待处理语句进行正则表达式匹配,是指通过正则表达式从所述待处理语句中匹配指定的字符,若通过正则表达式从所述待处理语句中匹配到指定字符,则所述待处理语句与正则表达式匹配成功。例如,通过正则表达式从所述待处理语句中匹配时间字符、日期字符,若通过正则表达式从所述待处理语句中匹配到时间或日期字符,则所述待处理语句的正则表达式匹配成功。
在本实施例中,所述穷举关键字为穷举的具有共性的同类别词语,例如,职业类别的穷举关键字包括工程师、教师、医生、......、会计等,穷举关键字可以由用户定义,在此不做限制。对所述待处理语句进行穷举关键字对匹配,是指将穷举关键字与待处理语句的分词结果集合中的分词进行匹配,若待处理语句的分词结果集合包含穷举关键字的任一个词语,则所述待处理语句与所述穷举关键字匹配成功。
在本实施例中,在所述待处理语句与关键字对、正则表达式及穷举关键字中至少有一个匹配成功的情况下,将匹配成功的待处理语句作为候选语句,将所述候选语句存入清单集合,其中,清单集合也可以称为List集合。在所述待处理语句与关键字对、正则表达式及穷举关键字中均匹配失败的情况下,将所述待处理语句作为舍弃语句,过滤所述舍弃语句。
第二处理模块503,用于循环遍历所述清单集合,通过自然语言处理模型对所清单集合中的所述候选语句进行处理,从所述候选语句中选择满足预设条件的语句作为有效语句,将所述有效语句存入数据库中。
在本实施例中,所述预设条件包括以下任一项:语句中包括至少两个或两个以上的词的实体类型与所述关键字对的实体类型相同;语句中包括至少一个实体类型的词,及根据正则表达式或穷举关键字匹配得到的至少一个词。
在本实施例中,实体类型包括人名PERSON、地址LOCATION及机构ORGNIZATION,例如,张三的实体类型为人名PERSON,XX市、XX县的实体类型为地址LOCATION,XX公司的实体类型为机构ORGNIZATION。
可选的,所述第二处理模块503,还用于若所述预设条件为所述语句中包括至少两个或两个以上的词的实体类型与所述关键字对的实体类型相同,则在所述关键字对均为人名PERSON实体类型的情况下,判断所述候选语句的分词结果中是否包括至少两个PERSON实体类型的分词,若是,则将所述候选语句确定为所述有效语句;
在所述关键字对包括人名PERSON实体类型及机构ORGANIZATION实体类型的情况下,判断所述候选语句的分词结果中是否包括至少一个人名PERSON实体类型的分词及至少一个机构ORGANIZATION实体类型的分词,若是,则将所述候选语句确定为所述有效语句;
在所述关键字对包括人名PERSON实体类型及地址LOCATION实体类型的情况下,判断所述候选语句的分词结果中是否包括至少一个人名PERSON实体类型的分词及至少一个地址LOCATION实体类型的分词,若是,则将所述候选语句确定为所述有效语句。
举例来说,若主宾关键字对为张三、李四两个人名PERSON时,若候选语句中的分词集合中出现两个或两个以上人名PERSON的实体类型,则将该候选语句确定为有效语句。
若主宾关键字对为张三、XX市,其中,张三为人名PERSON的实体类型,XX市为地址LOCATION的实体类型,若候选语句的分词集合包括一个或一个以上的人名PERSON的实体类型,及包括一个或一个以上的地址LOCATION的实体类型,则将该候选语句作为有效语句。
若主宾关键字对为张三、XX机构,其中,张三为人名PERSON的实体类型,XX机构为机构ORGANIZATION的实体类型,若候选语句的分词集合包括一个或一个以上的人名PERSON的实体类型,及至少出现一个或一个以上的机构ORGANIZATION的实体类型,则将该候选语句作为有效语句。
补充说明的是,在所述关键字对均为人名PERSON实体类型,且所述候选语句的分词结果中不包括PERSON实体类型的分词,或者只包括一个PERSON实体类型的分词的情况下,则将所述候选语句确定为无效语句,过滤该无效语句。
在所述关键字对包括人名PERSON实体类型及机构ORGANIZATION实体类型,所述候选语句的分词结果中不包括人名PERSON实体类型的分词,或者不包括机构ORGANIZATION实体类型的分词的情况下,将该候选语句作为无效语句,过滤该无效语句。
在所述关键字对包括人名PERSON实体类型及地址LOCATION实体类型,且所述候选语句的分词结果中不包括人名PERSON实体类型的分词,或不包括地址LOCATION实体类型的分词的情况下,则将所述候选语句确定为所述无效语句,过滤该无效语句。
可选的,所述第二处理模块503,还用于若所述预设条件为在语句中包括至少一个实体类型的词及根据正则表达式或穷举关键字得到的至少一个词,则判断所述候选语句的分词结果中是否包括至少一个实体类型的词,及根据正则表达式或穷举关键字匹配得到的至少一个词;若是,则将所述匹配得到的至少一个词的分词结果由非实体类型修改为预定义类型,得到包括至少一个实体类型的分词及至少一个预定义类型的分词的处理后语句,将所述处理后语句作为有效语句。
在本实施例中,所述根据正则表达式或穷举关键字匹配得到的至少一个词,指候选语句中至少有一个词语能够与正则表达式匹配,或者候选语句中至少有一个词语与穷举关键字匹配。正则表达式或穷举关键字匹配到的词通过自然语言处理模型进行分词处理得到的标注为非实体类型,在本实施例中,将正则表达式或穷举关键字匹配到的词的非实体类型修改为预定义类型,以与其他的非实体类型进行区分,其中,预定义类型可以根据正则表达式匹配的指定字符的含义进行定义,还可以更具穷举关键字的语义进行定义。例如,正则表达式匹配日期字符,则预定义类型可以设置为日期DATE。若穷举关键字的词语为工程师、教师、医生等于职业语义相关的词语,则预定义类型可以设置为职业OCCUPATION。
举例来说,若候选语句为“张三在1938初一二九师政治委员李四病重回A市养病后,被相关部门任命为政治委员,从此和师长王五合作,打出了赫赫威名的张王大军”,该语句通过自然语言处理模型后的分词结果如图2所示。若穷举关键字为“政治委员”,该候选语句中的“政治委员”在自然语言处理的分词结果为非实体类型,则将“政治委员”的非实体类型修改为“职业OCCUPATION”,“张三”为人名PERSON实体类型,得到包括人名PERSON实体类型的“张三”及职业OCCUPATION的“政治委员”的处理后语句,将该处理后语句作为有效语句。
请参阅图6,所述第二处理模块503包括:
第一存入子模块5034,用于根据所述主宾关键字对的实体类型、正则表达式及穷举关键字匹配到的分词的预定义类型,将所述有效语句存入对应的关系类型表中;
第二存入子模块5035,将所述有效语句通过主宾关键字对、正则表达式及穷举关键字匹配到的分词的下标索引存入所述对应的关系类型表中。
举例来说,所述主宾关键字对的实体类型均为人名PERSON实体类型,则可以划分为子女关系、父母关系、配偶关系、工作关系等关系类型,根据所述有效语句中匹配到的主宾关键字对的关系类型,将有效语句存入对应的关系类型表。例如,有效语句的主宾关键字对的类型为子女类型,则将有效语句存入子女关系表中,并将有效语句与主宾关键字对匹配的分词的下表索引存入子女关系表中,其中,下表索引表示词语在句子中的位置,可以为字符到语句中首字符的距离。
若在有效语句中通过正则表达式匹配到的分词的预定义类型为日期DATE,则将该有效语句存入时间类型表中,将正则表达式匹配到的日期分词的下标索引及有效语句中的实体类型的分词的下表索引存入时间类型表中。
若在有效语句中穷举关键字匹配到的分词的预定义类型为职业OCCUPATION,则将该有效语句存入职业类型表中。并将穷举关键字匹配到的分词的下标索引及有效语句中的实体类型的分词的下表索引存入职业类型表中。
例如,有效语句“张三在1938初一二九师政治委员李四病重回A市养病后”的分词结果如下:
Figure BDA0002348828620000191
若举例中的有效语句中穷举关键字匹配到的分词的为“政治委员”,则举例中的有效语句存入职业类型表,并将“张三”的下标索引“0”及“政治委员”的下标索引“6”存入职业类型表中。
这样,按照不同关系类型将有效语句存入对应的关系类型表中,并将有效语句中与关键字对、正则表达式、穷举关键字匹配的分词的下表索引存入对应的关系类型表中,可以有利于后续查找并显示不同关系类型的有效语句,还有利于根据存储的下表索引对相关词语进行突出显示。
显示模块504,显示所述有效语句,并将所述有效语句中与关键字对、正则表达式及穷举关键字匹配的词进行突出显示。
在本实施例中,请参阅图3,图3的显示界面上包括有效语句301,突出显示的人名PERSON实体类型的分词302、突出显示的日期分词303,其他出生关系选择按钮304,用户栏位305,语言选择栏位306,基本信息栏位307,下一条选择按钮308。其中,其他出生关系选择按钮304的作用是在有效语句中除已经突出显示的分词外,还有日期分词和/或人名PERSON实体类型的分词时,用户可以手动进行出生关系标注。用户栏位305显示当前用户信息,例如,图3中显示“当前标注着为-111”。语言选择栏位306可以选择待标注语言的种类,例如可以从支持的中文、英文、俄语、西班牙语中选择俄语作为待标注的语言。基本信息栏位307显示待标注语句的总数、已标注语句数目、标注成功的语句数目等信息。下一条选择按钮308用于在当前有效语句完成标注后,显示下一条有效语句。显示界面还包括第一操作按钮309及第二操作按钮3010,若能确定突出显示的两个词语存在指定关系,则通过第一操作按钮309对有效语句标注为能确定两个词语存在指定关系。若不能确定突出显示的两个词语存在指定关系,则通过第二操作按钮3010对有效语句标注为不能确定突出显示的两个词语存在指定关系。
补充说明的是,在界面显示有效语句及对有效语句进行标注的过程中包括前台待标注语句的展示,及前台、后台数据交互两部分。其中前前台待标注语句的展示,对于要标注的词语进行高亮。用户可以称为标注人员,标注人员可以选择待标注文本的语种、待标注文本中包含的关系类别。前台、后台数据交互的过程包括:前端通过发送ajax请求,依据不同的请求url,选择调用不同的后端接口,运行不同的sql语句,实现数据操作功能,完成前后端交互。其中,ajax请求的作用是为前后端交互异步请求数据,例如,请参阅图3,点击下一下一条选择按钮308的例子,显示页面只有与有效语句相关的框才会进行新的数据请求进行页面刷新,其他位置的数据,例如,用户栏位305、语言选择栏位306、第一操作按钮309及第二操作按钮3010等对象不会再请求一次后台。另外,URL请求根据标注人员点击不同按钮触发不同事件,不同事件的事件名是不一样的,将事件名在已有的页面url进行拼接作为新的请求url传给后台,然后后台进行逻辑处理,分离出事件名,根据不同的事件名,调用不同的后端接口。
可选的,请参阅图7,所述文本数据标注装置500还包括:
获取模块505,用于从预先获取的数据集的元素中获取主语和宾语,依据所述元素的主语和宾语构成表示不同关系类型的所述主宾关键字对。
在本实施例中,所述预先获取的数据集为知识型的dbpedia数据集、babelNet数据集。dbpedia数据集从维基百科(wikipedia)的词条里撷取出结构化的资料,是多领域知识本体系统。BabelNet数据集是一个多语词汇语义网络和本体,是自动构建的,它将最大的多语Web百科全书维基百科链接到最常用的英语计算词典WordNet。
在本实施例中,通过对dbpedia数据集、babelNet数据集的元素进行主语与宾语的抽取处理,将从元素中抽取的主语和宾语字段构建成为主宾关键字对。
可以理解的是,主宾关键字对为从已有的知识库dbpedia数据库和/或babelNet数据集中获取的,从一定程度上能确定当前主宾关键字对一定存在某种关系。
本发明提供的文本数据标注装置,通过爬取含有预先定义的主宾关键字对的网页文本,对爬取的网页文本进行分段、分句处理,得到待处理语句,将待处理语句进行主宾关键字对、正则表达式及穷举关键字匹配,将匹配成功的待处理语句作为候选语句,将候选语句存入清单集合,通过自然语言处理模型对所清单集合中的所述候选语句进行处理,从所述候选语句中选择满足预设条件的语句作为有效语句,显示所述有效语句,并将所述有效语句中与关键字对、正则表达式及穷举关键字匹配的词进行突出显示。由于进行了主宾关键字对、正则表达式及穷举关键字匹配过程,从而在有效语句中与关键字对、正则表达式及穷举关键字匹配的词分类更明确、词性判断更精确,可以提高文本数据的词性标注的自动化程度和准确度,可以减轻数据标注人员的标注工作的复杂度,标注人员只需要判断标注数据中实体关系,选择对应预设关系清单中对应关系就能完成标注,方便研究人员开展机器学习的研究工作。
示例性的,计算机程序可以被分割成一个或多个模块,一个或者多个模块被存储在存储器中,并由处理器执行,以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算机装置中的执行过程。例如,计算机程序可以被分割成上述各个方法实施例提供的文本数据标注方法的步骤。
本领域技术人员可以理解,上述计算机装置的描述仅仅是示例,并不构成对计算机装置的限定,可以包括比上述描述更多或更少的部件,或者组合某些部件,或者不同的部件,例如可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述计算机装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个文本数据标注方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信号以及软件分发介质等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种文本数据标注方法,其特征在于,所述文本数据标注方法包括:
获取含有预先定义的主宾关键字对的网页文本,将所述网页文本按照段落结构分段,将分段后的段落文本进行分句处理,得到待处理语句;
对所述待处理语句进行主宾关键字对、正则表达式及穷举关键字匹配,在所述待处理语句与关键字对、正则表达式及穷举关键字中至少有一个匹配成功的情况下,将匹配成功的待处理语句作为候选语句,将所述候选语句存入清单集合;
循环遍历所述清单集合,通过自然语言处理模型对所清单集合中的所述候选语句进行处理,从所述候选语句中选择满足预设条件的语句作为有效语句,将所述有效语句存入数据库中,其中,所述预设条件包括以下任一项:语句中包括至少两个或两个以上的词的实体类型与所述关键字对的实体类型相同;语句中包括至少一个实体类型的词,及根据正则表达式或穷举关键字匹配得到的至少一个词;
显示所述有效语句,并将所述有效语句中与关键字对、正则表达式及穷举关键字匹配的词进行突出显示。
2.根据权利要求1所述的文本数据标注方法,其特征在于,所述获取含有预先定义的主宾关键字对的网页文本之前,所述文本数据标注方法包括:
从预先获取的数据集的元素中获取主语和宾语,依据所述元素的主语和宾语构成表示不同关系类型的所述主宾关键字对。
3.根据权利要求1所述的文本数据标注方法,其特征在于,所述从所述候选语句中选择满足预设条件的语句作为有效语句,包括以下过程:
若所述预设条件为所述语句中包括至少两个或两个以上的词的实体类型与所述关键字对的实体类型相同,则在所述关键字对均为人名PERSON实体类型的情况下,判断所述候选语句的分词结果中是否包括至少两个PERSON实体类型的分词,若是,则将所述候选语句确定为所述有效语句;
在所述关键字对包括人名PERSON实体类型及机构ORGANIZATION实体类型的情况下,判断所述候选语句的分词结果中是否包括至少一个人名PERSON实体类型的分词及至少一个机构ORGANIZATION实体类型的分词,若是,则将所述候选语句确定为所述有效语句;
在所述关键字对包括人名PERSON实体类型及地址LOCATION实体类型的情况下,判断所述候选语句的分词结果中是否包括至少一个人名PERSON实体类型的分词及至少一个地址LOCATION实体类型的分词,若是,则将所述候选语句确定为所述有效语句。
4.根据权利要求1所述的文本数据标注方法,其特征在于,所述从所述候选语句中选择满足预设条件的语句作为有效语句,包括以下过程:
若所述预设条件为在语句中包括至少一个实体类型的词及根据正则表达式或穷举关键字得到的至少一个词,则判断所述候选语句的分词结果中是否包括至少一个实体类型的词,及根据正则表达式或穷举关键字匹配得到的至少一个词;若是,则将所述匹配得到的至少一个词的分词结果由非实体类型修改为预定义类型,得到包括至少一个实体类型的分词及至少一个预定义类型的分词的处理后语句,将所述处理后语句作为有效语句。
5.根据权利要求1所述的文本数据标注方法,其特征在于,所述将所述有效语句存入数据库中,包括以下过程:
根据所述主宾关键字对的实体类型、正则表达式及穷举关键字匹配到的分词的预定义类型,将所述有效语句存入对应的关系类型表中;
将所述有效语句通过主宾关键字对、正则表达式及穷举关键字匹配到的分词的下标索引存入所述对应的关系类型表中。
6.一种文本数据标注装置,其特征在于,所述文本数据标注装置包括:
第一处理模块,用于获取含有预先定义的主宾关键字对的网页文本,将所述网页文本按照段落结构分段,将分段后的段落文本进行分句处理,得到待处理语句;
匹配模块,用于对所述待处理语句进行主宾关键字对、正则表达式及穷举关键字匹配,在所述待处理语句与关键字对、正则表达式及穷举关键字中至少有一个匹配成功的情况下,将匹配成功的待处理语句作为候选语句,将所述候选语句存入清单集合;
第二处理模块,用于循环遍历所述清单集合,通过自然语言处理模型对所清单集合中的所述候选语句进行处理,从所述候选语句中选择满足预设条件的语句作为有效语句,将所述有效语句存入数据库中,其中,所述预设条件包括以下任一项:语句中包括至少两个或两个以上的词的实体类型与所述关键字对的实体类型相同;语句中包括至少一个实体类型的词,及根据正则表达式或穷举关键字匹配得到的至少一个词;
显示模块,用于显示所述有效语句,并将所述有效语句中与关键字对、正则表达式及穷举关键字匹配的词进行突出显示。
7.根据权利要求6所述的文本数据标注装置,其特征在于,所述文本数据标注装置还包括:
获取模块,用于从预先获取的数据集的元素中获取主语和宾语,依据所述元素的主语和宾语构成表示不同关系类型的所述主宾关键字对。
8.根据权利要求6所述的文本数据标注装置,其特征在于,所述第二处理模块,还用于若所述预设条件为所述语句中包括至少两个或两个以上的词的实体类型与所述关键字对的实体类型相同,则在所述关键字对均为人名PERSON实体类型的情况下,判断所述候选语句的分词结果中是否包括至少两个PERSON实体类型的分词,若是,则将所述候选语句确定为所述有效语句;
在所述关键字对包括人名PERSON实体类型及机构ORGANIZATION实体类型的情况下,判断所述候选语句的分词结果中是否包括至少一个人名PERSON实体类型的分词及至少一个机构ORGANIZATION实体类型的分词,若是,则将所述候选语句确定为所述有效语句;
在所述关键字对包括人名PERSON实体类型及地址LOCATION实体类型的情况下,判断所述候选语句的分词结果中是否包括至少一个人名PERSON实体类型的分词及至少一个地址LOCATION实体类型的分词,若是,则将所述候选语句确定为所述有效语句。
9.根据权利要求6所述的文本数据标注装置,其特征在于,所述第二处理模块,还用于若所述预设条件为在语句中包括至少一个实体类型的词及根据正则表达式或穷举关键字得到的至少一个词,则判断所述候选语句的分词结果中是否包括至少一个实体类型的词,及根据正则表达式或穷举关键字匹配得到的至少一个词,若是,则将所述匹配得到的至少一个词的分词结果由非实体类型修改为预定义类型,得到包括至少一个实体类型的分词及至少一个预定义类型的分词的处理后语句,将所述处理后语句作为有效语句。
10.根据权利要求6所述的文本数据标注装置,其特征在于,所述第二处理模块包括:
第一存入子模块,用于根据所述主宾关键字对的实体类型、正则表达式及穷举关键字匹配到的分词的预定义类型,将所述有效语句存入对应的关系类型表中;
第二存入子模块,用于将所述有效语句中通过主宾关键字对、正则表达式及穷举关键字匹配到的分词的下标索引存入所述对应的关系类型表中。
11.一种计算机装置,其特征在于,所述计算机装置包括处理器,所述处理器用于执行存储器中计算机程序时实现如权利要求1至5中任意一项所述文本数据标注方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任意一项所述文本数据标注方法的步骤。
CN201911406659.6A 2019-12-31 2019-12-31 一种文本数据标注方法、装置、计算机装置及计算机可读存储介质 Pending CN111159408A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911406659.6A CN111159408A (zh) 2019-12-31 2019-12-31 一种文本数据标注方法、装置、计算机装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911406659.6A CN111159408A (zh) 2019-12-31 2019-12-31 一种文本数据标注方法、装置、计算机装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN111159408A true CN111159408A (zh) 2020-05-15

Family

ID=70559571

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911406659.6A Pending CN111159408A (zh) 2019-12-31 2019-12-31 一种文本数据标注方法、装置、计算机装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111159408A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270180A (zh) * 2020-11-03 2021-01-26 北京阳光云视科技有限公司 一种实体识别训练数据bio自动标注系统及方法
CN114492383A (zh) * 2021-12-20 2022-05-13 北京邮电大学 一种数字货币交易地址的实体名称识别方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102439590A (zh) * 2009-03-13 2012-05-02 发明机器公司 用于自然语言文本的自动语义标注的系统和方法
CN106372060A (zh) * 2016-08-31 2017-02-01 北京百度网讯科技有限公司 搜索文本的标注方法和装置
US20180232443A1 (en) * 2017-02-16 2018-08-16 Globality, Inc. Intelligent matching system with ontology-aided relation extraction
CN110046351A (zh) * 2019-04-19 2019-07-23 福州大学 规则驱动下基于特征的文本关系抽取方法
CN110222346A (zh) * 2019-06-20 2019-09-10 贵州电网有限责任公司 一种从交互数据中提取有效时间的方法
CN110569332A (zh) * 2019-09-09 2019-12-13 腾讯科技(深圳)有限公司 一种语句特征的提取处理方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102439590A (zh) * 2009-03-13 2012-05-02 发明机器公司 用于自然语言文本的自动语义标注的系统和方法
CN106372060A (zh) * 2016-08-31 2017-02-01 北京百度网讯科技有限公司 搜索文本的标注方法和装置
US20180232443A1 (en) * 2017-02-16 2018-08-16 Globality, Inc. Intelligent matching system with ontology-aided relation extraction
CN110046351A (zh) * 2019-04-19 2019-07-23 福州大学 规则驱动下基于特征的文本关系抽取方法
CN110222346A (zh) * 2019-06-20 2019-09-10 贵州电网有限责任公司 一种从交互数据中提取有效时间的方法
CN110569332A (zh) * 2019-09-09 2019-12-13 腾讯科技(深圳)有限公司 一种语句特征的提取处理方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270180A (zh) * 2020-11-03 2021-01-26 北京阳光云视科技有限公司 一种实体识别训练数据bio自动标注系统及方法
CN114492383A (zh) * 2021-12-20 2022-05-13 北京邮电大学 一种数字货币交易地址的实体名称识别方法和装置

Similar Documents

Publication Publication Date Title
US11055374B2 (en) Method and device for information retrieval, device and computer readable storage medium
US10146751B1 (en) Methods for information extraction, search, and structured representation of text data
US10025819B2 (en) Generating a query statement based on unstructured input
US10380197B2 (en) Network searching method and network searching system
US10198506B2 (en) System and method of sentiment data generation
US9858314B2 (en) System and method for refining search results
US9613003B1 (en) Identifying topics in a digital work
US9639522B2 (en) Methods and apparatus related to determining edit rules for rewriting phrases
CN111324771B (zh) 视频标签的确定方法、装置、电子设备及存储介质
CN110532354B (zh) 内容的检索方法及装置
CN107688616B (zh) 使实体的独特事实显现
CN110716991B (zh) 基于电子书的实体关联信息的展示方法及电子设备
US20090112845A1 (en) System and method for language sensitive contextual searching
Smith et al. Corpus tools and methods, today and tomorrow: Incorporating linguists’ manual annotations
Bergenholtz Concepts for monofunctional accounting dictionaries
WO2014114175A1 (zh) 一种提供搜索引擎标签的方法和装置
Yen et al. WriteAhead: Mining grammar patterns in corpora for assisted writing
US20220365956A1 (en) Method and apparatus for generating patent summary information, and electronic device and medium
CN111159408A (zh) 一种文本数据标注方法、装置、计算机装置及计算机可读存储介质
CN110188180B (zh) 相似问题的确定方法、装置、电子设备及可读存储介质
Sakor et al. FALCON: an entity and relation linking framework over dbpedia
CN110516157B (zh) 一种文献检索方法、设备和存储介质
US20170293683A1 (en) Method and system for providing contextual information
CN109783612B (zh) 报表数据定位方法及装置、存储介质、终端
CN114020867A (zh) 一种搜索词的扩展方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination