CN114492419A - 基于标注中新增关键词语的文本标注方法、系统及装置 - Google Patents

基于标注中新增关键词语的文本标注方法、系统及装置 Download PDF

Info

Publication number
CN114492419A
CN114492419A CN202210338114.1A CN202210338114A CN114492419A CN 114492419 A CN114492419 A CN 114492419A CN 202210338114 A CN202210338114 A CN 202210338114A CN 114492419 A CN114492419 A CN 114492419A
Authority
CN
China
Prior art keywords
label
text
sample
words
labeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210338114.1A
Other languages
English (en)
Other versions
CN114492419B (zh
Inventor
赵鹏阳
杨红飞
金霞
程东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huoshi Creation Technology Co ltd
Original Assignee
Hangzhou Firestone Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Firestone Technology Co ltd filed Critical Hangzhou Firestone Technology Co ltd
Priority to CN202210338114.1A priority Critical patent/CN114492419B/zh
Publication of CN114492419A publication Critical patent/CN114492419A/zh
Application granted granted Critical
Publication of CN114492419B publication Critical patent/CN114492419B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于标注中新增关键词语的文本标注方法、系统及装置,通过标注过程中划出文本中和所选标签相关的待定样例短语或样例句式的方式,不断丰富和完善关键词语,并且在文本的标签已有关键词语的情况下,根据基于某个标签的关键词语的查询逻辑,可以缩短样本筛选时间、提高了样本的质量、发现了更多有价值的文本特征,即为标签的关键词语,同时可以基于标签的关键词语对于查询出的文本进行自动标注,可以提高自然语言处理模型的性能。标签的关键词语也可以给自然语言处理模型提供一定的可解释性。

Description

基于标注中新增关键词语的文本标注方法、系统及装置
技术领域
本发明涉及文本标注领域,尤其涉及一种基于标注中新增关键词语的文本标注方法、系统及装置。
背景技术
在自然语言处理领域,针对文本分类问题的标注工具有prodigy等。它主要是可以连接自定义的数据库,在定义好标签的条件下,提供一个用户界面,使得标注人员可以对某一篇文本打上某些标签。prodigy等这种标注工具不带有样本筛选功能,不能解决标注数据量巨大、标注所需周期长的问题,也不能帮助提高样本的质量、发现有价值的文本特征。
发明内容
在自然语言处理领域的文本分类问题中,为了解决算法所需的标注数据量巨大、标注所需周期长的问题,本发明实现了一种基于标注中新增关键词语的文本标注方法、系统及装置。
本发明的目的是通过以下技术方案来实现的:第一方面,本发明提供了一种基于标注中新增关键词语的文本标注方法,该方法包括以下步骤:
(1)确定待标注的文本能够打上的标签,记为标签A,并通过标签A的若干范围词语圈定标签A的待标注样本的范围;
(2)在待标注的文本上划出支持将此文本标注为标签A的词语、短语或句子;
(3)基于步骤(2)中划出的词语、短语或句子,确定标签A的待定样例短语或样例句式;所述样例短语代表标签A所关联的典型文本的短语,所述样例句式代表标签A所关联的典型文本的句式;
(4)对标签A的待定样例短语和样例句式在进行审核后,将范围词语、审核通过的样例短语和样例句式作为标签A的关键词语加入标签A的关键词语列表,用于后续的文本筛选或文本自动标注;
(5)在标签A已有关键词语的情况下,根据基于关键词语的查询逻辑,进行文本筛选得到具有典型特征的文本或者对查询到的文本进行自动标注,直接打上标签A;所述查询逻辑为若存在范围词语A和B,则用“A & B”表示文本中既存在A又存在B,若存在样例语句C和D,则用“C| D”表示存在C的文本和存在D的文本的并集;取所有范围词语,它们之间用“&”连接,结果集记为P;取所有样例语句,它们之间用“|”连接,结果集记为Q;最终的查询逻辑为P & Q。
进一步地,划出的同一个句子内的词语如果是连续的字符串,则为待定的样例短语;否则用省略号连接,形成一个待定的样例句式。
进一步地,步骤(3)中待定样例短语或样例句式需要去重,如果和标签A的已有关键词语重复,也进行去除。
进一步地,步骤(5)中,所述基于关键词语的查询逻辑具体如下:定义函数size(P)表示集合P中的元素个数;
Figure DEST_PATH_IMAGE001
其中,
Figure DEST_PATH_IMAGE002
为集合P中的元素,m为集合P的元素个数,
Figure DEST_PATH_IMAGE003
为集合Q中的元素,n为集合Q 的元素个数,则查询的最终结果为
Figure DEST_PATH_IMAGE004
第二方面,本发明还提供了一种基于标注中新增关键词语的文本标注系统,该系统包括标签选择模块、标注模块、标签确定模块、样例语句确定模块、审核模块、文本筛选模块和自动标注模块:
所述标签确定模块用于确定待标注的文本能够打上的标签,记为标签A,并通过标签A的若干范围词语圈定标签A的待标注样本的范围;
所述标注模块用于在待标注的文本上划出支持将此文本标注为标签A的词语、短语或句子;
所述样例语句确定模块用于根据标注模块划出的词语、短语或句子,确定标签A的待定样例短语或样例句式,所述样例短语代表标签A所关联的典型文本的短语,所述样例句式代表标签A所关联的典型文本的句式;
所述审核模块用于对标签A的待定样例短语和样例句式进行审核,将范围词语、审核通过的样例短语和样例句式作为标签A的关键词语加入标签A的关键词语列表,用于后续的文本筛选或文本自动标注;
所述文本筛选模块用于在标签A已有关键词语的情况下,根据基于关键词语的查询逻辑,得到的查询结果为经过筛选后、具有典型特征的文本;所述查询逻辑为若存在范围词语A和B,则用“A & B”表示文本中既存在A又存在B,若存在样例语句C和D,则用“C| D”表示存在C的文本和存在D的文本的并集;取所有范围词语,它们之间用“&”连接,结果集记为P;取所有样例语句,它们之间用“|”连接,结果集记为Q;最终的查询逻辑为P & Q;
所述自动标注模块用于对于通过标签A的关键词语的查询逻辑查询出的文本,直接打上标签A。
进一步地,所述标注模块划出的同一个句子内的词语如果是连续的字符串,则为待定的样例短语;否则用省略号连接,形成一个待定的样例句式。
进一步地,所述样例语句确定模块确定的待定样例短语或样例句式需要去重,如果和标签A的已有关键词语重复,也进行去除。
进一步地,所述文本筛选模块中基于关键词语的查询逻辑具体如下:定义函数size(P)表示集合P中的元素个数;
Figure 678127DEST_PATH_IMAGE001
其中,
Figure 798530DEST_PATH_IMAGE002
为集合P中的元素,m为集合P的元素个数,
Figure 171743DEST_PATH_IMAGE003
为集合Q中的元素,n为集合Q 的元素个数,则查询的最终结果为
Figure 832531DEST_PATH_IMAGE004
第三方面,本发明还提供了一种基于标注中新增关键词语的文本标注装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现所述的基于标注中新增关键词语的文本标注方法。
第四方面,本发明还提供了一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时,实现所述的基于标注中新增关键词语的文本标注方法。
本发明的有益效果:本发明通过标注过程中划出文本中和所选标签相关的关键词语的方式,不断丰富和完善关键词语,从而缩短了样本筛选时间、提高了样本的质量、发现了更多有价值的文本特征(即标签的关键词语),提高了自然语言处理模型的性能。本发明可以对样本进行筛选和自动标注,在关键词越来越丰富的过程中,可以结合自然语言处理模型的统计指标,进行很多轮筛选或标注。在初期可以进行自动标注,加快训练自然语言处理模型速度;在准确度达到一定阈值之后(阈值可根据具体项目情况调节),采用样本筛选,进一步提高样本质量,标签的关键词语也可以给自然语言处理模型提供一定的可解释性。
附图说明
图1为本发明一种基于标注中新增关键词语的文本标注方法流程示意图。
图2为本发明一种基于标注中新增关键词语的文本标注系统结构示意图。
图3为本发明一种基于标注中新增关键词语的文本标注装置示意图。
具体实施方式
以下结合附图对本发明具体实施方式作进一步详细说明。
如图1所示,本发明提供的一种基于标注中新增关键词语的文本标注方法,该方法包括以下步骤:
(1)确定待标注的文本能够打上的标签,记为标签A;具体为,标注人员根据本领域内的标签集合,判断待标注的文本能够打上哪些类标签,对于单分类的文本,最多只能打上一个标签,对于多分类的文本,可以打上多个标签,并通过标签A的若干范围词语圈定标签A的待标注样本的范围,例如对于“战略扩张”标签,其范围词语是“战略”。
(2)在待标注的文本上划出支持将此文本标注为标签A的词语、短语或句子;将一根连续的划线称为连续划线,对一条连续划线打上标签A,表示该划线上的内容支持该文本打上标签A;
(3)基于步骤(2)中划出的词语、短语或句子,确定标签A的待定样例短语或样例句式;所述样例短语代表标签A所关联的典型文本的短语,如“战略扩张”标签的一个样例短语可以是“扩大规模”,所述样例句式代表标签A所关联的典型文本的句式,如“战略扩张”标签的一个样例句式可以是“除……外,……又陆续推出了……等诸多产品”;划出的同一个句子内的词语如果是连续的字符串,则为待定的样例短语;否则用省略号连接,形成一个待定的样例句式。标注人员提交的某个标签的待定样例短语或样例句式需要去重,如果和该标签的已有关键词语重复,也进行去除。
(4)通过标签审核人员对标注人员提交的包含文本和其标签的待定样例短语和样例句式进行审核,将范围词语、审核通过的样例短语和样例句式作为标签A的关键词语加入标签A的关键词语列表,用于后续的文本筛选或文本自动标注;
(5)在标签A已有关键词语的情况下,根据基于关键词语的查询逻辑,进行文本筛选得到具有典型特征的文本或者对查询到的文本进行自动标注,直接打上标签A;所述查询逻辑为若存在范围词语A和B,则用“A & B”表示文本中既存在A又存在B,若存在样例语句C和D,则用“C| D”表示存在C的文本和存在D的文本的并集;取所有范围词语,它们之间用“&”连接,结果集记为P;取所有样例语句,它们之间用“|”连接,结果集记为Q;最终的查询逻辑为P & Q。具体为:定义函数size(P)表示集合P中的元素个数;
Figure 850166DEST_PATH_IMAGE001
其中,
Figure 938208DEST_PATH_IMAGE002
为集合P中的元素,m为集合P的元素个数,
Figure 533137DEST_PATH_IMAGE003
为集合Q中的元素,n为集合Q 的元素个数,则查询的最终结果为
Figure 997616DEST_PATH_IMAGE004
例如有两个范围关键词和三个样例语句的查询逻辑:
{范围关键词1} & {范围关键词2} & ( {样例语句1} | {样例语句2} | {样例语句3} )
以下结合一个具体应用实例来解释本发明方法:
对于一般场景(准确度要求高、自然语言处理模型不急于上线),可以用本发明方法做样本筛选,筛选出的样本再进行人工标注;对于需要自然语言处理模型尽快上线、准确度要求相对不高的场景,可以利用本发明方法进行自动标注;例如对于待标注的新闻文本“腾讯to B战略扩张一年,布局与挑战”(来源网址:https://baijiahao.baidu.com/s
Figure DEST_PATH_IMAGE006
id=1655215551572497839&wfr=spider&for=pc),根据该新闻文本内容可以确定该文本标签为“战略扩张”,针对“战略扩张”这个标签圈定该新闻文本的范围词语为“战略、公司”;在该新闻文本中找出和标签相关的词语和语句,例如“在积极转变”、“战略升级”、“推动腾讯”、“升级”、“重兵投入”、“业务提升到”、“战略高度”、“数字型转化、企业上云”、“调整公司架构”、“公司开放战略”、“为了……,推出……产品”;然后根据所找到的词语和语句,确定标签“战略扩张”的待定样例短语或样例句式,例如,样例短语为“升级”、“调整公司架构”,样例句式为“为了……,推出……产品”。
通过查询逻辑得到标签为“战略扩张”的新闻文本的查询逻辑为“战略&公司&(升级|调整公司架构|为了……,推出……产品)”;
结合BERT模型等自然语言处理模型,根据查询逻辑“战略&公司&(升级|调整公司架构|为了……,推出……产品)”查询其他新闻文本,可以快速进行需求的样本筛选,或者对筛选的新闻文本自动标注标签“战略扩张”。不论样本筛选还是自动标注,在关键词越来越丰富的过程中,都可以结合自然语言处理模型的统计指标,进行很多轮筛选、标注。在初期可以进行自动标注,加快模型训练速度;在准确度达到一定阈值之后(阈值可根据具体项目情况调节),采用样本筛选,进一步提高样本质量,同时,标签的关键词语也可以给自然语言处理模型提供一定的可解释性,当自然语言处理模型出现异常的样本筛选结果时,由于模型的输出还取决于关键词,可以根据输出的异常的样本筛选结果 回溯当前关键词中存在的缺陷,因此可以通过修正关键词达到快速纠正模型输出结果的目的,提升了自然语言处理模型的可解释性。
另一方面,与上述基于标注中新增关键词语的文本标注方法的实施例相对应,如图2所示,本发明还提供了一种基于标注中新增关键词语的文本标注系统,该系统包括标签确定模块、标注模块、样例语句确定模块、审核模块、文本筛选模块和自动标注模块:
所述标签确定模块用于确定待标注的文本能够打上的的标签,记为标签A,并通过标签A的若干范围词语圈定标签A的待标注样本的范围;
所述标注模块用于在待标注的文本上划出支持将此文本标注为标签A的词语、短语或句子;
所述样例语句确定模块用于根据标注模块划出的词语、短语或句子,确定标签A的待定样例短语或样例句式,所述样例短语代表其所关联的典型文本的短语,所述样例句式代表其所关联的典型文本的句式;划出的同一个句子内的词语如果是连续的字符串,则为待定的样例短语;否则用省略号连接,形成一个待定的样例句式。并且对待定样例短语或样例句式进行去重,如果和标签A的已有关键词语重复,也进行去除。
所述审核模块用于对标签A的待定样例短语和样例句式进行审核,将范围词语、审核通过的样例短语和样例句式作为标签A的关键词语加入标签A的关键词语列表,用于后续的文本筛选或文本自动标注;
所述文本筛选模块用于在标签A已有关键词语的情况下,根据基于关键词语的查询逻辑,得到的查询结果为经过筛选后、具有典型特征的文本;所述查询逻辑为若存在范围词语A和B,则用“A & B”表示文本中既存在A又存在B,若存在样例语句C和D,则用“C| D”表示存在C的文本和存在D的文本的并集;取所有范围词语,它们之间用“&”连接,结果集记为P;取所有样例语句,它们之间用“|”连接,结果集记为Q;最终的查询逻辑为P & Q;具体如下:定义函数size(P)表示集合P中的元素个数;
Figure 466162DEST_PATH_IMAGE001
其中,
Figure 725105DEST_PATH_IMAGE002
为集合P中的元素,m为集合P的元素个数,
Figure 682697DEST_PATH_IMAGE003
为集合Q中的元素,n为集合Q 的元素个数,则查询的最终结果为
Figure 13184DEST_PATH_IMAGE004
所述自动标注模块用于对于通过标签A的关键词语的查询逻辑查询出的文本,直接打上标签A。
与前述基于标注中新增关键词语的文本标注方法的实施例相对应,本发明还提供了基于标注中新增关键词语的文本标注装置的实施例。
参见图3,本发明实施例提供的一种基于标注中新增关键词语的文本标注装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现上述实施例中的基于标注中新增关键词语的文本标注方法。
本发明基于标注中新增关键词语的文本标注装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图3所示,为本发明基于标注中新增关键词语的文本标注装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于标注中新增关键词语的文本标注方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (10)

1.一种基于标注中新增关键词语的文本标注方法,其特征在于,该方法包括以下步骤:
(1)确定待标注的文本能够打上的标签,记为标签A,并通过标签A的若干范围词语圈定标签A的待标注样本的范围;
(2)在待标注的文本上划出支持将此文本标注为标签A的词语、短语或句子;
(3)基于步骤(2)中划出的词语、短语或句子,确定标签A的待定样例短语或样例句式;所述样例短语代表标签A所关联的典型文本的短语,所述样例句式代表标签A所关联的典型文本的句式;
(4)对标签A的待定样例短语和样例句式在进行审核后,将范围词语、审核通过的样例短语和样例句式作为标签A的关键词语加入标签A的关键词语列表,用于后续的文本筛选或文本自动标注;
(5)在标签A已有关键词语的情况下,根据基于关键词语的查询逻辑,进行文本筛选得到具有典型特征的文本或者对查询到的文本进行自动标注,直接打上标签A;所述查询逻辑为若存在范围词语A和B,则用“A & B”表示文本中既存在A又存在B,若存在样例语句C和D,则用“C| D”表示存在C的文本和存在D的文本的并集;取所有范围词语,它们之间用“&”连接,结果集记为P;取所有样例语句,它们之间用“|”连接,结果集记为Q;最终的查询逻辑为P& Q。
2.根据权利要求1所述的一种基于标注中新增关键词语的文本标注方法,其特征在于,划出的同一个句子内的词语如果是连续的字符串,则为待定的样例短语;否则用省略号连接,形成一个待定的样例句式。
3.根据权利要求1所述的一种基于标注中新增关键词语的文本标注方法,其特征在于,步骤(3)中待定样例短语或样例句式需要去重,如果和标签A的已有关键词语重复,也进行去除。
4.根据权利要求1所述的一种基于标注中新增关键词语的文本标注方法,其特征在于,步骤(5)中,所述基于关键词语的查询逻辑具体如下:定义函数size(P)表示集合P中的元素个数;
Figure 120709DEST_PATH_IMAGE001
其中,
Figure 303428DEST_PATH_IMAGE002
为集合P中的元素,m为集合P的元素个数,
Figure 676641DEST_PATH_IMAGE003
为集合Q中的元素,n为集合Q的元 素个数,则查询的最终结果为
Figure 275112DEST_PATH_IMAGE004
5.一种基于标注中新增关键词语的文本标注系统,其特征在于,该系统包括标签选择模块、标注模块、标签确定模块、样例语句确定模块、审核模块、文本筛选模块和自动标注模块:
所述标签确定模块用于确定待标注的文本能够打上的标签,记为标签A,并通过标签A的若干范围词语圈定标签A的待标注样本的范围;
所述标注模块用于在待标注的文本上划出支持将此文本标注为标签A的词语、短语或句子;
所述样例语句确定模块用于根据标注模块划出的词语、短语或句子,确定标签A的待定样例短语或样例句式,所述样例短语代表标签A所关联的典型文本的短语,所述样例句式代表标签A所关联的典型文本的句式;
所述审核模块用于对标签A的待定样例短语和样例句式进行审核,将范围词语、审核通过的样例短语和样例句式作为标签A的关键词语加入标签A的关键词语列表,用于后续的文本筛选或文本自动标注;
所述文本筛选模块用于在标签A已有关键词语的情况下,根据基于关键词语的查询逻辑,得到的查询结果为经过筛选后、具有典型特征的文本;所述查询逻辑为若存在范围词语A和B,则用“A & B”表示文本中既存在A又存在B,若存在样例语句C和D,则用“C| D”表示存在C的文本和存在D的文本的并集;取所有范围词语,它们之间用“&”连接,结果集记为P;取所有样例语句,它们之间用“|”连接,结果集记为Q;最终的查询逻辑为P & Q;
所述自动标注模块用于对于通过标签A的关键词语的查询逻辑查询出的文本,直接打上标签A。
6.根据权利要求5所述的一种基于标注中新增关键词语的文本标注系统,其特征在于,所述标注模块划出的同一个句子内的词语如果是连续的字符串,则为待定的样例短语;否则用省略号连接,形成一个待定的样例句式。
7.根据权利要求5所述的一种基于标注中新增关键词语的文本标注系统,其特征在于,所述样例语句确定模块确定的待定样例短语或样例句式需要去重,如果和标签A的已有关键词语重复,也进行去除。
8.根据权利要求5所述的一种基于标注中新增关键词语的文本标注系统,其特征在于,所述文本筛选模块中基于关键词语的查询逻辑具体如下:定义函数size(P)表示集合P中的元素个数;
Figure 682960DEST_PATH_IMAGE001
其中,
Figure 771002DEST_PATH_IMAGE002
为集合P中的元素,m为集合P的元素个数,
Figure 241297DEST_PATH_IMAGE003
为集合Q中的元素,n为集合Q的元 素个数,则查询的最终结果为
Figure 33673DEST_PATH_IMAGE004
9.一种基于标注中新增关键词语的文本标注装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,其特征在于,所述处理器执行所述可执行代码时,实现如权利要求1-4中任一项所述的基于标注中新增关键词语的文本标注方法。
10.一种计算机可读存储介质,其上存储有程序,其特征在于,所述程序被处理器执行时,实现如权利要求1-4中任一项所述的基于标注中新增关键词语的文本标注方法。
CN202210338114.1A 2022-04-01 2022-04-01 基于标注中新增关键词语的文本标注方法、系统及装置 Active CN114492419B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210338114.1A CN114492419B (zh) 2022-04-01 2022-04-01 基于标注中新增关键词语的文本标注方法、系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210338114.1A CN114492419B (zh) 2022-04-01 2022-04-01 基于标注中新增关键词语的文本标注方法、系统及装置

Publications (2)

Publication Number Publication Date
CN114492419A true CN114492419A (zh) 2022-05-13
CN114492419B CN114492419B (zh) 2022-08-23

Family

ID=81488319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210338114.1A Active CN114492419B (zh) 2022-04-01 2022-04-01 基于标注中新增关键词语的文本标注方法、系统及装置

Country Status (1)

Country Link
CN (1) CN114492419B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100145678A1 (en) * 2008-11-06 2010-06-10 University Of North Texas Method, System and Apparatus for Automatic Keyword Extraction
JP2012027788A (ja) * 2010-07-26 2012-02-09 Fyuutorekku:Kk 文書検索システム、文書検索方法およびプログラム
US20140324808A1 (en) * 2013-03-15 2014-10-30 Sumeet Sandhu Semantic Segmentation and Tagging and Advanced User Interface to Improve Patent Search and Analysis
CN109241330A (zh) * 2018-08-20 2019-01-18 北京百度网讯科技有限公司 用于识别音频中的关键短语的方法、装置、设备和介质
US20190095526A1 (en) * 2017-09-22 2019-03-28 Druva Technologies Pte. Ltd. Keyphrase extraction system and method
CN110489649A (zh) * 2019-08-19 2019-11-22 北京创鑫旅程网络技术有限公司 标签关联内容的方法及装置
CN111079445A (zh) * 2019-12-27 2020-04-28 南京三百云信息科技有限公司 基于语义模型的训练方法、装置以及电子设备
CN111930792A (zh) * 2020-06-23 2020-11-13 北京大米科技有限公司 数据资源的标注方法、装置、存储介质及电子设备
CN112686049A (zh) * 2020-12-23 2021-04-20 平安普惠企业管理有限公司 文本审核方法、装置、设备及存储介质
US20210240781A1 (en) * 2020-02-03 2021-08-05 Intuit Inc. Automatic keyphrase labeling using search queries
US20210294975A1 (en) * 2020-03-19 2021-09-23 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, electronic device and readable storage medium for creating a label marking model
CN113536735A (zh) * 2021-09-17 2021-10-22 杭州费尔斯通科技有限公司 一种基于关键词的文本标记方法、系统和存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100145678A1 (en) * 2008-11-06 2010-06-10 University Of North Texas Method, System and Apparatus for Automatic Keyword Extraction
JP2012027788A (ja) * 2010-07-26 2012-02-09 Fyuutorekku:Kk 文書検索システム、文書検索方法およびプログラム
US20140324808A1 (en) * 2013-03-15 2014-10-30 Sumeet Sandhu Semantic Segmentation and Tagging and Advanced User Interface to Improve Patent Search and Analysis
US20190095526A1 (en) * 2017-09-22 2019-03-28 Druva Technologies Pte. Ltd. Keyphrase extraction system and method
CN109241330A (zh) * 2018-08-20 2019-01-18 北京百度网讯科技有限公司 用于识别音频中的关键短语的方法、装置、设备和介质
CN110489649A (zh) * 2019-08-19 2019-11-22 北京创鑫旅程网络技术有限公司 标签关联内容的方法及装置
CN111079445A (zh) * 2019-12-27 2020-04-28 南京三百云信息科技有限公司 基于语义模型的训练方法、装置以及电子设备
US20210240781A1 (en) * 2020-02-03 2021-08-05 Intuit Inc. Automatic keyphrase labeling using search queries
US20210294975A1 (en) * 2020-03-19 2021-09-23 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, electronic device and readable storage medium for creating a label marking model
CN111930792A (zh) * 2020-06-23 2020-11-13 北京大米科技有限公司 数据资源的标注方法、装置、存储介质及电子设备
CN112686049A (zh) * 2020-12-23 2021-04-20 平安普惠企业管理有限公司 文本审核方法、装置、设备及存储介质
CN113536735A (zh) * 2021-09-17 2021-10-22 杭州费尔斯通科技有限公司 一种基于关键词的文本标记方法、系统和存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
RAVISH SHARMA等: "Personalized Tag Recommendations to Enhance User"s Perception", 《IEEE》 *
周亦鹏等: "基于关联词的主题模型语义标注", 《智能系统学报》 *
尹倩等: "基于密度聚类模式的中文新闻网页关键词提取", 《广西师范大学学报(自然科学版)》 *
李求实: "XML关键词检索的查询理解", 《软件学报》 *
杨等: "中文文本的主题关键短语提取技术", 《计算机科学》 *

Also Published As

Publication number Publication date
CN114492419B (zh) 2022-08-23

Similar Documents

Publication Publication Date Title
US7941420B2 (en) Method for organizing structurally similar web pages from a web site
JP5534280B2 (ja) テキストクラスタリング装置、テキストクラスタリング方法、およびプログラム
WO2021175009A1 (zh) 预警事件图谱的构建方法、装置、设备及存储介质
WO2022048363A1 (zh) 网站分类方法、装置、计算机设备及存储介质
CN111460149B (zh) 文本分类方法、相关设备及可读存储介质
CN112560491A (zh) 一种基于ai技术的信息抽取方法、装置和存储介质
CN113822059A (zh) 中文敏感文本识别方法、装置、存储介质及设备
CN109308311A (zh) 一种多源异构数据融合系统
CN111753535A (zh) 一种专利申请文本的生成方法和装置
WO2022134577A1 (zh) 翻译错误识别方法、装置、计算机设备及可读存储介质
CN111492364A (zh) 数据标注方法、装置及存储介质
CN112765965A (zh) 文本多标签分类方法、装置、设备和存储介质
CN112328738A (zh) 语音检索方法、终端设备及可读存储介质
CN109902309B (zh) 翻译方法、装置、设备和存储介质
CN114492419B (zh) 基于标注中新增关键词语的文本标注方法、系统及装置
CN111310473A (zh) 文本纠错方法及其模型训练的方法、装置
Vitman et al. Evaluating the Impact of OCR Quality on Short Texts Classification Task
CN115481240A (zh) 一种数据资产质量检测方法和检测装置
CN113962196A (zh) 一种简历处理方法、装置、电子设备及存储介质
CN112529743A (zh) 合同要素抽取方法、装置、电子设备及介质
CN113722421A (zh) 一种合同审计方法和系统,及计算机可读存储介质
CN112036183A (zh) 基于BiLSTM网络模型及CRF模型的分词方法、装置、计算机装置及计算机存储介质
CN110717029A (zh) 一种信息处理方法和系统
Eiken et al. Ord i dag: Mining Norwegian daily newswire
CN117573956B (zh) 元数据管理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 310051 7th floor, building B, 482 Qianmo Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Huoshi Creation Technology Co.,Ltd.

Address before: 310051 7th floor, building B, 482 Qianmo Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee before: HANGZHOU FIRESTONE TECHNOLOGY Co.,Ltd.