CN115221884A - 特定人物检测方法、系统、存储介质及终端 - Google Patents

特定人物检测方法、系统、存储介质及终端 Download PDF

Info

Publication number
CN115221884A
CN115221884A CN202211118475.1A CN202211118475A CN115221884A CN 115221884 A CN115221884 A CN 115221884A CN 202211118475 A CN202211118475 A CN 202211118475A CN 115221884 A CN115221884 A CN 115221884A
Authority
CN
China
Prior art keywords
name
specific
person
text
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211118475.1A
Other languages
English (en)
Inventor
吴方舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Uranium Media Technology Co ltd
Original Assignee
Beijing Uranium Media Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Uranium Media Technology Co ltd filed Critical Beijing Uranium Media Technology Co ltd
Priority to CN202211118475.1A priority Critical patent/CN115221884A/zh
Publication of CN115221884A publication Critical patent/CN115221884A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种特定人物检测方法、系统、存储介质及终端,包括以下步骤:构建特定人物数据库,所述特定人物数据库包括特定人物的人名、类型、多元组信息或敏感词;提取待检测文本中的人名;当所述特定人物数据库中存在所述人名时,获取所述人名对应的特定人物类型;当所述特定人物类型为多元组信息特定人物时,基于所述人名对应的多元组信息在所述待检测文本中检测所述人名;当所述特定人物类型为特殊姓名或无特征要素特定人物时,基于所述人名对应的敏感词在所述待检测文本中检测所述人名。本发明的特定人物检测方法、系统、存储介质及终端通过人名、地域、职位等多元特征等综合进行特定人物的检测,准确度高,实用性强。

Description

特定人物检测方法、系统、存储介质及终端
技术领域
本发明涉及信息抽取的技术领域,特别是涉及一种特定人物检测方法、系统、存储介质及终端。
背景技术
命名实体识别(Named Entity Recognition,NER)是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。NER是信息抽取的一项子任务,其目的是从海量的文本数据中抽取出指定的实体。在自然语言处理应用领域中,命名实体识别是信息检索、机器翻译、情感分析等多项自然语言处理应用的基础任务。
人名识别是命名实体识别的一个子问题。现有技术中,人名识别主要通过以下方式。
(1)构建一个通用人名识别模型如分类模型或者条件随机场模型来实现。但是,待识别 文本中很可能会出现歧义人名提及。通用人名识别模型对歧义人名提及的识别错误率很高, 从而影响人名识别的有效性和准确性。
(2)直接抽取人名,若抽取人名与数据库人名匹配,则判定为目标人名。然而,上述方式虽然可以抽取人名,但无法根据语义综合判断是否是实际特定人物的名字,可能有重名的情况。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种特定人物检测方法、系统、存储介质及终端,通过人名、地域、职位等多元特征等综合进行特定人物的检测,准确度高,实用性强。
为实现上述目的及其他相关目的,本发明提供一种特定人物检测方法,包括以下步骤:构建特定人物数据库,所述特定人物数据库包括特定人物的人名、类型、多元组信息或敏感词;提取待检测文本中的人名;当所述特定人物数据库中存在所述人名时,获取所述人名对应的特定人物类型;当所述特定人物类型为多元组信息特定人物时,基于所述人名对应的多元组信息在所述待检测文本中检测所述人名;当所述特定人物类型为特殊姓名或无特征要素特定人物时,基于所述人名对应的敏感词在所述待检测文本中检测所述人名。
于本发明一实施例中,还包括基于预设周期对所述特定人物数据库进行更新;所述特定人物数据库由专家通过人工标记生成。
于本发明一实施例中,基于所述人名对应的多元组信息在所述待检测文本中检测所述人名包括以下步骤:
从所述特定人物数据库中获取所述人名对应的多元组信息;所述多元组信息包括特定人物的地域、机构、职位;
在所述待检测文本中检测所述人名和所述多元组信息,并在检测结果满足预设条件时获取所述人名在所述待检测文本中的位置信息。
于本发明一实施例中,在所述待检测文本中检测所述人名和所述多元组信息包括以下步骤:
将所述待检测文本按照整句进行划分;
在每个整句中,基于AC自动机检测所述人名和所述多元组信息。
于本发明一实施例中,检测结果满足预设条件包括以下一种或多种组合:
1)检测到与所述人名和所述多元组信息匹配的信息的次数大于预设阈值;
2)与所述人名和所述多元组信息匹配的信息位于同一单句中。
于本发明一实施例中,基于所述人名对应的敏感词在所述待检测文本中检测所述人名包括以下步骤:
从所述特定人物数据库中获取所述人名对应的敏感词;
在所述待检测文本中检测所述人名和所述敏感词,并在检测结果满足预设条件时获取所述人名在所述待检测文本中的位置信息。
于本发明一实施例中,检测结果满足预设条件包括以下一种或多种组合:
1)检索到与所述人名和所述敏感词匹配的信息;
2)检索到与所述人名匹配的信息,以及与所述敏感词对应的其他特定人物。
本发明提供一种特定人物检测系统,包括构建模块、提取模块、获取模块、第一检测模块和第二检测模块;
所述构建模块用于构建特定人物数据库,所述特定人物数据库包括特定人物的人名、类型、多元组信息或敏感词;
所述提取模块用于提取待检测文本中的人名;
所述获取模块用于当所述特定人物数据库中存在所述人名时,获取所述人名对应的特定人物类型;
所述第一检测模块用于当所述特定人物类型为多元组信息特定人物时,基于所述人名对应的多元组信息在所述待检测文本中检测所述人名;
所述第二检测模块用于当所述特定人物类型为特殊姓名或无特征要素特定人物时,基于所述人名对应的敏感词在所述待检测文本中检测所述人名。
本发明提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的特定人物检测方法。
本发明提供一种特定人物检测终端,包括:处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器存储的计算机程序,以使所述特定人物检测终端执行上述的特定人物检测方法。
如上所述,本发明的特定人物检测方法、系统、存储介质及终端,具有以下有益效果。
(1)通过人名、地域、职位等多元特征等综合进行特定人物的检测,准确度高。
(2)能够在文本中快速准确地检测到特定人物,并提供检测位置信息。
(3)有效避免了与特定人物重名的人物的误检测。
(4)能够实现自定义特定人物的定制化检测,实用性强。
附图说明
图1显示为本发明的特定人物检测方法于一实施例中的流程图。
图2显示为本发明的基于人名对应的多元组信息在待检测文本中检测人名于一实施例中的流程图。
图3显示为本发明的基于人名对应的敏感词在待检测文本中检测人名于一实施例中的流程图。
图4显示为本发明的特定人物检测系统于一实施例中的结构示意图。
图5显示为本发明的特定人物检测终端于一实施例中的结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本发明的特定人物检测方法、系统、存储介质及终端通过人名、地域、职位等多元特征等综合进行文艺、体育、政坛等不同领域的特定人物的检测,适用范围广,实用性强。
如图1所示,于一实施例中,本发明的特定人物检测方法包括以下步骤。
步骤S1、构建特定人物数据库,所述特定人物数据库包括特定人物的人名、类型、多元组信息或敏感词。
具体地,对于特定领域,如文艺、体育、政坛等不同领域,由专家通过人工标记生成特 定人物数据库。在所述特定人物数据库中,针对每个特定人物,记录对应的人名、类型、多 元组信息或敏感词。其中,所述特定人物类型包括多元组信息特定人物和特殊姓名或无特征 要素特定人物这两大类。其中,所述多元组信息特定人物是指该特定人物具有多元组信息, 如地域、机构、职位等等。所述特殊姓名或无特征要素特定人物是指该特定人物不具有多元 组信息,但具有特殊的姓名。
优选地,基于预设周期对所述特定人物数据库进行更新,以满足特定人物检索在不同时期、不同场景下的需求。
步骤S2、提取待检测文本中的人名。
具体地,对于待检测文本,首先采用命名实体识别技术识别其中包含的人名。
步骤S3、当所述特定人物数据库中存在所述人名时,获取所述人名对应的特定人物类型。
具体地,在所述特定人物数据库中检索所述人名,查看是否有匹配的信息。若所述特定人物数据库中没有检索到所述人名,则进行丢弃。若所述特定人物数据库中检索到所述人名,则进一步获取所述人名对应的特定人物类型。针对不同的特定人物类型,选择不同的策略进行特定人物检测。
步骤S4、当所述特定人物类型为多元组信息特定人物时,基于所述人名对应的多元组信息在所述待检测文本中检测所述人名。
如图2所示,基于所述人名对应的多元组信息在所述待检测文本中检测所述人名包括以下步骤。
41)从所述特定人物数据库中获取所述人名对应的多元组信息。
42)在所述待检测文本中检测所述人名和所述多元组信息,并在检测结果满足预设条件时获取所述人名在所述待检测文本中的位置信息。
具体地,由于所述人名具有多元组信息,故具有充分的检测条件,能够实现特定人物的准确定位。在本发明中采用整句级别的检测方式。因此,首先将所述待检测文本按照整句进行划分;再在每个整句中,基于AC自动机(Aho-Corasick automation)检测所述人名和所述多元组信息,从而实现人名、地域、机构、职位等多元特征定位的特定人物检测。其中,AC自动机为一种多模匹配算法,其解决的是在一个大字符串中找到多个候选字符串的问题。具体地,AC自动机算法核心包括:1)把所有匹配串生成一棵前缀树;2)前缀树节点增加fail指针;3)fail指针的含义:如果必须以当前字符结尾,当前形成的路径是str,剩下哪一个字符串的前缀和str的后缀,拥有最大的匹配长度。fail指针就指向那个字符串的最后一个字符所对应的节点。
需要说明的是,针对地域的检索,为语义检索,无需准确匹配检索。这是因为在文本中,很多地域不会完整记载省、市等后缀,并且有简称的情况。故只要在语义上表示同一地域,就可认为检索到匹配的信息。
因此,通过上述检测后,对检测结果进行分析,判断其是否满足预设条件。当满足所述预设条件,则判断检索到的人名即为特定人物,并给出其在所述待检测文本中的位置信息。当不满足预设条件时,则判断检索到的人名不为特定人物,进行丢弃。
优选地,可根据不同的精度需求,设定不同的预设条件。于本发明一实施例中,检测结果满足预设条件包括以下一种或多种组合。
a)检测到与所述人名和所述多元组信息匹配的信息的次数大于预设阈值。
其中,对于高频人名,所述预设阈值较大;对于低频人名,所述预设阈值较小。
b)与所述人名和所述多元组信息匹配的信息位于同一单句中。
其中,与所述人名和所述多元组信息匹配的信息位于同一单句时,表明对应的特定人物的检测准确度较高。
步骤S5、当所述特定人物类型为特殊姓名或无特征要素特定人物时,基于所述人名对应的敏感词在所述待检测文本中检测所述人名。
如图4所示,基于所述人名对应的敏感词在所述待检测文本中检测所述人名包括以下步骤。
51)从所述特定人物数据库中获取所述人名对应的敏感词。
52)在所述待检测文本中检测所述人名和所述敏感词,并在检测结果满足预设条件时获取所述人名在所述待检测文本中的位置信息。
具体地,由于所述人名属于特殊姓名或无特征要素特定人物,其与敏感词的关联性很强。故可基于所述待检测文本进行全文检测,即在所述待检测文本全文中检索所述敏感词。通过上述检测后,对检测结果进行分析,判断其是否满足预设条件。当满足所述预设条件,则判断检索到的人名即为特定人物,并给出其在所述待检测文本中的位置信息。当不满足预设条件时,则判断检索到的人名不为特定人物,进行丢弃。
于本发明一实施例中,检测结果满足预设条件包括以下一种或多种组合。
A)检索到与所述人名和所述敏感词匹配的信息。
B)检索到与所述人名匹配的信息,以及与所述敏感词对应的其他特定人物。
具体地,针对某一敏感词,其可能对应关联由多个特定人物。当基于所述人名和所述关 键词进行检索时,同时检索到与所述敏感词对应的其他特定人物,则表明当前的检索结果准 确性更高。
如图4所示,于一实施例中,本发明的特定人物检测系统包括构建模块41、提取模块42、获取模块43、第一检测模块44和第二检测模块45。
所述构建模块41用于构建特定人物数据库,所述特定人物数据库包括特定人物的人名、类型、多元组信息或敏感词。
所述提取模块42用于提取待检测文本中的人名。
所述获取模块43与所述构建模块41和所述提取模块42相连,用于当所述特定人物数据库中存在所述人名时,获取所述人名对应的特定人物类型。
所述第一检测模块44与所述获取模块43相连,用于当所述特定人物类型为多元组信息特定人物时,基于所述人名对应的多元组信息在所述待检测文本中检测所述人名。
所述第二检测模块45与所述获取模块43相连,用于当所述特定人物类型为特殊姓名或无特征要素特定人物时,基于所述人名对应的敏感词在所述待检测文本中检测所述人名。
其中,构建模块41、提取模块42、获取模块43、第一检测模块44和第二检测模块45的结构和原理与上述特定人物检测方法的步骤一一对应,故在此不再赘述。
要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,x模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(Digital Signal Processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
本发明的存储介质上存储有计算机程序,该程序被处理器执行时实现上述的特定人物检测方法。所述存储介质包括:ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。
如图5所示,于一实施例中,本发明的特定人物检测终端包括:处理器51及存储器52。
所述存储器52用于存储计算机程序。
所述存储器52包括:ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。
所述处理器51与所述存储器52相连,用于执行所述存储器52存储的计算机程序,以使所述特定人物检测终端执行上述的特定人物检测方法。
优选地,所述处理器51可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
综上所述,本发明的特定人物检测方法、系统、存储介质及终端通过人名、地域、职位等多元特征等综合进行特定人物的检测,准确度高;能够在文本中快速准确地检测到特定人物,并提供检测位置信息;有效避免了与特定人物重名的人物的误检测;能够实现自定义特定人物的定制化检测,实用性强。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (10)

1.一种特定人物检测方法,其特征在于:包括以下步骤:
构建特定人物数据库,所述特定人物数据库包括特定人物的人名、类型、多元组信息或敏感词;
提取待检测文本中的人名;
当所述特定人物数据库中存在所述人名时,获取所述人名对应的特定人物类型;
当所述特定人物类型为多元组信息特定人物时,基于所述人名对应的多元组信息在所述待检测文本中检测所述人名;
当所述特定人物类型为特殊姓名或无特征要素特定人物时,基于所述人名对应的敏感词在所述待检测文本中检测所述人名。
2.根据权利要求1所述的特定人物检测方法,其特征在于:还包括基于预设周期对所述特定人物数据库进行更新;所述特定人物数据库由专家通过人工标记生成。
3.根据权利要求1所述的特定人物检测方法,其特征在于:基于所述人名对应的多元组信息在所述待检测文本中检测所述人名包括以下步骤:
从所述特定人物数据库中获取所述人名对应的多元组信息;所述多元组信息包括特定人物的地域、机构、职位;
在所述待检测文本中检测所述人名和所述多元组信息,并在检测结果满足预设条件时获取所述人名在所述待检测文本中的位置信息。
4.根据权利要求3所述的特定人物检测方法,其特征在于:在所述待检测文本中检测所述人名和所述多元组信息包括以下步骤:
将所述待检测文本按照整句进行划分;
在每个整句中,基于AC自动机检测所述人名和所述多元组信息。
5.根据权利要求3所述的特定人物检测方法,其特征在于:检测结果满足预设条件包括以下一种或多种组合:
1)检测到与所述人名和所述多元组信息匹配的信息的次数大于预设阈值;
2)与所述人名和所述多元组信息匹配的信息位于同一单句中。
6.根据权利要求1所述的特定人物检测方法,其特征在于:基于所述人名对应的敏感词在所述待检测文本中检测所述人名包括以下步骤:
从所述特定人物数据库中获取所述人名对应的敏感词;
在所述待检测文本中检测所述人名和所述敏感词,并在检测结果满足预设条件时获取所述人名在所述待检测文本中的位置信息。
7.根据权利要求6所述的特定人物检测方法,其特征在于:检测结果满足预设条件包括以下一种或多种组合:
1)检索到与所述人名和所述敏感词匹配的信息;
2)检索到与所述人名匹配的信息,以及与所述敏感词对应的其他特定人物。
8.一种特定人物检测系统,其特征在于:包括构建模块、提取模块、获取模块、第一检测模块和第二检测模块;
所述构建模块用于构建特定人物数据库,所述特定人物数据库包括特定人物的人名、类型、多元组信息或敏感词;
所述提取模块用于提取待检测文本中的人名;
所述获取模块用于当所述特定人物数据库中存在所述人名时,获取所述人名对应的特定人物类型;
所述第一检测模块用于当所述特定人物类型为多元组信息特定人物时,基于所述人名对应的多元组信息在所述待检测文本中检测所述人名;
所述第二检测模块用于当所述特定人物类型为特殊姓名或无特征要素特定人物时,基于所述人名对应的敏感词在所述待检测文本中检测所述人名。
9.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至7中任一项所述的特定人物检测方法。
10.一种特定人物检测终端,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器存储的计算机程序,以使所述特定人物检测终端执行权利要求1至7中任一项所述的特定人物检测方法。
CN202211118475.1A 2022-09-15 2022-09-15 特定人物检测方法、系统、存储介质及终端 Pending CN115221884A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211118475.1A CN115221884A (zh) 2022-09-15 2022-09-15 特定人物检测方法、系统、存储介质及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211118475.1A CN115221884A (zh) 2022-09-15 2022-09-15 特定人物检测方法、系统、存储介质及终端

Publications (1)

Publication Number Publication Date
CN115221884A true CN115221884A (zh) 2022-10-21

Family

ID=83617444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211118475.1A Pending CN115221884A (zh) 2022-09-15 2022-09-15 特定人物检测方法、系统、存储介质及终端

Country Status (1)

Country Link
CN (1) CN115221884A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020031269A1 (en) * 2000-09-08 2002-03-14 Nec Corporation System, method and program for discriminating named entity
US20090204596A1 (en) * 2008-02-08 2009-08-13 Xerox Corporation Semantic compatibility checking for automatic correction and discovery of named entities
CN107729456A (zh) * 2017-09-30 2018-02-23 武汉汉思信息技术有限责任公司 敏感信息检索方法、服务器及存储介质
CN109933775A (zh) * 2017-12-15 2019-06-25 腾讯科技(深圳)有限公司 Ugc内容处理方法及装置
CN113360946A (zh) * 2021-06-29 2021-09-07 招商局金融科技有限公司 新闻脱敏处理方法、装置、电子设备及可读存储介质
CN113988077A (zh) * 2021-11-09 2022-01-28 新华智云科技有限公司 一种行政职位、职级姓名纠错方法和系统
CN114626097A (zh) * 2022-03-22 2022-06-14 中国平安人寿保险股份有限公司 脱敏方法、脱敏装置、电子设备及存储介质
CN114840668A (zh) * 2022-04-26 2022-08-02 掌阅科技股份有限公司 网络文本审核方法、电子设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020031269A1 (en) * 2000-09-08 2002-03-14 Nec Corporation System, method and program for discriminating named entity
US20090204596A1 (en) * 2008-02-08 2009-08-13 Xerox Corporation Semantic compatibility checking for automatic correction and discovery of named entities
CN107729456A (zh) * 2017-09-30 2018-02-23 武汉汉思信息技术有限责任公司 敏感信息检索方法、服务器及存储介质
CN109933775A (zh) * 2017-12-15 2019-06-25 腾讯科技(深圳)有限公司 Ugc内容处理方法及装置
CN113360946A (zh) * 2021-06-29 2021-09-07 招商局金融科技有限公司 新闻脱敏处理方法、装置、电子设备及可读存储介质
CN113988077A (zh) * 2021-11-09 2022-01-28 新华智云科技有限公司 一种行政职位、职级姓名纠错方法和系统
CN114626097A (zh) * 2022-03-22 2022-06-14 中国平安人寿保险股份有限公司 脱敏方法、脱敏装置、电子设备及存储介质
CN114840668A (zh) * 2022-04-26 2022-08-02 掌阅科技股份有限公司 网络文本审核方法、电子设备及存储介质

Similar Documents

Publication Publication Date Title
WO2020192401A1 (en) System and method for generating answer based on clustering and sentence similarity
CA2836220C (en) Methods and systems for matching records and normalizing names
Ekbal et al. Language independent named entity recognition in indian languages
US20040049499A1 (en) Document retrieval system and question answering system
CN112084381A (zh) 一种事件抽取方法、系统、存储介质以及设备
CN107577663B (zh) 一种关键短语抽取方法和装置
CN112084746A (zh) 一种实体识别方法、系统、存储介质及设备
Larson et al. The Abject Failure of Keyword IR for Mathematics Search: Berkeley at NTCIR-10 Math.
CN113918686A (zh) 智能问答模型构建方法、装置、计算机设备及存储介质
CN116561388A (zh) 一种获取标签的数据处理系统
CN115935983A (zh) 事件抽取方法、装置、电子设备及存储介质
JP2006227823A (ja) 情報処理装置及びその制御方法
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN109902162B (zh) 基于数字指纹的文本相似性的识别方法、存储介质及装置
CN110442512A (zh) 多渠道资讯管理系统的可靠性测试方法及相关设备
CN115221884A (zh) 特定人物检测方法、系统、存储介质及终端
CN114328844A (zh) 一种文本数据集管理方法、装置、设备及存储介质
CN113505117A (zh) 基于数据指标的数据质量评估方法、装置、设备及介质
Steinmetz et al. COALA-A Rule-Based Approach to Answer Type Prediction.
CN109753655B (zh) 基于语义概念关联的文献检索方法、系统、存储介质及终端
US20240070396A1 (en) Method for Determining Candidate Company Related to News and Apparatus for Performing the Method
US20240046039A1 (en) Method for News Mapping and Apparatus for Performing the Method
US20240070387A1 (en) Method for Determining News Ticker Related to News Based on Sentence Ticker and Apparatus for Performing the Method
CN114398069B (zh) 一种基于交叉指纹分析的公共组件库精确版本识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination