CN109726398B - 一种实体识别及属性判断方法、系统、设备及介质 - Google Patents

一种实体识别及属性判断方法、系统、设备及介质 Download PDF

Info

Publication number
CN109726398B
CN109726398B CN201811616647.1A CN201811616647A CN109726398B CN 109726398 B CN109726398 B CN 109726398B CN 201811616647 A CN201811616647 A CN 201811616647A CN 109726398 B CN109726398 B CN 109726398B
Authority
CN
China
Prior art keywords
entity
library
vector
attribute
anchor point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811616647.1A
Other languages
English (en)
Other versions
CN109726398A (zh
Inventor
陈筱牧
华迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qianxin Technology Group Co Ltd
Original Assignee
Qianxin Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qianxin Technology Group Co Ltd filed Critical Qianxin Technology Group Co Ltd
Priority to CN201811616647.1A priority Critical patent/CN109726398B/zh
Publication of CN109726398A publication Critical patent/CN109726398A/zh
Application granted granted Critical
Publication of CN109726398B publication Critical patent/CN109726398B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提供了一种实体识别及属性判断方法,用于确定测试文本中的实体及其属性,包括:根据应用场景,获取应用场景中涉及的多种实体,建立实体库,其中,实体为具有不同属性的字段;根据应用场景获取训练文本;根据正则规则和实体库识别出所述训练文本中涉及的第一实体;将第一实体以向量形式表示,并标注第一实体的属性,得出不同属性的第一实体的锚点向量库;提取测试文本中的第二实体,并将第二实体以向量形式表示;根据第二实体的向量值和第一实体的锚点向量库确定第二实体的属性。本发明还提供了一种实体识别及属性判断系统、设备及介质。根据实体的向量值与预设的锚点向量值之间的距离判断该实体的属性,具有应用场景不受限制的优势。

Description

一种实体识别及属性判断方法、系统、设备及介质
技术领域
本发明涉及非结构化数据处理领域,尤其涉及一种实体识别及属性判断方法、系统、设备及介质。
背景技术
现有的基于词语字典和词语动态匹配的开源软件,只能解决规范文本中的词语的分类问题,若文本中的词语与所述词语字典中的词语不是完全相同,则不能识别,而且现有的分词软件中,预测词语的词性完全依赖于预先建立的词语词典中该词语对应的属性,不能根据不同的场景进行灵活变换,试用场景狭隘。
发明内容
(一)要解决的技术问题
本发明提供了一种实体识别及属性判断方法、系统、设备及介质,具有更高的适配性,可用于多个场景中。
(二)技术方案
第一方面,本发明提供了一种实体识别及属性判断的方法,用于确定测试文本中的实体及其属性,包括:S1,根据应用场景,获取应用场景中涉及的多种实体,建立实体库,其中,实体为具有不同属性的字段;S2,根据应用场景获取训练文本;S3,根据正则规则和实体库识别出训练文本中涉及的第一实体;S4,将第一实体以向量形式表示,并标注第一实体的属性,得出不同属性的第一实体的锚点向量库;S5,提取测试文本中的第二实体,并将第二实体以向量形式表示;S6,根据第二实体的向量值和第一实体的锚点向量库确定第二实体的属性。
可选地,根据正则规则和实体库识别出训练文本中涉及的第一实体,具体包括:根据正则规则识别出训练文本中具有特定标识的第三实体;根据实体库中的实体识别出训练文本中涉及的第四实体,其中,第一实体包括第三实体以及第四实体。
可选地,根据实体库中的实体识别出训练文本中涉及的第四实体具体包括:根据实体库中的实体检索训练文本中的字段若字段包含在实体库中,则确定字段为第四实体;
可选地,将第一实体以向量形式表示,并标注第一实体的属性,得出不同属性的第一实体的锚点向量库,具体包括:将第一实体输入词向量模型中,以使第一实体以向量形式表示;标注第一实体中所有实体的属性;并将第一实体中的至少一个关键字段对应的向量信息设置为锚点向量。
可选地,提取测试文本中的第二实体,并将第二实体以向量形式表示,具体包括:根据正则规则识别出测试文本中具有特定标识的第五实体;根据实体库中的实体识别出测试文本中涉及的第六实体,其中,第二实体包括第五实体以及第六实体;将第二实体输入至词向量模型,以使第二实体以向量形式表示。
可选地,根据第二实体的向量值和所述第一实体的锚点向量库确定第二实体的属性具体包括:计算第二实体向量值与所述锚点向量之间的距离,根据距离判断第二实体的属性。
可选地,还包括:判断第二实体及其属性的正确性,若错误,则更正第二实体及其属性,并计算出第二实体的锚点向量,并将锚点向量存入锚点向量库。
再一方面,本发明提供了一种电子设备,其特征在于,设备包括:处理器;存储器,其存储有计算机可执行程序,该程序在被处理器执行时,使得处理器执行上述的实体识别及属性判断方法。
又一方面,本发明提供了一种实体识别及属性判断系统,包括:实体库建立模块,用于根据应用场景,获取应用场景中涉及的多种实体,建立实体库,其中,所述实体为具有不同属性的字段;
训练文本设计模块,用于根据应用场景获取训练文本;训练文本中实体识别模块,用于根据正则规则和实体库识别出训练文本中涉及的第一实体;锚点向量库建立模块,用于将所述第一实体以向量形式表示,并标注第一实体的属性,得出不同属性的第一实体的锚点向量库;测试文本中实体识别模块,用于提取测试文本中的第二实体,并将第二实体以向量形式表示;测试文本中实体属性确认模块,用于根据第二实体的向量值和第一实体的锚点向量库确定第二实体的属性。
又一方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述实体识别及属性判断方法。
(三)有益效果
通过正则规则识别出具有特殊标识的实体,进一步的通过实体库,由于实体库中包含该应用场景中可能出现的所有实体,通过实体库匹配出该测试文本中的实体,将上述实体均设置为向量形式,通过将上述实体的向量值与预设的锚点向量值进行比较,根据所述实体的向量值与预设的锚点向量值之间的距离判断该实体的属性,具有应用场景不受限制,操作简单等优势。
附图说明
图1示意性示出了本公开实施例中的实体识别及属性判断的方法步骤图;
图2示意性示出了本公开实施例中的实体识别及属性判断的流程示意图;
图3示意性示出了本公开实施例中的电子设备框图;
图4示意性示出了本公开实施例中的实体识别及属性判断系统框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明第一方面提供了一种实体识别及属性判断的方法,参见图1,用于确定测试文本中的实体及其属性,包括:S1,根据应用场景,获取应用场景中涉及的多种实体,建立实体库,其中,该实体为具有不同属性的字段;S2,根据应用场景获取训练文本;S3,根据正则规则和实体库识别出训练文本中涉及的第一实体;S4,将第一实体以向量形式表示,并标注第一实体的属性,得出不同属性的第一实体的锚点向量库;S5,提取测试文本中的第二实体,并将第二实体以向量形式表示;S6,根据第二实体的向量值和第一实体的锚点向量库确定第二实体的属性。
具体的,S1,根据应用场景,获取应用场景中涉及的多种实体,建立实体库,其中,该实体为具有不同属性的字段;
本发明实施例的应用场景设置为公安行业文本处理场景,首先判断该应用场景中涉及的大范围地址等信息,若所述场景中涉及的地址为A市,则通过爬虫技术爬取地图网页、房产网等网站上的详细地址信息、单位或组织名信息等,建立包含详细地址信息、单位或组织名信息、黑名单电话信息、QQ号或邮件信息等实体的实体库,由此可以看出,该实体库实际是由多种不同属性的字段组成,如具有地址属性的详细地址信息xx市xxx区xxx路xx小区等,具有单位名或组织名属性的信息,如xxx有限公司,xxx厂等,具有黑名单属性的电话号码或电话号码的前几位等,具有邮件属性的邮件等。通过上述方式即可得到包含多个属性的字段库即实体库。
S2,根据应用场景获取训练文本;
根据应用场景设计初始的训练文本,该训练文本中越详细越贴近实际背景过程越好,可进一步具体到那几个小区,那几个电话、或那几个单位。
S3,根据正则规则和所述实体库识别出所述训练文本中涉及的第一实体;
根据正则规则判断该训练文本中带有明确特殊标识的实体,如带有@xxx.com的为邮件实体,带有11位的连续数字且第一位数字为1的为电话号码,无需的连续数字为QQ号等信息,其中,正则规则是通过正则表达式对字符串进行操作的一种逻辑公式,用事先定义好的一些特定字符或字符的组合,组成一个规则字符串,以达到对字符串进行过滤的目的,其是一种文本模式,在过滤字符串时通过匹配一个或多个字符串的方式进行对文本中的字符串进行过滤。在本发明实施例中,通过正则表达式中预设的@xxx.com等字符串对训练文本中的字符进行过滤,过滤出符合规则的字符串信息也即实体信息,通过正则规则识别的实体内容本实施例中称为第三实体。还有一部分字符串同样对我们场景的分析也很重要,但其没有规律而不能通过正则表达式进行过滤,因此还需要通过步骤S1中建立的实体库进行过滤,由于实体库中包含很多的不同属性的实体信息,足以涵盖我们想要涉及的内容,因此通过扫描训练文本中的内容,并将文本中的内容与实体库中预存的内容进行匹配,若相同则提取出来,利用此方式可以得到根据正则规则不能提取的实体信息,通过与实体库匹配识别的实体内容本实施例中称为第四实体,第三实体和第四实体的总和组成了第一实体。
通过上述正则规则方法抽取和实体库匹配抽取可得到训练文本中详尽的实体内容。
为了更加详尽的实体内容还可以将训练文本输入具有特定识别功能的模型中,如通过分词模型中的隐马尔可夫模型的出训练文本中的人名实体。
S4,将第一实体以向量形式表示,并标注第一实体的属性,得出不同属性的第一实体的锚点向量库。
将上述得到的第一实体输入至词向量模型中,将第一实体中的实体均以向量的形式表示,不同的实体对应不同的词向量,由于第一实体中包括多个实体也即很多的字段,每一字段均对应一词向量,并标注每一实体对应的属性,如电话号码为****的为嫌疑人信息,电话号码为&&&&的为报案人信息,并分别取其中心词向量值,则得到嫌疑人电话的锚点向量以及报案人电话的锚点向量,通过此种方式可得出不同实体不同属性的锚点向量,组成锚点向量库。在不影响分析的情况下,可通过设置关键实体的中心向量值以减少锚点向量的数量。
S5,提取测试文本中的第二实体,并将第二实体以向量形式表示;
通过上述建立的锚点向量库可分析详尽的测试文本中的实体,如公安部门对嫌疑人或目击者的证据证言等文本,采用与S3相同的处理方式,通过正则规则识别出测试文本中具有特定标识的第五实体,通过实体库中的实体匹配出利用正则规则不能识别的第六实体,第五实体和第六实体的总和组成了第二实体。将该第二实体中的实体输入词向量模型中,以使该第二实体中的实体内容以向量形式表示。
S6,根据第二实体的向量值和第一实体的锚点向量库确定第二实体的属性。
比对步骤S5得到的第二实体的向量值与第一实体的锚点向量库中的锚点向量,计算第二实体的向量值与对应锚点向量之间的距离,当第二实体中的某向量值与某锚点向量之间的距离最小时,该锚点向量对应的属性即为第二实体向量值对应的实体对应的属性。
另外,通过上述方式得到的第二实体及第二实体的属性,有时可能会出现一些错误,因此可以通过人为判断等方式判断第二实体及第二实体属性的正确性,若错误,则更正该第二实体的属性,并更正对应的锚点向量,并将该锚点向量替代原锚点向量,并将正确的锚点向量存入锚点向量数据库中,更新锚点向量库。
综上所述,如图2所示,通过分布式爬虫得出包含尽可能多实体的实体库,该实体库足以包含本背景中需要用到的实体,通过正则规则识别出训练文本带有特殊标记的第三实体,通过与实体库进行比对匹配得出正则规则无法识别的第四实体,将第三实体和第四实体传入词向量模型中,是第三实体和第四实体均以向量的形式表示生成向量化第一实体,并通过标注向量化第一实体生成锚点向量库;采用与训练文本相同的处理方式通过正则规则识别出训练文本带有特殊标记的第五实体,通过与实体库进行比对匹配得出正则规则无法识别的第六实体,将第五实体和第六实体传入词向量模型中,是第五实体和第六实体均以向量的形式表示生成向量化第二实体,计算向量化的第二实体与锚点向量库中锚点的距离,根据距离判断第二实体的属性。
再一方面,本发明实施例提供了一种电子设备,参见图3为本发明实施例的电子设备框图,电子设备300包括:处理器301和存储器302,该电子设备300可以执行根据本发明实施例的方法。
具体的,处理器301例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器301还可以包括用于缓存用途的板载存储器。处理器301可以是用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
存储器302,例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;和/或有线/无线通信链路。
存储器302可以包括计算机程序3021,该计算机程序3021可以包括代码/计算机可执行指令,其在由处理器301执行时使得处理器301执行例如上面本发明实施例的方法流程及其任何变形。
计算机程序3021可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序3021中的代码可以包括一个或多个程序模块,例如包括3021A、模块3021B、......。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器301执行时,使得处理器301可以执行例如上面结合本发明实施例的方法流程及其任何变形。
又一方面,本发明实施例提供了一种实体识别及属性判断系统,参见图4,系统400包括:实体库建立模块401、训练文本设计模块402、训练文本中实体识别模块403、锚点向量库建立模块404、测试文本中实体识别模块405以及测试文本中实体属性确认模块406。
具体的,实体库建立模块401,用于根据应用场景,获取应用场景中涉及的多种实体,建立实体库,其中,实体为具有不同属性的字段;训练文本设计模块402,用于根据应用场景获取训练文本;训练文本中实体识别模块403,用于根据正则规则和实体库识别出训练文本中涉及的第一实体;锚点向量库建立模块404,用于将第一实体以向量形式表示,并标注第一实体的属性,得出不同属性的第一实体的锚点向量库;测试文本中实体识别模块405,用于提取测试文本中的第二实体,并将第二实体以向量形式表示;测试文本中实体属性确认模块406,用于根据第二实体的向量值和第一实体的锚点向量库确定第二实体的属性。
根据本申请的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本申请实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。
本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本申请实施例的方法。
根据本申请的实施例,计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线、光缆、射频信号等等,或者上述的任意合适的组合。
本领域技术人员可以理解,本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本申请中。特别地,在不脱离本申请精神和教导的情况下,本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本申请的范围。
尽管已经参照本申请的特定示例性实施例示出并描述了本申请,但是本领域技术人员应该理解,在不背离所附权利要求及其等同物限定的本申请的精神和范围的情况下,可以对本申请进行形式和细节上的多种改变。因此,本申请的范围不应该限于上述实施例,而是应该不仅由所附权利要求来进行确定,还由所附权利要求的等同物来进行限定。

Claims (7)

1.一种实体识别及属性判断方法,用于确定测试文本中的实体及其属性,其特征在于,包括:
S1,根据应用场景,获取应用场景中涉及的多种实体,建立实体库,其中,所述实体为具有不同属性的字段;
S2,根据应用场景获取训练文本;
S3,根据正则规则和所述实体库识别出所述训练文本中涉及的第一实体;其中,所述第一实体包括:根据所述正则规则识别出所述训练文本中具有特定标识的第三实体以及根据所述实体库中的实体识别出所述训练文本中涉及的第四实体;
S4,将所述第一实体以向量形式表示,并标注所述第一实体的属性,得出不同属性的第一实体的锚点向量库;包括:将所述第一实体输入词向量模型中,以使所述第一实体以向量形式表示;标注所述第一实体中所有实体的属性;将所述第一实体中的至少一个关键字段对应的向量信息设置为锚点向量;并设置关键实体的中心向量值;
S5,提取所述测试文本中的第二实体,并将所述第二实体以向量形式表示;包括:根据所述正则规则识别出所述测试文本中具有特定标识的第五实体;根据所述实体库中的实体识别出所述测试文本中涉及的第六实体,其中,第二实体包括第五实体以及第六实体;将所述第二实体输入至词向量模型,以使所述第二实体以向量形式表示;
S6,根据所述第二实体的向量值和所述第一实体的锚点向量库确定所述第二实体的属性。
2.根据权利要求1所述的实体识别及属性判断方法,其特征在于,所述根据所述实体库中的实体识别出所述训练文本中涉及的第四实体具体包括:根据所述实体库中的实体检索所述训练文本中的字段,若所述字段包含在所述实体库中,则确定所述字段为第四实体。
3.根据权利要求1所述的实体识别及属性判断方法,其特征在于,根据所述第二实体的向量值和所述第一实体的锚点向量库确定所述第二实体的属性具体包括:
计算所述第二实体向量值与所述锚点向量之间的距离,根据所述距离判断所述第二实体的属性。
4.根据权利要求1所述的实体识别及属性判断方法,其特征在于,还包括:判断所述第二实体及其属性的正确性,若错误,则更正所述第二实体及其属性,并计算出所述第二实体的锚点向量,并将所述锚点向量存入所述锚点向量库。
5.一种电子设备,其特征在于,所述设备包括:
处理器;
存储器,其存储有计算机可执行程序,该程序在被所述处理器执行时,使得所述处理器执行如权利要求1-4中任意一项所述的实体识别及属性判断方法。
6.一种实体识别及属性判断系统,其特征在于,包括:
实体库建立模块,用于根据应用场景,获取应用场景中涉及的多种实体,建立实体库,其中,所述实体为具有不同属性的字段;
训练文本设计模块,用于根据应用场景获取训练文本;
训练文本中实体识别模块,用于根据正则规则和所述实体库识别出所述训练文本中涉及的第一实体;其中,所述第一实体包括:根据所述正则规则识别出所述训练文本中具有特定标识的第三实体以及根据所述实体库中的实体识别出所述训练文本中涉及的第四实体;
锚点向量库建立模块,用于将所述第一实体以向量形式表示,并标注所述第一实体的属性,得出不同属性的第一实体的锚点向量库;包括:将所述第一实体输入词向量模型中,以使所述第一实体以向量形式表示;标注所述第一实体中所有实体的属性;将所述第一实体中的至少一个关键字段对应的向量信息设置为锚点向量;并设置关键实体的中心向量值;
测试文本中实体识别模块,用于提取所述测试文本中的第二实体,并将所述第二实体以向量形式表示;包括:根据所述正则规则识别出所述测试文本中具有特定标识的第五实体;根据所述实体库中的实体识别出所述测试文本中涉及的第六实体,其中,第二实体包括第五实体以及第六实体;将所述第二实体输入至词向量模型,以使所述第二实体以向量形式表示;
测试文本中实体属性确认模块,用于根据所述第二实体的向量值和所述第一实体的锚点向量库确定所述第二实体的属性。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任意一项所述实体识别及属性判断方法。
CN201811616647.1A 2018-12-27 2018-12-27 一种实体识别及属性判断方法、系统、设备及介质 Active CN109726398B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811616647.1A CN109726398B (zh) 2018-12-27 2018-12-27 一种实体识别及属性判断方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811616647.1A CN109726398B (zh) 2018-12-27 2018-12-27 一种实体识别及属性判断方法、系统、设备及介质

Publications (2)

Publication Number Publication Date
CN109726398A CN109726398A (zh) 2019-05-07
CN109726398B true CN109726398B (zh) 2023-07-07

Family

ID=66297329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811616647.1A Active CN109726398B (zh) 2018-12-27 2018-12-27 一种实体识别及属性判断方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN109726398B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569804B (zh) * 2019-09-10 2022-03-08 武汉光庭信息技术股份有限公司 基于文本数据的失效场景判断方法及系统、服务器及介质
TWI765422B (zh) * 2020-11-20 2022-05-21 全友電腦股份有限公司 資料擷取方法、樣板生成方法及非暫態電腦可讀取記錄媒體

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103824115A (zh) * 2014-02-28 2014-05-28 中国科学院计算技术研究所 面向开放网络知识库的实体间关系推断方法及系统
CN104484459A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 一种对知识图谱中的实体进行合并的方法及装置
CN104615589A (zh) * 2015-02-15 2015-05-13 百度在线网络技术(北京)有限公司 训练命名实体识别模型的方法、命名实体识别方法及装置
CN106557528A (zh) * 2015-09-30 2017-04-05 富士通株式会社 信息处理装置及方法
CN107784125A (zh) * 2017-11-24 2018-03-09 中国银行股份有限公司 一种实体关系抽取方法及装置
CN108345625A (zh) * 2017-01-25 2018-07-31 北京搜狗科技发展有限公司 一种信息挖掘方法和装置、一种用于信息挖掘的装置
CN108399157A (zh) * 2017-12-21 2018-08-14 中兴通讯股份有限公司 实体与属性关系的动态抽取方法、服务器及可读存储介质
CN108460014A (zh) * 2018-02-07 2018-08-28 百度在线网络技术(北京)有限公司 企业实体的识别方法、装置、计算机设备及存储介质
CN108763221A (zh) * 2018-06-20 2018-11-06 科大讯飞股份有限公司 一种属性名表征方法及装置
CN108984683A (zh) * 2018-06-29 2018-12-11 北京百度网讯科技有限公司 结构化数据的提取方法、系统、设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103824115A (zh) * 2014-02-28 2014-05-28 中国科学院计算技术研究所 面向开放网络知识库的实体间关系推断方法及系统
CN104484459A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 一种对知识图谱中的实体进行合并的方法及装置
CN104615589A (zh) * 2015-02-15 2015-05-13 百度在线网络技术(北京)有限公司 训练命名实体识别模型的方法、命名实体识别方法及装置
CN106557528A (zh) * 2015-09-30 2017-04-05 富士通株式会社 信息处理装置及方法
CN108345625A (zh) * 2017-01-25 2018-07-31 北京搜狗科技发展有限公司 一种信息挖掘方法和装置、一种用于信息挖掘的装置
CN107784125A (zh) * 2017-11-24 2018-03-09 中国银行股份有限公司 一种实体关系抽取方法及装置
CN108399157A (zh) * 2017-12-21 2018-08-14 中兴通讯股份有限公司 实体与属性关系的动态抽取方法、服务器及可读存储介质
CN108460014A (zh) * 2018-02-07 2018-08-28 百度在线网络技术(北京)有限公司 企业实体的识别方法、装置、计算机设备及存储介质
CN108763221A (zh) * 2018-06-20 2018-11-06 科大讯飞股份有限公司 一种属性名表征方法及装置
CN108984683A (zh) * 2018-06-29 2018-12-11 北京百度网讯科技有限公司 结构化数据的提取方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN109726398A (zh) 2019-05-07

Similar Documents

Publication Publication Date Title
CN109145219B (zh) 基于互联网文本挖掘的兴趣点有效性判断方法和装置
US10777207B2 (en) Method and apparatus for verifying information
CN111522927B (zh) 基于知识图谱的实体查询方法和装置
CN113141360B (zh) 网络恶意攻击的检测方法和装置
CN109255035A (zh) 用于构建知识图谱的方法和装置
CN109726398B (zh) 一种实体识别及属性判断方法、系统、设备及介质
CN111325031B (zh) 简历解析方法及装置
CN113033707B (zh) 视频分类方法、装置、可读介质及电子设备
CN113468330A (zh) 信息获取方法、装置、设备及介质
CN112669850A (zh) 语音质量检测方法、装置、计算机设备及存储介质
CN110659208A (zh) 测试数据集的更新方法和装置
CN113393288B (zh) 订单处理信息生成方法、装置、设备和计算机可读介质
CN111914535B (zh) 一种单词识别方法、装置、计算机设备和存储介质
CN115563942A (zh) 一种合同生成方法、装置、电子设备及计算机可读介质
CN114297235A (zh) 风险地址识别方法、系统及电子设备
CN109873908B (zh) 垃圾电话标识识别方法、装置、计算机设备及存储介质
CN112528040A (zh) 基于知识图谱的引导教唆语料的检测方法及其相关设备
CN112417886A (zh) 意图实体信息抽取方法、装置、计算机设备及存储介质
CN108572954B (zh) 一种近似词条结构推荐方法和系统
CN112199954A (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备
CN111339776A (zh) 简历解析方法、装置、电子设备和计算机可读存储介质
CN112949317B (zh) 文本语义识别方法、装置、计算机设备及存储介质
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN116737870B (zh) 上报信息存储方法、装置、电子设备和计算机可读介质
CN115758368B (zh) 恶意破解软件的预测方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100088 Building 3 332, 102, 28 Xinjiekouwai Street, Xicheng District, Beijing

Applicant after: Qianxin Technology Group Co.,Ltd.

Address before: 100088 Building 3 332, 102, 28 Xinjiekouwai Street, Xicheng District, Beijing

Applicant before: BEIJING QIANXIN TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant