CN111339773A - 信息处理方法、自然语言处理方法以及信息处理设备 - Google Patents
信息处理方法、自然语言处理方法以及信息处理设备 Download PDFInfo
- Publication number
- CN111339773A CN111339773A CN201811550123.7A CN201811550123A CN111339773A CN 111339773 A CN111339773 A CN 111339773A CN 201811550123 A CN201811550123 A CN 201811550123A CN 111339773 A CN111339773 A CN 111339773A
- Authority
- CN
- China
- Prior art keywords
- processing method
- information processing
- named entity
- names
- named
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000003672 processing method Methods 0.000 title claims abstract description 58
- 238000003058 natural language processing Methods 0.000 title claims abstract description 51
- 238000002372 labelling Methods 0.000 claims abstract description 33
- 230000011218 segmentation Effects 0.000 claims description 53
- 238000012549 training Methods 0.000 claims description 20
- 230000006872 improvement Effects 0.000 claims description 10
- 238000006467 substitution reaction Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 description 19
- 238000012545 processing Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 6
- 230000008520 organization Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 239000004065 semiconductor Substances 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 241000282373 Panthera pardus Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- MGCQZNBCJBRZDT-UHFFFAOYSA-N midodrine hydrochloride Chemical compound [H+].[Cl-].COC1=CC=C(OC)C(C(O)CNC(=O)CN)=C1 MGCQZNBCJBRZDT-UHFFFAOYSA-N 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 210000004243 sweat Anatomy 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
提供了信息处理方法、自然语言处理方法以及信息处理设备。信息处理方法包括:根据类型文档的与文档类型有关的结构特征和上下文信息,提取类型文档中的命名实体,其中,文档类型包括法律文书、新闻报道或文艺评论;利用命名工具,标注类型文档中的命名实体,其中,命名实体包括人名、地名、机构名、时间、日期、影视剧名、书名、或歌曲名;以及根据所述提取的结果,改进命名工具的标注结果。
Description
技术领域
本公开总体上涉及信息处理领域,具体而言,涉及一种用于识别或标注命名实体的信息处理方法、利用命名实体识别模型处理目标文档的自然语言处理方法、以及能够实现上述信息处理方法和/或自然语言处理方法的信息处理设备。
背景技术
命名实体识别是指在文档中识别出特定类型的事物名称或符号的过程。很多领域的文档(例如法律文书、新闻报道、文艺评论等)中频繁出现诸如人名、地名等的命名实体,并且存在从这些文档中识别或标注出命名实体以供后续处理的需求。
然而,构成命名实体的词语是多样的,因此,难以通过枚举或规则总结的方式将所有命名实体都包括在某个预定集合中。另外,命名实体的组成长度也不固定,进一步为其识别带了困难。
因此,希望能够提供一种可以有效识别或标注命名实体的方法。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于对现有技术中涉及命名实体的处理的准确度进行改进的需求,本发明的目的之一是提供识别或标注命名实体的信息处理方法、利用命名实体识别模型处理目标文档的自然语言处理方法、以及能够实现上述信息处理方法和/或自然语言处理方法的信息处理设备,其能够实现更准确的命名实体识别或标注。
根据本公开的第一方面,提供了一种信息处理方法,其包括:根据类型文档的与文档类型有关的结构特征和上下文信息,提取类型文档中的命名实体,其中,文档类型包括法律文书、新闻报道或文艺评论;利用命名工具,标注类型文档中的命名实体,其中,命名实体包括人名、地名、机构名、时间、日期、影视剧名、书名、或歌曲名;以及根据所述提取的结果,改进命名工具的标注结果。
根据本公开的第二方面,提供了一种自然语言处理方法,其包括:利用本公开的第一方面所提供的信息处理方法获得的命名实体识别模型,识别目标文档中的命名实体;以预定命名实体替代目标文档中所识别的命名实体;利用分词工具,对进行所述替代之后的目标文档进行分词;在分词后的目标文档中,将预定命名实体恢复为所述替代之前的相应命名实体。
依据本公开的再一方面,还提供了一种信息处理设备,其包括处理器,所述处理器被配置为:根据类型文档的与文档类型有关的结构特征和上下文信息,提取类型文档中的命名实体,其中,文档类型包括法律文书、新闻报道或文艺评论;利用命名工具,标注类型文档中的命名实体,其中,命名实体包括人名、地名、机构名、时间、日期、影视剧名、书名、或歌曲名;以及根据所述提取的结果,改进命名工具的标注结果。
依据本公开的其它方面,还提供了一种使得计算机实现如上所述的信息处理方法或自然语言处理方法的程序。
依据本公开的又一方面,还提供了相应的存储介质,其存储有机器可读取的指令代码,所述指令代码在由机器读取并执行时,能够使得机器执行如上所述的信息处理方法或自然语言处理方法。
上述根据本公开实施例的各个方面,至少能够获得以下益处:利用本公开所提供的信息处理方法、自然语言处理方法、信息处理设备以及程序和存储介质,可以准确地识别类型文档中的命名实体,从而可以改进后续对文档的各种处理(例如分词处理、信息检索等)的精度。
通过以下结合附图对本公开的最佳实施例的详细说明,本公开的这些以及其他优点将更加明显。
附图说明
本公开可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:
图1是示意性地示出根据本公开实施例的信息处理方法的一个示例流程的流程图。
图2是示意性地示出根据本公开实施例的信息处理方法的一个优选实施例的一个示例流程的流程图。
图3是示意性地示出根据本公开实施例的自然语言处理方法的一个示例流程的流程图。
图4是用于说明采用图3所示的自然语言处理方法进行处理的一个示例的说明图。
图5是示意性地示出根据本公开实施例的信息处理装置的一个示例结构的示意性框图。
图6是示意性地示出根据本公开实施例的信息处理装置的一个优选实施例的一个示例结构的示意性框图。
图7是示意性地示出根据本公开实施例的自然语言处理装置的一个示例结构的示意性框图。
图8是示出了可用来实现根据本公开实施例的信息处理方法和装置以及自然语言处理方法和装置的一种可能的硬件配置的结构简图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
根据本公开的第一方面,提供了一种信息处理方法。图1是示意性地示出根据本公开实施例的信息处理方法的一个示例流程的流程图。
如图1所示,信息处理方法100可以包括:命名实体提取步骤S101,根据类型文档的与文档类型有关的结构特征和上下文信息,提取类型文档中的命名实体,其中,文档类型包括法律文书、新闻报道或文艺评论;命名实体标注步骤S103,利用命名工具,标注类型文档中的命名实体,其中,命名实体包括人名、地名、机构名、时间、日期、影视剧名、书名、或歌曲名;以及结果改进步骤S105,根据所述提取的结果,改进命名工具的标注结果。
发明人发现,诸如法律文书、新闻报道、文艺评论等的文档类型一般具有与其类型相关的结构特征和典型上下文,其中,经常出现诸如人名、地名、机构名、时间、日期、影视剧名、书名、或歌曲名等一般难以准确识别的命名实体。因此,在本实施例的信息处理方法中,一方面,利用类型文档的结构特征和上下文信息来提取这些命名实体。另一方面,还利用命名工具来对命名实体进行标注。此后,将两方面的处理结果结合起来,从而得到对命名实体的改进的识别或标注结果。因此,本发明有利于提高命名实体识别或标注的准确度。
在下文中,将主要以法律文书作为文档类型的示例、以人名作为命名实体的示例来进行各个实施例的具体描述。然而,本领域技术人员可以理解,本公开内容的各个实施例可以类似地适用于各种类型文档中的各种命名实体,在此不再赘述。
以法律文书作为类型文档的示例,则首先,在信息处理方法100的命名实体提取步骤S101中,该类型文档的可利用的结构特征和上下文信息可以包括内容分布、段落布局、格式语句、固定模式描述等。
更具体地,诸如判决书的法律文书的典型结构包括首部、正文和尾部三个部分,并且每个部分具有各自的规定内容和格式。以判决书的首部为例,其依次包括(1)标题、(2)案件编号、(3)诉讼参加人及其基本情况、(4)案件由来和审理经过共四个部分。最上方为第(1)部分“标题”,以两行书写,分别为法院名称和文书种类(如“民事判决书”等),标题右下方为第(2)部分“案件编号”。案件编号下方为第(3)部分“诉讼参加人及其基本情况”,一般依次包括原告(公民或法人)信息、原告代理人信息、被告(公民或法人)信息、被告代理人信息等。接着,是第(4)部分“案件由来和审理经过”。
上述首部第(3)部分中,以严格的格式语句和段落布局在特定的位置和上下文中包括作为原告、被告等的命名实体。对于原告为公民的情况,在首部第(3)部分的原告信息中,将依次包括其姓名、性别、年龄、民族、籍贯、工作单位、职业和住址等;而对于原告为法人的情况,原告信息中将依次包括单位的全称(即机构名)和所在地址,并且另起一行写明法定代表人的姓名和职务。被告信息部分与原告信息部分具有类似的结构;原告或被告代理人信息部分也具有相应的规范结构。
因此,在命名实体提取步骤S101中,当处理的文档是例如上述判决书时,即可根据该文档的结构特征,从判决书首部第(3)部分的“原告信息”或“被告信息”部分提取原告或被告的姓名(或机构名)。此外,还可以考虑该文档的上下文信息,例如,可以从“法律角色(原告/被告等)+姓名+性别”(“被告人张大山,男”)的固定模式描述中,提取出法律角色与性别之间的文字(“张大山”)作为人名。
另外,在命名实体提取步骤S101中,还可以考虑法律文书的另一结构特征,即,诸如原告或被告的命名实体会在文档中重复出现多次。例如,除了上述判决书首部第(3)部分中的“原告信息”、“被告信息”部分以外,首部第(4)部分“案件由来和审理经过”以及之后的正文中的“事实”、“理由”、“经过”等各个部分中也会重复出现原告和被告的姓名或机构名。因此,可以将从判决书首部中的“原告信息”或“被告信息”部分提取原告和被告的姓名或机构名作为候选命名实体,并统计所提取的候选人名或机构名在整个文档中出现的次数,并且仅将出现次数超过预定阈值(例如,4次)的候选姓名或机构名作为在步骤S101最终提取的命名实体。此处,预定阈值的具体数值可以取决于所处理的类型文档的具体类型根据统计数据进行适当选择,在此不再赘述。
接着,在命名实体标注步骤S103中,利用命名工具,标注待处理的类型文档中的命名实体,其中,命名实体可以包括如上所述的人名、地名、机构名、时间、日期、影视剧名、书名、或歌曲名等。
作为示例,命名实体标注步骤S103中所采用的命名工具可以由现有的自然语言处理工具包提供。例如,可以采用已有的开源工具诸如Stanford CoreNLP(由斯坦福大学的NLP小组实现的自然语言处理工具包)等来进行上述步骤S103中对命名实体的标注。
接下来,在结果改进步骤S105中,可以根据在命名实体提取步骤S101中提取的结果,改进命名实体标注步骤S103中的命名工具的标注结果。
作为示例,在结果改进步骤S105中,可以选择符合下述条件的命名实体来更新命名工具的标注结果:命名实体出现在所述提取的结果和命名工具的标注结果两者中(第一条件);和/或命名实体在所述提取的结果中或在命名工具的标注结果中的出现频率超过预定频率(第二条件)。此处,可以同时或分别应用上述第一条件和第二条件,使得以不同的方式获得最终的改进后的标注结果。此处,预定频率的具体数值可以取决于所处理的类型文档的具体类型根据统计数据进行适当选择,在此不再赘述。
通过本实施例的信息处理方法、例如上述示例流程100中的步骤S101-S105,可以对类型文档中的命名实体进行准确标注,并且这样的标注结果可以有利地应用于各种后续处理。
接下来,将参照图2描述根据本公开实施例的信息处理方法的一个优选实施例的一个示例流程,该优选实施例有利地利用了图1的示例流程100中所获得的命名实体的准确标注的结果。
图2是示意性地示出根据本公开实施例的信息处理方法的一个优选实施例的一个示例流程的流程图。如图2所示,本优选实施例的信息处理方法200与图1的信息处理方法100的区别在于,除了分别与步骤S101-S105对应的命名实体提取步骤S201、命名实体标注步骤S203、结果改进步骤S205之外,信息处理方法200还另外地包括模型训练步骤S207。在模型训练步骤S207中,利用改进后的标注结果作为训练数据,训练命名实体识别模型。除了上述区别之外,本优选实施例的信息处理方法200中的其余步骤S201-S205与图1的信息处理方法100的相应步骤S101-S105基本相同。因此,以下将在对于图1的信息处理方法100的描述的基础上继续进行对本优选实施例的信息处理方法200的描述。
如以上关于图1的示例流程的描述中所指出的,利用本公开实施例信息处理方法,可以在最后的结果改进步骤中获得对类型文档中的命名实体的准确标注,这样的标注结果可以有利地应用于各种后续处理。因此,在参照图2描述的本优选实施例的信息处理方法200中,在结果改进步骤S205之后的模型训练步骤S207中,可以利用结果改进步骤S205中将两种命名实体识别或标注处理的结果相结合而得到的改进的标注结果,作为训练语料来训练命名实体识别模型。相应地,本优选实施例的信息处理方法能够利用以简单高效的方式提供的准确标注的训练语料进行训练,从而可以改进通过训练获得的命名实体识别模型的性能(如识别准确度等)。
作为示例,模型训练步骤S207中所训练的命名实体识别模型可以包括基于条件随机场的序列标注模型。例如,该命名实体识别模型可以是利用基于条件随机场的序列标注模型通过训练得到的基于字的人名识别模型(PNRM)。
注意,上述基于条件随机场的序列标注模型仅作为本优选实施例的命名实体识别模型的一个示例,而不对其构成任何限制。本领域技术人员可以理解,可以采用本领域已知的任意适当的模型作为命名实体识别模型,诸如双向长短期记忆(Bi-LSTM)模型、双向长短期记忆-条件随机场(BiLSTM-CRF)模型等,在此不再赘述。
如上所述,通过本优选实施例的信息处理方法、例如上述示例流程200中的步骤S201-S207,可以获得具有良好性能的命名实体识别模型,并且这样的命名实体识别模型可以有利地应用于各种后续处理。
根据本公开的第二方面,提供了一种自然语言处理方法,其能够有利地利用通过本公开的第一方面的信息处理方法的优选实施例(例如图2的示例流程200)所获得的命名实体识别模型。接下来,将参照图3描述根据本公开实施例的自然语言处理方法的一个示例流程。
图3是示意性地示出根据本公开实施例的自然语言处理方法的一个示例流程的流程图。如图3所示,自然语言处理方法300可以包括:命名实体识别步骤S301,利用通过本公开的第一方面的信息处理方法的优选实施例(例如图2的示例流程200)获得的命名实体识别模型,识别目标文档中的命名实体;命名实体替代步骤S303,以预定命名实体替代目标文档中所识别的命名实体;文档分词步骤S305,利用分词工具,对进行所述替代之后的目标文档进行分词;命名实体恢复步骤S307,在分词后的目标文档中,将预定命名实体恢复为所述替代之前的相应命名实体。
如以上关于图2的示例流程的描述中所指出的,利用本公开第一方面的信息处理方法的优选实施例,可以获得具有良好性能的命名实体识别模型,这样的命名实体识别模型可以有利地应用于各种后续处理。因此,在参照图3描述的本实施例的自然语言处理300中,在文档分词处理之前,利用预先获得的上述命名实体识别模型先行识别并替换了文档中一般难以准确分词的命名实体,从而可以改进后续的文档分词的准确度。
以下将结合图4描述自然语言处理方法300的一个示例处理。图4是用于说明采用图3所示的自然语言处理方法300进行处理的一个示例的说明图,其中,针对相同的作为法律文书的目标文档401,对于其中一个待处理语句“被告人李富不服提出上诉”402,现有技术中直接进行分词的方法与本公开实施例中的自然语言处理方法可以得到不同的分词结果。
更具体地,如图4的左侧所示,现有技术(例如采用现有的自然语言处理工具包中的分词工具)对待处理语句“被告人李富不服提出上诉”直接进行分词,将会得到错误的分词结果“被告人李富不服提出上诉”,其中,由于无法将作为命名实体的人名“李富”正确分词而将“李富不服”分为“被告人”之后的一个词,如分词结果403B所示。
现有技术中出现上述错误分词的原因在于,诸如人名的命名实体是多种多样的,例如可以由形容词(张“英俊”)、名词(蔡“金豹”)和动词(赵“留京”)等组成。人名属于集外词的范围,也就是无法通过枚举或者规则总结的方式将所有的人名都包括在某个人名集合中。例如,即使已经知道了“张英俊”是人名,但仍无法确定“李英俊”或“王英俊”是否是人名。此外,人名的组成长度也无法固定,从两个字到多个字不等。例如,李强、张英俊、欧阳娜娜、呼格吉勒图、吐尼萨汗·麦麦明等。因此,已有的中文分词模型在处理这类包含频繁出现人名的文本时,分词精度会受频繁出现的人名的影响而大幅下降。
相较之下,利用本实施例的自然语言处理方法300,则可以在文档分词处理之前,利用预先获得的性能良好的命名实体识别模型先行识别并替换了文档中的一般难以准确分词的命名实体,从而可以改进后续的文档分词的准确度。
更具体地,当利用本实施例的自然语言处理方法300来处理作为目标文档的待处理语句402时,首先,执行命名实体识别步骤S301,其中,利用上述具有良好性能的命名实体识别模型识别了待处理语句402中的命名实体“李富”,如识别结果403A所示。
随后,执行命名实体替代步骤S303,其中,对识别结果403A进行了预定命名实体的替代。此处,用于替代的预定命名实体可以是不易导致后续的文档分词处理中的错误的命名实体。优选地,预定命名实体可以从用于训练文档分词步骤S305中所采用的分词工具的语料库中进行选择。例如,本示例中采用了各种常用分词工具的训练语料库中通常包括的名人名字(即“周杰伦”)进行替代,得到了替代之后的待处理语句404A。
替选地,可以将识别出来的人名替换为相关领域文档中的高频次人名。由于分词工具一般对相关领域的高频次出现的人名具有高正确率的分词效果,所以替换后的语句能够被分词工具正确切分。例如,对于目标文档的类型为娱乐新闻的情况,可以以娱乐明星的名字进行上述替代;对于目标文档的类型为政治新闻的情况,可以以政治人物的名字进行上述替代;以此类推,在此不再展开描述。
接着,执行文档分词步骤S305,其中,利用分词工具对替代之后的目标文档的待处理语句404A进行分词,得到分词结果405A。由于命名实体已经被替代为分词工具不易错判的例如名人的名字,因而即使是采用与现有技术的分词处理中相同的分词工具,也可以得到正确的分词结果406A。
作为示例,文档分词步骤S305中所采用的分词工具可以由现有的自然语言处理工具包提供。例如,可以采用Stanford CoreNLP中所提供的分词工具。替选地,也可以采用HTILTP(哈尔滨工业大学语言技术平台),jieba(“结巴”中文分词)等工具进行文本分词。本领域技术人员可以采用任意现有分词工具进行文档分词步骤S305中处理,在此不再赘述。
最后,执行恢复步骤S307,其中,将分词结果405A中的替代而来的预定命名实体(“周杰伦”)再恢复为替代之前的相应命名实体(“李富”),即得到了最终的准确分词结果406A“被告人李富不服提出上诉”。
如上所述,利用本公开实施例的自然语言处理方法,可以“排除”目标文档中一般难以准确分词的命名实体对分词处理导致的干扰,得到准确的分词结果。此外,由于利用性能良好的命名实体模型预先排除了命名实体的可能干扰,所以可以直接采用现有技术中提供的一般分词工具进行分词处理,而无需特别训练专用于某个领域或类型的文档的分词工具。
以上参照图1至图4描述了根据本公开的第一方面和第二方面所提供的信息处理方法和自然语言处理方法的具体实施例及其有益效果。此外,根据本公开,还提供了相应的信息处理装置和自然语言处理装置。以下将参照图5至图7对这些装置进行描述。
图5是示意性地示出根据本公开实施例的信息处理装置的一个示例结构的示意性框图。如图5所示,信息处理装置500可以包括:命名实体提取单元501,用于根据类型文档的与文档类型有关的结构特征和上下文信息,提取类型文档中的命名实体,其中,文档类型包括法律文书、新闻报道或文艺评论;命名实体标注单元502,用于利用命名工具,标注类型文档中的命名实体,其中,命名实体包括人名、地名、机构名、时间、日期、影视剧名、书名、或歌曲名;以及结果改进单元503,用于根据所述提取的结果,改进命名工具的标注结果。
上述信息处理装置及其各个单元例如可以进行以上参照图1描述的本公开的第一方面的信息处理方法及其各个步骤的操作和/或处理并实现类似的效果,在此不再进行重复说明。
图6是示意性地示出根据本公开实施例的信息处理装置的优选实施例的一个示例结构的示意性框图。如图6所示,信息处理装置600与图5的信息处理装置500的区别在于,除了分别与单元501至503对应的命名实体提取单元601、命名实体标注单元602、结果改进单元603之外,信息处理装置600还另外地包括模型训练单元604。模型训练单元604利用通过结果改进单元603获得的改进后的标注结果作为训练数据,训练命名实体识别模型。除了上述区别之外,本优选实施例的信息处理装置600中的其余单元601-603与图5的信息处理装置500的相应单元501-503基本相同,因此不再展开描述。
上述信息处理装置及其各个单元例如可以进行以上参照图2描述的本公开优选实施例的示例信息处理方法及其各个步骤的操作和/或处理并实现类似的效果,在此不再进行重复说明。
图7是示意性地示出根据本公开实施例的自然语言处理装置的一个示例结构的示意性框图。如图7所示,自然语言处理装置700可以包括:命名实体识别单元701,用于利用诸如图2的示例流程200的信息处理方法(或利用诸如图6的信息处理装置600)获得的命名实体识别模型,识别目标文档中的命名实体;命名实体替代单元702,用于以预定命名实体替代目标文档中所识别的命名实体;文档分词单元703,用于利用分词工具,对进行所述替代之后的目标文档进行分词;命名实体恢复单元704,用于在分词后的目标文档中,将预定命名实体恢复为所述替代之前的相应命名实体。
上述自然语言处理装置及其各个单元例如可以进行以上参照图3至图4描述的根据本公开的第二方面的自然语言处理方法及其各个步骤的操作和/或处理并实现类似的效果,在此不再进行重复说明。
以上描述了本公开可以提供的信息处理方法和装置以及自然语言处理方法和装置的各个实施例及其有益效果。以下将参照图8描述可以用于实现这些方法和装置的一种可能的硬件配置。
图8是示出了可用来实现根据本公开实施例的信息处理方法和设备以及自然语言处理方法和装置的一种可能的硬件配置的结构简图。
在图8中,中央处理单元(CPU)801根据只读存储器(ROM)802中存储的程序或从存储部分808加载到随机存取存储器(RAM)803的程序执行各种处理。在RAM 803中,还根据需要存储当CPU 801执行各种处理等等时所需的数据。CPU 801、ROM 802和RAM 803经由总线804彼此连接。输入/输出接口805也连接到总线804。
下述部件也连接到输入/输出接口805:输入部分806(包括键盘、鼠标等等)、输出部分807(包括显示器,例如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分808(包括硬盘等)、通信部分809(包括网络接口卡例如LAN卡、调制解调器等)。通信部分809经由网络例如因特网执行通信处理。根据需要,驱动器810也可连接到输入/输出接口805。可拆卸介质811例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器810上,使得从中读出的计算机程序可根据需要被安装到存储部分808中。
此外,本公开还提出了一种存储有机器可读取的指令代码的程序产品。上述指令代码由机器读取并执行时,可执行上述根据本公开实施例的信息处理方法和自然语言处理方法。相应地,用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本公开的公开中。
即,本公开还提出了一种存储介质,其存储有机器可读取的指令代码,所述指令代码在由机器读取并执行时,能够使得机器执行上述根据本公开实施例的信息处理方法和自然语言处理方法。
上述存储介质例如可以包括但不限于磁盘、光盘、磁光盘、半导体存储器等。
在上面对本公开具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
此外,本公开的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行,也可以按照其他的时间顺序、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本公开的技术范围构成限制。
此外,显然,根据本公开的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。
而且,本公开的目的也可以通过下述方式实现:将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。
此时,只要该系统或者设备具有执行程序的功能,则本公开的实施方式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。
上述这些机器可读存储介质包括但不限于:各种存储器和存储单元,半导体设备,磁盘单元例如光、磁和磁光盘,以及其它适于存储信息的介质等。
另外,客户信息处理终端通过连接到因特网上的相应网站,并且将依据本公开的计算机程序代码下载和安装到信息处理终端中然后执行该程序,也可以实现本公开的各实施例。
综上,根据本公开实施例,本公开提供了如下方案,但不限于此:
方案1.一种信息处理方法,包括:
根据类型文档的与文档类型有关的结构特征和上下文信息,提取类型文档中的命名实体,其中,文档类型包括法律文书、新闻报道或文艺评论;
利用命名工具,标注类型文档中的命名实体,其中,命名实体包括人名、地名、机构名、时间、日期、影视剧名、书名、或歌曲名;以及
根据所述提取的结果,改进命名工具的标注结果。
方案2.如方案1所述的信息处理方法,其中,所述改进包括选择符合下述条件的命名实体来更新命名工具的标注结果:
命名实体出现在所述提取的结果和命名工具的标注结果两者中;和/或
命名实体在所述提取的结果中或在命名工具的标注结果中的出现频率超过预定频率。
方案3.如方案1所述的信息处理方法,其中,
命名工具由现有的自然语言处理工具包提供。
方案4.如方案1至3中任一项所述的信息处理方法,还包括:
利用改进后的标注结果作为训练数据,训练命名实体识别模型。
方案5.如方案4所述的信息处理方法,其中,
命名实体识别模型包括基于条件随机场的序列标注模型。
方案6.一种自然语言处理方法,包括:
利用如方案4或5所述的信息处理方法获得的命名实体识别模型,识别目标文档中的命名实体;
以预定命名实体替代目标文档中所识别的命名实体;
利用分词工具,对进行所述替代之后的目标文档进行分词;
在分词后的目标文档中,将预定命名实体恢复为所述替代之前的相应命名实体。
方案7.如方案6所述的自然语言处理方法,其中,
分词工具由现有的自然语言处理工具包提供。
方案8.如方案6或7所述的自然语言处理方法,其中,
预定命名实体从用于训练分词工具的语料库中选择。
方案9.一种信息处理设备,包括:
处理器,被配置为
根据类型文档的与文档类型有关的结构特征和上下文信息,提取类型文档中的命名实体,其中,文档类型包括法律文书、新闻报道或文艺评论;
利用命名工具,标注类型文档中的命名实体,其中,命名实体包括人名、地名、机构名、时间、日期、影视剧名、书名、或歌曲名;以及
根据所述提取的结果,改进命名工具的标注结果。
方案10.如方案9所述的信息处理设备,其中,处理器被配置为选择符合下述条件的命名实体来更新命名工具的标注结果:
命名实体出现在所述提取的结果和命名工具的标注结果两者中;和/或
命名实体在所述提取的结果中或在命名工具的标注结果中的出现频率超过预定频率。
方案11.如方案9所述的信息处理设备,其中,
命名工具由现有的自然语言处理工具包提供。
方案12.如方案9至11中任一项所述的信息处理设备,处理器还被配置为:
利用改进后的标注结果作为训练数据,训练命名实体识别模型。
方案13.如方案12所述的信息处理设备,其中,
命名实体识别模型包括基于条件随机场的序列标注模型。
最后,还需要说明的是,在本公开中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备可能不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
尽管上面已经通过本公开的具体实施例的描述对本公开进行了披露,但是,应该理解,本领域技术人员可在所附权利要求的精神和范围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开所要求保护的范围内。
Claims (10)
1.一种信息处理方法,包括:
根据类型文档的与文档类型有关的结构特征和上下文信息,提取类型文档中的命名实体,其中,文档类型包括法律文书、新闻报道或文艺评论;
利用命名工具,标注类型文档中的命名实体,其中,命名实体包括人名、地名、机构名、时间、日期、影视剧名、书名、或歌曲名;以及
根据所述提取的结果,改进命名工具的标注结果。
2.如权利要求1所述的信息处理方法,其中,所述改进包括选择符合下述条件的命名实体来更新命名工具的标注结果:
命名实体出现在所述提取的结果和命名工具的标注结果两者中;和/或
命名实体在所述提取的结果中或在命名工具的标注结果中的出现频率超过预定频率。
3.如权利要求1所述的信息处理方法,其中,
命名工具由现有的自然语言处理工具包提供。
4.如权利要求1至3中任一项所述的信息处理方法,还包括:
利用改进后的标注结果作为训练数据,训练命名实体识别模型。
5.如权利要求4所述的信息处理方法,其中,
命名实体识别模型包括基于条件随机场的序列标注模型。
6.一种自然语言处理方法,包括:
利用如权利要求4或5所述的信息处理方法获得的命名实体识别模型,识别目标文档中的命名实体;
以预定命名实体替代目标文档中所识别的命名实体;
利用分词工具,对进行所述替代之后的目标文档进行分词;
在分词后的目标文档中,将预定命名实体恢复为所述替代之前的相应命名实体。
7.如权利要求6所述的自然语言处理方法,其中,
分词工具由现有的自然语言处理工具包提供。
8.如权利要求6或7所述的自然语言处理方法,其中,
预定命名实体从用于训练分词工具的语料库中选择。
9.一种信息处理设备,包括:
处理器,被配置为
根据类型文档的与文档类型有关的结构特征和上下文信息,提取类型文档中的命名实体,其中,文档类型包括法律文书、新闻报道或文艺评论;
利用命名工具,标注类型文档中的命名实体,其中,命名实体包括人名、地名、机构名、时间、日期、影视剧名、书名、或歌曲名;以及
根据所述提取的结果,改进命名工具的标注结果。
10.如权利要求9所述的信息处理设备,其中,处理器还被配置为:利用改进后的标注结果作为训练数据,训练命名实体识别模型。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811550123.7A CN111339773A (zh) | 2018-12-18 | 2018-12-18 | 信息处理方法、自然语言处理方法以及信息处理设备 |
JP2019222030A JP2020098594A (ja) | 2018-12-18 | 2019-12-09 | 情報処理方法、自然言語処理方法及び情報処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811550123.7A CN111339773A (zh) | 2018-12-18 | 2018-12-18 | 信息处理方法、自然语言处理方法以及信息处理设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111339773A true CN111339773A (zh) | 2020-06-26 |
Family
ID=71106912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811550123.7A Pending CN111339773A (zh) | 2018-12-18 | 2018-12-18 | 信息处理方法、自然语言处理方法以及信息处理设备 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2020098594A (zh) |
CN (1) | CN111339773A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507716A (zh) * | 2020-11-30 | 2021-03-16 | 北京百度网讯科技有限公司 | 医学命名实体识别方法、装置、电子设备和存储介质 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114078470A (zh) * | 2020-08-17 | 2022-02-22 | 阿里巴巴集团控股有限公司 | 模型处理方法及装置、语音识别方法及装置 |
CN112365372B (zh) * | 2020-10-09 | 2024-01-12 | 银江技术股份有限公司 | 一种面向裁判文书的质量检测及评估方法及系统 |
CN112784605A (zh) * | 2021-02-09 | 2021-05-11 | 柳州智视科技有限公司 | 一种基于句子的实体名识别的方法 |
KR102601932B1 (ko) * | 2021-11-08 | 2023-11-14 | (주)사람인 | 핑거프린트와 머신러닝을 활용한 기업별 문서의 데이터 추출 시스템 및 방법 |
CN115034318B (zh) * | 2022-06-17 | 2024-05-17 | 中国平安人寿保险股份有限公司 | 标题判别模型的生成方法和装置、设备、介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462057A (zh) * | 2013-09-18 | 2015-03-25 | 国际商业机器公司 | 用于产生语言分析的词汇资源的方法和系统 |
CN104933023A (zh) * | 2015-05-12 | 2015-09-23 | 深圳市华傲数据技术有限公司 | 中文地址分词标注方法 |
CN105550227A (zh) * | 2015-12-07 | 2016-05-04 | 中国建设银行股份有限公司 | 一种命名实体识别方法及装置 |
CN106776538A (zh) * | 2016-11-23 | 2017-05-31 | 国网福建省电力有限公司 | 企业非标准格式文档的信息提取方法 |
CN108073573A (zh) * | 2016-11-16 | 2018-05-25 | 北京搜狗科技发展有限公司 | 一种机器翻译方法、装置和机器翻译系统训练方法、装置 |
CN108197163A (zh) * | 2017-12-14 | 2018-06-22 | 上海银江智慧智能化技术有限公司 | 一种基于裁判文书的结构化处理方法 |
-
2018
- 2018-12-18 CN CN201811550123.7A patent/CN111339773A/zh active Pending
-
2019
- 2019-12-09 JP JP2019222030A patent/JP2020098594A/ja active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462057A (zh) * | 2013-09-18 | 2015-03-25 | 国际商业机器公司 | 用于产生语言分析的词汇资源的方法和系统 |
CN104933023A (zh) * | 2015-05-12 | 2015-09-23 | 深圳市华傲数据技术有限公司 | 中文地址分词标注方法 |
CN105550227A (zh) * | 2015-12-07 | 2016-05-04 | 中国建设银行股份有限公司 | 一种命名实体识别方法及装置 |
CN108073573A (zh) * | 2016-11-16 | 2018-05-25 | 北京搜狗科技发展有限公司 | 一种机器翻译方法、装置和机器翻译系统训练方法、装置 |
CN106776538A (zh) * | 2016-11-23 | 2017-05-31 | 国网福建省电力有限公司 | 企业非标准格式文档的信息提取方法 |
CN108197163A (zh) * | 2017-12-14 | 2018-06-22 | 上海银江智慧智能化技术有限公司 | 一种基于裁判文书的结构化处理方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507716A (zh) * | 2020-11-30 | 2021-03-16 | 北京百度网讯科技有限公司 | 医学命名实体识别方法、装置、电子设备和存储介质 |
CN112507716B (zh) * | 2020-11-30 | 2023-07-21 | 北京百度网讯科技有限公司 | 医学命名实体识别方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP2020098594A (ja) | 2020-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111339773A (zh) | 信息处理方法、自然语言处理方法以及信息处理设备 | |
Hill et al. | Quantifying the impact of dirty OCR on historical text analysis: Eighteenth Century Collections Online as a case study | |
US8843815B2 (en) | System and method for automatically extracting metadata from unstructured electronic documents | |
RU2613846C2 (ru) | Метод и система извлечения данных из изображений слабоструктурированных документов | |
US20070300295A1 (en) | Systems and methods to extract data automatically from a composite electronic document | |
US20160371246A1 (en) | System and method of template creation for a data extraction tool | |
US20120047172A1 (en) | Parallel document mining | |
Hussain et al. | Using linguistic knowledge to classify non-functional requirements in SRS documents | |
CN113254574A (zh) | 一种机关公文辅助生成方法、装置以及系统 | |
US20160085855A1 (en) | Perspective data analysis and management | |
EP3022659A1 (en) | Systems and methods for extracting table information from documents | |
US20130024184A1 (en) | Data processing system and method for assessing quality of a translation | |
CN109947924B (zh) | 对话系统训练数据构建方法、装置、电子设备及存储介质 | |
US20140380169A1 (en) | Language input method editor to disambiguate ambiguous phrases via diacriticization | |
US11520835B2 (en) | Learning system, learning method, and program | |
CN110738055A (zh) | 文本的实体识别方法、设备及存储介质 | |
CN111563377A (zh) | 数据增强方法与装置 | |
US20130262085A1 (en) | Natural language processing apparatus, natural language processing method, natural language processing program, and computer-readable recording medium storing natural language processing program | |
López et al. | Experiments on sentence boundary detection in user-generated web content | |
Dias Cardoso et al. | Language identification for social media: short messages and transliteration | |
CN112115362B (zh) | 一种基于相似代码识别的编程信息推荐方法及装置 | |
US12008305B2 (en) | Learning device, extraction device, and learning method for tagging description portions in a document | |
CN111552780B (zh) | 医用场景的搜索处理方法、装置、存储介质及电子设备 | |
Wu et al. | Automatic semantic knowledge extraction from electronic forms | |
CN110276001B (zh) | 盘点页识别方法、装置、计算设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200626 |