具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本申请的基本构想,遂图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本申请以下实施例提供了机构时效性的检测方法、系统、电子设备及存储介质,包括但不限于应用于一计算机设备中,以下将以机构时效性的检测方法的应用场景为例进行描述。
请参阅图1,显示为本申请实施例所述的机构时效性的检测方法的应用场景图。如图1所示,本实施例提供一种机构时效性的检测方法的应用场景下的设备结构,具体包括:一计算机设备。所获取的文本输入至计算机设备中,所述计算机设备执行机构时效性的检测方法,结合预设的机构知识图谱对输入文本进行时效性检测,进而输出机构名称与时间的匹配情况,以便文本中出现的时间与机构名之间的关系不匹配时进行纠正。
其中,关于知识图谱的解释说明如下:知识库 (knowledge base) 是能够系统地将客观事实以及知识整理起来的,具有一定规则关联的知识片集合,而知识图谱(knowledge graph)是基于相关知识建立的关系网络, 主要用于表示各个实体的概念属性以及实体之间的关系。在知识图谱中,节点(node) 表示实体或者概念, 边 (edge) 表示节点间的关系或者节点的属性, 两者构成网状知识结构。知识图谱既能用于查询和展示, 亦能给一些智能服务系统提供有力的知识支持。
本申请利用知识图谱,可以把机构全简称、机构在职人员等很多信息方便的连接起来,为作出判断提供很多常识性知识的辅助,可扩展性较强。
于实际应用中,所述计算机设备例如可以是包括存储器、存储控制器、一个或多个处理单元(CPU)、外设接口、RF 电路、音频电路、扬声器、麦克风、输入/输出(I/O)子系统、显示屏、其他输出或控制设备,以及外部端口等所有或部分组件的计算机;所述计算机设备包括但不限于如台式电脑、笔记本电脑、平板电脑、智能手机、个人数字助理(PersonalDigital Assistant,简称PDA)等个人电脑。在另一些实施方式中,所述计算机设备还可以是服务器,所述服务器可以根据功能、负载等多种因素布置在一个或多个实体服务器上,也可以是由分布的或集中的服务器集群构成的云服务器,本实施例不作限定。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行详细描述。
请参阅图2,显示为本申请实施例所述的机构时效性的检测方法的原理流程图。如图2所示,本实施例提供一种机构时效性的检测方法,具体包括以下步骤:
S21,获取包含有机构的输入文本。
S22,由所述输入文本中抽取机构名称以及所述机构名称在文本中出现时相关的时间。
请参阅图3,显示为本申请实施例所述的机构时效性的检测方法的机构与时间抽取流程图。如图3所示,步骤S22具体包括:
S221,结合所述机构知识图谱中包含的机构名称构造自动机;利用所述自动机抽取所述输入文本中的机构名称。
具体地,自动机为文本处理领域的专业名词,可以实现仅通过对文本的一次扫描,就查询出文本内包含的所有出现在词典中的词,其目的是简化全切分扫描过程的复杂度。自动机可以在前缀树的基础上,为前缀树上的每个节点建立一棵后缀树,节省了大量查询。
S222,通过预设正则表达式抽取所述机构名称在文本中出现时相关的时间。
具体地,在可以明确年月日形式出现的时间时,直接使用正则表达式的方式来抽取,以方便和知识图谱中的数据进行对比。
进一步地,对抽取到的时间再进行拆分处理:[时间idx,年,月,日],以防止有的时候文本中只有年份,但知识图谱存储的时间准确到日期,由此只能通过年份信息来对比。拆分之后根据抽取到的具体年/月/日信息进行对比更加方便容易。
于一实施例中,在所述利用所述自动机抽取所述输入文本中的机构名称的步骤之后,所述由所述输入文本中抽取机构名称以及所述机构名称在文本中出现时相关的时间的步骤,还包括:
通过CRF(Conditional Random Fields条件随机域)模型对所抽取的机构名称进行实体识别;根据实体识别结果对所抽取的机构名称进行矫正。
具体地,预先得到知识图谱中的所有机构节点的机构名称,只使用在知识图谱中的这些机构名称构造自动机,则自动机抽到的机构名称必然是知识图谱中的。进一步地,CRF模型抽取主要是对自动机抽到的机构名称进行修正,不会增加新的机构。由此可以保证所抽取的机构均在知识图谱中。
S23,根据所述机构名称与所述时间构建时间机构关联对。
于一实施例中,步骤S23具体包括:
(1)针对某一机构名称,筛选出与所述机构名称处于同一个句子中的时间。
具体地,在获取到输入文本后,利用分句模型或预设分句规则对输入文本进行分句处理。以此,以句子为单位,针对某一机构名称进行时间的筛选。
(2)响应于与所述机构名称处于同一个句子中的时间只有一个,将所述机构名称与所述时间构成所述时间机构关联对。
(3)响应于与所述机构名称处于同一个句子中的时间不止一个,选取在该句子中距离所述机构名称最近的时间,与所述机构名称构成所述时间机构关联对。
具体地,若在一个句子中存在多个时间,针对机构所在句子找是否有距离较近的时间,有则根据距离得到<时间,机构>对。
于一实施例中,所述根据所述机构名称与所述时间构建时间机构关联对的步骤,还包括:
针对特殊文本格式的输入文本,按照预设格式识别所述机构名称以及与所述机构名称存在明确关系的时间;所述特殊文本格式是指利用各种标点符号进行特殊编排的格式;将所识别的机构名称和所述时间构建为所述时间机构关联对。
具体地,特殊文本格式例如对于一些有特殊特征的文本,如公文类文本,需要额外判断。例如:《XXX机构关于落实XXX的通知》(文市函[2015]627号),该文本中机构和时间有明确的关系,并且根据普通的时间筛选流程,即简单从单个句子中进行时间筛选可能会出现漏报的,需要额外收集与特殊文本匹配的模版并进行处理。
S24,结合预设的机构知识图谱,检测所述时间机构关联对中的机构名称与时间的匹配情况。
于一实施例中,步骤S24具体包括:
(1)判断所述时间机构关联对中的时间是否处于所述机构知识图谱中针对该机构名称所储存的创建时间与撤销时间之间。
(2)若是,则判定为所述机构名称与所述时间匹配;若否,根据所述时间,查找所述机构知识图谱中与当前机构名称存在机构变更关系的机构,结合相关的机构名称及对应时间进行提示报错。
具体地,根据知识图谱中的机构-时间数据,比对<时间,机构>对,判断时间是否在机构的创建时间和撤销时间之间,如果在,记录为正确时间机构中;否则,进行报错。需要报错的时候,根据时间,查找对应文本中机构名称先后有机构变更关系相连的机构,并在有关机构中查找对应文本时间的机构名称,进行提示报错。
于一实施例中,在进行提示报错之后,所述方法还包括:
按照预设后处理规则对提示报错进行误报判断;响应于所述提示报错的情况符合所述预设后处理规则,则取消提示报错。
具体地,对于判断有时间错误的,如果机构前出现:“前”或“后”等相关时间先后关系的触发字词,则判断原文正确,不作修正。
具体地,由于机构变更信息、机构全简称信息,有明显的图特征,所以采用图数据库来存储相关信息。在确定采用图数据库之后,需要确定数据实体、关系、属性等知识图谱细节。重点在于关系的选定。为了使知识图谱本身包含更准确的信息,通过文献和公开标准的资料,最后确定4种主要的机构变迁关系,并确定实体和属性。本申请针对机构变迁构建机构知识图谱的情况如下:
(1)更名:是指机构更名,如 A 机构更名为 B 机构。
(2)隶属变更:是指机构与其隶属机构发生了隶属变更,通过隶属变更表示了不同上下级关系中同一机构的联系。
(3)组建:是指一个或多个新机构基于一个已存在的机构的一部分组建成立的;或一个新机构由已存在的两个或多个机构的部分或全部合并组建而成。
(4)短期裁撤:是指一个已存在的机构不经过其他变更,一段时间内被撤销。
此外,机构变迁还存在以下几种关系:
a.称为:是指一个官职或一个机构的名称集合具体包含一个或多个别名;以及一个地域如果有别名,则会对应一个或多个别名。
b.有别名:是指一个官职或一个机构如果有别名,则会对应一个名称集合。
于一实际应用中,所述的机构时效性的检测方法的实现过程如下:
(1)在输入文本“2022年6月,AXX大学发布公告”中抽取到<时间,机构>对为:<2022年6月,AXX大学>。
(2)知识图谱中保存有AXX大学的时间属性包括2个:
XX大学:创建时间:1949年,撤销时间:至今。
AXX大学:创建时间:1928年,撤销时间:1949年。
(3)查询知识图谱中的AXX大学的时间区间为:1928年-1949年,然而2022年6月不在这个时间区间之间。查找知识图谱中和AXX大学相连的机构:发现有XX大学。判断2022年6月在XX大学的时间区间:1949年-至今之内。
(4)根据查询检测结果进行报错:文中AXX大学存在机构时间的关联错误,提示建议改为XX大学。
(5)针对报错提示,进行后处理判断,判断是否为误报。在输入文本中的AXX大学前面没有出现如:前AXX大学的文字字样,因此不是误报,仍然需要向用户进行报错提示。
本申请实施例所述的机构时效性的检测方法的保护范围不限于本实施例列举的步骤执行顺序,凡是根据本申请的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本申请的保护范围内。
本申请实施例还提供一种机构时效性的检测系统,所述机构时效性的检测系统可以实现本申请所述的机构时效性的检测方法,但本申请所述的机构时效性的检测方法的实现装置包括但不限于本实施例列举的机构时效性的检测系统的结构,凡是根据本申请的原理所做的现有技术的结构变形和替换,都包括在本申请的保护范围内。
请参阅图4,显示为本申请实施例所述的机构时效性的检测系统的结构原理图。如图4所示,本实施例提供一种机构时效性的检测系统4,具体包括:文本获取模块41、机构时间抽取模块42、关联匹配模块43和时效检测模块44。
所述文本获取模块41被配置为获取包含有机构的输入文本。
所述机构时间抽取模块42被配置为由所述输入文本中抽取机构名称以及所述机构名称在文本中出现时相关的时间。
于一实施例中,所述机构时间抽取模块42具体被配置为结合所述机构知识图谱中包含的机构名称构造自动机;利用所述自动机抽取所述输入文本中的机构名称;通过预设正则表达式抽取所述机构名称在文本中出现时相关的时间。
于一实施例中,所述机构时间抽取模块42还被配置为通过条件随机域模型对所抽取的机构名称进行实体识别;根据实体识别结果对所抽取的机构名称进行矫正。
所述关联匹配模块43被配置为根据所述机构名称与所述时间构建时间机构关联对。
于一实施例中,所述关联匹配模块43具体被配置为针对某一机构名称,筛选出与所述机构名称处于同一个句子中的时间;响应于与所述机构名称处于同一个句子中的时间只有一个,将所述机构名称与所述时间构成所述时间机构关联对;响应于与所述机构名称处于同一个句子中的时间不止一个,选取在该句子中距离所述机构名称最近的时间,与所述机构名称构成所述时间机构关联对。
于一实施例中,所述关联匹配模块43还被配置为针对特殊文本格式的输入文本,按照预设格式识别所述机构名称以及与所述机构名称存在明确关系的时间;所述特殊文本格式是指利用各种标点符号进行特殊编排的格式;将所识别的机构名称和所述时间构建为所述时间机构关联对。
所述时效检测模块44被配置为结合预设的机构知识图谱,检测所述时间机构关联对中的机构名称与时间的匹配情况。
于一实施例中,所述时效检测模块44具体被配置为判断所述时间机构关联对中的时间是否处于所述机构知识图谱中针对该机构名称所储存的创建时间与撤销时间之间;若是,则判定为所述机构名称与所述时间匹配;若否,根据所述时间,查找所述机构知识图谱中与当前机构名称存在机构变更关系的机构,结合相关的机构名称及对应时间进行提示报错。
于一实施例中,在进行提示报错之后,所述机构时效性的检测系统还包括:误报判断模块,被配置为按照预设后处理规则对提示报错进行误报判断;响应于所述提示报错的情况符合所述预设后处理规则,则取消提示报错。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统或方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅是示意性的,例如,模块/单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或单元可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块/单元可以是或者也可以不是物理上分开的,作为模块/单元显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块/单元来实现本申请实施例的目的。例如,在本申请各个实施例中的各功能模块/单元可以集成在一个处理模块中,也可以是各个模块/单元单独物理存在,也可以两个或两个以上模块/单元集成在一个模块/单元中。
本领域普通技术人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
请参阅图5,显示为本申请实施例所述的电子设备的结构连接示意图。如图5所示,本发明的电子设备5包括:处理器51、存储器52、通信接口53或/和系统总线54。存储器52和通信接口53通过系统总线54与处理器51连接并完成相互间的通信,存储器52用于存储计算机程序,通信接口53用于和其他设备进行通信,处理器51用于运行计算机程序,使所述电子设备5执行上述方法的各个步骤。
上述的处理器51可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(扫描应用程序licationSpecific Integrated Circuit,简称ASIC)、现场可编程门阵列(FieldProgrammable GateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
上述的存储器52可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
上述提到的系统总线54可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该系统总线54可以分为地址总线、数据总线、控制总线等。通信接口用于实现数据库访问装置与其他设备(如客户端、读写库和只读库)之间的通信。
本申请实施例还提供了一种计算机可读存储介质。本领域普通技术人员可以理解实现上述实施例的方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(magnetic tape),软盘(floppy disk),光盘(optical disc)及其任意组合。上述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc,DVD))、或者半导体介质(例如固态硬盘(solidstate disk,SSD))等。
上述各个附图对应的流程或结构的描述各有侧重,某个流程或结构中没有详述的部分,可以参见其他流程或结构的相关描述。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。